Last updated
Kurskode
d2dbdpa
Varighet
21 timer (vanligvis 3 dag inkludert pauser)
Krav
Understanding of traditional data management and analysis methods like SQL, data warehouses, business intelligence, OLAP, etc... Understanding of basic statistics and probability (mean, variance, probability, conditional probability, etc....)
Oversikt
Publikum
Hvis du prøver å være fornuftig ut fra dataene du har tilgang til eller ønsker å analysere ustrukturerte data tilgjengelig på nettet (som Twitter, koblet inn osv.), Er dette kurset noe for deg.
Det er mest rettet mot beslutningstakere og personer som trenger å velge hvilke data som er verdt å samle inn og hva som er verdt å analysere.
Det er ikke rettet mot folk som konfigurerer løsningen, de menneskene vil dra nytte av det store bildet.
Leveringsmodus
I løpet av kurset vil delegatene bli presentert med fungerende eksempler på stort sett åpen kildekode-teknologier.
Korte forelesninger blir fulgt av presentasjon og enkle øvelser av deltakerne
Innhold og programvare brukt
All programvare som brukes oppdateres hver gang kurset kjøres, så vi sjekker de nyeste versjonene som er mulig.
Den dekker prosessen fra innhenting, formatering, behandling og analyse av dataene, for å forklare hvordan man kan automatisere beslutningsprosesser med maskinlæring.
Machine Translated
Kursplan
Quick Overview
- Data Sources
- Minding Data
- Recommender systems
- Target Marketing
Datatypes
- Structured vs unstructured
- Static vs streamed
- Attitudinal, behavioural and demographic data
- Data-driven vs user-driven analytics
- data validity
- Volume, velocity and variety of data
Models
- Building models
- Statistical Models
- Machine learning
Data Classification
- Clustering
- kGroups, k-means, the nearest neighbours
- Ant colonies, birds flocking
Predictive Models
- Decision trees
- Support vector machine
- Naive Bayes classification
- Neural networks
- Markov Model
- Regression
- Ensemble methods
ROI
- Benefit/Cost ratio
- Cost of software
- Cost of development
- Potential benefits
Building Models
- Data Preparation (MapReduce)
- Data cleansing
- Choosing methods
- Developing model
- Testing Model
- Model evaluation
- Model deployment and integration
Overview of Open Source and commercial software
- Selection of R-project package
- Python libraries
- Hadoop and Mahout
- Selected Apache projects related to Big Data and Analytics
- Selected commercial solution
- Integration with existing software and data sources