Kursplan

Introduksjon til Data Science for Big Data Analytics

  Data Science Oversikt Big Data Oversikt Datastrukturer Drivere og kompleksitet i Big Data Big Data-økosystemet og en ny tilnærming til analyse Nøkkelteknologier i Big Data Data Mining prosess og problemer Association Pattern Mining Data Clustering Outlier Detection Data Classification

Introduksjon til Data Analytics livssyklus

  Funn Dataforberedelse Modellplanlegging Modellbygging Presentasjon/Communication av resultater Operasjonalisering Oppgave: Casestudie

Fra dette tidspunktet vil mesteparten av treningstiden (80%) brukes på eksempler og øvelser i R og relatert stordatateknologi.

Komme i gang med R

  Installere R- og Rstudio-funksjoner til R-språkobjekter i R Data i R Datamanipulering Big data-problemer Øvelser

Komme i gang med Hadoop

  Installere Hadoop Forstå Hadoop moduser HDFS MapReduce arkitektur Hadoop relatert prosjektoversikt Skrive programmer i Hadoop MapReduce Exercises

Integrering av R og Hadoop med RHadoop

  Komponenter av RHadoop Installere RHadoop og koble til Hadoop Arkitekturen til RHadoop Hadoop streaming med R Dataanalyse problemløsning med RHadoop Øvelser

Forbehandling og klargjøring av data

  Dataforberedelsestrinn Funksjonsekstraksjon Datarensing Dataintegrasjon og transformasjon Datareduksjon – prøvetaking, valg av funksjonsdelsett, dimensjonsreduksjon Diskretisering og binning Øvelser og casestudie

Utforskende dataanalysemetoder i R

  Beskrivende statistikk Undersøkende dataanalyse Visualisering – innledende trinn Visualisering av enkelt variabel Undersøke flere variabler Statistiske metoder for evaluering Hypotesetesting Øvelser og casestudie

Data Visualizations

  Grunnleggende visualiseringer i R Pakker for datavisualisering ggplot2, lattice, plotly, lattice Formatering av plott i R Avanserte grafer Øvelser

Regresjon (estimerer fremtidige verdier)

  Lineær regresjon Brukstilfeller Modellbeskrivelse Diagnostikk Problemer med lineær regresjon Krympemetoder, ryggregresjon, lassoen Generaliseringer og ikke-linearitet Regresjonssplines Lokal polynomregresjon Generaliserte additive modeller Regresjon med RHadoop Øvelser og casestudie

Klassifisering

  Klassifikasjonsrelaterte problemer Bayesiansk oppfriskning Naiv Bayes Logistisk regresjon K-nærmeste naboer Beslutningstræralgoritme Nevrale nettverk Støtte vektormaskiner Diagnostikk av klassifikatorer Sammenligning av klassifiseringsmetoder Scalable klassifiseringsalgoritmer Øvelser og casestudie

Vurdere modellytelse og valg

  Bias, varians og modellkompleksitet Nøyaktighet vs tolkbarhet Evaluering av klassifikatorer Mål for modell/algoritme ytelse Hold-out metode for validering Kryssvalidering Tuning av maskinlæringsalgoritmer med caret-pakke Visualisering av modellytelse med Profit ROC og Lift-kurver

Ensemblemetoder

  Bagging Random Forests Boosting Gradient Boost Exercises and Case study

Støtte vektormaskiner for klassifisering og regresjon

  Maksimal marginklassifikatorer Støtte vektorklassifikatorer Støtte vektormaskiner SVM-er for klassifiseringsproblemer SVM-er for regresjonsproblemer
Øvelser og kasusstudie
 • Identifisere ukjente grupperinger i et datasett
 • Funksjonsvalg for Clustering Representative baserte algoritmer: k-midler, k-medoider Hierarkiske algoritmer: agglomerative og divisive metoder Sannsynlighetsbaserte basealgoritmer: EM-tetthetsbaserte algoritmer: DBSCAN, DENCLUE Clustervalidering Avanserte klyngekonsepter Clustering med RHadoop øvelser

   Oppdage forbindelser med Link Analysis

  Koblingsanalysekonsepter Beregninger for å analysere nettverk The Pagerank-algoritmen Hyperlink-indusert emne Search Link Prediction Exercises and Case study

   Association Pattern Mining

  Frequent Pattern Mining Model Scalabilitetsproblemer i hyppig mønstergruvedrift Brute Force-algoritmer Apriori-algoritme FP-veksttilnærmingen Evaluering av kandidatregler Anvendelser av assosiasjonsregler Validering og testing Diagnostikk Association-regler med R- og Hadoop-øvelser og casestudie

   Konstruere anbefalingsmotorer

  Forstå anbefalingssystemer Datautvinningsteknikker brukt i anbefalingssystemer Anbefalingssystemer med anbefalingspakke Evaluering av anbefalingssystemene Anbefalinger med RHadoop Øvelse: Bygge anbefalingsmotor

   Tekstanalyse

  Tekstanalysetrinn Samle råtekst Pose med ord Term Frekvens – Invers dokumentfrekvens Bestemme følelser Øvelser og kasusstudie

   35 timer

  Antall deltakere  Price per participant

  Testimonials (2)

  Related Categories