Kursplan

Introduksjon til Data Science for Big Data Analytics

    Data Science Oversikt Big Data Oversikt Datastrukturer Drivere og kompleksitet i Big Data Big Data-økosystemet og en ny tilnærming til analyse Nøkkelteknologier i Big Data Data Mining prosess og problemer Association Pattern Mining Data Clustering Outlier Detection Data Classification

Introduksjon til Data Analytics livssyklus

    Funn Dataforberedelse Modellplanlegging Modellbygging Presentasjon/Communication av resultater Operasjonalisering Oppgave: Casestudie

Fra dette tidspunktet vil mesteparten av treningstiden (80%) brukes på eksempler og øvelser i R og relatert stordatateknologi.

Komme i gang med R

    Installere R- og Rstudio-funksjoner til R-språkobjekter i R Data i R Datamanipulering Big data-problemer Øvelser

Komme i gang med Hadoop

    Installere Hadoop Forstå Hadoop moduser HDFS MapReduce arkitektur Hadoop relatert prosjektoversikt Skrive programmer i Hadoop MapReduce Exercises

Integrering av R og Hadoop med RHadoop

    Komponenter av RHadoop Installere RHadoop og koble til Hadoop Arkitekturen til RHadoop Hadoop streaming med R Dataanalyse problemløsning med RHadoop Øvelser

Forbehandling og klargjøring av data

    Dataforberedelsestrinn Funksjonsekstraksjon Datarensing Dataintegrasjon og transformasjon Datareduksjon – prøvetaking, valg av funksjonsdelsett, dimensjonsreduksjon Diskretisering og binning Øvelser og casestudie

Utforskende dataanalysemetoder i R

    Beskrivende statistikk Undersøkende dataanalyse Visualisering – innledende trinn Visualisering av enkelt variabel Undersøke flere variabler Statistiske metoder for evaluering Hypotesetesting Øvelser og casestudie

Data Visualizations

    Grunnleggende visualiseringer i R Pakker for datavisualisering ggplot2, lattice, plotly, lattice Formatering av plott i R Avanserte grafer Øvelser

Regresjon (estimerer fremtidige verdier)

    Lineær regresjon Brukstilfeller Modellbeskrivelse Diagnostikk Problemer med lineær regresjon Krympemetoder, ryggregresjon, lassoen Generaliseringer og ikke-linearitet Regresjonssplines Lokal polynomregresjon Generaliserte additive modeller Regresjon med RHadoop Øvelser og casestudie

Klassifisering

    Klassifikasjonsrelaterte problemer Bayesiansk oppfriskning Naiv Bayes Logistisk regresjon K-nærmeste naboer Beslutningstræralgoritme Nevrale nettverk Støtte vektormaskiner Diagnostikk av klassifikatorer Sammenligning av klassifiseringsmetoder Scalable klassifiseringsalgoritmer Øvelser og casestudie

Vurdere modellytelse og valg

    Bias, varians og modellkompleksitet Nøyaktighet vs tolkbarhet Evaluering av klassifikatorer Mål for modell/algoritme ytelse Hold-out metode for validering Kryssvalidering Tuning av maskinlæringsalgoritmer med caret-pakke Visualisering av modellytelse med Profit ROC og Lift-kurver

Ensemblemetoder

    Bagging Random Forests Boosting Gradient Boost Exercises and Case study

Støtte vektormaskiner for klassifisering og regresjon

    Maksimal marginklassifikatorer Støtte vektorklassifikatorer Støtte vektormaskiner SVM-er for klassifiseringsproblemer SVM-er for regresjonsproblemer
Øvelser og kasusstudie
  • Identifisere ukjente grupperinger i et datasett
  • Funksjonsvalg for Clustering Representative baserte algoritmer: k-midler, k-medoider Hierarkiske algoritmer: agglomerative og divisive metoder Sannsynlighetsbaserte basealgoritmer: EM-tetthetsbaserte algoritmer: DBSCAN, DENCLUE Clustervalidering Avanserte klyngekonsepter Clustering med RHadoop øvelser

      Oppdage forbindelser med Link Analysis

    Koblingsanalysekonsepter Beregninger for å analysere nettverk The Pagerank-algoritmen Hyperlink-indusert emne Search Link Prediction Exercises and Case study

      Association Pattern Mining

    Frequent Pattern Mining Model Scalabilitetsproblemer i hyppig mønstergruvedrift Brute Force-algoritmer Apriori-algoritme FP-veksttilnærmingen Evaluering av kandidatregler Anvendelser av assosiasjonsregler Validering og testing Diagnostikk Association-regler med R- og Hadoop-øvelser og casestudie

      Konstruere anbefalingsmotorer

    Forstå anbefalingssystemer Datautvinningsteknikker brukt i anbefalingssystemer Anbefalingssystemer med anbefalingspakke Evaluering av anbefalingssystemene Anbefalinger med RHadoop Øvelse: Bygge anbefalingsmotor

      Tekstanalyse

    Tekstanalysetrinn Samle råtekst Pose med ord Term Frekvens – Invers dokumentfrekvens Bestemme følelser Øvelser og kasusstudie

     35 timer

    Antall deltakere



    Price per participant

    Testimonials (2)

    Relaterte kurs

    Related Categories