Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Kursplan
Introduksjon til Data Science for Big Data Analytics
- Data Science Oversikt Big Data Oversikt Datastrukturer Drivere og kompleksitet i Big Data Big Data-økosystemet og en ny tilnærming til analyse Nøkkelteknologier i Big Data Data Mining prosess og problemer Association Pattern Mining Data Clustering Outlier Detection Data Classification
Introduksjon til Data Analytics livssyklus
- Funn Dataforberedelse Modellplanlegging Modellbygging Presentasjon/Communication av resultater Operasjonalisering Oppgave: Casestudie
Fra dette tidspunktet vil mesteparten av treningstiden (80%) brukes på eksempler og øvelser i R og relatert stordatateknologi.
Komme i gang med R
- Installere R- og Rstudio-funksjoner til R-språkobjekter i R Data i R Datamanipulering Big data-problemer Øvelser
Komme i gang med Hadoop
- Installere Hadoop Forstå Hadoop moduser HDFS MapReduce arkitektur Hadoop relatert prosjektoversikt Skrive programmer i Hadoop MapReduce Exercises
Integrering av R og Hadoop med RHadoop
- Komponenter av RHadoop Installere RHadoop og koble til Hadoop Arkitekturen til RHadoop Hadoop streaming med R Dataanalyse problemløsning med RHadoop Øvelser
Forbehandling og klargjøring av data
- Dataforberedelsestrinn Funksjonsekstraksjon Datarensing Dataintegrasjon og transformasjon Datareduksjon – prøvetaking, valg av funksjonsdelsett, dimensjonsreduksjon Diskretisering og binning Øvelser og casestudie
Utforskende dataanalysemetoder i R
- Beskrivende statistikk Undersøkende dataanalyse Visualisering – innledende trinn Visualisering av enkelt variabel Undersøke flere variabler Statistiske metoder for evaluering Hypotesetesting Øvelser og casestudie
Data Visualizations
- Grunnleggende visualiseringer i R Pakker for datavisualisering ggplot2, lattice, plotly, lattice Formatering av plott i R Avanserte grafer Øvelser
Regresjon (estimerer fremtidige verdier)
- Lineær regresjon Brukstilfeller Modellbeskrivelse Diagnostikk Problemer med lineær regresjon Krympemetoder, ryggregresjon, lassoen Generaliseringer og ikke-linearitet Regresjonssplines Lokal polynomregresjon Generaliserte additive modeller Regresjon med RHadoop Øvelser og casestudie
Klassifisering
- Klassifikasjonsrelaterte problemer Bayesiansk oppfriskning Naiv Bayes Logistisk regresjon K-nærmeste naboer Beslutningstræralgoritme Nevrale nettverk Støtte vektormaskiner Diagnostikk av klassifikatorer Sammenligning av klassifiseringsmetoder Scalable klassifiseringsalgoritmer Øvelser og casestudie
Vurdere modellytelse og valg
- Bias, varians og modellkompleksitet Nøyaktighet vs tolkbarhet Evaluering av klassifikatorer Mål for modell/algoritme ytelse Hold-out metode for validering Kryssvalidering Tuning av maskinlæringsalgoritmer med caret-pakke Visualisering av modellytelse med Profit ROC og Lift-kurver
Ensemblemetoder
- Bagging Random Forests Boosting Gradient Boost Exercises and Case study
Støtte vektormaskiner for klassifisering og regresjon
- Maksimal marginklassifikatorer Støtte vektorklassifikatorer Støtte vektormaskiner SVM-er for klassifiseringsproblemer SVM-er for regresjonsproblemer
Funksjonsvalg for Clustering Representative baserte algoritmer: k-midler, k-medoider Hierarkiske algoritmer: agglomerative og divisive metoder Sannsynlighetsbaserte basealgoritmer: EM-tetthetsbaserte algoritmer: DBSCAN, DENCLUE Clustervalidering Avanserte klyngekonsepter Clustering med RHadoop øvelser
- Oppdage forbindelser med Link Analysis
Koblingsanalysekonsepter Beregninger for å analysere nettverk The Pagerank-algoritmen Hyperlink-indusert emne Search Link Prediction Exercises and Case study
- Association Pattern Mining
Frequent Pattern Mining Model Scalabilitetsproblemer i hyppig mønstergruvedrift Brute Force-algoritmer Apriori-algoritme FP-veksttilnærmingen Evaluering av kandidatregler Anvendelser av assosiasjonsregler Validering og testing Diagnostikk Association-regler med R- og Hadoop-øvelser og casestudie
- Konstruere anbefalingsmotorer
Forstå anbefalingssystemer Datautvinningsteknikker brukt i anbefalingssystemer Anbefalingssystemer med anbefalingspakke Evaluering av anbefalingssystemene Anbefalinger med RHadoop Øvelse: Bygge anbefalingsmotor
- Tekstanalyse
Tekstanalysetrinn Samle råtekst Pose med ord Term Frekvens – Invers dokumentfrekvens Bestemme følelser Øvelser og kasusstudie
35 timer
Testimonials (2)
Intensity, Training materials and expertise, Clarity, Excellent communication with Alessandra
Marija Hornis Dmitrovic - Marija Hornis
Kurs - Data Science for Big Data Analytics
The example and training material were sufficient and made it easy to understand what you are doing