Takk for at du sendte din henvendelse! En av våre teammedlemmer vil kontakte deg straks.
Takk for at du sendte din bestilling! En av våre teammedlemmer vil kontakte deg straks.
Kursplan
Introduksjon til datavitenskap for stor datanalyse
- Oversikt over datavitenskap
- Oversikt over stor data
- Datastrukturer
- Drivere og kompleksiteter ved stor data
- Stor dataøkosystem og en ny tilnærming til analyse
- Nøkkelteknologier i stor data
- Data mining prosess og problemer
- Mønstergenkjennelse gjennom assosiasjon
- Data klustring
- Avviksdeteksjon
- Data klassifisering
Introduksjon til datanalyse livssyklus
- Oppdagelse
- Datapreparering
- Modellplanlegging
- Modellbygging
- Presentasjon/Kommunikasjon av resultater
- Operasjonalisering
- Øvelse: Case studie
Fra dette punktet vil mesteparten av trenings tiden (80%) bli brukt på eksempler og øvelser i R og relatert stor data teknologi.
Komme i gang med R
- Installering av R og Rstudio
- Egenskaper ved R-språket
- Objekter i R
- Data i R
- Datamanipulasjon
- Problemer med stor data
- Øvelser
Komme i gang med Hadoop
- Installering av Hadoop
- Forståelse av Hadoop modus
- HDFS
- MapReduce arkitektur
- Oversikt over Hadoop-relaterte prosjekter
- Skriving av programmer i Hadoop MapReduce
- Øvelser
Integrering av R og Hadoop med RHadoop
- Komponenter i RHadoop
- Installering av RHadoop og kobling med Hadoop
- Arkitekturen i RHadoop
- Hadoop streaming med R
- Løsning av dataanalyse problemer med RHadoop
- Øvelser
Forbehandling og forberedelse av data
- Dataprepareringstrinn
- Egenskapsuttrekning
- Datarydding
- Data integrasjon og transformasjon
- Datareduksjon – prøvetaking, egenskapsvalg
- Redusering av dimensjonalitet
- Diskretisering og binning
- Øvelser og case studie
Metoder for utforskende data analyse i R
- Beskrivende statistikk
- Utforskende data analyse
- Visualisering – foreløpige trinn
- Visualisering av enkelt variabel
- Eksamen av flere variabler
- Statistiske metoder for vurdering
- Hypotese testing
- Øvelser og case studie
Data visualiseringer
- Grundleggende visualiseringer i R
- Pakker for data visualisering ggplot2, lattice, plotly, lattice
- Formatering av plott i R
- Avanserte grafer
- Øvelser
Regresjon (Estimering av fremtidige verdier)
- Lineær regresjon
- Brukstilfeller
- Modellbeskrivelse
- Diagnostikk
- Problemer med lineær regresjon
- Reduseringsmetoder, ridge regresjon, the lasso
- Generaliseringer og ikke-linearitet
- Regresjon splines
- Lokal polynom regresjon
- Generaliserte additiver modeller
- Regresjon med RHadoop
- Øvelser og case studie
Klassifisering
- Klassifiseringsrelaterte problemer
- Bayesiansk oppfriskning
- Naïve Bayes
- Logistisk regresjon
- K-nærmeste naboer
- Beslutningstrær algoritme
- Neurale nettverk
- Support vector machines
- Diagnostikk av klassifikatorer
- Sammenligning av klassifiseringsmetoder
- Skalerbare klassifiseringsalgoritmer
- Øvelser og case studie
Vurdering av modellytelse og valg
- Forskyvning, varians og modellkompleksitet
- Nøyaktighet vs. tolkelighet
- Vurdering av klassifikatorer
- Målestokker for modell/algoritmeytelse
- Hold-out metoden for validering
- Korsvalidering
- Justering av maskinlæringsalgoritmer med caret pakken
- Visualisering av modellytelse med Profit ROC og Lift kurver
Ensemble Metoder
- Bagging
- Tilfeldige skoger
- Boosting
- Gradient boosting
- Øvelser og case studie
Support vector machines for klassifisering og regresjon
- Maximal Margin klassifikatorer
- Support vector klassifikatorer
- Support vector machines
- SVM’s for klassifiseringsproblemer
- SVM’s for regresjonsproblemer
- Øvelser og case studie
Identifisering av ukjente grupperinger i en datasett
- Egenskapsvalg for klustring
- Representativbaserte algoritmer: k-means, k-medoids
- Hierarkiske algoritmer: aggregerende og divisive metoder
- Probabilistiske baserte algoritmer: EM
- Tetthetsbaserte algoritmer: DBSCAN, DENCLUE
- Kluster validering
- Avanserte klustringskonsepter
- Klustring med RHadoop
- Øvelser og case studie
Oppdagelse av forbindelser med Link Analyse
- Link analyse konsepter
- Målestokker for analyse av nettverk
- Pagerank algoritmen
- Hyperlink-Induced Topic Search
- Link Prediction
- Øvelser og case studie
Assosiasjonsmønster mining
- Frekvensmønster mining modell
- Skalerbarhetsproblemer i frekvensmønster mining
- Brute Force algoritmer
- Apriori algoritme
- FP-growth tilnærming
- Vurdering av kandidatregler
- Applikasjoner av assosiasjonsregler
- Validering og testing
- Diagnostikk
- Assosiasjonsregler med R og Hadoop
- Øvelser og case studie
Konstruksjon av anbefalingssystemer
- Forståelse av anbefalingssystemer
- Data mining teknikker brukt i anbefalingssystemer
- Anbefalingssystemer med recommenderlab pakken
- Vurdering av anbefalingssystemer
- Anbefalinger med RHadoop
- Øvelse: Bygging av anbefalingssystem
Tekst analyse
- Tekstanalyse trinn
- Innsamling av rå tekst
- Bag of words
- Term Frequency – Inverse Document Frequency
- Bestemme sentiment
- Øvelser og case studie
35 timer
Referanser (2)
Intensity, Training materials and expertise, Clarity, Excellent communication with Alessandra
Marija Hornis Dmitrovic - Marija Hornis
Kurs - Data Science for Big Data Analytics
The example and training material were sufficient and made it easy to understand what you are doing.