Kursplan

Introduksjon til datavitenskap for stor datanalyse

  • Oversikt over datavitenskap
  • Oversikt over stor data
  • Datastrukturer
  • Drivere og kompleksiteter ved stor data
  • Stor dataøkosystem og en ny tilnærming til analyse
  • Nøkkelteknologier i stor data
  • Data mining prosess og problemer
    • Mønstergenkjennelse gjennom assosiasjon
    • Data klustring
    • Avviksdeteksjon
    • Data klassifisering

Introduksjon til datanalyse livssyklus

  • Oppdagelse
  • Datapreparering
  • Modellplanlegging
  • Modellbygging
  • Presentasjon/Kommunikasjon av resultater
  • Operasjonalisering
  • Øvelse: Case studie

Fra dette punktet vil mesteparten av trenings tiden (80%) bli brukt på eksempler og øvelser i R og relatert stor data teknologi.

Komme i gang med R

  • Installering av R og Rstudio
  • Egenskaper ved R-språket
  • Objekter i R
  • Data i R
  • Datamanipulasjon
  • Problemer med stor data
  • Øvelser

Komme i gang med Hadoop

  • Installering av Hadoop
  • Forståelse av Hadoop modus
  • HDFS
  • MapReduce arkitektur
  • Oversikt over Hadoop-relaterte prosjekter
  • Skriving av programmer i Hadoop MapReduce
  • Øvelser

Integrering av R og Hadoop med RHadoop

  • Komponenter i RHadoop
  • Installering av RHadoop og kobling med Hadoop
  • Arkitekturen i RHadoop
  • Hadoop streaming med R
  • Løsning av dataanalyse problemer med RHadoop
  • Øvelser

Forbehandling og forberedelse av data

  • Dataprepareringstrinn
  • Egenskapsuttrekning
  • Datarydding
  • Data integrasjon og transformasjon
  • Datareduksjon – prøvetaking, egenskapsvalg
  • Redusering av dimensjonalitet
  • Diskretisering og binning
  • Øvelser og case studie

Metoder for utforskende data analyse i R

  • Beskrivende statistikk
  • Utforskende data analyse
  • Visualisering – foreløpige trinn
  • Visualisering av enkelt variabel
  • Eksamen av flere variabler
  • Statistiske metoder for vurdering
  • Hypotese testing
  • Øvelser og case studie

Data visualiseringer

  • Grundleggende visualiseringer i R
  • Pakker for data visualisering ggplot2, lattice, plotly, lattice
  • Formatering av plott i R
  • Avanserte grafer
  • Øvelser

Regresjon (Estimering av fremtidige verdier)

  • Lineær regresjon
  • Brukstilfeller
  • Modellbeskrivelse
  • Diagnostikk
  • Problemer med lineær regresjon
  • Reduseringsmetoder, ridge regresjon, the lasso
  • Generaliseringer og ikke-linearitet
  • Regresjon splines
  • Lokal polynom regresjon
  • Generaliserte additiver modeller
  • Regresjon med RHadoop
  • Øvelser og case studie

Klassifisering

  • Klassifiseringsrelaterte problemer
  • Bayesiansk oppfriskning
  • Naïve Bayes
  • Logistisk regresjon
  • K-nærmeste naboer
  • Beslutningstrær algoritme
  • Neurale nettverk
  • Support vector machines
  • Diagnostikk av klassifikatorer
  • Sammenligning av klassifiseringsmetoder
  • Skalerbare klassifiseringsalgoritmer
  • Øvelser og case studie

Vurdering av modellytelse og valg

  • Forskyvning, varians og modellkompleksitet
  • Nøyaktighet vs. tolkelighet
  • Vurdering av klassifikatorer
  • Målestokker for modell/algoritmeytelse
  • Hold-out metoden for validering
  • Korsvalidering
  • Justering av maskinlæringsalgoritmer med caret pakken
  • Visualisering av modellytelse med Profit ROC og Lift kurver

Ensemble Metoder

  • Bagging
  • Tilfeldige skoger
  • Boosting
  • Gradient boosting
  • Øvelser og case studie

Support vector machines for klassifisering og regresjon

  • Maximal Margin klassifikatorer
    • Support vector klassifikatorer
    • Support vector machines
    • SVM’s for klassifiseringsproblemer
    • SVM’s for regresjonsproblemer
  • Øvelser og case studie

Identifisering av ukjente grupperinger i en datasett

  • Egenskapsvalg for klustring
  • Representativbaserte algoritmer: k-means, k-medoids
  • Hierarkiske algoritmer: aggregerende og divisive metoder
  • Probabilistiske baserte algoritmer: EM
  • Tetthetsbaserte algoritmer: DBSCAN, DENCLUE
  • Kluster validering
  • Avanserte klustringskonsepter
  • Klustring med RHadoop
  • Øvelser og case studie

Oppdagelse av forbindelser med Link Analyse

  • Link analyse konsepter
  • Målestokker for analyse av nettverk
  • Pagerank algoritmen
  • Hyperlink-Induced Topic Search
  • Link Prediction
  • Øvelser og case studie

Assosiasjonsmønster mining

  • Frekvensmønster mining modell
  • Skalerbarhetsproblemer i frekvensmønster mining
  • Brute Force algoritmer
  • Apriori algoritme
  • FP-growth tilnærming
  • Vurdering av kandidatregler
  • Applikasjoner av assosiasjonsregler
  • Validering og testing
  • Diagnostikk
  • Assosiasjonsregler med R og Hadoop
  • Øvelser og case studie

Konstruksjon av anbefalingssystemer

  • Forståelse av anbefalingssystemer
  • Data mining teknikker brukt i anbefalingssystemer
  • Anbefalingssystemer med recommenderlab pakken
  • Vurdering av anbefalingssystemer
  • Anbefalinger med RHadoop
  • Øvelse: Bygging av anbefalingssystem

Tekst analyse

  • Tekstanalyse trinn
  • Innsamling av rå tekst
  • Bag of words
  • Term Frequency – Inverse Document Frequency
  • Bestemme sentiment
  • Øvelser og case studie
 35 timer

Antall deltakere


Pris per deltaker

Referanser (2)

Kommende kurs

Relaterte kategorier