Kursplan

Rask oversikt

  • Data kilder
  • Omsorg for data
  • Anbefalingssystemer
  • Målrettet markedsføring

Datatyper

  • Strukturerte vs. ustrukturerte
  • Statiske vs. strømmedata
  • Holdnings-, atferds- og demografiske data
  • Data-driven vs. brukerdriven analyse
  • data validitet
  • Volum, hastighet og variasjon av data

Modeller

  • Bygging av modeller
  • Statistiske modeller
  • Maskinlæring

Data klassifisering

  • Klyngedannelse
  • kGrupper, k-means, nærmeste naboer
  • Myrkolonier, fugler som flyr sammen

Prediktive modeller

  • Beslutningstre
  • Support vector machine
  • Naive Bayes klassifisering
  • Neuronale nettverk
  • Markov Model
  • Regression
  • Ensemble metoder

ROI

  • Fordel/Kostnad ratio
  • Kostnad for programvare
  • Kostnad for utvikling
  • Potensielle fordeler

Bygging av modeller

  • Data forberedelse (MapReduce)
  • Data rensing
  • Velge metoder
  • Utvikling av modell
  • Testing av modell
  • Vurdering av modell
  • Modell deployering og integrasjon

Oversikt over åpen kildekode og kommersiell programvare

  • Valg av R-prosjektpakke
  • Python-biblioteker
  • Hadoop og Mahout
  • Utvalgte Apache-prosjekter relatert til Big Data og Analytics
  • Utvalgte kommersielle løsninger
  • Integrasjon med eksisterende programvare og data kilder

Krav

Forståelse av tradisjonelle datahåndterings- og analysemetoder som SQL, datavarehus, business intelligence, OLAP, etc... Forståelse av grunnleggende statistikk og sannsynlighet (gjennomsnitt, varians, sannsynlighet, betinget sannsynlighet, etc...)

 21 timer

Antall deltakere


Pris per deltaker

Referanser (2)

Kommende kurs

Relaterte kategorier