Kursplan

spark.mllib: datatyper, algoritmer og verktøy

  • Datatyper
  • Grunnleggende statistikk
    • oppsummerende statistikk
    • korrelasjoner
    • stratifisert prøvetaking
    • hypotesetesting
    • streaming signifikanstesting
    • generering av tilfeldig data
  • Klassifisering og regresjon
    • lineære modeller (SVM, logistisk regresjon, lineær regresjon)
    • naive Bayes
    • beslutningstrær
    • ensembler av trær (Random Forests og gradient-forsterkede trær)
    • isotonisk regresjon
  • Samarbeidsfiltrering
    • alternerende minste kvadrater (ALS)
  • Klynger
    • k-betyr
    • Gaussisk blanding
    • power iteration clustering (PIC)
    • latent Dirichlet-allokering (LDA)
    • halverende k-betyr
    • streaming k-betyr
  • Dimensjonsreduksjon
    • singular verdi dekomponering (SVD)
    • hovedkomponentanalyse (PCA)
  • Funksjonsutvinning og transformasjon
  • Hyppig mønsterutvinning
    • FP-vekst
    • foreningens regler
    • PrefiksSpan
  • Evalueringsberegninger
  • Eksport av PMML-modeller
  • Optimalisering (utvikler)
    • stokastisk gradientnedstigning
    • BFGS med begrenset minne (L-BFGS)

spark.ml: API-er på høyt nivå for ML-rørledninger

  • Oversikt: estimatorer, transformatorer og rørledninger
  • Utpakke, transformere og velge funksjoner
  • Klassifisering og regresjon
  • Klynger
  • Avanserte emner

Krav

Kunnskap om ett av følgende:

  • Java
  • Scala
  • Python
  • SparkR.
 35 timer

Antall deltakere


Price per participant

Testimonials (1)

Upcoming Courses

Related Categories