Ta kontakt

Kursplan

PySpark & Maskinlæring 

Modul 1: Big Data & Spark-grunnlag

  • Oversikt over Big Data-ekosystemet og rollen til Spark i moderne dataplatformer
  • Forståelse av Spark-arkitektur: driver, eksekutorer, klusteradministrator, lazy evaluation, DAG og kjørsplanlegging
  • Forskjeller mellom RDD- og DataFrame-API-er, og når man bør bruke hver tilnærming
  • Opprette og konfigurere SparkSession, og forstå grunnleggende prinsipper for applikasjonkonfigurasjon

Modul 2: PySpark DataFrames

  • Lesing og skriving av data fra bedriftskilder og formater (CSV, JSON, Parquet, Delta)
  • Arbeid med PySpark DataFrames: transformasjoner, handlinger, kolonneuttrykk, filtrering, joiner og aggregeringer
  • Implementering av avanserte operasjoner som vindusfunksjoner, håndtering av tidsstempler og arbeid med innebygd data
  • Bruk av datakvalitetskontroller og skriving av gjenbrukbar, vedlikeholdbar PySpark-kode

Modul 3: Effektiv behandling av store datasett

  • Forståelse av ytelsesgrunnlag: strategier for partisjonering, shuffle-atferd, caching og persistens
  • Bruk av optimaliseringsteknikker inkludert broadcast-joiner og analyse av kjørsplaner
  • Effektiv behandling av store datasett og beste praksis for skalerbare dataarbeidsflyter
  • Forståelse av skemautvikling og moderne lagringsformater som brukes i bedriftsmiljøer

Modul 4: Feature engineering i stor skala

  • Gjennomføring av feature engineering med Spark MLlib: håndtering av manglende verdier, koding av kategoriske variable og skalering av funksjoner
  • Design av gjenbrukbare forbehandlingstrinn og forberedelse av datasett for maskinlæringspipelines
  • Innføring i utvalg av funksjoner (feature selection) og håndtering av ubalanserte datasett

Modul 5: Maskinlæring med Spark MLlib

  • Forståelse av MLlib-arkitektur og Estimator/Transformer-mønsteret
  • Trening av regresjons- og klassifiseringsmodeller i stor skala (Lineær regresjon, Logistisk regresjon, Beslutningstre, Random Forest)
  • Sammenligning av modeller og tolking av resultater i distribuerte maskinlæringsarbeidsflyter

Modul 6: Slutt-til-slutt ML-pipelines

  • Bygging av komplette maskinlæringspipelines som kombinerer forbehandling, feature engineering og modellering
  • Anvendelse av strategier for inndeling i trenings-, validerings- og testdatasett
  • Gjennomføring av krysvalidasjon og tuning av hyperparametere ved hjelp av grid search og random search
  • Strukturering av reproducible maskinlæringseksperimenter

Modul 7: Modellvurdering & Praktisk beslutningstaking innen maskinlæring

  • Anvendelse av passende evalueringsmetrikker for regresjons- og klassifiseringsproblemer
  • Identifisering av overtilpassing (overfitting) og undertilpassing (underfitting), og praktiske valg av modeller
  • Tolkning av funksjonsviktighet (feature importance) og forståelse av modellatferd

Modul 8: Produksjon og bedriftspraksis

  • Lagring og lasting av modeller i Spark
  • Implementering av batch-inferensarbeidsflyter på store datasett
  • Forståelse av maskinlæringslivssyklusen i bedriftsmiljøer
  • Innføring i konsepter for versjonstyring, sporing av eksperimenter og grunnleggende testingstrategier

 

Praktisk resultat

  • Evne til å arbeide selvstendig med PySpark
  • Evne til effektivt å behandle store datasett
  • Evne til å utføre feature engineering i stor skala
  • Evne til å bygge skalerbare maskinlæringspipelines

Krav

Deltakerne bør ha følgende bakgrunn:

Grunnleggende kunnskap om Python-programmering, inkludert arbeid med funksjoner, datastrukturer og bibliotek
Grunnleggende forståelse av dataanalysekonsepter som datasett, transformasjoner og aggregeringer
Grunnleggende kunnskap om SQL og relasjonelle datakonsepter
Innledende forståelse av maskinlæringskonsepter som treningsdatasett, funksjoner (features) og evalueringsmetrikker
Det anbefales å være kjent med kommandolinjemiljøer og grunnleggende praksis innen programutvikling

Erfaring med Pandas, NumPy eller lignende databehandlingsbiblioteker er nyttig, men ikke påkrevd.

 21 Timer

Antall deltakere


Pris per deltaker

Referanser (1)

Kommende kurs

Relaterte kategorier