Kursplan
PySpark & Maskinlæring
Modul 1: Big Data & Spark-grunnlag
- Oversikt over Big Data-ekosystemet og rollen til Spark i moderne dataplatformer
- Forståelse av Spark-arkitektur: driver, eksekutorer, klusteradministrator, lazy evaluation, DAG og kjørsplanlegging
- Forskjeller mellom RDD- og DataFrame-API-er, og når man bør bruke hver tilnærming
- Opprette og konfigurere SparkSession, og forstå grunnleggende prinsipper for applikasjonkonfigurasjon
Modul 2: PySpark DataFrames
- Lesing og skriving av data fra bedriftskilder og formater (CSV, JSON, Parquet, Delta)
- Arbeid med PySpark DataFrames: transformasjoner, handlinger, kolonneuttrykk, filtrering, joiner og aggregeringer
- Implementering av avanserte operasjoner som vindusfunksjoner, håndtering av tidsstempler og arbeid med innebygd data
- Bruk av datakvalitetskontroller og skriving av gjenbrukbar, vedlikeholdbar PySpark-kode
Modul 3: Effektiv behandling av store datasett
- Forståelse av ytelsesgrunnlag: strategier for partisjonering, shuffle-atferd, caching og persistens
- Bruk av optimaliseringsteknikker inkludert broadcast-joiner og analyse av kjørsplaner
- Effektiv behandling av store datasett og beste praksis for skalerbare dataarbeidsflyter
- Forståelse av skemautvikling og moderne lagringsformater som brukes i bedriftsmiljøer
Modul 4: Feature engineering i stor skala
- Gjennomføring av feature engineering med Spark MLlib: håndtering av manglende verdier, koding av kategoriske variable og skalering av funksjoner
- Design av gjenbrukbare forbehandlingstrinn og forberedelse av datasett for maskinlæringspipelines
- Innføring i utvalg av funksjoner (feature selection) og håndtering av ubalanserte datasett
Modul 5: Maskinlæring med Spark MLlib
- Forståelse av MLlib-arkitektur og Estimator/Transformer-mønsteret
- Trening av regresjons- og klassifiseringsmodeller i stor skala (Lineær regresjon, Logistisk regresjon, Beslutningstre, Random Forest)
- Sammenligning av modeller og tolking av resultater i distribuerte maskinlæringsarbeidsflyter
Modul 6: Slutt-til-slutt ML-pipelines
- Bygging av komplette maskinlæringspipelines som kombinerer forbehandling, feature engineering og modellering
- Anvendelse av strategier for inndeling i trenings-, validerings- og testdatasett
- Gjennomføring av krysvalidasjon og tuning av hyperparametere ved hjelp av grid search og random search
- Strukturering av reproducible maskinlæringseksperimenter
Modul 7: Modellvurdering & Praktisk beslutningstaking innen maskinlæring
- Anvendelse av passende evalueringsmetrikker for regresjons- og klassifiseringsproblemer
- Identifisering av overtilpassing (overfitting) og undertilpassing (underfitting), og praktiske valg av modeller
- Tolkning av funksjonsviktighet (feature importance) og forståelse av modellatferd
Modul 8: Produksjon og bedriftspraksis
- Lagring og lasting av modeller i Spark
- Implementering av batch-inferensarbeidsflyter på store datasett
- Forståelse av maskinlæringslivssyklusen i bedriftsmiljøer
- Innføring i konsepter for versjonstyring, sporing av eksperimenter og grunnleggende testingstrategier
Praktisk resultat
- Evne til å arbeide selvstendig med PySpark
- Evne til effektivt å behandle store datasett
- Evne til å utføre feature engineering i stor skala
- Evne til å bygge skalerbare maskinlæringspipelines
Krav
Deltakerne bør ha følgende bakgrunn:
Grunnleggende kunnskap om Python-programmering, inkludert arbeid med funksjoner, datastrukturer og bibliotek
Grunnleggende forståelse av dataanalysekonsepter som datasett, transformasjoner og aggregeringer
Grunnleggende kunnskap om SQL og relasjonelle datakonsepter
Innledende forståelse av maskinlæringskonsepter som treningsdatasett, funksjoner (features) og evalueringsmetrikker
Det anbefales å være kjent med kommandolinjemiljøer og grunnleggende praksis innen programutvikling
Erfaring med Pandas, NumPy eller lignende databehandlingsbiblioteker er nyttig, men ikke påkrevd.
Referanser (1)
Jeg likte at det var praktisk. Elsket å anvende den teoretiske kunnskapen med praktiske eksempler.
Aurelia-Adriana - Allianz Services Romania
Kurs - Python and Spark for Big Data (PySpark)
Maskinoversatt