Kursplan
Introduksjon, Mål og Migreringsstrategi
- Kursmål, profilforstyrkning for deltakere og suksesskriterier
- Høyreverdi migreringsmetoder og risikoverviking
- Oppsett av arbeidsområder, repositorier og laboratoriedatasett
Dag 1 — Migreringsgrunnleggende og Arkitektur
- Lakehouse-konsepter, Delta Lake-oversikt og Databricks-arkitektur
- SMP vs MPP forskjeller og implikasjoner for migrering
- Medallion (Bronze→Silver→Gold) design og Unity Catalog-oversikt
Dag 1 Laboratorium — Oversettelse av en Lagret Prosedyre
- Praksisbasert migrering av et eksempel på lagret prosedyre til en notebook
- Mapping av midlertidige tabeller og kursorer til DataFrame-transformasjoner
- Validering og sammenligning med opprinnelig utdata
Dag 2 — Avansert Delta Lake & Inkrementell Lastning
- ACID-transaksjoner, commit-logg, versjonering og time travel
- Auto Loader, MERGE INTO mønstre, upserts og skemaevolusjon
- OPTIMIZE, VACUUM, Z-ORDER, partisjonering og lageroptimalisering
Dag 2 Laboratorium — Inkrementell Inndrift & Optimalisering
- Implementasjon av Auto Loader-inndrift og MERGE-arbeidsflyter
- Anvendelse av OPTIMIZE, Z-ORDER og VACUUM; validering av resultater
- Måling av lese/skrive prestasjonsforbedringer
Dag 3 — SQL i Databricks, Prestasjon & Feilsøkning
- Analytisk SQL-funksjonalitet: vindusfunksjoner, høyereordensfunksjoner, JSON/array-håndtering
- Lese Spark UI, DAGs, shuffles, steg, oppgaver og瓶颈诊断
- Spørringstilpasningsmønstre: broadcast joins, hints, caching og spillminimering
Dag 3 Laboratorium — SQL-Omgjøring & Prestasjonsforbedring
- Omgjør en tung SQL-prosess til optimalisert Spark SQL
- Bruk Spark UI-traser for å identifisere og fikse skjevhet og shuffles
- Benchmark før/etter og dokumentering av tilpasningssteg
Dag 4 — Taktisk PySpark: Erstattelse av Procedurall Logikk
- Spark-eksekveringsmodell: driver, executorer, lazy evaluation og partisjoneringstrategier
- Transformasjon av løkker og kursorer til vektoriserte DataFrame-operasjoner
- Modularisering, UDFs/pandas UDFs, widgets og gjenbrukbare bibliotek
Dag 4 Laboratorium — Omgjøring av Procedurale Skript
- Omgjør et proceduralt ETL-skript til modulære PySpark-notebooks
- Introduksjon av parametrisering, enhetsbaserte tester og gjenbrukbare funksjoner
- Kodegjennomgang og anvendelse av best-practice- checkliste
Dag 5 — Orkestrering, Sluttt-til-Sluttpipeline & Best Practices
- Databricks Workflows: jobbdesign, oppgaveavhengigheter, utløsere og feilhåndtering
- Design av inkrementelle Medallion-pipeliner med kvalitetsregler og skemavalidering
- Integrasjon med Git (GitHub/Azure DevOps), CI, og teststrategier for PySpark-logikk
Dag 5 Laboratorium — Bygg en Fullstendig Sluttt-til-Sluttpipeline
- Sammenføre Bronze→Silver→Gold-pipeline orkestrert med Workflows
- Implementer logging, auditing, retries og automatiserte valideringer
- Kjør full pipeline, valider utdata og forbered deploy-merknader
Operasjonalisering, Reguleringsverktøy & Produksjonstilbereedytelse
- Unity Catalog-reguleringsverktøy, linjer og tilgangskontroller beste praksis
- Kostnad, klustertilpasning, automatisering og jobbkonkurrensmønstre
- Deploy-checklister, rollback-strategier og runbook-opprettelse
Sluttgjennomgang, Kunnskapsoverføring & Neste Skritt
- Deltakerpresentasjoner av migreringsarbeid og læringserfaringer
- Mangelanalyse, anbefalte oppfølgende aktiviteter og overføring av opplæringsmateriale
- Referanser, videre læringsspor og støttemuligheter
Krav
- Forståelse av dataingeniørkonsepter
- Erfaring med SQL og lagrede prosedyrer (Synapse / SQL Server)
- Bekjenthet med ETL-orkestrasjonskonsepter (ADF eller lignende)
Målgruppe
- Teknologiledere med bakgrunn i dataingeniørkunst
- Dataingeniører som overgår fra prosedyrell OLAP-logikk til Lakehouse-mønstre
- Plattformer som er ansvarlige for Databricks-adoptering