Kursplan
Introduksjon, Mål og Migreringsstrategi
- Kursmål, profiljustering av deltakere og suksesskriterier.
- Høy-nivå migreringsapproacher og risikoverværksomheter.
- Oppsett av arbeidsrom, repositorier og labs datasett.
Dag 1 — Migreringsgrunnleggende og Arkitektur
- Lakehouse-konsepter, Delta Lake-overview og Databricks-arkitektur.
- SMP vs MPP forskjeller og implikasjoner for migrering.
- Medallion (Bronze→Silver→Gold) design og Unity Catalog-overview.
Dag 1 Lab — Oversetting av en Lagret Prosedyre
- Praksisøvelse i migrering av en eksempel-lagret prosedyre til en notebok.
- Kartlegging av midlertidige tabeller og markører til DataFrame-transformasjoner.
- Validering og sammenligning med opprinnelig output.
Dag 2 — Avansert Delta Lake & Inkrementell Last
- ACID-transaksjoner, commit logger, versjonering og time travel.
- Auto Loader, MERGE INTO mønstre, upserts og skjemaevolusjon.
- OPTIMIZE, VACUUM, Z-ORDER, partitionering og lagringstuning.
Dag 2 Lab — Inkrementell Innsjukking & Optimalisering
- Implementering av Auto Loader-innsjukking og MERGE-flyter.
- Anvendelse av OPTIMIZE, Z-ORDER og VACUUM; validering av resultater.
- Måling av forbedringer i les/skriveytning.
Dag 3 — SQL i Databricks, Yting & Feilsøking
- Analytisk SQL-konsepter: vindusfunksjoner, høyereordensfunksjoner, JSON/array-håndtering.
- Lese Spark UI, DAGs, shuffles, steg, oppgaver og diagnose av bottleneuser.
- Forespørselsjusteringsmønstre: broadcast joins, hints, caching og spill-reduksjon.
Dag 3 Lab — SQL Refactoring & Ytingsoptimalisering
- Refaktor en tung SQL-prosess til optimert Spark SQL.
- Bruk Spark UI-traces for å identifisere og fikse skjevhet og shuffle-issues.
- Benchmark før/etter og dokumenter justeringstrinn.
Dag 4 — Taktisk PySpark: Erstattelse av Prosedyrell Logikk
- Spark-eksekveringsmodell: driver, eksekutorer, lazy evaluation og partitioneringstrategier.
- Transformasjon av løkker og markører til vektoriserte DataFrame-operasjoner.
- Modularisering, UDFs/pandas UDFs, widgets og gjenbruksbare biblioteker.
Dag 4 Lab — Refaktorering av Prosedyrell Skript
- Refaktorer et prosedyrellt ETL-skript til modulære PySpark-notebøker.
- Introduksjon av parametrisering, unit-stil tester og gjenbruksbare funksjoner.
- Koderesidering og anvendelse av best-practice checkliste.
Dag 5 — Orchestrasjon, End-to-End Pipeline & Best Practices
- Databricks Workflows: jobbdesign, oppgaveavhengigheter, utløsere og feilhåndtering.
- Design av inkrementell Medallion-pipeline med kvalitetsregler og skjemavalidering.
- Integrasjon med Git (GitHub/Azure DevOps), CI, og testingstrategier for PySpark-logikk.
Dag 5 Lab — Bygg en Fullstendig End-to-End Pipeline
- Sammenføre Bronze→Silver→Gold-pipeline orchestret med Workflows.
- Implementere logging, auditing, retries og automatiske valideringer.
- Kjør full pipeline, validere outputer og beredde driftsnøter.
Operationalisering, Styring og Produktivitetsberedskap
- Unity Catalog-styring, linjeage og tilgangskontroller best practices.
- Kostnader, klusterstørrelse, autoskalering og jobbkonkurreringsmønstre.
- Driftschecklister, rollback-strategier og runbook-oppretting.
Siste Gjennomgang, Kunnskapsøverføring og Neste Skritt
- Deltakerpresentasjoner av migreringsarbeid og lærepunkter.
- Gap-analyse, anbefalte oppfølgingsaktiviteter og overføring av treningsemateriale.
- Referanser, videre læringsspor og støttemuligheter.
Krav
- Forståelse av dataingeniørkonsepter
- Erfaring med SQL og lagrede prosedyrer (Synapse / SQL Server)
- Familiaritet med ETL-orchestrasjonskonsepter (ADF eller lignende)
Målgruppe
- Teknologiledere med bakgrunn i dataingeniørvirksomhet
- Dataingeniører som overgår fra prosedyrell OLAP-logikk til Lakehouse-mønstre
- Plattformingeniører ansvarlig for Databricks-adoptsjonen