Kursplan

Introduksjon, Mål og Migreringsstrategi

  • Kursmål, profiljustering av deltakere og suksesskriterier.
  • Høy-nivå migreringsapproacher og risikoverværksomheter.
  • Oppsett av arbeidsrom, repositorier og labs datasett.

Dag 1 — Migreringsgrunnleggende og Arkitektur

  • Lakehouse-konsepter, Delta Lake-overview og Databricks-arkitektur.
  • SMP vs MPP forskjeller og implikasjoner for migrering.
  • Medallion (Bronze→Silver→Gold) design og Unity Catalog-overview.

Dag 1 Lab — Oversetting av en Lagret Prosedyre

  • Praksisøvelse i migrering av en eksempel-lagret prosedyre til en notebok.
  • Kartlegging av midlertidige tabeller og markører til DataFrame-transformasjoner.
  • Validering og sammenligning med opprinnelig output.

Dag 2 — Avansert Delta Lake & Inkrementell Last

  • ACID-transaksjoner, commit logger, versjonering og time travel.
  • Auto Loader, MERGE INTO mønstre, upserts og skjemaevolusjon.
  • OPTIMIZE, VACUUM, Z-ORDER, partitionering og lagringstuning.

Dag 2 Lab — Inkrementell Innsjukking & Optimalisering

  • Implementering av Auto Loader-innsjukking og MERGE-flyter.
  • Anvendelse av OPTIMIZE, Z-ORDER og VACUUM; validering av resultater.
  • Måling av forbedringer i les/skriveytning.

Dag 3 — SQL i Databricks, Yting & Feilsøking

  • Analytisk SQL-konsepter: vindusfunksjoner, høyereordensfunksjoner, JSON/array-håndtering.
  • Lese Spark UI, DAGs, shuffles, steg, oppgaver og diagnose av bottleneuser.
  • Forespørselsjusteringsmønstre: broadcast joins, hints, caching og spill-reduksjon.

Dag 3 Lab — SQL Refactoring & Ytingsoptimalisering

  • Refaktor en tung SQL-prosess til optimert Spark SQL.
  • Bruk Spark UI-traces for å identifisere og fikse skjevhet og shuffle-issues.
  • Benchmark før/etter og dokumenter justeringstrinn.

Dag 4 — Taktisk PySpark: Erstattelse av Prosedyrell Logikk

  • Spark-eksekveringsmodell: driver, eksekutorer, lazy evaluation og partitioneringstrategier.
  • Transformasjon av løkker og markører til vektoriserte DataFrame-operasjoner.
  • Modularisering, UDFs/pandas UDFs, widgets og gjenbruksbare biblioteker.

Dag 4 Lab — Refaktorering av Prosedyrell Skript

  • Refaktorer et prosedyrellt ETL-skript til modulære PySpark-notebøker.
  • Introduksjon av parametrisering, unit-stil tester og gjenbruksbare funksjoner.
  • Koderesidering og anvendelse av best-practice checkliste.

Dag 5 — Orchestrasjon, End-to-End Pipeline & Best Practices

  • Databricks Workflows: jobbdesign, oppgaveavhengigheter, utløsere og feilhåndtering.
  • Design av inkrementell Medallion-pipeline med kvalitetsregler og skjemavalidering.
  • Integrasjon med Git (GitHub/Azure DevOps), CI, og testingstrategier for PySpark-logikk.

Dag 5 Lab — Bygg en Fullstendig End-to-End Pipeline

  • Sammenføre Bronze→Silver→Gold-pipeline orchestret med Workflows.
  • Implementere logging, auditing, retries og automatiske valideringer.
  • Kjør full pipeline, validere outputer og beredde driftsnøter.

Operationalisering, Styring og Produktivitetsberedskap

  • Unity Catalog-styring, linjeage og tilgangskontroller best practices.
  • Kostnader, klusterstørrelse, autoskalering og jobbkonkurreringsmønstre.
  • Driftschecklister, rollback-strategier og runbook-oppretting.

Siste Gjennomgang, Kunnskapsøverføring og Neste Skritt

  • Deltakerpresentasjoner av migreringsarbeid og lærepunkter.
  • Gap-analyse, anbefalte oppfølgingsaktiviteter og overføring av treningsemateriale.
  • Referanser, videre læringsspor og støttemuligheter.

Krav

  • Forståelse av dataingeniørkonsepter
  • Erfaring med SQL og lagrede prosedyrer (Synapse / SQL Server)
  • Familiaritet med ETL-orchestrasjonskonsepter (ADF eller lignende)

Målgruppe

  • Teknologiledere med bakgrunn i dataingeniørvirksomhet
  • Dataingeniører som overgår fra prosedyrell OLAP-logikk til Lakehouse-mønstre
  • Plattformingeniører ansvarlig for Databricks-adoptsjonen
 35 timer

Antall deltakere


Pris per deltaker

Kommende kurs

Relaterte kategorier