Kursplan

Introduksjon, Mål og Migreringsstrategi

  • Kursmål, profilforstyrkning for deltakere og suksesskriterier
  • Høyreverdi migreringsmetoder og risikoverviking
  • Oppsett av arbeidsområder, repositorier og laboratoriedatasett

Dag 1 — Migreringsgrunnleggende og Arkitektur

  • Lakehouse-konsepter, Delta Lake-oversikt og Databricks-arkitektur
  • SMP vs MPP forskjeller og implikasjoner for migrering
  • Medallion (Bronze→Silver→Gold) design og Unity Catalog-oversikt

Dag 1 Laboratorium — Oversettelse av en Lagret Prosedyre

  • Praksisbasert migrering av et eksempel på lagret prosedyre til en notebook
  • Mapping av midlertidige tabeller og kursorer til DataFrame-transformasjoner
  • Validering og sammenligning med opprinnelig utdata

Dag 2 — Avansert Delta Lake & Inkrementell Lastning

  • ACID-transaksjoner, commit-logg, versjonering og time travel
  • Auto Loader, MERGE INTO mønstre, upserts og skemaevolusjon
  • OPTIMIZE, VACUUM, Z-ORDER, partisjonering og lageroptimalisering

Dag 2 Laboratorium — Inkrementell Inndrift & Optimalisering

  • Implementasjon av Auto Loader-inndrift og MERGE-arbeidsflyter
  • Anvendelse av OPTIMIZE, Z-ORDER og VACUUM; validering av resultater
  • Måling av lese/skrive prestasjonsforbedringer

Dag 3 — SQL i Databricks, Prestasjon & Feilsøkning

  • Analytisk SQL-funksjonalitet: vindusfunksjoner, høyereordensfunksjoner, JSON/array-håndtering
  • Lese Spark UI, DAGs, shuffles, steg, oppgaver og瓶颈诊断
  • Spørringstilpasningsmønstre: broadcast joins, hints, caching og spillminimering

Dag 3 Laboratorium — SQL-Omgjøring & Prestasjonsforbedring

  • Omgjør en tung SQL-prosess til optimalisert Spark SQL
  • Bruk Spark UI-traser for å identifisere og fikse skjevhet og shuffles
  • Benchmark før/etter og dokumentering av tilpasningssteg

Dag 4 — Taktisk PySpark: Erstattelse av Procedurall Logikk

  • Spark-eksekveringsmodell: driver, executorer, lazy evaluation og partisjoneringstrategier
  • Transformasjon av løkker og kursorer til vektoriserte DataFrame-operasjoner
  • Modularisering, UDFs/pandas UDFs, widgets og gjenbrukbare bibliotek

Dag 4 Laboratorium — Omgjøring av Procedurale Skript

  • Omgjør et proceduralt ETL-skript til modulære PySpark-notebooks
  • Introduksjon av parametrisering, enhetsbaserte tester og gjenbrukbare funksjoner
  • Kodegjennomgang og anvendelse av best-practice- checkliste

Dag 5 — Orkestrering, Sluttt-til-Sluttpipeline & Best Practices

  • Databricks Workflows: jobbdesign, oppgaveavhengigheter, utløsere og feilhåndtering
  • Design av inkrementelle Medallion-pipeliner med kvalitetsregler og skemavalidering
  • Integrasjon med Git (GitHub/Azure DevOps), CI, og teststrategier for PySpark-logikk

Dag 5 Laboratorium — Bygg en Fullstendig Sluttt-til-Sluttpipeline

  • Sammenføre Bronze→Silver→Gold-pipeline orkestrert med Workflows
  • Implementer logging, auditing, retries og automatiserte valideringer
  • Kjør full pipeline, valider utdata og forbered deploy-merknader

Operasjonalisering, Reguleringsverktøy & Produksjonstilbereedytelse

  • Unity Catalog-reguleringsverktøy, linjer og tilgangskontroller beste praksis
  • Kostnad, klustertilpasning, automatisering og jobbkonkurrensmønstre
  • Deploy-checklister, rollback-strategier og runbook-opprettelse

Sluttgjennomgang, Kunnskapsoverføring & Neste Skritt

  • Deltakerpresentasjoner av migreringsarbeid og læringserfaringer
  • Mangelanalyse, anbefalte oppfølgende aktiviteter og overføring av opplæringsmateriale
  • Referanser, videre læringsspor og støttemuligheter

Krav

  • Forståelse av dataingeniørkonsepter
  • Erfaring med SQL og lagrede prosedyrer (Synapse / SQL Server)
  • Bekjenthet med ETL-orkestrasjonskonsepter (ADF eller lignende)

Målgruppe

  • Teknologiledere med bakgrunn i dataingeniørkunst
  • Dataingeniører som overgår fra prosedyrell OLAP-logikk til Lakehouse-mønstre
  • Plattformer som er ansvarlige for Databricks-adoptering
 35 Timer

Antall deltakere


Pris per deltaker

Kommende kurs

Relaterte kategorier