Kursplan

Innføring i Apache Airflow

  • Hva er arbeidsflyt-orchestration
  • Nøkkeltrekk og fordeler ved Apache Airflow
  • Forbedringer i Airflow 2.x og oversikt over økosystemet

Arkitektur og grunnleggende konsepter

  • Scheduler, webserver, og worker-prosesser
  • DAGs, oppgaver, og operatører
  • Utførelser og backends (Local, Celery, Kubernetes)

Installasjon og oppsett

  • Installering av Airflow i lokale og sky-miljøer
  • Konfigurasjon av Airflow med forskjellige utførelser
  • Oppsett av metadata-databaser og forbindelser

Navigering i Airflow UI og CLI

  • Undersøkelse av Airflow webgrensesnitt
  • Overvåking av DAG-kjøringer, oppgaver, og logger
  • Bruk av Airflow CLI for administrasjon

Forfatning og administrasjon av DAGs

  • Opprettelse av DAGs med TaskFlow API
  • Bruk av operatører, sensorer, og hooks
  • Administrasjon av avhengigheter og planleggingsintervaller

Integrering av Airflow med data- og sky-tjenester

  • Tilkobling til databaser, API-er, og meldingskøer
  • Kjøring av ETL-rørledninger med Airflow
  • Sky-integreringer: AWS, GCP, Azure operatører

Overvåking og observabilitet

  • Oppgave-logger og sanntidsovervåking
  • Metrikker med Prometheus og Grafana
  • Varsling og notifikasjoner via e-post eller Slack

Sikring av Apache Airflow

  • Rollebasert tilgangskontroll (RBAC)
  • Autentisering med LDAP, OAuth, og SSO
  • Håndtering av hemmeligheter med Vault og sky-hemmelighetsbutikker

Skalering av Apache Airflow

  • Paralellitet, samtidighet, og oppgavekøer
  • Bruk av CeleryExecutor og KubernetesExecutor
  • Deployering av Airflow på Kubernetes med Helm

Beste praksis for produksjon

  • Versjonskontroll og CI/CD for DAGs
  • Testing og feilsøking av DAGs
  • Opprettholdelse av pålitelighet og ytelse på skala

Feilsøking og optimering

  • Feilsøking av feilte DAGs og oppgaver
  • Optimalisering av DAG-ytelse
  • Vanlige fallgruver og hvordan unngå dem

Oppsummering og neste skritt

Krav

  • Erfaring med Python-programmering
  • Kjennskap til data engineering eller DevOps-konsepter
  • Forståelse av ETL eller arbeidsflytsorkestrasjon

Målgruppe

  • Data scientists
  • Data engineers
  • DevOps og infrastruktur ingeniører
  • Programutviklere
 21 timer

Antall deltakere


Pris per deltaker

Referanser (7)

Kommende kurs

Relaterte kategorier