Kursplan

Introduksjon:

  • Apache Spark i Hadoop-økosystemet
  • Kort introduksjon til Python og Scala

Grunnleggende teorier:

  • Arkitektur
  • RDD
  • Transformasjoner og Handlinger
  • Stadier, Oppgaver, Avhengigheter

Bruk av Databricks-miljø for å forstå grunnleggende konsepter (praktisk workshop):

  • Øvelser ved hjelp av RDD-API
  • Grunnleggende handlinger og transformasjonsfunksjoner
  • PairRDD
  • Join
  • Caching-strategier
  • Øvelser ved hjelp av DataFrame-API
  • SparkSQL
  • DataFrame: select, filter, group, sort
  • UDF (Brukerdefinert funksjon)
  • Undersøkelse av DataSet-API
  • Streaming

Bruk av AWS-miljø for å forstå deployering (praktisk workshop):

  • Grunnleggende om AWS Glue
  • Forstå forskjellene mellom AWS EMR og AWS Glue
  • Eksempeloppdrag i begge miljøer
  • Forstå fordeler og ulemper

Ekstra:

  • Introduksjon til Apache Airflow-orke­st­ering

Krav

Programmeringsferdigheter (helst python, scala)

SQL grunnleggende

 21 timer

Antall deltakere


Pris per deltaker

Referanser (3)

Kommende kurs

Relaterte kategorier