Takk for at du sendte din henvendelse! En av våre teammedlemmer vil kontakte deg straks.
Takk for at du sendte din bestilling! En av våre teammedlemmer vil kontakte deg straks.
Kursplan
Introduksjon:
- Apache Spark i Hadoop-økosystemet
- Kort introduksjon til Python og Scala
Grunnleggende teorier:
- Arkitektur
- RDD
- Transformasjoner og Handlinger
- Stadier, Oppgaver, Avhengigheter
Bruk av Databricks-miljø for å forstå grunnleggende konsepter (praktisk workshop):
- Øvelser ved hjelp av RDD-API
- Grunnleggende handlinger og transformasjonsfunksjoner
- PairRDD
- Join
- Caching-strategier
- Øvelser ved hjelp av DataFrame-API
- SparkSQL
- DataFrame: select, filter, group, sort
- UDF (Brukerdefinert funksjon)
- Undersøkelse av DataSet-API
- Streaming
Bruk av AWS-miljø for å forstå deployering (praktisk workshop):
- Grunnleggende om AWS Glue
- Forstå forskjellene mellom AWS EMR og AWS Glue
- Eksempeloppdrag i begge miljøer
- Forstå fordeler og ulemper
Ekstra:
- Introduksjon til Apache Airflow-orkestering
Krav
Programmeringsferdigheter (helst python, scala)
SQL grunnleggende
21 timer
Referanser (3)
Having hands on session / assignments
Poornima Chenthamarakshan - Intelligent Medical Objects
Kurs - Apache Spark in the Cloud
1. Right balance between high level concepts and technical details. 2. Andras is very knowledgeable about his teaching. 3. Exercise
Steven Wu - Intelligent Medical Objects
Kurs - Apache Spark in the Cloud
Get to learn spark streaming , databricks and aws redshift