Kursplan

 

Introduksjon:

    Apache Spark in Hadoop Ecosystem Kort intro for python, scala

Grunnleggende (teori):

    Arkitektur RDD-transformasjon og handlingsfase, oppgave, avhengigheter

Ved å bruke Databricks miljø forstå det grunnleggende (praktisk verksted):

    Øvelser ved hjelp av RDD API Grunnleggende handlings- og transformasjonsfunksjoner ParRDD Bli med Caching-strategier Øvelser med DataFrame API SparkSQL DataFrame: velg, filtrer, grupper, sorter UDF (brukerdefinert funksjon) Ser inn i DataSet API-streaming

Ved å bruke AWS-miljøet forstå distribusjonen (praktisk verksted):

    Grunnleggende om AWS Glue Forstå forskjellene mellom AWS EMR og AWS Glue Eksempeljobber i begge miljøet Forstå fordeler og ulemper

Ekstra:

    Introduksjon til Apache Airflow orkestrering

Krav

Programmeringsferdigheter (helst python, scala)

SQL grunnleggende

 21 timer

Antall deltakere



Price per participant

Testimonials (3)

Relaterte kurs

Related Categories