Kursplan

Introduksjon

Scala Programmering i dybdegjennomgang

    Syntaks og struktur Flytkontroll og funksjoner

Spark Internals

    Resilient Distributed Dataset (RDD) Spark-skript for å tegne graf til klynge

Oversikt over Spark Streaming

    Streaming-arkitektur Intervaller i streaming Feiltoleranse

Forberede utviklingsmiljøet

    Installere og konfigurere Apache Spark Installere og konfigurere Scala IDE Installere og konfigurere JDK

Spark Streaming Nybegynner til avansert

    Arbeide med nøkkel/verdi RDD-er Filtrere RDD-er Forbedre Spark-skript med regulære uttrykk Dele data på en klynge Arbeide med nettverksdatasett Implementere BFS-algoritmer Lage Spark-driverskript Spore i sanntid med skript Skrive kontinuerlige applikasjoner Streaming av lineær regresjon Bruke Spark Machine Learning Bibliotek

Gnist og klynger

    Bunting av avhengigheter og Spark-skript ved hjelp av SBT-verktøyet Bruke EMR for å illustrere klynger Optimalisering ved å partisjonere RDD-er ved å bruke Spark-logger

Integrasjon i Spark Streaming

    Integrering av Apache Kafka og arbeid med Kafka-emner Integrering av Apache Fume og arbeid med pull-baserte/push-baserte Flume-konfigurasjoner Skrive en tilpasset mottakerklasse Integrere Cassandra og eksponere data som sanntidstjenester

I produksjon

    Pakke en applikasjon og kjøre den med Spark-Submit Feilsøking, innstilling og feilsøking av Spark Jobs og klynger

Oppsummering og konklusjon

Krav

  • Programming og skripterfaring

Publikum

  • Programvareingeniører
 21 timer

Antall deltakere



Price per participant

Testimonials (5)

Relaterte kurs

Related Categories