Last updated
Kurskode
sparkstreaming
Varighet
7 timer (vanligvis 1 dag inkuldert pauser)
Krav
- Experience with Python and Apache Kafka
- Familiarity with stream-processing platforms
Audience
- Data engineers
- Data scientists
- Programmers
Oversikt
Apache Spark Streaming er et skalbart, åpen kildesystem som gjør det mulig for brukerne å behandle data i sanntid fra støttede kilder. Spark Streaming muliggjør feiltolerant behandling av datastrømmer.
Denne instruktørledede, live-trening (online eller on-site) er rettet mot data ingeniører, data forskere og programmerere som ønsker å bruke Spark Streaming funksjoner i behandling og analyse av realtidsdata.
Ved slutten av denne treningen vil deltakerne kunne bruke Spark Streaming til å behandle live datastrømmer for bruk i databaser, filsystemer og live dashboards.
Format av kurset
-
Interaktiv forelesning og diskusjon.
Mange øvelser og praksis.
Hands-on implementering i et live-lab miljø.
Kurs tilpassingsalternativer
-
For å be om en tilpasset opplæring for dette kurset, vennligst kontakt oss for å arrangere.
Machine Translated
Kursplan
Introduction
Overview of Spark Streaming Features and Architecture
- Supported data sources
- Core APIs
Preparing the Environment
- Dependencies
- Spark and streaming context
- Connecting to Kafka
Processing Messages
- Parsing inbound messages as JSON
- ETL processes
- Starting the streaming context
Performing a Windowed Stream Processing
- Slide interval
- Checkpoint delivery configuration
- Launching the environment
Prototyping the Processing Code
- Connecting to a Kafka topic
- Retrieving JSON from data source using Paw
- Variations and additional processing
Streaming the Code
- Job control variables
- Defining values to match
- Functions and conditions
Acquiring Stream Output
- Counters
- Kafka output (matched and non-matched)
Troubleshooting
Summary and Conclusion