A Practical Introduction to Stream Processing Treningskurs
Stream Processing refers to the real-time processing of "data in motion", that is, performing computations on data as it is being received. Such data is read as continuous streams from data sources such as sensor events, website user activity, financial trades, credit card swipes, click streams, etc. Stream Processing frameworks are able to read large volumes of incoming data and provide valuable insights almost instantaneously.
In this instructor-led, live training (onsite or remote), participants will learn how to set up and integrate different Stream Processing frameworks with existing big data storage systems and related software applications and microservices.
By the end of this training, participants will be able to:
- Install and configure different Stream Processing frameworks, such as Spark Streaming and Kafka Streaming.
- Understand and select the most appropriate framework for the job.
- Process of data continuously, concurrently, and in a record-by-record fashion.
- Integrate Stream Processing solutions with existing databases, data warehouses, data lakes, etc.
- Integrate the most appropriate stream processing library with enterprise applications and microservices.
Audience
- Developers
- Software architects
Format of the Course
- Part lecture, part discussion, exercises and heavy hands-on practice
Notes
- To request a customized training for this course, please contact us to arrange.
Kursplan
Introduction
- Stream processing vs batch processing
- Analytics-focused stream processing
Overview Frameworks and Programming Languages
- Spark Streaming (Scala)
- Kafka Streaming (Java)
- Flink
- Storm
- Comparison of Features and Strengths of Each Framework
Overview of Data Sources
- Live data as a series of events over time
- Historical data sources
Deployment Options
- In the cloud (AWS, etc.)
- On premise (private cloud, etc.)
Getting Started
- Setting up the Development Environment
- Installing and Configuring
- Assessing Your Data Analysis Needs
Operating a Streaming Framework
- Integrating the Streaming Framework with Big Data Tools
- Event Stream Processing (ESP) vs Complex Event Processing (CEP)
- Transforming the Input Data
- Inspecting the Output Data
- Integrating the Stream Processing Framework with Existing Applications and Microservices
Troubleshooting
Summary and Conclusion
Krav
- Programming experience in any language
- An understanding of Big Data concepts (Hadoop, etc.)
Åpne kurs krever 5+ deltakere.
A Practical Introduction to Stream Processing Treningskurs - Bestilling
A Practical Introduction to Stream Processing Treningskurs - Forespørsel
A Practical Introduction to Stream Processing - Konsulentforespørsel
Konsulentforespørsel
Referanser (1)
Sufficient hands on, trainer is knowledgable
Chris Tan
Kurs - A Practical Introduction to Stream Processing
Kommende kurs
Relaterte kurs
Administrasjon av Confluent Apache Kafka
21 timerConfluent Apache Kafka er en fordelt plattform for strømmehendelser designet for datapipelines med høy gjennomstrømning, feiltoleranse og realtid-analytikk.
Denne instruktørledede, live-undervisningen (online eller på stedet) er rettet mot systemadministratorer på mellomnivå og DevOps-profesjonelle som ønsker å installere, konfigurere, overvåke og feilsøke Confluent Apache Kafka-klustrer.
Ved kursets slutt vil deltakerne kunne:
- Forstå komponentene og arkitekturen til Confluent Kafka.
- Installere og administrere Kafka-brokere, Zookeeper-quorums og nøkkel-tjenester.
- Konfigurere avanserte funksjoner inkludert sikkerhet, replikering og ytelsestilpasning.
- Bruk verktøy til å overvåke og vedlikeholde Kafka-klustrer.
Kursform
- Interaktiv forelesning og diskusjon.
- Mange øvelser og praksis.
- Håndholdt implementering i en live-lab-miljø.
Tilpasningsalternativer for kurs
- For å be om en tilpasset opplæring for dette kurset, ta kontakt med oss for å avtale.
Kunstig intelligens - de mest brukte tingene - Data Analysis + Distribuert AI + NLP
21 timerDette kurset er rettet mot utviklere og dataforskere som ønsker å forstå og implementere kunstig intelligens i sine applikasjoner. Det er spesielt fokus på dataanalyse, distribuert kunstig intelligens og natursprakkbehandling.
Confluent Apache Kafka: Klusteroperasjoner og Konfigurasjon
16 timerBuilding Kafka Solutions with Confluent
14 timerDette instruktørlidene, live-treningen (online eller på stedet) er rettet mot ingeniører som ønsker å bruke Confluent (en distribusjon av Kafka) for å bygge og administrere en sanntids dataproseffringsplattform for sine applikasjoner.
Etter dette kurset vil deltakerne kunne:
- Installer og konfigurere Confluent Platform.
- Bruke Confluents administreringsverktøy og tjenester til å kjøre Kafka enklere.
- Lagre og behandle innkommende strømdata.
- Optimere og administrere Kafka-klynger.
- Sikre datastrømmene.
Kursformat
- Interaktiv forelesning og diskusjon.
- Masse øvelser og praksis.
- Håndsinnsimplementering i en live-labbmiljø.
Kurstilpasningsalternativer
- Dette kurset er basert på den open source-versjonen av Confluent: Confluent Open Source.
- For å be om en tilpasset trening for dette kurset, vennligst kontakt oss for å arrangere.
Introduksjon til grafberegning
28 timerI denne instruktørledede, live-opplæringen i Norge vil deltakerne lære om teknologitilbudene og implementeringstilnærmingene for behandling av grafdata. Målet er å identifisere virkelige objekter, deres egenskaper og relasjoner, deretter modellere disse relasjonene og behandle dem som data ved å bruke en Graph Computing (også kjent som Graph Analytics) tilnærming. Vi starter med en bred oversikt og begrenser oss til spesifikke verktøy når vi går gjennom en serie casestudier, praktiske øvelser og live-implementeringer.
Ved slutten av denne opplæringen vil deltakerne kunne:
- Forstå hvordan grafdata opprettholdes og krysses.
- Velg det beste rammeverket for en gitt oppgave (fra grafdatabaser til rammeverk for batchbehandling.)
- Implementer Hadoop, Spark, GraphX og Pregel for å utføre grafberegning på tvers av mange maskiner parallelt.
- Se virkelige store dataproblemer når det gjelder grafer, prosesser og gjennomganger.
Distribuert melding med Apache Kafka
14 timerDette kurset er for virksomhetsarkitekter, utviklere, systemadministratorer og enhver som ønsker å forstå og bruke et høydeknaphast distribuert meldingsystem. Hvis du har mer spesifikke krav (f.eks. bare systemadministrasjon), kan dette kurset tilpasses bedre til dine behov.
Apache Kafka for Python Programmers
7 timerDenne instruktørledede, direkteopplæringen i Norge (online eller på stedet) er rettet mot dataingeniører, dataforskere og programmerere som ønsker å bruke Apache Kafka-funksjoner i datastrømming med Python.
Ved slutten av denne opplæringen vil deltakerne kunne bruke Apache Kafka til å overvåke og administrere forhold i kontinuerlige datastrømmer ved å bruke Python programmering.
Stream Processing with Kafka Streams
7 timerKafka Streams er en klientbibliotek for å bygge applikasjoner og mikrotjenester hvis data sendes til og fra et Kafka-meldingssystem. Tradisjonelt har Apache Kafka avhengt av Apache Spark eller Apache Storm for å behandle data mellom meldingsprodusenter og -forbrukere. Ved å kalle Kafka Streams API-en fra innenfor en applikasjon, kan data bli behandlet direkte i Kafka, uten at det er nødvendig å sende data til et separat kluster for behandling.
I denne instruktørførte, live-treningen vil deltakerne lære hvordan de kan integrere Kafka Streams i en rekke eksempelapplikasjoner skrevet i Java som sender data til og fra Apache Kafka for strømbehandling.
Til slutt av denne treningen vil deltakerne kunne:
- Føre Kafka Streams funksjoner og fordeler over andre strømbehandlingsrammer
- Behandle strømdata direkte innenfor et Kafka-kluster
- Skrive en Java eller Scala-applikasjon eller mikrotjeneste som integrerer seg med Kafka og Kafka Streams
- Skrive kortfattet kode som transformerer innkommende Kafka-topics til utgående Kafka-topics
- Bygge, pakke og distribuere applikasjonen
Målgruppe
- Utviklere
Kursformat
- Del forelesning, del diskusjon, øvelser og mye praktisk trening
Merknader
- For å be om en tilpasset trening for dette kurset, vennligst kontakt oss for å avtale
Confluent KSQL
7 timerDenne instruktørledede, direkteopplæringen i Norge (online eller på stedet) er rettet mot utviklere som ønsker å implementere Apache Kafka strømbehandling uten å skrive kode.
Ved slutten av denne opplæringen vil deltakerne kunne:
- Installer og konfigurer Confluent KSQL.
- Sett opp en strømbehandlingspipeline ved å bruke bare SQL kommandoer (ingen Java eller Python koding).
- Utfør datafiltrering, transformasjoner, aggregeringer, sammenføyninger, vinduer og økter i SQL.
- Design og distribuer interaktive, kontinuerlige spørringer for streaming av ETL og sanntidsanalyse.
Apache NiFi for Administrators
21 timerI denne instruktørledede, live-opplæringen i Norge (på stedet eller eksternt), vil deltakerne lære hvordan de distribuerer og administrerer Apache NiFi i et levende laboratoriemiljø.
Ved slutten av denne opplæringen vil deltakerne kunne:
- Installer og konfigurer Apachi NiFi.
- Kilde, transformer og administrer data fra forskjellige, distribuerte datakilder, inkludert databaser og store datainnsjøer.
- Automatiser dataflyter.
- Aktiver strømmeanalyse.
- Bruk ulike tilnærminger for datainntak.
- Forvandle Big Data og til forretningsinnsikt.
Apache NiFi for Developers
7 timerI denne instruktørledede, live-opplæringen i Norge vil deltakerne lære det grunnleggende om flytbasert programmering når de utvikler en rekke demo-utvidelser, komponenter og prosessorer ved hjelp av Apache NiFi.
Ved slutten av denne opplæringen vil deltakerne kunne:
- Forstå NiFis arkitektur og dataflytkonsepter.
- Utvikle utvidelser ved å bruke NiFi og tredjeparts APIer.
- Tilpasset utvikle sin egen Apache Nifi-prosessor.
- Ta inn og behandle sanntidsdata fra forskjellige og uvanlige filformater og datakilder.
Python og Spark for Big Data (PySpark)
21 timerI denne instruktørledede, live-treningen i Norge vil deltakerne lære å bruke Python og Spark sammen for å analysere store data mens de jobber med praktiske øvelser.
Ved slutten av denne opplæringen vil deltakerne kunne:
- Lær hvordan du bruker Spark med Python for å analysere Big Data.
- Arbeid med øvelser som etterligner virkelige tilfeller.
- Bruk forskjellige verktøy og teknikker for stordataanalyse ved hjelp av PySpark.
Spark Streaming med Python og Kafka
7 timerDenne instruktørledede, live-opplæringen i Norge (online eller på stedet) er rettet mot dataingeniører, dataforskere og programmerere som ønsker å bruke Spark Streaming-funksjoner til å behandle og analysere sanntidsdata.
Ved slutten av denne opplæringen vil deltakerne kunne bruke Spark Streaming til å behandle live datastrømmer for bruk i databaser, filsystemer og live dashboards.
Apache Spark MLlib
35 timerMLlib er Sparks maskinlæringsbibliotek. Målet er å gjøre praktisk maskinlæring skalerbar og enkel. Den består av vanlige læringsalgoritmer og verktøy, inkludert klassifisering, regresjon, klynger, samarbeidende filtrering, dimensjonalitetsreduksjon, samt primitiver på lavere nivå og optimaliseringsgrensesnitt på rørledningen.
Den deler seg i to pakker:
spark.mllib inneholder den originale API-en som er bygget på toppen av RDD-er.
spark.ml gir API på høyere nivå bygget oppå DataFrames for konstruksjon av ML-rørledninger.
Publikum
Dette kurset er rettet mot ingeniører og utviklere som søker å bruke et innebygd maskinbibliotek for Apache Spark
Stratio: Rakett- og intelligensmoduler med PySpark
14 timerStratio er en datacentrisk plattform som integrerer big data, AI og governance i én løsning. Rocket- og Intelligence-modulene muliggjør rask datautforskning, transformasjon og avansert analyse i bedriftsmiljøer.
Denne instruktørledede, levende opplæringen (online eller på sted) er rettet mot mellomnivå-datafagpersonell som ønsker å bruke Rocket- og Intelligence-modulene i Stratio effektivt med PySpark, med fokus på løkker, brukerdefinerte funksjoner og avansert datalogikk.
Ved slutten av denne opplæringen vil deltakerne være i stand til:
- Navigere og arbeide innenfor Stratio-plattformen ved bruk av Rocket- og Intelligence-modulene.
- Bruke PySpark i forbindelse med datainnsamling, transformasjon og analyse.
- Bruke løkker og betinget logikk til å kontrollere dataflyter og oppgavearbeid for egenskapsutvinning.
- Opprette og administrere brukerdefinerte funksjoner (UDFs) for gjentatte dataoperasjoner i PySpark.
Kursformat
- Interaktiv forelesning og diskusjon.
- Mange øvelser og praksis.
- Håndson implementering i en levende labmiljø.
Tilpassingsalternativer for kurset
- For å bestille en tilpasset opplæring for dette kurset, kontakt oss for å avtale.