Datamining og sanntidsbehandling av data Treningskurs
Oppsummering av kurset
Denne kurset gir en praktisk og strukturert introduksjon til utvikling av sanntids datamining systemer. Det dekker grunnleggende konsepter, arkitekturmønstre og industrielle verktøy som brukes til å behandle kontinuerlige data i stor skala. Deltakerne vil lære hvordan de skal designe, implementere og optimalisere datamining pipelines med moderne rammeverk. Kurset går fra grunnleggende ideer til praktiske anvendelser, noe som gjør det mulig for lærerne å bygge produksjonsklare sanntids løsninger.
Treningsformat
• Instruktørledede økter med veiledede forklaringer
• Konsept-gjennomgåelser med virkelige eksempler
• Praktiske demonstrasjoner og kodingsøvelser
• Progressive laboratorieøvelser tilpasset daglige emner
• Interaktive diskusjoner og spørsmål og svar
Kursmål
• Forstå sanntids datamining konsepter og systemarkitektur
• Skille mellom batch og streaming databehandlingsmodeller
• Designe skalerbare og feiltolerante datamining pipelines
• Arbeide med distribuerte datamining verktøy og rammeverk
• Anvende hendelsestid prosessering, vinduings og tilstandsoperasjoner
Bygg og optimaliser sanntids dataløsninger for forretningstilfeller
Kursplan
Kursinnhold Dag 1
• Introduksjon til datamining konsepter
• Grunnleggende forskjeller mellom batch og sanntids prosessering
• Basis for hendelsesdrevet arkitektur
• Vanlige bruksområder i industrien
• Oversikt over datamining økosystemet
Dag 2
• Sanntids arkitektur design mønstre
• Grunnleggende om distribuerte meldingssystemer
• Produsenter og konsumenter
• Emner, partitioner og dataflyt
• Datamining strategier
Dag 3
• Sanntids prosessering konsepter og rammeverk
• Hendelsestid vs. prosesseringstid
• Vinduings teknikker og bruksområder
• Tilstandsbasert sanntids prosessering
• Feiltoleranse og grunnleggende checkpointing
Dag 4
• Datatransformasjon i sanntids pipelines
• ETL og ELT i sanntids systemer
• Skjemahåndtering og utvikling
• Sanntids joins og riking
• Introduksjon til skybaserte datamining tjenester
Dag 5
• Overvåking og observasjon i sanntids systemer
• Sikkerhet og grunnleggende adgangs kontroll
•ytelsestuning og optimalisering
• Gjennomgang av end-to-end pipeline design
• Virkelige brukstilfeller som svindeloppdagelse og IoT-behandling
Åpne kurs krever 5+ deltakere.
Datamining og sanntidsbehandling av data Treningskurs - Bestilling
Datamining og sanntidsbehandling av data Treningskurs - Forespørsel
Datamining og sanntidsbehandling av data - Konsulentforespørsel
Referanser (1)
Praktiske øvelser. Klassen skulle have vært 5 dager, men de 3 dager bidrog til at klare op for mange spørsmål jeg hadde fra min tidligere erfaring med NiFi
James - BHG Financial
Kurs - Apache NiFi for Administrators
Maskinoversatt
Kommende kurs
Relaterte kurs
Administratoropplæring for Apache Hadoop
35 TimerMålgruppe:
Kurset er ment for IT-spesialister som ser etter en løsning for å lagre og behandle store datasett i en distribusjonssystemmiljø.
Goal:
Dypt kunnskap om Hadoop klusteradministrasjon.
Big Data Analytics med Google Colab og Apache Spark
14 TimerDenne instruktørledede, live opplæringen (online eller på sted) er rettet mot mellomnivå dataforskere og ingeniører som ønsker å bruke Google Colab og Apache Spark for behandling og analyse av store datasett.
Ved slutten av denne opplæringen vil deltakerne kunne:
- Opprette en stor data-miljø ved bruk av Google Colab og Spark.
- Behandle og analysere store datasett effektivt med Apache Spark.
- Visualisere store data i et samarbeidsmiljø.
- Integrere Apache Spark med skyløsninger.
Big Data Analytics i Helsenæringen
21 TimerBig data analytics innebærer prosessen med å undersøke store mengder varierende datasett for å oppdage sammenhenger, skjulte mønstre og andre nyttige innsikter.
Helsenæringen har enorme mengder kompleks og heterogene medisinske og kliniske data. Ved å bruke big data analytics på helsedata, finnes det stort potensial for å utlede innsikter som kan forbedre leveringen av helseomsorgen. Imidlertid stiller størrelsen på disse datasettene store utfordringer i analyser og praktiske anvendelser i en klinisk miljø.
I denne instruktørledede, live-treningen (fjernta), vil deltakerne lære hvordan de kan utføre big data analytics i helsenæringen gjennom en rekke praksisøvelser i live-lab.
Avslutning på denne treningen vil deltakerne kunne:
- Installere og konfigurere big data analyseverktøy som Hadoop MapReduce og Spark
- Få en forståelse for egenskapene til medisinske data
- Bruke big data teknikker for å håndtere medisinske data
- Studere big data systemer og algoritmer i sammenhengen med helseanvendelser
Målgruppe
- Utviklere
- Datavitenskapsfolk
Kursformat
- Del foredrag, del diskusjon, øvelser og mye praksis.
Merk
- For å be om en tilpasset trening for dette kurset, vennligst kontakt oss for å ordne det.
Hadoop for administratorer
21 TimerApache Hadoop er det mest populære rammeverket for behandling på klustre av servere. I dette tre (valgfritt, fire) dagers kurs vil deltakerne lære om de forretningsmessige fordeler og bruksområdene for Hadoop og dets økosystem, hvordan man planlegger klusterutplassering og vekst, hvordan man installerer, vedlikeholder, overvåker, feilsøker og optimaliserer Hadoop. De vil også øve på klusterbulkdataopplasting, bli kjent med ulike Hadoop-distribusjoner og øve på installasjon og administrasjon av Hadoop-økosystemverktøy. Kurset avsluttes med en diskusjon om å sikre kluster med Kerberos.
“…Materialene var svært godt forberedt og dekket grundig. Laboratoriene var svært nyttige og godt organisert”— Andrew Nguyen, Principal Integration DW Engineer, Microsoft Online Advertising
Målgruppe
Hadoop-administratorer
Format
Forelesninger og praktiske laboratorier, omtrentlig balanse 60% forelesninger, 40% laboratorier.
Hadoop for Developers (4 dager)
28 TimerApache Hadoop er den mest populære rammen for å behandle Big Data på serverkluster. Denne kursen vil introdusere en utvikler til ulike komponenter (HDFS, MapReduce, Pig, Hive og HBase) i Hadopen økosystemet.
Avansert Hadoop for utviklere
21 TimerApache Hadoop er en av de mest populære rammenettene for å behandle stordata på serverklustre. Dette kurset dykker dyp ned i datalagring i HDFS, avansert Pig, Hive og HBase. Disse avanserte programmeringsteknikkene vil være til nytte for utviklere med erfaring i Hadoop.
Målgruppe: utviklere
Varighet: tre dager
Format: forelesninger (50%) og praktiske øvelser (50%).
Hadoop Administration på MapR
28 TimerMålgruppe:
Dette kurset er ment å gjøre big data/Hadoop-teknologi mindre mystisk og vise at det ikke er vanskelig å forstå.
Hadoop og Spark for Administratører
35 TimerDenne instruktørledede, direkteopplæringen i Norge (online eller på stedet) er rettet mot systemadministratorer som ønsker å lære hvordan de konfigurerer, distribuerer og administrerer Hadoop klynger i organisasjonen deres.
Ved slutten av denne opplæringen vil deltakerne kunne:
- Installer og konfigurer Apache Hadoop.
- Forstå de fire hovedkomponentene i Hadoop-økosystemet: HDFS, MapReduce, YARN og Hadoop Common.
- Bruk Hadoop Distributed File System (HDFS) for å skalere en klynge til hundrevis eller tusenvis av noder.
- Konfigurer HDFS for å fungere som lagringsmotor for Spark-distribusjoner på stedet.
- Sett opp Spark for å få tilgang til alternative lagringsløsninger som Amazon S3 og NoSQL databasesystemer som Redis, Elasticsearch, Couchbase, Aerospike, etc.
- Utfør administrative oppgaver som klargjøring, administrasjon, overvåking og sikring av en Apache Hadoop-klynge.
HBase for Developers
21 TimerDenne kursen introduserer HBase – en NoSQL-lagring på toppen av Hadoop. Kursen er ment for utviklere som vil bruke HBase til å utvikle applikasjoner, og for administratorer som vil administrere HBase-kluster.
Vi vil veilede en utvikler gjennom HBase-arkitekturen og data-modellering og applikasjonsutvikling på HBase. Den vil også diskutere bruk av MapReduce med HBase, og noen administrative emner knyttet til ytelsesoptimalisering. Kurset er svært praktisk med mange labøvelser.
Varighet: 3 dager
Målgruppe: Utviklere & Administratører
Apache NiFi for Administrators
21 TimerApache NiFi er en open source, flytdriftsbasert dataintegrering- og hendelseshåndteringplattform. Det muliggjør automatisert, sanntids-datarouting, -transformasjon og systemmediasjon mellom ulike systemer, med en webbasert brukergrensesnitt og detaljert kontroll.
Dette instruktørførte, live-utdanningskurs (på stedet eller fjern) er rettet mot mellemnivåadministratorer og ingeniører som ønsker å distribuere, administrere, sikre og optimalisere NiFi-dataflyter i produksjonsmiljøer.
Av slutten av dette kurset vil deltakerne kunne:
- Installere, konfigurere og vedlikeholde Apache NiFi-kluster.
- Utforme og administrere dataflyter fra ulike kilder og mottakere.
- Implementere flytautomatisering, -ruting og transformasjonslogikk.
- Optimalisere ytelse, overvåke operasjonen og feilsøke problemer.
Kursformat
- Interaktiv forelesning med diskusjon om virkelige arkitekturer.
- Håndsom lab: bygge, distribuere og administrere flyter.
- Situasjonsbaserte øvelser i et live-lab-miljø.
Kurs tilpasningsmuligheter
- For å be om et tilpasset kurs, vennligst kontakt oss for å organisere det.
Apache NiFi for Developers
7 TimerI denne instruktørledede, live-opplæringen i Norge vil deltakerne lære det grunnleggende om flytbasert programmering når de utvikler en rekke demo-utvidelser, komponenter og prosessorer ved hjelp av Apache NiFi.
Ved slutten av denne opplæringen vil deltakerne kunne:
- Forstå NiFis arkitektur og dataflytkonsepter.
- Utvikle utvidelser ved å bruke NiFi og tredjeparts APIer.
- Tilpasset utvikle sin egen Apache Nifi-prosessor.
- Ta inn og behandle sanntidsdata fra forskjellige og uvanlige filformater og datakilder.
PySpark og Maskinlæring
21 TimerDenne opplæringen gir en praktisk innføring i å bygge skalerbare databehandlings- og maskinlæringsarbeidsflyter ved hjelp av PySpark. Deltakerne lærer hvordan Apache Spark fungerer i moderne Big Data-ekosystemer, og hvordan man effektivt behandler store datasett ved hjelp av prinsippene for distribuert datateknikk.
Python og Spark for Big Data (PySpark)
21 TimerI denne instruktørledede, live-treningen i Norge vil deltakerne lære å bruke Python og Spark sammen for å analysere store data mens de jobber med praktiske øvelser.
Ved slutten av denne opplæringen vil deltakerne kunne:
- Lær hvordan du bruker Spark med Python for å analysere Big Data.
- Arbeid med øvelser som etterligner virkelige tilfeller.
- Bruk forskjellige verktøy og teknikker for stordataanalyse ved hjelp av PySpark.
Python, Spark, og Hadoop for Big Data
21 TimerDenne instruktørledede, live-opplæringen i Norge (online eller på stedet) er rettet mot utviklere som ønsker å bruke og integrere Spark, Hadoop og Python for å behandle, analysere og transformere store og komplekse datasett.
Ved slutten av denne opplæringen vil deltakerne kunne:
- Sett opp det nødvendige miljøet for å begynne å behandle store data med Spark, Hadoop og Python.
- Forstå funksjonene, kjernekomponentene og arkitekturen til Spark og Hadoop.
- Lær hvordan du integrerer Spark, Hadoop og Python for behandling av store data.
- Utforsk verktøyene i Spark-økosystemet (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka og Flume).
- Bygg anbefalingssystemer for samarbeidsfiltrering som ligner på Netflix, YouTube, Amazon, Spotify og Google.
- Bruk Apache Mahout til å skalere maskinlæringsalgoritmer.
Stratio: Rocket og Intelligence-moduler med PySpark
14 TimerStratio er en data-sentrert plattform som integrerer store data, kunstig intelligens og styring i én løsning. Dets Rocket- og Intelligence-moduler gjør det mulig å utforske, transformere og analysere data raskt i virksomhetsmiljøer.
Denne veiledede, live-treningen (online eller på stedet) er rettet mot mellomnivås dataprofessionelle som ønsker å bruke Rocket- og Intelligence-modulene i Stratio effektivt med PySpark, med fokus på løkkestrukturer, brukerdefinerte funksjoner og avansert data-logikk.
Ved slutten av denne treningen vil deltakerne kunne:
- Navigere og jobbe i Stratio-plattformen ved hjelp av Rocket- og Intelligence-modulene.
- Bruke PySpark i sammenheng med datainnlesing, -transformasjon og -analyse.
- Bruke løkker og betinget logikk for å kontrollere data-arbeidsflyt og uttrekk av egenskaper.
- Opprette og administrere brukerdefinerte funksjoner (UDFs) for gjenbrukbare dataoperasjoner i PySpark.
Kursformat
- Interaktiv foredrag og diskusjon.
- Masse øvelser og praksis.
- Praktisk implementering i et live-lab-miljø.
Kurstilpasningsoptions
- For å forespørre en tilpasset trening for dette kurset, vennligst kontakt oss for å ordne det.