Datamining og sanntidsbehandling av data Treningskurs
Oppsummering av kurset
Denne kurset gir en praktisk og strukturert introduksjon til utvikling av sanntids datamining systemer. Det dekker grunnleggende konsepter, arkitekturmønstre og industrielle verktøy som brukes til å behandle kontinuerlige data i stor skala. Deltakerne vil lære hvordan de skal designe, implementere og optimalisere datamining pipelines med moderne rammeverk. Kurset går fra grunnleggende ideer til praktiske anvendelser, noe som gjør det mulig for lærerne å bygge produksjonsklare sanntids løsninger.
Treningsformat
• Instruktørledede økter med veiledede forklaringer
• Konsept-gjennomgåelser med virkelige eksempler
• Praktiske demonstrasjoner og kodingsøvelser
• Progressive laboratorieøvelser tilpasset daglige emner
• Interaktive diskusjoner og spørsmål og svar
Kursmål
• Forstå sanntids datamining konsepter og systemarkitektur
• Skille mellom batch og streaming databehandlingsmodeller
• Designe skalerbare og feiltolerante datamining pipelines
• Arbeide med distribuerte datamining verktøy og rammeverk
• Anvende hendelsestid prosessering, vinduings og tilstandsoperasjoner
Bygg og optimaliser sanntids dataløsninger for forretningstilfeller
Kursplan
Kursinnhold Dag 1
• Introduksjon til datamining konsepter
• Grunnleggende forskjeller mellom batch og sanntids prosessering
• Basis for hendelsesdrevet arkitektur
• Vanlige bruksområder i industrien
• Oversikt over datamining økosystemet
Dag 2
• Sanntids arkitektur design mønstre
• Grunnleggende om distribuerte meldingssystemer
• Produsenter og konsumenter
• Emner, partitioner og dataflyt
• Datamining strategier
Dag 3
• Sanntids prosessering konsepter og rammeverk
• Hendelsestid vs. prosesseringstid
• Vinduings teknikker og bruksområder
• Tilstandsbasert sanntids prosessering
• Feiltoleranse og grunnleggende checkpointing
Dag 4
• Datatransformasjon i sanntids pipelines
• ETL og ELT i sanntids systemer
• Skjemahåndtering og utvikling
• Sanntids joins og riking
• Introduksjon til skybaserte datamining tjenester
Dag 5
• Overvåking og observasjon i sanntids systemer
• Sikkerhet og grunnleggende adgangs kontroll
•ytelsestuning og optimalisering
• Gjennomgang av end-to-end pipeline design
• Virkelige brukstilfeller som svindeloppdagelse og IoT-behandling
Åpne kurs krever 5+ deltakere.
Datamining og sanntidsbehandling av data Treningskurs - Bestilling
Datamining og sanntidsbehandling av data Treningskurs - Forespørsel
Datamining og sanntidsbehandling av data - Konsulentforespørsel
Referanser (1)
Praktiske øvelser. Klassen skulle have vært 5 dager, men de 3 dager bidrog til at klare op for mange spørsmål jeg hadde fra min tidligere erfaring med NiFi
James - BHG Financial
Kurs - Apache NiFi for Administrators
Maskinoversatt
Kommende kurs
Relaterte kurs
Avansert Apache Iceberg
21 TimerDenne instruktørledede, live-opplæringskurset (online eller på stedet) er rettet mot avanserte dataprofesjonelle som ønsker å optimalisere datahåndteringsarbeidsflyter, sikre dataintegritet og implementere robuste data lakehouse-løsninger som kan håndtere kompleksiteten i moderne big data-applikasjoner.
Ved kursets avslutning vil deltakerne kunne:
- Oppnå en dyp forståelse av Icebergs arkitektur, inkludert metadatahåndtering og filstruktur.
- Konfigurere Iceberg for optimal ytelse i ulike miljøer og integrere den med flere datahåndteringsmotorer.
- Administrere store Iceberg-tabeller, gjennomføre komplekse skjemauendringer og håndtere partisjonsutvikling.
- Mestre teknikker for å optimalisere spørreytelse og datasøkeffektivitet for store datasett.
- Implementere mekanismer for å sikre datakonsistens, håndtere transaksjonsgarantier og feilhåndtering i fordelte miljøer.
Apache Iceberg Grunnleggende
14 TimerDenne instruktørledede, live opplæringen (online eller på stedet) er rettet mot begynnernivå datafagfolk som ønsker å oppnå kunnskap og ferdigheter som er nødvendige for å effektivt utnyttet Apache Iceberg for å håndtere store datasett, sikre datasikkerhet og optimalisere datastrømningsprosesser.
Ved avslutningen av denne opplæringen vil deltakerne være i stand til å:
- Få en grundig forståelse av Apache Icebergs arkitektur, funksjoner og fordeler.
- Lære om tabellformater, partisjoner, skjemautvikling og tidshoppingsfunksjoner.
- Installere og konfigurere Apache Iceberg i ulike miljøer.
- Opprette, administrere og manipulere Iceberg-tabeller.
- Forstå prosessen med å migrere data fra andre tabellformater til Iceberg.
Big Data Analytics med Google Colab og Apache Spark
14 TimerDenne instruktørledede, live opplæringen (online eller på sted) er rettet mot mellomnivå dataforskere og ingeniører som ønsker å bruke Google Colab og Apache Spark for behandling og analyse av store datasett.
Ved slutten av denne opplæringen vil deltakerne kunne:
- Opprette en stor data-miljø ved bruk av Google Colab og Spark.
- Behandle og analysere store datasett effektivt med Apache Spark.
- Visualisere store data i et samarbeidsmiljø.
- Integrere Apache Spark med skyløsninger.
Big Data Business Intelligence for Govt. Agencies
35 TimerTeknologifremgang og den økende mengden informasjon transformerer hvordan virksomheter drives i mange industrier, inkludert regering. Genereringen av regjeringsdata og rate for digital arkivering øker på grunn av den raske veksten i mobil enheter og applikasjoner, smarte sensorer og enheter, skytjenester, og borgerorienterte portaler. Som digitale informasjon expanderer og blir mer kompleks, blir informasjonshåndtering, behandling, lagring, sikkerhet og utsortering mer kompleks også. Nyteknologi for inndatafangst, søk, oppdaging og analyse hjelper organisasjoner med å innse innsikt fra deres ustrukturerte data. Regjeringsmarkedet er ved en vendepunkt, og realiserer at informasjon er et strategisk eiendom, og regeringen må beskytte, utnytte og analysere både strukturerte og ustrukturerte informasjon for å bedre serve og møte misjonskrav. Mens ledere i offentlig sektor strever etter å utvikle datastyret organisasjoner for å lykkes med misjonen, legger de grunnlaget for å knytte sammen avhengigheter over hendelser, mennesker, prosesser og informasjon.
Høyverdifulle regjeringsløsninger vil bli skapt fra en kombinasjon av de mest disruptivt teknologi:
- Mobil enheter og applikasjoner
- Skytjenester
- Sosial virksomhetsteknologi og netverk
- Big Data og analyse
Big Data er en av de intelligente industriløsningene og tillater regjeringen å ta bedre beslutninger ved å handle basert på mønstre som oppdages ved analysen av store mengder data - relaterte og urelaterte, strukturerte og ustrukturerte.
Men å fullføre disse oppgavene tar mye mer enn bare å akkumulere massive mengder data. “Å ta fornuftige ut av disse volumene med Big Data krever skjærpemessige verktøy og teknologi som kan analysere og trekke nytte av nyttig kunnskap fra store og diverse informasjonsstrømmer,” skrev Tom Kalil og Fen Zhao fra White House Office of Science and Technology Policy i et innlegg på OSTP Blog.
The White House tok et skritt mot å hjelpe organisasjoner med å finne disse teknologiene da de etablerte National Big Data Research and Development Initiative i 2012. Initiativet inkluderte mer enn $200 million for å maksimere effekten av Big Data-explosjonen og verktøyene som trengs til å analysere det.
Utmeldelses utfordringer Big Data stiller er nesten like forbittelige som dets lovende er oppmunterende. Effektiv lagring av data er en av disse utfordringene. Som vanlig, er budsjettet knyttet, så organisasjoner må minimere prisen per megabyte for lagring og holde data lette tilgjengelig slik at brukerne kan få det når de ønsker det og slik de trenger det. Sikring av massive mengder data øker utfordringen.
Effektivt å analysere data er en annen stor utfordring. Mange organisasjoner bruker kommersielle verktøy som lar dem gjennomsøke de store datamountene, og oppdage trender som kan hjelpe dem med å operere mer effektivt. (En nylig studie av MeriTalk fant at federal IT-eksekutive tror at Big Data kan hjelpe organisasjoner spare over $500 billion mens de også fyller misjonskrav.).
Spesialutviklede Big Data-verktøy lar også organisasjoner adressere behovet for å analysere deres data. For eksempel, har Oak Ridge National Laboratory's Computational Data Analytics Group gjort sin Piranha dataanalyzesystem tilgjengelig for andre organisasjoner. Systemet har hjulpet medisinske forskere med å finne et link som kan varsle legene om aortalaneurysmer før de inntrer. Det brukes også til mer vanlige oppgaver, slik som gjennomsøking av cv'er for å koble jobbkandidater med ansatte.
En Praktisk Introduksjon til Data Analysis og Big Data - 3 Dager
21 TimerDeltakere som fullfører denne instruktørledede, liveopplæringen i Norge vil få en praktisk, virkelig forståelse av Big Data og dets relaterte teknologier, metoder og verktøy.
Deltakerne vil få mulighet til å omsette denne kunnskapen i praksis gjennom praktiske øvelser. Gruppesamhandling og instruktørtilbakemeldinger utgjør en viktig del av klassen.
Kurset starter med en introduksjon til elementære konsepter av Big Data, og går deretter videre til programmeringsspråkene og metodikkene som brukes til å utføre Data Analysis. Til slutt diskuterer vi verktøyene og infrastrukturen som muliggjør Big Data lagring, distribuert prosessering og Scalability.
Big Data og Avansert Analyse
42 TimerBig Data og Avansert Analyse er anvendelsen av sofistikerte teknikker og verktøy for å analysere store, komplekse datasett for å skaffe virkelighetsnære innsikter og strategisk beslutningstaking.
Denne instruktørledede, live opplæringen (online eller på sted) er rettet mot avanserte dataprofesjonelle som ønsker å utnytte fremskrittlige analytiske metoder og big data teknologier for prediktiv, preskriptiv og sanstidanalyse.
Ved slutten av denne opplæringen vil deltakerne kunne:
- Utforme og implementere store datasettbehandlingsrørledninger for strukturerte og ustrukturerte data.
- Anvende avanserte maskinlæring og dyp læringsmetoder på store datasett.
- Utnytte fordelte beregningsrammeverk for sanstidsanalyse og datastrøming.
- Integrere big data analyse i forretningsintelligens- og beslutningssystemer.
Format på Kurset
- Interaktiv forelesning og diskusjon.
- Mange øvelser og praksis.
- Hender på implementering i et live-lab miljø.
Tilleggsanpassningsalternativer for Kurset
- For å be om en tilpasset opplæring for dette kurset, vennligst kontakt oss for å ordne.
Apache NiFi for Administrators
21 TimerApache NiFi er en open source, flytdriftsbasert dataintegrering- og hendelseshåndteringplattform. Det muliggjør automatisert, sanntids-datarouting, -transformasjon og systemmediasjon mellom ulike systemer, med en webbasert brukergrensesnitt og detaljert kontroll.
Dette instruktørførte, live-utdanningskurs (på stedet eller fjern) er rettet mot mellemnivåadministratorer og ingeniører som ønsker å distribuere, administrere, sikre og optimalisere NiFi-dataflyter i produksjonsmiljøer.
Av slutten av dette kurset vil deltakerne kunne:
- Installere, konfigurere og vedlikeholde Apache NiFi-kluster.
- Utforme og administrere dataflyter fra ulike kilder og mottakere.
- Implementere flytautomatisering, -ruting og transformasjonslogikk.
- Optimalisere ytelse, overvåke operasjonen og feilsøke problemer.
Kursformat
- Interaktiv forelesning med diskusjon om virkelige arkitekturer.
- Håndsom lab: bygge, distribuere og administrere flyter.
- Situasjonsbaserte øvelser i et live-lab-miljø.
Kurs tilpasningsmuligheter
- For å be om et tilpasset kurs, vennligst kontakt oss for å organisere det.
PySpark og Maskinlæring
21 TimerDenne opplæringen gir en praktisk innføring i å bygge skalerbare databehandlings- og maskinlæringsarbeidsflyter ved hjelp av PySpark. Deltakerne lærer hvordan Apache Spark fungerer i moderne Big Data-ekosystemer, og hvordan man effektivt behandler store datasett ved hjelp av prinsippene for distribuert datateknikk.
Apache Spark Fundamentals
21 TimerDette veiledede kurset i Norge (online eller på sted) er rettet mot ingeniører som ønsker å sette opp og deploye Apache Spark-systemet for behandling av ekstremt store mengder data.
Etter dette kurset vil deltakerne kunne:
Administrasjon av Apache Spark
35 TimerDenne instruktørledede, direkteopplæringen i Norge (online eller på stedet) er rettet mot systemadministratorer på nybegynnere til mellomnivå som ønsker å distribuere, vedlikeholde og optimalisere Spark-klynger.
Ved slutten av denne opplæringen vil deltakerne kunne:
- Installer og konfigurer Apache Spark i forskjellige miljøer.
- Administrer klyngeressurser og overvåk Spark-applikasjoner.
- Optimaliser ytelsen til Spark-klynger.
- Iverksette sikkerhetstiltak og sikre høy tilgjengelighet.
- Feilsøk og feilsøk vanlige Spark-problemer.
Apache Spark i Skyen
21 TimerLæringskurven til Apache Spark stiger sakte i begynnelsen, det krever mye innsats for å få den første tilbakemeldingen. Dette kurset har som mål å hoppe over den første vanskelige delen. Etter å ha tatt dette kurset vil deltakerne forstå grunnleggende om Apache Spark, de vil klart skille mellom RDD og DataFrame, de vil lære Python og Scala API, de vil forstå executors og tasks, etc. I tillegg til å følge beste praksis, fokuserer dette kurset sterkt på skydeploering, Databricks og AWS. Studentene vil også forstå forskjellene mellom AWS EMR og AWS Glue, en av de nyeste Spark-tjenestene fra AWS.
MÅLGREP:
Data Engineer, DevOps, Data Scientist
Python og Spark for Big Data (PySpark)
21 TimerI denne instruktørledede, live-treningen i Norge vil deltakerne lære å bruke Python og Spark sammen for å analysere store data mens de jobber med praktiske øvelser.
Ved slutten av denne opplæringen vil deltakerne kunne:
- Lær hvordan du bruker Spark med Python for å analysere Big Data.
- Arbeid med øvelser som etterligner virkelige tilfeller.
- Bruk forskjellige verktøy og teknikker for stordataanalyse ved hjelp av PySpark.
Python, Spark, og Hadoop for Big Data
21 TimerDenne instruktørledede, live-opplæringen i Norge (online eller på stedet) er rettet mot utviklere som ønsker å bruke og integrere Spark, Hadoop og Python for å behandle, analysere og transformere store og komplekse datasett.
Ved slutten av denne opplæringen vil deltakerne kunne:
- Sett opp det nødvendige miljøet for å begynne å behandle store data med Spark, Hadoop og Python.
- Forstå funksjonene, kjernekomponentene og arkitekturen til Spark og Hadoop.
- Lær hvordan du integrerer Spark, Hadoop og Python for behandling av store data.
- Utforsk verktøyene i Spark-økosystemet (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka og Flume).
- Bygg anbefalingssystemer for samarbeidsfiltrering som ligner på Netflix, YouTube, Amazon, Spotify og Google.
- Bruk Apache Mahout til å skalere maskinlæringsalgoritmer.
Stratio: Rocket og Intelligence-moduler med PySpark
14 TimerStratio er en data-sentrert plattform som integrerer store data, kunstig intelligens og styring i én løsning. Dets Rocket- og Intelligence-moduler gjør det mulig å utforske, transformere og analysere data raskt i virksomhetsmiljøer.
Denne veiledede, live-treningen (online eller på stedet) er rettet mot mellomnivås dataprofessionelle som ønsker å bruke Rocket- og Intelligence-modulene i Stratio effektivt med PySpark, med fokus på løkkestrukturer, brukerdefinerte funksjoner og avansert data-logikk.
Ved slutten av denne treningen vil deltakerne kunne:
- Navigere og jobbe i Stratio-plattformen ved hjelp av Rocket- og Intelligence-modulene.
- Bruke PySpark i sammenheng med datainnlesing, -transformasjon og -analyse.
- Bruke løkker og betinget logikk for å kontrollere data-arbeidsflyt og uttrekk av egenskaper.
- Opprette og administrere brukerdefinerte funksjoner (UDFs) for gjenbrukbare dataoperasjoner i PySpark.
Kursformat
- Interaktiv foredrag og diskusjon.
- Masse øvelser og praksis.
- Praktisk implementering i et live-lab-miljø.
Kurstilpasningsoptions
- For å forespørre en tilpasset trening for dette kurset, vennligst kontakt oss for å ordne det.