SMACK Stack for Data Science Treningskurs
SMACK er en samling av dataplatform programvare, nemlig Apache Spark, Apache Mesos, Apache Akka, Apache Cassandra, og Apache Kafka. Ved hjelp av SMACK stack kan brukere lage og skala databehandlingsplattformer.
Denne instruktørledede, live-trening (online eller on-site) er rettet mot data forskere som ønsker å bruke SMACK stack til å bygge databehandlingsplattformer for store data løsninger.
Ved slutten av denne treningen vil deltakerne være i stand til å:
- Implementere en data pipeline-arkitektur for behandling av store data.
- Utvikle en klusterinfrastruktur med Apache Mesos og Docker.
- Analyse data med Spark og Scala.
- Å håndtere ustrukturerte data med Apache Cassandra.
Format av kurset
- Interaktiv forelesning og diskusjon.
- Mange øvelser og praksis.
- Hands-on implementering i et live-lab miljø.
Kurs tilpassingsalternativer
- For å be om en tilpasset opplæring for dette kurset, vennligst kontakt oss for å arrangere.
Kursplan
Introduksjon
SMACK Stack Oversikt
- Hva er Apache Spark? Apache Spark-funksjoner Hva er Apache Mesos? Apache Mesos-funksjoner Hva er Apache Akka? Apache Akka funksjoner Hva er Apache Cassandra? Apache Cassandra funksjoner Hva er Apache Kafka? Apache Kafka funksjoner
Scala Språk
- Scala syntaks og struktur Scala kontrollflyt
Forberede utviklingsmiljøet
- Installere og konfigurere SMACK-stakken Installere og konfigurere Docker
Apache Akka
- Bruker skuespillere
Apache Cassandra
- Opprette en database for leseoperasjoner Arbeide med sikkerhetskopiering og gjenoppretting
Koblinger
- Opprette en strøm Bygge en Akka-applikasjon Lagre data med Cassandra Review-koblinger
Apache Kafka
- Arbeide med klynger Opprette, publisere og konsumere meldinger
Apache Mesos
- Tildeling av ressurser Kjøre klynger Arbeide med Apache Aurora og Docker Kjøre tjenester og jobber Distribuere Spark, Cassandra og Kafka på Mesos
Apache Spark
- Administrere datastrømmer Arbeide med RDDer og datarammer Utføre dataanalyse
Feilsøking
- Håndtering av feil på tjenester og feil
Oppsummering og konklusjon
Krav
- Forståelse av databehandlingssystemer
Publikum
- Dataforskere
Open Training Courses require 5+ participants.
SMACK Stack for Data Science Treningskurs - Booking
SMACK Stack for Data Science Treningskurs - Enquiry
SMACK Stack for Data Science - Consultancy Enquiry
Testimonials (1)
very interactive...
Richard Langford
Kurs - SMACK Stack for Data Science
Upcoming Courses
Relaterte kurs
Kaggle
14 timerDenne instruktørledede, live-opplæringen i Norge (online eller på stedet) er rettet mot dataforskere og utviklere som ønsker å lære og bygge sine karrierer innen datavitenskap ved å bruke Kaggle.
Ved slutten av denne opplæringen vil deltakerne kunne:
- Lær om datavitenskap og maskinlæring.
- Utforsk dataanalyse.
- Lær om Kaggle og hvordan det fungerer.
Accelerating Python Pandas Workflows with Modin
14 timerDenne instruktørledede, live-opplæringen i Norge (online eller på stedet) er rettet mot dataforskere og utviklere som ønsker å bruke Modin til å bygge og implementere parallelle beregninger med Pandas for raskere dataanalyse.
Ved slutten av denne opplæringen vil deltakerne kunne:
- Sett opp det nødvendige miljøet for å begynne å utvikle Pandas arbeidsflyter i stor skala med Modin.
- Forstå funksjonene, arkitekturen og fordelene med Modin.
- Kjenn forskjellene mellom Modin, Dask og Ray.
- Utfør Pandas operasjoner raskere med Modin.
- Implementer hele Pandas API og funksjoner.
GPU Data Science with NVIDIA RAPIDS
14 timerDenne instruktørledede, live-opplæringen i Norge (online eller på stedet) er rettet mot dataforskere og utviklere som ønsker å bruke RAPIDS til å bygge GPU-akselererte datapipelines, arbeidsflyter og visualiseringer, ved å bruke maskinlæringsalgoritmer, som f.eks. XGBoost, cuML, etc.
Ved slutten av denne opplæringen vil deltakerne kunne:
- Sett opp det nødvendige utviklingsmiljøet for å bygge datamodeller med NVIDIA RAPIDS.
- Forstå funksjonene, komponentene og fordelene ved RAPIDS.
- Utnytt GPUer for å akselerere ende-til-ende data- og analysepipelines.
- Implementer GPU-akselerert dataforberedelse og ETL med cuDF og Apache Arrow.
- Lær hvordan du utfører maskinlæringsoppgaver med XGBoost- og cuML-algoritmer.
- Bygg datavisualiseringer og utfør grafanalyse med cuXfilter og cuGraph.
Anaconda Ecosystem for Data Scientists
14 timerDenne instruktørledede, live-opplæringen i Norge (online eller på stedet) er rettet mot dataforskere som ønsker å bruke Anaconda-økosystemet til å fange opp, administrere og distribuere pakker og dataanalysearbeidsflyter på én enkelt plattform.
Ved slutten av denne opplæringen vil deltakerne kunne:
- Installer og konfigurer Anaconda-komponenter og biblioteker.
- Forstå kjernekonseptene, funksjonene og fordelene med Anaconda.
- Administrer pakker, miljøer og kanaler ved hjelp av Anaconda Navigator.
- Bruk Conda-, R- og Python-pakker for datavitenskap og maskinlæring.
- Bli kjent med noen praktiske brukstilfeller og teknikker for å administrere flere datamiljøer.
Python and Spark for Big Data (PySpark)
21 timerI denne instruktørledede, live-treningen i Norge vil deltakerne lære å bruke Python og Spark sammen for å analysere store data mens de jobber med praktiske øvelser.
Ved slutten av denne opplæringen vil deltakerne kunne:
- Lær hvordan du bruker Spark med Python til å analysere Big Data.
- Arbeid med øvelser som etterligner virkelige tilfeller.
- Bruk forskjellige verktøy og teknikker for stordataanalyse ved hjelp av PySpark.
Introduction to Graph Computing
28 timerI denne instruktørledede, live-opplæringen i Norge vil deltakerne lære om teknologitilbudene og implementeringstilnærmingene for behandling av grafdata. Målet er å identifisere virkelige objekter, deres egenskaper og relasjoner, deretter modellere disse relasjonene og behandle dem som data ved å bruke en Graph Computing (også kjent som Graph Analytics) tilnærming. Vi starter med en bred oversikt og begrenser oss til spesifikke verktøy når vi går gjennom en serie casestudier, praktiske øvelser og live-implementeringer.
Ved slutten av denne opplæringen vil deltakerne kunne:
- Forstå hvordan grafdata opprettholdes og krysses.
- Velg det beste rammeverket for en gitt oppgave (fra grafdatabaser til rammeverk for batchbehandling.)
- Implementer Hadoop, Spark, GraphX og Pregel for å utføre grafberegning på tvers av mange maskiner parallelt.
- Se virkelige big data-problemer når det gjelder grafer, prosesser og traverseringer.
Apache Spark MLlib
35 timerMLlib er Sparks maskinlæringsbibliotek. Målet er å gjøre praktisk maskinlæring skalerbar og enkel. Den består av vanlige læringsalgoritmer og verktøy, inkludert klassifisering, regresjon, klynger, samarbeidende filtrering, dimensjonalitetsreduksjon, samt primitiver på lavere nivå og optimaliseringsgrensesnitt på rørledningen.
Den deler seg i to pakker:
spark.mllib inneholder den originale API-en som er bygget på toppen av RDD-er.
spark.ml gir API på høyere nivå bygget oppå DataFrames for konstruksjon av ML-rørledninger.
Publikum
Dette kurset er rettet mot ingeniører og utviklere som søker å bruke et innebygd maskinbibliotek for Apache Spark
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 timerDette kurset er ment for utviklere og dataforskere som ønsker å forstå og implementere kunstig intelligens i sine applikasjoner. Spesielt fokus er på dataanalyse, distribuert kunstig intelligens og naturlig språkbehandling.
Big Data Business Intelligence for Telecom and Communication Service Providers
35 timerOversikt
Communications tjenesteleverandører (CSP) står overfor press for å redusere kostnader og maksimere gjennomsnittlig inntekt per bruker (ARPU), samtidig som de sikrer en utmerket kundeopplevelse, men datavolumene fortsetter å vokse. Globalt mobildatatrafikk vil vokse ved en kombineret årlig vekstrate (CAGR) på 78 prosent i 2016, opp til 10,8 exabytes per måned.
I mellomtiden genererer CSPs store volumer av data, inkludert call detail records (CDR), nettverksdata og kundedata. Selskaper som fullstendig utnytter disse dataene får en konkurransedyktig edge. Ifølge en nylig undersøkelse av The Economist Intelligence Unit, nyter selskaper som bruker data-drevet beslutningstaking en 5-6% økning i produktivitet. Likevel bruker 53% av selskapene bare halvparten av sine verdifulle data, og en fjerdedel av respondentene noterte at enorme mengder nyttige data går uoppnådd. Datavolumene er så høye at manuell analyse er umulig, og de fleste legacy programvare systemer kan’t holde opp, noe som resulterer i verdifulle data blir bortskaffet eller ignorert.
Med Big Data & Analytics’ høyhastighets, skalerbare big data programvare, kan CSPs gruve alle dataene sine for bedre beslutningstaking i mindre tid. Forskjellige Big Data produkter og teknikker gir en end-to-end programvare plattform for å samle inn, forberede, analysere og presentere innsikt fra store data. Anvendelsesområder inkluderer nettverksprestasjonskontroll, svindeldeteksjon, kundekrondeteksjon og kredittrisikoanalyse. Big Data & Analytics produkter skala for å håndtere terabytes av data, men implementering av slike verktøy krever ny type cloud-basert databasesystem som Hadoop eller massiv skala parallell databehandler (KPU etc.)
Dette kurset arbeider på Big Data BI for Telco dekker alle de nye nye områdene der CSP investerer for produktivitet og åpner opp nye virksomhetsinntektsstrømmer. Kurset vil gi en komplett 360-graders oversikt over Big Data BI i Telco slik at beslutningstakere og ledere kan ha en svært bred og omfattende oversikt over mulighetene for Big Data BI i Telco for produktivitet og inntekt.
Kursets mål
Hovedformålet med kurset er å introdusere nye Big Data forretningsintelligence teknikker i 4 sektorer av Telecom Business (Marketing/Sales, Network Operation, Financial Operation og Customer Relation Management). Studentene vil bli introdusert til å følge:
- Introduksjon til Big Data-hva er 4Vs (volum, hastighet, variasjon og sannhet) i Big Data- Generasjon, ekstraksjon og ledelse fra Telco perspektiv
- Hvordan Big Data analytiker skiller seg fra arvdata analytiker
- In-house begrunnelse av Big Data -Telco perspektiv
- Introduksjon til Hadoop Ecosystem- kjent med alle Hadoop verktøy som Hive, Pig, SPARC – når og hvordan de brukes til å løse Big Data problem
- Hvordan Big Data er utvunnet til analyse for analyse verktøy-hvor Business Analysis’s kan redusere deres smertepunkter av innsamling og analyse av data gjennom integrert Hadoop dashboard tilnærming
- Basisk introduksjon av Insight-analyse, visualisering-analyse og forutsigbar analyse for Telco
- Customer Churn analytics og Big Data-how Big Data analytics kan redusere kundens churn og kundetilfredshet i Telco-casestudier
- Nettverksfeil og servicefeil analyser fra nettverksmetadata og IPDR
- Finansiell analyse - svindel, vasking og ROI-oppskatting fra salgs- og driftsdata
- Kunder oppkjøp problem-Target markedsføring, kundesegmentering og cross-sales fra salgsdata
- Introduksjon og sammendrag av alle Big Data analytiske produkter og hvor de passer inn i Telco analytisk plass
- Konklusjon - hvordan å ta steg for steg tilnærming til å introdusere Big Data Business Intelligence i organisasjonen din
Target publikum
- Nettverksoperasjoner, finansielle ledere, CRM-ledere og topp IT-ledere i Telco CIO-kontoret.
- Business Analytikere i Telco
- CFO kontor ledere/analytikere
- Operasjonelle ledere
- QA ledere
Data Science for Big Data Analytics
35 timerBig data er datasett som er så omfangsrike og komplekse at tradisjonell databehandlingsapplikasjonsprogramvare er utilstrekkelig til å håndtere dem. Store datautfordringer inkluderer innhenting av data, datalagring, dataanalyse, søk, deling, overføring, visualisering, spørring, oppdatering og informasjon om personvern.
Data Science: Analysis and Presentation
7 timerWolfram Systemets integrerte miljø gjør det til et effektivt verktøy for både å analysere og presentere data. Dette kurset dekker aspekter ved Wolfram Språket som er relevant for analyser, inkludert statistisk beregning, visualisering, dataimport og -eksport og automatisk generering av rapporter.
Data Science Programme
245 timerEksplosjonen av informasjon og data i dagens verden er uten sidestykke, vår evne til å innovere og flytte grensene for det mulige vokser raskere enn den noen gang har gjort. Rollen som Data Scientist er en av de høyest etterspurte ferdighetene i bransjen i dag.
Vi tilbyr mye mer enn å lære gjennom teori; vi leverer praktiske, salgbare ferdigheter som bygger bro mellom akademia og industriens krav.
Denne 7 ukers læreplanen kan skreddersys til dine spesifikke bransjekrav, vennligst kontakt oss for mer informasjon eller besøk Nobleprog Institutes nettsted
Publikum:
Dette programmet er rettet mot kandidater på postnivå så vel som alle med de nødvendige forutsetningene som vil bli bestemt av en vurdering og intervju.
Leveranse:
Levering av kurset vil være en blanding av Instructor Led Classroom og Instructor Led Online; typisk vil den første uken være 'klasseromsledet', uke 2 - 6 'virtuelt klasserom' og uke 7 tilbake til 'klasseromsledet'.
MATLAB Fundamentals, Data Science & Report Generation
35 timerI den første delen av denne opplæringen dekker vi det grunnleggende om MATLAB og dets funksjon som både et språk og en plattform. Inkludert i denne diskusjonen er en introduksjon til MATLAB syntaks, matriser og matriser, datavisualisering, skriptutvikling og objektorienterte prinsipper.
I den andre delen demonstrerer vi hvordan du bruker MATLAB til datautvinning, maskinlæring og prediktiv analyse. For å gi deltakerne et klart og praktisk perspektiv på MATLABs tilnærming og makt, trekker vi sammenligninger mellom bruk av MATLAB og andre verktøy som regneark, C, C++ og Visual Basic.
I den tredje delen av opplæringen lærer deltakerne hvordan de kan effektivisere arbeidet sitt ved å automatisere databehandlingen og rapportgenereringen.
Gjennom hele kurset vil deltakerne implementere ideene som er lært gjennom praktiske øvelser i et laboratoriemiljø. Ved slutten av opplæringen vil deltakerne ha en grundig forståelse av MATLAB sine evner og vil kunne bruke den til å løse datavitenskapelige problemer i den virkelige verden samt for å effektivisere arbeidet gjennom automatisering.
Det vil bli gjennomført vurderinger gjennom hele kurset for å måle fremgang.
Kursets format
- Kurset inkluderer teoretiske og praktiske øvelser, inkludert casediskusjoner, prøvekodeinspeksjon og praktisk implementering.
Merk
- Øvingsøktene vil være basert på forhåndsarrangerte rapportmaler for eksempeldata. Hvis du har spesifikke krav, vennligst kontakt oss for å avtale.
Jupyter for Data Science Teams
7 timerJupyter er et åpen kildekode, nettbasert interaktiv IDE og databehandlingsmiljø.
Denne instruktørledede, live-opplæringen (online eller på stedet) introduserer ideen om samarbeidsutvikling innen datavitenskap og demonstrerer hvordan du bruker Jupyter til å spore og delta som et team i "livssyklusen til en beregningside". Den leder deltakerne gjennom opprettelsen av et eksempeldatavitenskapelig prosjekt basert på toppen av Jupyter-økosystemet.
Ved slutten av denne opplæringen vil deltakerne kunne:
- Installer og konfigurer Jupyter, inkludert oppretting og integrasjon av et teamlager på Git.
- Bruk Jupyter-funksjoner som utvidelser, interaktive widgets, flerbrukermodus og mer for å aktivere prosjektsamarbeid.
- Lag, del og organiser Jupyter Notebooks med teammedlemmer.
- Velg mellom Scala, Python, R, for å skrive og kjøre kode mot store datasystemer som Apache Spark, alt gjennom Jupyter-grensesnittet.
Kursets format
- Interaktivt foredrag og diskusjon.
- Mye øvelser og trening.
- Praktisk implementering i et live-lab-miljø.
Alternativer for kurstilpasning
- Jupyter Notebook støtter over 40 språk, inkludert R, Python, Scala, Julia, osv. For å tilpasse dette kurset til ditt(e) språk, vennligst kontakt oss for å avtale.
F# for Data Science
21 timerDatavitenskap er anvendelsen av statistisk analyse, maskinlæring, datavisualisering og programmering med det formål å forstå og tolke virkelige data. F# er et velegnet programmeringsspråk for datavitenskap da det kombinerer effektiv utførelse, REPL-skripting, kraftige biblioteker og skalerbar dataintegrasjon.
I denne instruktørledede, live-opplæringen vil deltakerne lære å bruke F# til å løse en rekke datavitenskapelige problemer i den virkelige verden.
Ved slutten av denne opplæringen vil deltakerne kunne:
- Bruk F#s integrerte datavitenskapspakker Bruk F# til å samhandle med andre språk og plattformer, inkludert Excel, R, Matlab og Python Bruk Deedle-pakken til å løse tidsserieproblemer Utfør avansert analyse med minimale linjer med produksjonskvalitetskode Forstå hvordan funksjonell programmering passer naturlig for vitenskapelige og store databeregninger Få tilgang til og visualiser data med F# Bruk F# for maskinlæring
Utforsk løsninger for problemer innen domener som business intelligence og sosialt spill
Publikum
- Utviklere Dataforskere
Format på kurset
- Del forelesning, del diskusjon, øvelser og tung praktisk praksis