SMACK-stakken for data science Treningskurs
SMACK er en samling av dataplattformssprogramvare, nemlig Apache Spark, Apache Mesos, Apache Akka, Apache Cassandra og Apache Kafka. Ved å bruke SMACK-stakken kan brukere opprette og skaler datahåndteringstjenester.
Dette instruktørførte, live-kurs (online eller på stedet) er rettet mot datavitenskapsfolk som ønsker å bruke SMACK-stakken til å bygge datahåndteringstjenester for store dataløsninger.
Til slutt av dette kurs, vil deltakerne kunne:
- Implementere en datapipelinearkitektur for behandling av store data.
- Utvikle en klusterinfrastruktur med Apache Mesos og Docker.
- Analysere data med Spark og Scala.
- Hantere ustrukturerte data med Apache Cassandra.
Kursformat
- Interaktiv foredrag og diskusjon.
- Mange øvelser og praksisoppgaver.
- Hånd-onn implementering i et live-lab-miljø.
Kursanpassingsmuligheter
- For å anbefale et tilpasset kurs for dette emnet, vennligst kontakt oss for å arrangere.
Kursplan
Introduksjon
Oversikt over SMACK-stakken
- Hva er Apache Spark? Apache Spark-funksjoner
- Hva er Apache Mesos? Apache Mesos-funksjoner
- Hva er Apache Akka? Apache Akka-funksjoner
- Hva er Apache Cassandra? Apache Cassandra-funksjoner
- Hva er Apache Kafka? Apache Kafka-funksjoner
Scala-programmeringsspråk
- Scala-syntaks og struktur
- Scala-kontrollflyt
Forberedelse av utviklingsmiljøet
- Installasjon og konfigurasjon av SMACK-stakken
- Installasjon og konfigurasjon av Docker
Apache Akka
- Bruke aktører
Apache Cassandra
- Opprette en database for leseoperasjoner
- Arbeide med sikkerhetskopi og gjenoppretting
Kobleprogrammer
- Opprette en strøm
- Bygge et Akka-program
- Lagre data med Cassandra
- Gjennomgang av kobleprogrammer
Apache Kafka
- Arbeide med kluster
- Opprette, publisere og konsumere meldinger
Apache Mesos
- Allokere ressurser
- Kjøre kluster
- Arbeide med Apache Aurora og Docker
- Kjøre tjenester og jobber
- Distrere Spark, Cassandra og Kafka på Mesos
Apache Spark
- Hantere datastrømmer
- Arbeide med RDDs og dataframes
- Utføre dataanalyse
Feilsøking
- Håndtere feil i tjenester og feil
Sammenfattning og konklusjon
Krav
- Forståelse av dataprogramvaresystemer
Målgruppe
- Datavitenskapsfolk
Åpne kurs krever 5+ deltakere.
SMACK-stakken for data science Treningskurs - Bestilling
SMACK-stakken for data science Treningskurs - Forespørsel
SMACK-stakken for data science - Konsulentforespørsel
Konsulentforespørsel
Referanser (1)
very interactive...
Richard Langford
Kurs - SMACK Stack for Data Science
Kommende kurs
Relaterte kurs
Anaconda Økosystem for dataforsker
14 timerDenne instruktørledede, direkteopplæringen i Norge (online eller på stedet) er rettet mot dataforskere som ønsker å bruke Anaconda-økosystemet til å fange opp, administrere og distribuere pakker og dataanalysearbeidsflyter på én enkelt plattform.
Ved slutten av denne opplæringen vil deltakerne kunne:
- Installer og konfigurer Anaconda komponenter og biblioteker.
- Forstå kjernekonseptene, funksjonene og fordelene ved Anaconda.
- Administrer pakker, miljøer og kanaler ved hjelp av Anaconda Navigator.
- Bruk Conda-, R- og Python-pakker for datavitenskap og maskinlæring.
- Bli kjent med noen praktiske brukstilfeller og teknikker for å administrere flere datamiljøer.
Big Data Business Intelligence for Telecom and Communication Service Providers
35 timerOversikt
Communications tjenesteleverandører (CSP) står overfor press for å redusere kostnader og maksimere gjennomsnittlig inntekt per bruker (ARPU), samtidig som de sikrer en utmerket kundeopplevelse, men datavolumene fortsetter å vokse. Globalt mobildatatrafikk vil vokse ved en kombineret årlig vekstrate (CAGR) på 78 prosent i 2016, opp til 10,8 exabytes per måned.
I mellomtiden genererer CSPs store volumer av data, inkludert call detail records (CDR), nettverksdata og kundedata. Selskaper som fullstendig utnytter disse dataene får en konkurransedyktig edge. Ifølge en nylig undersøkelse av The Economist Intelligence Unit, nyter selskaper som bruker data-drevet beslutningstaking en 5-6% økning i produktivitet. Likevel bruker 53% av selskapene bare halvparten av sine verdifulle data, og en fjerdedel av respondentene noterte at enorme mengder nyttige data går uoppnådd. Datavolumene er så høye at manuell analyse er umulig, og de fleste legacy programvare systemer kan’t holde opp, noe som resulterer i verdifulle data blir bortskaffet eller ignorert.
Med Big Data & Analytics’ høyhastighets, skalerbare big data programvare, kan CSPs gruve alle dataene sine for bedre beslutningstaking i mindre tid. Forskjellige Big Data produkter og teknikker gir en end-to-end programvare plattform for å samle inn, forberede, analysere og presentere innsikt fra store data. Anvendelsesområder inkluderer nettverksprestasjonskontroll, svindeldeteksjon, kundekrondeteksjon og kredittrisikoanalyse. Big Data & Analytics produkter skala for å håndtere terabytes av data, men implementering av slike verktøy krever ny type cloud-basert databasesystem som Hadoop eller massiv skala parallell databehandler (KPU etc.)
Dette kurset arbeider på Big Data BI for Telco dekker alle de nye nye områdene der CSP investerer for produktivitet og åpner opp nye virksomhetsinntektsstrømmer. Kurset vil gi en komplett 360-graders oversikt over Big Data BI i Telco slik at beslutningstakere og ledere kan ha en svært bred og omfattende oversikt over mulighetene for Big Data BI i Telco for produktivitet og inntekt.
Kursets mål
Hovedformålet med kurset er å introdusere nye Big Data forretningsintelligence teknikker i 4 sektorer av Telecom Business (Marketing/Sales, Network Operation, Financial Operation og Customer Relation Management). Studentene vil bli introdusert til å følge:
- Introduksjon til Big Data-hva er 4Vs (volum, hastighet, variasjon og sannhet) i Big Data- Generasjon, ekstraksjon og ledelse fra Telco perspektiv
- Hvordan Big Data analytiker skiller seg fra arvdata analytiker
- In-house begrunnelse av Big Data -Telco perspektiv
- Introduksjon til Hadoop Ecosystem- kjent med alle Hadoop verktøy som Hive, Pig, SPARC – når og hvordan de brukes til å løse Big Data problem
- Hvordan Big Data er utvunnet til analyse for analyse verktøy-hvor Business Analysis’s kan redusere deres smertepunkter av innsamling og analyse av data gjennom integrert Hadoop dashboard tilnærming
- Basisk introduksjon av Insight-analyse, visualisering-analyse og forutsigbar analyse for Telco
- Customer Churn analytics og Big Data-how Big Data analytics kan redusere kundens churn og kundetilfredshet i Telco-casestudier
- Nettverksfeil og servicefeil analyser fra nettverksmetadata og IPDR
- Finansiell analyse - svindel, vasking og ROI-oppskatting fra salgs- og driftsdata
- Kunder oppkjøp problem-Target markedsføring, kundesegmentering og cross-sales fra salgsdata
- Introduksjon og sammendrag av alle Big Data analytiske produkter og hvor de passer inn i Telco analytisk plass
- Konklusjon - hvordan å ta steg for steg tilnærming til å introdusere Big Data Business Intelligence i organisasjonen din
Target publikum
- Nettverksoperasjoner, finansielle ledere, CRM-ledere og topp IT-ledere i Telco CIO-kontoret.
- Business Analytikere i Telco
- CFO kontor ledere/analytikere
- Operasjonelle ledere
- QA ledere
En Praktisk Innføring i Data Science
35 timerDeltakere som fullfører denne opplæringen vil få en praktisk, virkelig forståelse av Data Science og dets relaterte teknologier, metodologier og verktøy.
Deltakere vil få muligheten til å sette denne kunnskapen i praksis gjennom hånds-on øvelser. Gruppeinteraksjoner og instruktørtilbakemelding utgjør en viktig del av kurset.
Kurset starter med en introduksjon til grunnleggende konsepter innen Data Science, og fortsetter deretter med verktøy og metodologier som brukes innen Data Science.
Målgruppe
- Utviklere
- Tekniske analytikere
- IT-konsulenter
Format for kurset
- Delen forelesning, delen diskusjon, øvelser og mye hånds-on praksis
Notis
- For å be om tilpasset opplæring for dette kurset, vennligst kontakt oss for å ordne.
Data Science Program
245 timerEksplosjonen av informasjon og data i dagens verden er uten sidestykke, vår evne til å innovere og flytte grensene for det mulige vokser raskere enn den noen gang har gjort. Rollen som Data Scientist er en av de høyest etterspurte ferdighetene i bransjen i dag.
Vi tilbyr mye mer enn å lære gjennom teori; vi leverer praktiske, salgbare ferdigheter som bygger bro mellom akademia og industriens krav.
Denne 7 ukers læreplanen kan skreddersys til dine spesifikke bransjekrav, vennligst kontakt oss for mer informasjon eller besøk Nobleprog Institutes nettsted
Publikum:
Dette programmet er rettet mot kandidater på postnivå så vel som alle med de nødvendige forutsetningene som vil bli bestemt av en vurdering og intervju.
Leveranse:
Levering av kurset vil være en blanding av Instructor Led Classroom og Instructor Led Online; typisk vil den første uken være 'klasseromsledet', uke 2 - 6 'virtuelt klasserom' og uke 7 tilbake til 'klasseromsledet'.
Data Science for Big Data Analytics
35 timerBig data er datasett som er så omfangsrike og komplekse at tradisjonell databehandlingsapplikasjonsprogramvare er utilstrekkelig til å håndtere dem. Store datautfordringer inkluderer innhenting av data, datalagring, dataanalyse, søk, deling, overføring, visualisering, spørring, oppdatering og informasjon om personvern.
Data Science essential for Marketing/Sales professionals
21 timerDenne kurset er ment for markedsførings- og salgsprofesjoneller som ønsker å dykkere dypere inn i anvendelsen av datascience i markedsføring/salg. Kurset gir detaljert dekning av ulike datascience-teknikker som brukes for "upsale", "cross-sale", markedssegmentering, merkevarebygging og CLV.
Forskjellen mellom markedsføring og salg - Hvordan er salg og markedsføring forskjellige?
I veldig enkle ord kan salg beskrives som en prosess som fokuserer eller retter seg mot individer eller små grupper. Markedsføring på sin side retter seg mot en større gruppe eller den generelle offentligheten. Markedsføring inkluderer forskning (identifisering av kundens behov), utvikling av produkter (produksjon av innovative produkter) og fremme av produktet (gjennom reklame) og skaper bevissthet om produktet blant forbrukerne. På denne måten betyr markedsføring å generere leads eller potensielle kunder. Når produktet er på markedet, er det oppgave til salgsansvarlig å overbevise kunden om å kjøpe produktet. Salg betyr å konvertere leads eller potensielle kunder til kjøp og ordrer, mens markedsføring er rettet mot lengre mål, handler salg om kortere mål.
Jupyter for Data Science Teams
7 timerDenne instruktørledede, live-trening på Norge (online eller på sted) introduserer ideen om samarbeidsutvikling innen datascience og demonstrerer hvordan man bruker Jupyter til å følge og delta som et team i "livssyklusen til en beregningside". Den leder deltakere gjennom opprettelsen av et eksempel på et datascience-prosjekt basert på Jupyter-økosystemet.
Ved slutten av denne treningen vil deltakerne kunne:
- Installere og konfigurere Jupyter, inkludert opprettelse og integrering av et team-repositorium på Git.
- Bruk Jupyter-funksjoner som utvidelser, interaktive widget og flerbruker-modus for å muliggjøre samarbeid på prosjekter.
- Opprette, dele og organisere Jupyter Notebooks med teammedlemmer.
- Velge mellom Scala, Python, R, for å skrive og kjøre kode mot store datasystemer som Apache Spark, alt gjennom Jupyter-grensesnittet.
Kaggle
14 timerDenne instruktørledede, liveopplæringen i Norge (online eller på stedet) er rettet mot datavitere og utviklere som ønsker å lære og bygge karrierer i Data Science ved hjelp av Kaggle.
Ved slutten av denne opplæringen vil deltakerne kunne:
- Lær om datavitenskap og maskinlæring.
- Utforsk dataanalyse.
- Lær om Kaggle og hvordan det fungerer.
MATLAB grunnleggende, datavitenskap & rapportgenerering
35 timerI den første delen av denne opplæringen dekker vi det grunnleggende om MATLAB og dets funksjon som både et språk og en plattform. Inkludert i denne diskusjonen er en introduksjon til MATLAB syntaks, matriser og matriser, datavisualisering, skriptutvikling og objektorienterte prinsipper.
I den andre delen demonstrerer vi hvordan du bruker MATLAB til datautvinning, maskinlæring og prediktiv analyse. For å gi deltakerne et klart og praktisk perspektiv på MATLABs tilnærming og makt, trekker vi sammenligninger mellom bruk av MATLAB og andre verktøy som regneark, C, C++ og Visual Basic.
I den tredje delen av opplæringen lærer deltakerne hvordan de kan effektivisere arbeidet sitt ved å automatisere databehandlingen og rapportgenereringen.
Gjennom hele kurset vil deltakerne implementere ideene som er lært gjennom praktiske øvelser i et laboratoriemiljø. Ved slutten av opplæringen vil deltakerne ha en grundig forståelse av MATLAB sine evner og vil kunne bruke den til å løse datavitenskapelige problemer i den virkelige verden samt for å effektivisere arbeidet gjennom automatisering.
Det vil bli gjennomført vurderinger gjennom hele kurset for å måle fremgang.
Kursets format
- Kurset inkluderer teoretiske og praktiske øvelser, inkludert casediskusjoner, prøvekodeinspeksjon og praktisk implementering.
Merk
- Øvingsøktene vil være basert på forhåndsarrangerte rapportmaler for eksempeldata. Hvis du har spesifikke krav, vennligst kontakt oss for å avtale.
Machine Learning for Data Science with Python
21 timerDenne instruktørledede, levende opplæring (online eller på stedet) er rettet mot mellomnivådataanalytikere, utviklere eller aspirerende dataforskere som ønsker å bruke maskinlæringsteknikker i Python for å trekke frem innsikt, gjøre prediksjoner og automatisere datastrømmet beslutninger.
Ved slutten av denne kurset vil deltakere være i stand til å:
- Forstå og skille mellom viktige maskinlæringsparadigmer.
- Utforske dataforberedelsesteknikker og modellevalueringsmetrikker.
- Bruke maskinlæringsalgoritmer til å løse reelle dataproblemer.
- Bruk Python biblioteker og Jupyter-notesbøker for praktisk utvikling.
- Bygg modeller for prediksjon, klassifisering, anbefaling og klustring.
Accelerating Python Pandas Workflows with Modin
14 timerDenne instruktørledede, live-opplæringen i Norge (online eller på stedet) er rettet mot dataforskere og utviklere som ønsker å bruke Modin til å bygge og implementere parallelle beregninger med Pandas for raskere dataanalyse.
Ved slutten av denne opplæringen vil deltakerne kunne:
- Sett opp det nødvendige miljøet for å begynne å utvikle Pandas arbeidsflyter i skala med Modin.
- Forstå funksjonene, arkitekturen og fordelene ved Modin.
- Kjenn forskjellene mellom Modin, Dask og Ray.
- Utfør Pandas operasjoner raskere med Modin.
- Implementer hele Pandas API og funksjoner.
Python-programmering for finans
35 timerPython er et programmeringsspråk som har vunnet stor popularitet i finansielle bransjen. Anvendt av de største investeringsbankene og hedgefondene, blir det brukt til å bygge en rekke finansielle applikasjoner, fra kjernehandelsprogrammer til risikostyringssystemer.
I dette instruktørførte, live-treningen vil deltakerne lære hvordan man bruker Python til å utvikle praktiske applikasjoner for å løse en rekke spesifikke finansielle problemer.
Etter denne treningen vil deltakerne kunne:
- Føre vell med grunnleggende prinsipper i Python-programmeringsspråket
- Last ned, installere og vedlikeholde beste utviklingsverktøy for å skape finansielle applikasjoner i Python
- Velge og bruke de mest egnete Python-pakker og programmeringsteknikker til å organisere, visualisere og analysere finansiell data fra ulike kilder (CSV, Excel, databaser, nettet osv.)
- Bygge applikasjoner som løser problemer relatert til eierskapsfordeling, risikanalyse, investeringsprestasjon og mer
- Felsøke, integrere, distribuere og optimalisere en Python-applikasjon
Målgruppe
- Utviklere
- Analytikere
- Kvantitativ analytikkere (Quants)
Kursformat
- Del forelesning, del diskusjon, øvelser og mye praktisk arbeid
Merk
- Dette treningen har til hensikt å gi løsninger for noen av de viktigste problemene finansprofesjonelle møter. Hvis du har et bestemt emne, verktøy eller teknikk som du ønsker å legge til eller utdype mer på, vennligst kontakt oss for å arrange.
GPU Data Science med NVIDIA RAPIDS
14 timerDenne instruktørledede, live treningen (online eller på stedet) er rettet mot datavitere og utviklere som ønsker å bruke RAPIDS for å bygge GPU-akselerte datapipeliner, arbeidsflyter og visualiseringer, ved å bruke maskinlæringsalgoritmer, slik som XGBoost, cuML, etc.
Ved slutten av denne treningen vil deltakerne være i stand til å:
- Opprette den nødvendige utviklingsmiljøet for å bygge datamodeller med NVIDIA RAPIDS.
- Forstå funksjonene, komponentene og fordelene ved RAPIDS.
- Utnytt GPU til å akselerere ende-til-ende data- og analytiske pipeliner.
- Implementere GPU-akselert datapreparering og ETL med cuDF og Apache Arrow.
- Lære å utføre maskinlæringsoppgaver med XGBoost- og cuML-algoritmer.
- Bygge data-visualiseringer og utføre grafanalyse med cuXfilter og cuGraph.
Python og Spark for Big Data (PySpark)
21 timerI denne instruktørledede, live-treningen i Norge vil deltakerne lære å bruke Python og Spark sammen for å analysere store data mens de jobber med praktiske øvelser.
Ved slutten av denne opplæringen vil deltakerne kunne:
- Lær hvordan du bruker Spark med Python for å analysere Big Data.
- Arbeid med øvelser som etterligner virkelige tilfeller.
- Bruk forskjellige verktøy og teknikker for stordataanalyse ved hjelp av PySpark.
Stratio: Rakett- og intelligensmoduler med PySpark
14 timerStratio er en datacentrisk plattform som integrerer big data, AI og governance i én løsning. Rocket- og Intelligence-modulene muliggjør rask datautforskning, transformasjon og avansert analyse i bedriftsmiljøer.
Denne instruktørledede, levende opplæringen (online eller på sted) er rettet mot mellomnivå-datafagpersonell som ønsker å bruke Rocket- og Intelligence-modulene i Stratio effektivt med PySpark, med fokus på løkker, brukerdefinerte funksjoner og avansert datalogikk.
Ved slutten av denne opplæringen vil deltakerne være i stand til:
- Navigere og arbeide innenfor Stratio-plattformen ved bruk av Rocket- og Intelligence-modulene.
- Bruke PySpark i forbindelse med datainnsamling, transformasjon og analyse.
- Bruke løkker og betinget logikk til å kontrollere dataflyter og oppgavearbeid for egenskapsutvinning.
- Opprette og administrere brukerdefinerte funksjoner (UDFs) for gjentatte dataoperasjoner i PySpark.
Kursformat
- Interaktiv forelesning og diskusjon.
- Mange øvelser og praksis.
- Håndson implementering i en levende labmiljø.
Tilpassingsalternativer for kurset
- For å bestille en tilpasset opplæring for dette kurset, kontakt oss for å avtale.
 
                     
                    