Hjem
Big Data Treningskurs
Data Science for Big Data Analytics Treningskurs

Data Science for Big Data Analytics Treningskurs

Big data er datasett som er så omfangsrike og komplekse at tradisjonell databehandlingsapplikasjonsprogramvare er utilstrekkelig til å håndtere dem. Store datautfordringer inkluderer innhenting av data, datalagring, dataanalyse, søk, deling, overføring, visualisering, spørring, oppdatering og informasjon om personvern.

Takk for at du sendte din henvendelse! En av våre teammedlemmer vil kontakte deg straks.

Takk for at du sendte din bestilling! En av våre teammedlemmer vil kontakte deg straks.

Kursplan

Introduksjon til datavitenskap for stor datanalyse

Oversikt over datavitenskap
Oversikt over stor data
Datastrukturer
Drivere og kompleksiteter ved stor data
Stor dataøkosystem og en ny tilnærming til analyse
Nøkkelteknologier i stor data
Data mining prosess og problemer
- Mønstergenkjennelse gjennom assosiasjon
- Data klustring
- Avviksdeteksjon
- Data klassifisering

Introduksjon til datanalyse livssyklus

Oppdagelse
Datapreparering
Modellplanlegging
Modellbygging
Presentasjon/Kommunikasjon av resultater
Operasjonalisering
Øvelse: Case studie

Fra dette punktet vil mesteparten av trenings tiden (80%) bli brukt på eksempler og øvelser i R og relatert stor data teknologi.

Komme i gang med R

Installering av R og Rstudio
Egenskaper ved R-språket
Objekter i R
Data i R
Datamanipulasjon
Problemer med stor data
Øvelser

Komme i gang med Hadoop

Installering av Hadoop
Forståelse av Hadoop modus
HDFS
MapReduce arkitektur
Oversikt over Hadoop-relaterte prosjekter
Skriving av programmer i Hadoop MapReduce
Øvelser

Integrering av R og Hadoop med RHadoop

Komponenter i RHadoop
Installering av RHadoop og kobling med Hadoop
Arkitekturen i RHadoop
Hadoop streaming med R
Løsning av dataanalyse problemer med RHadoop
Øvelser

Forbehandling og forberedelse av data

Dataprepareringstrinn
Egenskapsuttrekning
Datarydding
Data integrasjon og transformasjon
Datareduksjon – prøvetaking, egenskapsvalg
Redusering av dimensjonalitet
Diskretisering og binning
Øvelser og case studie

Metoder for utforskende data analyse i R

Beskrivende statistikk
Utforskende data analyse
Visualisering – foreløpige trinn
Visualisering av enkelt variabel
Eksamen av flere variabler
Statistiske metoder for vurdering
Hypotese testing
Øvelser og case studie

Data visualiseringer

Grundleggende visualiseringer i R
Pakker for data visualisering ggplot2, lattice, plotly, lattice
Formatering av plott i R
Avanserte grafer
Øvelser

Regresjon (Estimering av fremtidige verdier)

Lineær regresjon
Brukstilfeller
Modellbeskrivelse
Diagnostikk
Problemer med lineær regresjon
Reduseringsmetoder, ridge regresjon, the lasso
Generaliseringer og ikke-linearitet
Regresjon splines
Lokal polynom regresjon
Generaliserte additiver modeller
Regresjon med RHadoop
Øvelser og case studie

Klassifisering

Klassifiseringsrelaterte problemer
Bayesiansk oppfriskning
Naïve Bayes
Logistisk regresjon
K-nærmeste naboer
Beslutningstrær algoritme
Neurale nettverk
Support vector machines
Diagnostikk av klassifikatorer
Sammenligning av klassifiseringsmetoder
Skalerbare klassifiseringsalgoritmer
Øvelser og case studie

Vurdering av modellytelse og valg

Forskyvning, varians og modellkompleksitet
Nøyaktighet vs. tolkelighet
Vurdering av klassifikatorer
Målestokker for modell/algoritmeytelse
Hold-out metoden for validering
Korsvalidering
Justering av maskinlæringsalgoritmer med caret pakken
Visualisering av modellytelse med Profit ROC og Lift kurver

Ensemble Metoder

Bagging
Tilfeldige skoger
Boosting
Gradient boosting
Øvelser og case studie

Support vector machines for klassifisering og regresjon

Maximal Margin klassifikatorer
- Support vector klassifikatorer
- Support vector machines
- SVM’s for klassifiseringsproblemer
- SVM’s for regresjonsproblemer
Øvelser og case studie

Identifisering av ukjente grupperinger i en datasett

Egenskapsvalg for klustring
Representativbaserte algoritmer: k-means, k-medoids
Hierarkiske algoritmer: aggregerende og divisive metoder
Probabilistiske baserte algoritmer: EM
Tetthetsbaserte algoritmer: DBSCAN, DENCLUE
Kluster validering
Avanserte klustringskonsepter
Klustring med RHadoop
Øvelser og case studie

Oppdagelse av forbindelser med Link Analyse

Link analyse konsepter
Målestokker for analyse av nettverk
Pagerank algoritmen
Hyperlink-Induced Topic Search
Link Prediction
Øvelser og case studie

Assosiasjonsmønster mining

Frekvensmønster mining modell
Skalerbarhetsproblemer i frekvensmønster mining
Brute Force algoritmer
Apriori algoritme
FP-growth tilnærming
Vurdering av kandidatregler
Applikasjoner av assosiasjonsregler
Validering og testing
Diagnostikk
Assosiasjonsregler med R og Hadoop
Øvelser og case studie

Konstruksjon av anbefalingssystemer

Forståelse av anbefalingssystemer
Data mining teknikker brukt i anbefalingssystemer
Anbefalingssystemer med recommenderlab pakken
Vurdering av anbefalingssystemer
Anbefalinger med RHadoop
Øvelse: Bygging av anbefalingssystem

Tekst analyse

Tekstanalyse trinn
Innsamling av rå tekst
Bag of words
Term Frequency – Inverse Document Frequency
Bestemme sentiment
Øvelser og case studie

35 Timer

Antall deltakere

(Online)

Klasserom

Velg sted

Vennligst velg et sted

Pris per deltaker

Åpne kurs krever 5+ deltakere.

Data Science for Big Data Analytics Treningskurs - Bestilling

Fullt navn *

E-post *

Telefon *

Stillingstittel

Bedriftsnavn

Adresse 1 *

By *

Fylke / Provinse

Land *

Postnummer *

Startdato

Merverdiavgiftsnr

Datoer er underlagt tilgjengelighet og finner sted mellom 09:30 og 16:30.

Betaling *

Bankoverføring (Faktura, PO)

Debit / Kreditkort

Kommentarer

Vilkår og Betingelser *

Jeg er en autorisert representant for kunden ovenfor og ønsker å bestille de ovennevnte kursene eller tjenestene i henhold til NobleProgs vilkår og betingelser og personvernerklæring.

Informér meg om rabatter og markedsføring

Vennligst les vår Personvernerklæring for å se hvordan vi bruker dine data.

Data Science for Big Data Analytics Treningskurs - Forespørsel

Fullt navn *

E-post *

Telefon *

Antall deltakere

Bedriftsnavn

Bedriftsadresse

Hvordan vil du ta kurset?

Kundebygninger

Nettbasert

Klasserom

Kommentarer

Informér meg om rabatter og markedsføring

Vennligst les vår Personvernerklæring for å se hvordan vi bruker dine data.

Data Science for Big Data Analytics - Konsulentforespørsel

Fullt navn *

Telefon *

E-post *

Bedriftsnavn

Konsulentemne *

Konsulentmål

Hvem vil konsulenten jobbe med?

Konsulentnødvendighet *

Kommentarer

Informér meg om rabatter og markedsføring

Vennligst les vår Personvernerklæring for å se hvordan vi bruker dine data.

Referanser (2)

Intensitet, treningsmaterialer og ekspertise, Tydelighet, Utmerket kommunikasjon med Alessandra

Marija Hornis Dmitrovic - Marija Hornis

Kurs - Data Science for Big Data Analytics

Maskinoversatt

The example and training material were sufficient and made it easy to understand what you are doing.

Teboho Makenete

Kurs - Data Science for Big Data Analytics

Maskinoversatt

Kommende kurs

Data Science for Big Data Analytics

2026-06-30 09:30

35 timer

Oslo

8750 EUR (Nettbasert)

9750 EUR (Klasserom)

Data Science for Big Data Analytics

2026-07-14 09:30

35 timer

Oslo

8750 EUR (Nettbasert)

9750 EUR (Klasserom)

Data Science for Big Data Analytics

2026-07-28 09:30

35 timer

Oslo

8750 EUR (Nettbasert)

9750 EUR (Klasserom)

Relaterte kurs

Anaconda Økosystem for dataforsker

14 Timer

Denne instruktørledede, direkteopplæringen i Norge (online eller på stedet) er rettet mot dataforskere som ønsker å bruke Anaconda-økosystemet til å fange opp, administrere og distribuere pakker og dataanalysearbeidsflyter på én enkelt plattform.

Ved slutten av denne opplæringen vil deltakerne kunne:

Installer og konfigurer Anaconda komponenter og biblioteker.
Forstå kjernekonseptene, funksjonene og fordelene ved Anaconda.
Administrer pakker, miljøer og kanaler ved hjelp av Anaconda Navigator.
Bruk Conda-, R- og Python-pakker for datavitenskap og maskinlæring.
Bli kjent med noen praktiske brukstilfeller og teknikker for å administrere flere datamiljøer.

Les mer...

Administratoropplæring for Apache Hadoop

35 Timer

Målgruppe:

Kurset er ment for IT-spesialister som ser etter en løsning for å lagre og behandle store datasett i en distribusjonssystemmiljø.

Goal:

Dypt kunnskap om Hadoop klusteradministrasjon.

Les mer...

Big Data Analytics i Helsenæringen

21 Timer

Big data analytics innebærer prosessen med å undersøke store mengder varierende datasett for å oppdage sammenhenger, skjulte mønstre og andre nyttige innsikter.

Helsenæringen har enorme mengder kompleks og heterogene medisinske og kliniske data. Ved å bruke big data analytics på helsedata, finnes det stort potensial for å utlede innsikter som kan forbedre leveringen av helseomsorgen. Imidlertid stiller størrelsen på disse datasettene store utfordringer i analyser og praktiske anvendelser i en klinisk miljø.

I denne instruktørledede, live-treningen (fjernta), vil deltakerne lære hvordan de kan utføre big data analytics i helsenæringen gjennom en rekke praksisøvelser i live-lab.

Avslutning på denne treningen vil deltakerne kunne:

Installere og konfigurere big data analyseverktøy som Hadoop MapReduce og Spark
Få en forståelse for egenskapene til medisinske data
Bruke big data teknikker for å håndtere medisinske data
Studere big data systemer og algoritmer i sammenhengen med helseanvendelser

Målgruppe

Utviklere
Datavitenskapsfolk

Kursformat

Del foredrag, del diskusjon, øvelser og mye praksis.

Merk

For å be om en tilpasset trening for dette kurset, vennligst kontakt oss for å ordne det.

Les mer...

Hadoop for administratorer

21 Timer

Apache Hadoop er det mest populære rammeverket for behandling på klustre av servere. I dette tre (valgfritt, fire) dagers kurs vil deltakerne lære om de forretningsmessige fordeler og bruksområdene for Hadoop og dets økosystem, hvordan man planlegger klusterutplassering og vekst, hvordan man installerer, vedlikeholder, overvåker, feilsøker og optimaliserer Hadoop. De vil også øve på klusterbulkdataopplasting, bli kjent med ulike Hadoop-distribusjoner og øve på installasjon og administrasjon av Hadoop-økosystemverktøy. Kurset avsluttes med en diskusjon om å sikre kluster med Kerberos.

“…Materialene var svært godt forberedt og dekket grundig. Laboratoriene var svært nyttige og godt organisert”— Andrew Nguyen, Principal Integration DW Engineer, Microsoft Online Advertising

Målgruppe

Hadoop-administratorer

Format

Forelesninger og praktiske laboratorier, omtrentlig balanse 60% forelesninger, 40% laboratorier.

Les mer...

Hadoop for Developers (4 dager)

28 Timer

Apache Hadoop er den mest populære rammen for å behandle Big Data på serverkluster. Denne kursen vil introdusere en utvikler til ulike komponenter (HDFS, MapReduce, Pig, Hive og HBase) i Hadopen økosystemet.

Les mer...

Avansert Hadoop for utviklere

21 Timer

Apache Hadoop er en av de mest populære rammenettene for å behandle stordata på serverklustre. Dette kurset dykker dyp ned i datalagring i HDFS, avansert Pig, Hive og HBase. Disse avanserte programmeringsteknikkene vil være til nytte for utviklere med erfaring i Hadoop.

Målgruppe: utviklere

Varighet: tre dager

Format: forelesninger (50%) og praktiske øvelser (50%).

Les mer...

Hadoop Administration på MapR

28 Timer

Målgruppe:

Dette kurset er ment å gjøre big data/Hadoop-teknologi mindre mystisk og vise at det ikke er vanskelig å forstå.

Les mer...

Hadoop og Spark for Administratører

35 Timer

Denne instruktørledede, direkteopplæringen i Norge (online eller på stedet) er rettet mot systemadministratorer som ønsker å lære hvordan de konfigurerer, distribuerer og administrerer Hadoop klynger i organisasjonen deres.

Ved slutten av denne opplæringen vil deltakerne kunne:

Installer og konfigurer Apache Hadoop.
Forstå de fire hovedkomponentene i Hadoop-økosystemet: HDFS, MapReduce, YARN og Hadoop Common.
Bruk Hadoop Distributed File System (HDFS) for å skalere en klynge til hundrevis eller tusenvis av noder.
Konfigurer HDFS for å fungere som lagringsmotor for Spark-distribusjoner på stedet.
Sett opp Spark for å få tilgang til alternative lagringsløsninger som Amazon S3 og NoSQL databasesystemer som Redis, Elasticsearch, Couchbase, Aerospike, etc.
Utfør administrative oppgaver som klargjøring, administrasjon, overvåking og sikring av en Apache Hadoop-klynge.

Les mer...

HBase for Developers

21 Timer

Denne kursen introduserer HBase – en NoSQL-lagring på toppen av Hadoop. Kursen er ment for utviklere som vil bruke HBase til å utvikle applikasjoner, og for administratorer som vil administrere HBase-kluster.

Vi vil veilede en utvikler gjennom HBase-arkitekturen og data-modellering og applikasjonsutvikling på HBase. Den vil også diskutere bruk av MapReduce med HBase, og noen administrative emner knyttet til ytelsesoptimalisering. Kurset er svært praktisk med mange labøvelser.

Varighet: 3 dager

Målgruppe: Utviklere & Administratører

Les mer...

Kaggle

14 Timer

Denne instruktørledede, liveopplæringen i Norge (online eller på stedet) er rettet mot datavitere og utviklere som ønsker å lære og bygge karrierer i Data Science ved hjelp av Kaggle.

Ved slutten av denne opplæringen vil deltakerne kunne:

Lær om datavitenskap og maskinlæring.
Utforsk dataanalyse.
Lær om Kaggle og hvordan det fungerer.

Les mer...

Accelerating Python Pandas Workflows with Modin

14 Timer

Denne instruktørledede, live-opplæringen i Norge (online eller på stedet) er rettet mot dataforskere og utviklere som ønsker å bruke Modin til å bygge og implementere parallelle beregninger med Pandas for raskere dataanalyse.

Ved slutten av denne opplæringen vil deltakerne kunne:

Sett opp det nødvendige miljøet for å begynne å utvikle Pandas arbeidsflyter i skala med Modin.
Forstå funksjonene, arkitekturen og fordelene ved Modin.
Kjenn forskjellene mellom Modin, Dask og Ray.
Utfør Pandas operasjoner raskere med Modin.
Implementer hele Pandas API og funksjoner.

Les mer...

PySpark og Maskinlæring

21 Timer

Denne opplæringen gir en praktisk innføring i å bygge skalerbare databehandlings- og maskinlæringsarbeidsflyter ved hjelp av PySpark. Deltakerne lærer hvordan Apache Spark fungerer i moderne Big Data-ekosystemer, og hvordan man effektivt behandler store datasett ved hjelp av prinsippene for distribuert datateknikk.

Les mer...

GPU Data Science med NVIDIA RAPIDS

14 Timer

Denne instruktørledede, live treningen (online eller på stedet) er rettet mot datavitere og utviklere som ønsker å bruke RAPIDS for å bygge GPU-akselerte datapipeliner, arbeidsflyter og visualiseringer, ved å bruke maskinlæringsalgoritmer, slik som XGBoost, cuML, etc.

Ved slutten av denne treningen vil deltakerne være i stand til å:

Opprette den nødvendige utviklingsmiljøet for å bygge datamodeller med NVIDIA RAPIDS.
Forstå funksjonene, komponentene og fordelene ved RAPIDS.
Utnytt GPU til å akselerere ende-til-ende data- og analytiske pipeliner.
Implementere GPU-akselert datapreparering og ETL med cuDF og Apache Arrow.
Lære å utføre maskinlæringsoppgaver med XGBoost- og cuML-algoritmer.
Bygge data-visualiseringer og utføre grafanalyse med cuXfilter og cuGraph.

Les mer...

Python og Spark for Big Data (PySpark)

21 Timer

I denne instruktørledede, live-treningen i Norge vil deltakerne lære å bruke Python og Spark sammen for å analysere store data mens de jobber med praktiske øvelser.

Ved slutten av denne opplæringen vil deltakerne kunne:

Lær hvordan du bruker Spark med Python for å analysere Big Data.
Arbeid med øvelser som etterligner virkelige tilfeller.
Bruk forskjellige verktøy og teknikker for stordataanalyse ved hjelp av PySpark.

Les mer...

Stratio: Rocket og Intelligence-moduler med PySpark

14 Timer

Stratio er en data-sentrert plattform som integrerer store data, kunstig intelligens og styring i én løsning. Dets Rocket- og Intelligence-moduler gjør det mulig å utforske, transformere og analysere data raskt i virksomhetsmiljøer.

Denne veiledede, live-treningen (online eller på stedet) er rettet mot mellomnivås dataprofessionelle som ønsker å bruke Rocket- og Intelligence-modulene i Stratio effektivt med PySpark, med fokus på løkkestrukturer, brukerdefinerte funksjoner og avansert data-logikk.

Ved slutten av denne treningen vil deltakerne kunne:

Navigere og jobbe i Stratio-plattformen ved hjelp av Rocket- og Intelligence-modulene.
Bruke PySpark i sammenheng med datainnlesing, -transformasjon og -analyse.
Bruke løkker og betinget logikk for å kontrollere data-arbeidsflyt og uttrekk av egenskaper.
Opprette og administrere brukerdefinerte funksjoner (UDFs) for gjenbrukbare dataoperasjoner i PySpark.

Kursformat

Interaktiv foredrag og diskusjon.
Masse øvelser og praksis.
Praktisk implementering i et live-lab-miljø.

Kurstilpasningsoptions

For å forespørre en tilpasset trening for dette kurset, vennligst kontakt oss for å ordne det.

Les mer...

Data Science for Big Data Analytics Treningskurs

Kursplan

Introduksjon til datavitenskap for stor datanalyse

Introduksjon til datanalyse livssyklus

Fra dette punktet vil mesteparten av trenings tiden (80%) bli brukt på eksempler og øvelser i R og relatert stor data teknologi.

Komme i gang med R

Komme i gang med Hadoop

Integrering av R og Hadoop med RHadoop

Forbehandling og forberedelse av data

Metoder for utforskende data analyse i R

Data visualiseringer

Regresjon (Estimering av fremtidige verdier)

Klassifisering

Vurdering av modellytelse og valg

Ensemble Metoder

Support vector machines for klassifisering og regresjon

Identifisering av ukjente grupperinger i en datasett

Oppdagelse av forbindelser med Link Analyse

Assosiasjonsmønster mining

Konstruksjon av anbefalingssystemer

Tekst analyse

Referanser (2)

Marija Hornis Dmitrovic - Marija Hornis

Kurs - Data Science for Big Data Analytics

Teboho Makenete

Kurs - Data Science for Big Data Analytics

Kommende kurs

Data Science for Big Data Analytics

Data Science for Big Data Analytics

Data Science for Big Data Analytics

Relaterte kategorier

Denne siden i andre land/regioner

Europe

Asia Pacific

North America

South America

Africa / Middle East

Other sites