Kursplan
Introduksjon
- Introduksjon til skybaserte løsninger og Big Data
- Oversikt over Apache Hadoop funksjoner og arkitektur
Oppsetning av Hadoop
- Planlegging av en Hadoop-kluster (lokalt, skybasert, etc.)
- Valg av operativsystem og Hadoop-distribusjon
- Tilordning av ressurser (maskinvare, nettverk, etc.)
- Nedlasting og installering av programvare
- Dimensjonering av klusteret for fleksibilitet
Arbeid med HDFS
- Forståelse av Hadoop Distributed File System (HDFS)
- Oversikt over HDFS kommando referanse
- Tilgang til HDFS
- Utføre grunnleggende filoperasjoner på HDFS
- Bruk av S3 som komplement til HDFS
Oversikt over MapReduce
- Forståelse av dataflyt i MapReduce-rammeverket
- Map, Shuffle, Sort og Reduce
- Demo: Beregning av høyeste lønn
Arbeid med YARN
- Forståelse av ressurshåndtering i Hadoop
- Arbeid med ResourceManager, NodeManager og Application Master
- Planlegging av oppgaver under YARN
- Planlegging for et stort antall noder og kluster
- Demo: Oppgaveplanlegging
Integrering av Hadoop med Spark
- Oppsett av lagring for Spark (HDFS, Amazon, S3, NoSQL, etc.)
- Forståelse av Resilient Distributed Datasets (RDDs)
- Opprettelse av en RDD
- Implementering av RDD-transformasjoner
- Demo: Implementering av et tekst søkeprogram for filmtitler
Administrasjon av en Hadoop-kluster
- Overvåkning av Hadoop
- Sikring av en Hadoop-kluster
- Tilføyelse og fjerning av noder
- Kjøring av ytelsesbenchmark
- Tuning av en Hadoop-kluster for optimal ytelse
- Sikkerhetskopiering, gjenoppretting og planlegging for forretningskontinuitet
- Sikring av høy tilgjengelighet (HA)
Oppgradering og migrering av en Hadoop-kluster
- Vurdering av arbeidsbelastningskrav
- Oppgradering av Hadoop
- Flytting fra lokalt til skybasert og omvendt
- Gjenoppretting fra feil
Feilsøking
Oppsummering og konklusjon
Krav
- Erfaring med systemadministrasjon
- Erfaring med Linux kommando-linje
- En forståelse av big data-begreper
Målgruppe
- Systemadministratorer
- DBAs
Referanser (3)
Jeg likte at det var praktisk. Elsket å anvende den teoretiske kunnskapen med praktiske eksempler.
Aurelia-Adriana - Allianz Services Romania
Kurs - Python and Spark for Big Data (PySpark)
Maskinoversatt
Det er en fordel at vi kunne medføre mest av informasjonen/kursmaterialet/presentasjonene/øvingene med oss, slik at vi kan se gjennom dem og kanskje gjøre om det vi ikke forsto første gang eller forbedre det vi allerede har gjort.
Raul Mihail Rat - Accenture Industrial SS
Kurs - Python, Spark, and Hadoop for Big Data
Maskinoversatt
meget interaktiv...
Richard Langford
Kurs - SMACK Stack for Data Science
Maskinoversatt