Kursplan

1: HDFS (17%)

  • Beskriv funksjonen til HDFS Daemons
  • Beskriv normal drift av et Apache Hadoop-kluster, både for datalagring og databehandling.
  • Identifiser nåværende egenskaper ved beregningsystemer som motiverer et system som Apache Hadoop.
  • Klassifiser hovedmålene for HDFS-design
  • For en gitt scenarie, identifiser passende bruksscenarie for HDFS Federation
  • Identifiser komponentene og demonen i et HDFS HA-Quorum-kluster
  • Analysere rollen til HDFS-sikkerhet (Kerberos)
  • Bestem den beste datasekvensvalget for en gitt scenarie
  • Beskriv fillesings- og skriveveier
  • Identifiser kommandoene for å manipulere filer i Hadoop File System Shell

2: YARN og MapReduce versjon 2 (MRv2) (17%)

  • Forstå hvordan oppgradering av et kluster fra Hadoop 1 til Hadoop 2 påvirker klusterinnstillinger
  • Forstå hvordan du deployer MapReduce v2 (MRv2 / YARN), inkludert alle YARN-demoner
  • Forstå grunnleggende designstrategi for MapReduce v2 (MRv2)
  • Bestem hvordan YARN håndterer ressursallokeringer
  • Identifiser arbeidsflyten for en MapReduce-job som kjører på YARN
  • Bestem hvilke filer du må endre og hvordan du skal migre et kluster fra MapReduce versjon 1 (MRv1) til MapReduce versjon 2 (MRv2) som kjører på YARN.

3: Hadoop Klusterplanlegging (16%)

  • Hovedpunkter å vurdere når du velger maskinvare og operativsystemer for å hoste et Apache Hadoop-kluster.
  • Analysere valgene ved å velge et operativsystem
  • Forstå kjernejustering og diskswapping
  • For en gitt scenarie og arbeidslastmønster, identifiser en maskinvarekonfigurasjon som er egnet for scenarien
  • For en gitt scenarie, bestem hvilke økosystemkomponenter klusteret ditt trenger for å oppfylle SLA
  • Klusterstørrelse: for en gitt scenarie og hyppighet av utføring, identifiser spesifika for arbeidslasten, inkludert CPU, minne, lagring, diski/O
  • Diskstørrelse og -konfigurasjon, inkludert JBOD versus RAID, SANs, virtualisering og diskstørrelseskrav i et kluster
  • Nettverkstopologier: forstå nettverksbruk i Hadoop (for både HDFS og MapReduce) og foreslå eller identifiser viktige nettverksdesignkomponenter for en gitt scenarie

4: Hadoop Klusterinstallasjon og administrasjon (25%)

  • For en gitt scenarie, identifiser hvordan klusteret vil håndtere disker og maskinfelle
  • Analysere en loggkonfigurasjon og loggkonfigurasjonsfilformat
  • Forstå grunnleggende prinsipper for Hadoop-målinger og klusterhelsemonitorering
  • Identifiser funksjonen og formålet med tilgjengelige verktøy for klusterovervåking
  • Være i stand til å installere alle økosystemkomponentene i CDH 5, inkludert (men ikke begrenset til): Impala, Flume, Oozie, Hue, Manager, Sqoop, Hive, og Pig
  • Identifiser funksjonen og formålet med tilgjengelige verktøy for å administrere Apache Hadoop-filsystemet

5: Ressurs Management (10%)

  • Forstå de overordnede designmålene for hver av Hadoop-planleggerne
  • For en gitt scenarie, bestem hvordan FIFO-planleggeren allokerer klusterressurser
  • For en gitt scenarie, bestem hvordan Fair-planleggeren allokerer klusterressurser under YARN
  • For en gitt scenarie, bestem hvordan Capacity-planleggeren allokerer klusterressurser

6: Overvåking og loggføring (15%)

  • Forstå funksjonene og egenskapene til Hadoop's målingsinnsamlingsevner
  • Analysere NameNode- og JobTracker-webbrukergrensesnitt
  • Forstå hvordan du overvåker klusterdemoner
  • Identifiser og overvåke CPU-bruk på mesternoder
  • Beskriv hvordan du overvåker swap og minneallokering på alle noder
  • Identifiser hvordan du viser og administrerer Hadoop’s loggfiler
  • Tolke en loggfil

Krav

  • Grunnleggende administrasjonsevner Linux
  • Grunnleggende programmeringsevner
 35 timer

Antall deltakere


Price per participant

Testimonials (3)

Upcoming Courses

Related Categories