Kursplan

  • Introduksjon
    • Hadoop historie, begreper
    • Økosystem
    • Distribusjoner
    • Høyere nivå arkitektur
    • Hadoop myter
    • Hadoop utfordringer (maskinvare / programvare)
    • Læringslaber: diskutere dine Big Data prosjekter og problemer
  • Planlegging og installasjon
    • Valg av programvare, Hadoop distribusjoner
    • Størrelse på klusteret, planlegging for vekst
    • Valg av maskinvare og nettverk
    • Rack-topologi
    • Installasjon
    • Flere brukere
    • Katalogstruktur, logger
    • Benchmarking
    • Læringslaber: klusterinstallasjon, kjøre ytelsesbenchmarker
  • HDFS-operasjoner
    • Begreper (horisontal skalerbarhet, replikering, data-lokalitet, rack-bevissthet)
    • Noder og demoner (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
    • Helseovervåking
    • Kommando-linje- og nettleserbasert administrasjon
    • Legge til lagring, erstatte defekte disker
    • Læringslaber: bli kjent med HDFS kommando-linjer
  • Datainnsamling
    • Flume for logger og annen datainnsamling til HDFS
    • Sqoop for å importere fra SQL databaser til HDFS, samt eksportere tilbake til SQL
    • Hadoop data warehousing med Hive
    • Kopiere data mellom kluster (distcp)
    • Bruke S3 som komplement til HDFS
    • Best practices og arkitekturer for datainnsamling
    • Læringslaber: oppsette og bruke Flume, samme for Sqoop
  • MapReduce-operasjoner og administrasjon
    • Paralell beregning før MapReduce: sammenligne HPC med Hadoop administrasjon
    • MapReduce klusterbelastning
    • Noder og demoner (JobTracker, TaskTracker)
    • MapReduce UI gjennomgang
    • MapReduce konfigurasjon
    • Jobbkonfigurasjon
    • Optimalisere MapReduce
    • Sikre MapReduce: hva du skal si til programmørene dine
    • Læringslaber: kjøre MapReduce eksempler
  • YARN: ny arkitektur og nye muligheter
    • YARN designmål og implementeringsarkitektur
    • Nye aktører: ResourceManager, NodeManager, Application Master
    • Installere YARN
    • Jobbscheduling under YARN
    • Læringslaber: undersøke jobbscheduling
  • Avanserte emner
    • Maskinvareovervåking
    • Klusterovervåking
    • Legge til og fjerne servere, oppgradere Hadoop
    • Sikkerhetskopiering, gjenoppretting og forretningskontinuitetsplanlegging
    • Oozie jobbfløy
    • Hadoop høy tilgjengelighet (HA)
    • Hadoop federasjon
    • Sikre klusteret ditt med Kerberos
    • Læringslaber: sette opp overvåking
  • Valgfrie spørsmål
    • Cloudera Manager for klusteradministrasjon, overvåking og rutineoppgaver; installasjon, bruk. I denne sporet utfører alle øvelser og læringslaber innenfor Cloudera distribusjonsmiljøet (CDH5)
    • Ambari for klusteradministrasjon, overvåking og rutineoppgaver; installasjon, bruk. I denne sporet utfører alle øvelser og læringslaber innenfor Ambari kluster manager og Hortonworks Data Platform (HDP 2.0)

Krav

  • bekjent med grunnleggende Linux systemadministrasjon
  • grunnleggende skriptingsevner

Kunnskap om Hadoop og fordelt databehandling er ikke nødvendig, men vil bli introdusert og forklares i kurset.

Labmiljø

Zero Install: Det er ikke nødvendig å installere hadoop-programvare på studentenes maskiner! En fungerende hadoop-klaster vil bli tilgjengelig for studentene.

Studenter vil trenge følgende

  • en SSH-klient (Linux og Mac har allerede ssh-klienter, for Windows anbefales Putty)
  • en nettleser for å få tilgang til klusteret. Vi anbefaler Firefox-nettleser med FoxyProxy-utvidelsen installert
 21 timer

Antall deltakere


Price per participant

Testimonials (5)

Upcoming Courses

Related Categories