Kursplan

Avsnitt 1: Introduksjon til Hadoop

  • Hadoop historie, konsepter
  • økosystem
  • distribusjoner
  • kohøy nivåarkitektur
  • Hadoop-myter
  • Hadoop-utfordringer
  • maskin/programvare
  • laboratorium : første blikk på Hadoop

Avsnitt 2: HDFS

  • design og arkitektur
  • konsepter (horisontal skaling, replikering, datalokalitet, rack-awareness)
  • kjørere : Namenode, Secondary namenode, Data node
  • kommunikasjon / hjerteslag
  • dataintegritet
  • lese / skrivesti
  • Namenode High Availability (HA), Federation
  • laboratorium : interaksjon med HDFS

Avsnitt 3: Map Reduce

  • konsepter og arkitektur
  • kjørere (MRV1) : jobtracker / tasktracker
  • faser : driver, mapper, shuffle/sortering, reducer
  • Map Reduce Versjon 1 og Versjon 2 (YARN)
  • Innforståelse for Map Reduce
  • Introduksjon til Java Map Reduce program
  • laboratorium : kjøring av et eksempel på MapReduce-program

Avsnitt 4: Pig

  • pig vs java map reduce
  • pig jobbstrøm
  • Pig Latin språk
  • ETL med Pig
  • Transformasjoner & Joiner
  • Brukerdefinerte funksjoner (UDF)
  • laboratorium : skriving av Pig-script for å analysere data

Avsnitt 5: Hive

  • arkitektur og design
  • datatyper
  • SQL-støtte i Hive
  • Oprettelse av Hive-tabeller og spørringer
  • deler
  • joiner
  • tekstbehandling
  • laboratorium : ulike laboratorieøvelser for behandling av data med Hive

Avsnitt 6: HBase

  • konsepter og arkitektur
  • HBase vs RDBMS vs Cassandra
  • HBase Java API
  • Tidsserie-data i HBase
  • schemadesign
  • laboratorium : interaksjon med HBase ved hjelp av shell; programmering i HBase Java API ; Schemadesignøvelse

Krav

  • tryg med Java programmeringsspråket (de fleste programmeringsøvelser er på java)
  • tryg i Linux-miljøet (være i stand til å navigere i Linux kommandolinjen, redigere filer ved hjelp av vi / nano)

Labbmiljø

Null installasjon : Det er ikke nødvendig å installere Hadoop-programvaren på studenters maskiner! En fungerende Hadoop-kluster vil bli tilgjengelig for studenter.

Studenter vil treng en

  • en SSH-klient (Linux og Mac har allerede ssh-klienter, for Windows anbefales Putty)
  • en nettleser for å tilgå klustret, Firefox anbefales
 28 timer

Antall deltakere


Pris per deltaker

Referanser (5)

Kommende kurs

Relaterte kategorier