Kursplan

Seksjon 1: Introduksjon til Hadoop

  • Hadoop historie, konsepter
  • økosystem
  • fordelinger
  • høyere nivå arkitektur
  • Hadoop myter
  • Hadoop utfordringer
  • hardware / software
  • lab : første innsyn i Hadoop

Seksjon 2: HDFS

  • Design og arkitektur
  • konsepter (horisontal skalerbarhet, replikasjon, data lokalitet, rack-bevissthet)
  • Tjenester : Namenode, sekundær namenode, data node
  • kommunikasjon / hjerteslag
  • dataintegritet
  • leser / skriverbane
  • Namenode høy tilgjengelighet (HA), føderasjon
  • labs : Interaksjon med HDFS

Seksjon 3: Map Reduce

  • konsepter og arkitektur
  • tjenester (MRV1) : jobtracker / tasktracker
  • faser : driver, mapper, sorter/shuffle, reducer
  • Map Reduce versjon 1 og versjon 2 (YARN)
  • Map Reduce intern
  • Introduksjon til Java Map Reduce-program
  • labs : Kjøring av et eksempel MapReduce-program

Seksjon 4: Pig

  • pig vs java map reduce
  • pig jobbflyt
  • pig latin språk
  • ETL med Pig
  • Transformasjoner & joins
  • brukerdefinerte funksjoner (UDF)
  • labs : Skriving av Pig-skript for å analysere data

Seksjon 5: Hive

  • arkitektur og design
  • datatyper
  • SQL støtte i Hive
  • Opprettelse av Hive tabeller og spørringer
  • partisjoner
  • joins
  • tekstbehandling
  • labs : ulike laboratorier for behandling av data med Hive

Seksjon 6: HBase

  • konsepter og arkitektur
  • HBase vs RDBMS vs Cassandra
  • HBase Java API
  • Tidsrelaterte data i HBase
  • skjemadesign
  • labs : Interaksjon med HBase ved hjelp av skall; programmering i HBase Java API; skjemadesignøvelse

Krav

  • bekjent med Java programmeringsspråk (mest programmeringsøvelser er i Java)
  • bekjent med Linux miljø (være i stand til å navigere i Linux kommando-linje, redigere filer med vi / nano)

Labmiljø

Null Install : Det er ikke nødvendig å installere Hadoop programvare på studentenes maskiner! Et fungerende Hadoop kluster vil bli tilgjengelig for studentene.

Studenter vil trenge følgende

  • en SSH-klient (Linux og Mac har allerede ssh-klienter, for Windows anbefales Putty)
  • en nettleser for å få tilgang til klusteret, Firefox anbefales
 28 timer

Antall deltakere


Price per participant

Testimonials (5)

Upcoming Courses

Related Categories