Kursplan

Avsnitt 1: Datalagring i HDFS

  • Forskjellige datiformater (JSON / Avro / Parquet)
  • Komprimeringsmetoder
  • Datamasking
  • Øvelser : Analyse av forskjellige datatformater; aktivering av kompresjon

Avsnitt 2: Avansert Pig

  • Brukerdefinerte funksjoner
  • Innføring i Pig-biblioteker (ElephantBird / Data-Fu)
  • Lastning av komplekse strukturerte data ved hjelp av Pig
  • Pig-optimalisering
  • Øvelser : Avansert pig-scripting, parsing av komplekse datatyper

Avsnitt 3: Avansert Hive

  • Brukerdefinerte funksjoner
  • Komprimerte tabeller
  • Hive-optimalisering
  • Øvelser : Opprettelse av komprimerte tabeller, vurdering av tabelformater og konfigurasjon

Avsnitt 4: Avansert HBase

  • Avansert skjemamodellering
  • Komprimering
  • Bulk-inndatahenting
  • Bred-tabeller / Lange-tabeller sammenligning
  • HBase og Pig
  • HBase og Hive
  • HBase-optimalisering
  • Øvelser : Optimalisering av HBase; tilgang til HBase-data fra Pig & Hive; Bruk av Phoenix for datamodellering

Krav

  • komfortabel med Java-programmeringsspråket (de fleste programmeringsøvelsene er i Java)
  • komfortabel i Linux-miljøet (være i stand til å navigere i Linux-kommandolinjen, redigere filer ved hjelp av vi / nano)
  • praktisk kunnskap om Hadoop.

Labbmiljø

Null installasjon: Det er ikke nødvendig å installere hadoop-software på studenters maskiner! Et fungerende Hadoop-kluster vil bli tilgjengelig for studenter.

Studenter vil trenge følgende

 21 timer

Antall deltakere


Pris per deltaker

Referanser (5)

Kommende kurs

Relaterte kategorier