Kursplan

Introduksjon

Forstå Hadoops arkitektur og nøkkelkonsepter

Forstå Hadoop Distribuert filsystem (HDFS)

    Oversikt over HDFS og dets arkitektoniske design som samhandler med HDFS Utføre grunnleggende filoperasjoner på HDFS Oversikt over HDFS Command Reference Oversikt over Snakebite Installere Snakebite ved å bruke Snakebite-klientbiblioteket ved å bruke CLI-klienten

Lære MapReduce-programmeringsmodellen med Python

    Oversikt over MapReduce Programming-modellen Forstå dataflyt i MapReduce Framework Map Shuffle og Sort Reduce
Bruke Hadoop Streaming Utility Forstå hvordan Hadoop Streaming Utility fungerer
  • Demo: Implementering av WordCount-applikasjonen på Python
  • Bruke mrjob-biblioteket Oversikt over mrjob
  • Installerer mrjob
  • Demo: Implementering av WordTellealgoritmen ved å bruke mrjob
  • Forstå hvordan en MapReduce-jobb skrevet med mrjob-biblioteket fungerer
  • Utføre en MapReduce-applikasjon med mrjob
  • Hands-on: Beregning av topplønn ved hjelp av mrjob
  • Lærende gris med Python
  • Oversikt over Pig Demo: Implementering av WordTellealgoritmen i Pig Konfigurering og kjøring av Pig Scripts og Pig Statements Bruke Pig Execution Modes Bruke Pig Interactive Mode Bruke Pic Batch Mode
  • Forstå de grunnleggende konseptene for griselatinspråket ved å bruke utsagn

      Laster inn data
    Transformere data
  • Lagring av data
  • Utvide grisefunksjonaliteten med Python UDFer Registrere en Python UDF-fil
  • Demo: En enkel Python UDF
  • Demo: Strengemanipulering ved hjelp av Python UDF
  • Hands-on: Beregner de 10 siste filmene ved hjelp av Python UDF
  • Bruke Spark og PySpark
  • Oversikt over Spark Demo: Implementering av WordTellealgoritmen i PySpark Oversikt over PySpark ved å bruke et interaktivt skall som implementerer selvstendige applikasjoner
  • Arbeide med Resilient Distributed Dataset (RDDs) Opprette RDDer fra en Python samling
  • Opprette RDD-er fra filer
  • Implementering av RDD-transformasjoner

      Implementering av RDD-handlinger
    Hands-on: Implementering av et tekst Search-program for filmtitler med PySpark
  • Administrere arbeidsflyt med Python
  • Oversikt over Apache Oozie og Luigi Installere Luigi Forstå Luigi arbeidsflytkonsepter Oppgaver Mål Parametere
  • Demo: Undersøker en arbeidsflyt som implementerer WordTellealgoritmen
  • Arbeide med Hadoop arbeidsflyter som kontrollerer MapReduce og Pig-jobber ved å bruke Luigis konfigurasjonsfiler
  • Jobber med MapReduce i Luigi
  • Jobber med gris i Luigi
  • Oppsummering og konklusjon

    Krav

    • Erfaring med Python programmering
    • Grunnleggende kjennskap til Hadoop
     28 timer

    Antall deltakere



    Price per participant

    Testimonials (3)

    Relaterte kurs

    Related Categories