Kursplan

1.1Hadoop Konsepter

1.1.1HDFS

    Utformingen av HDFS kommandolinjegrensesnitt Hadoop Filsystem

1.1.2Klynger

    Anatomi av en klynge Mater Node / Slave node Navn Node / Data Node

1.2 Datamanipulering

1.2.1MapReduce detaljert

    Kartfase Reduser fase Shuffle

1.2.2Analytics med Map Reduce

    Group-By med MapReduce Frekvensdistribusjoner og sortering med MapReduce Plottresultater (GNU Plot) Histogrammer med MapReduce Scatterplott med MapReduce Parsing komplekse datasett Telle med MapReduce og Combiners Bygg rapporter

 

1.2.3 Datarensing

    Dokumentrengjøring Fuzzy strengsøk Postkobling / datadeduplisering Transform og sorter hendelsesdatoer Valider kildepålitelighet Trim Outliers

1.2.4 Trekke ut og transformere data

    Transformere logger Bruke Apache Pig til å filtrere Bruke Apache Pig til å sortere Bruke Apache Pig til å sesjon

1.2.5 Avanserte sammenføyninger

    Sammenføyning av data i Mapper ved hjelp av MapReduce Sammenføyning av data ved hjelp av Apache Pig replikert sammenføyning Sammenføyning av sorterte data ved hjelp av Apache Pig flette sammenføyning Koble sammen skjeve data ved hjelp av Apache Pig skjev sammenføyning Bruke en kartsidesammenføyning i Apache Hive Bruke optimaliserte fullstendige ytre sammenføyninger i Apache [1 ] Sammenføyning av data ved hjelp av et eksternt nøkkelverdilager

1.3 Ytelsesdiagnose og optimaliseringsteknikker

    Kart Undersøker topper i inngangsdata Identifiser skjevhetsproblemer med data på kartsiden Kartoppgavegjennomstrømning Små filer Filer som ikke kan deles opp
Reduser For få eller for mange reduksjonsmidler
  • Reduser problemer med dataskjevhet på siden
  • Reduser oppgavegjennomstrømningen
  • Sakte stokking og sortering
  • Konkurrerende jobber og struping av planlegger
  • Stabeldumper og uoptimalisert kode
  • Maskinvarefeil
  • CPU-strid
  • Oppgaver Utdrag og visualisering av oppgavegjennomføringstider
  • Profilering av kartet ditt og reduser oppgaver
  • Unngå reduksjonen
  • Filter og prosjekt
  • Bruker kombinatoren
  • Rask sortering med komparatorer
  • Innsamling av skjeve data
  • Reduser skjevhetsdemping
  • Krav

    Deltakere er ikke pålagt å ha noen spesifikke ferdigheter da opplæringen er fokusert på ferdigheter for sluttbrukere for både administrasjon og manipulering av data under Apache Hadoop

      21 timer
     

    Antall deltakere


    Starts

    Ends


    Dates are subject to availability and take place between 09:30 and 16:30.
    Open Training Courses require 5+ participants.

    Testimonials (3)

    Relaterte kurs

    Related Categories