Kursplan

    Introduksjon Hadoop historie, konsepter Økosystemdistribusjoner Arkitektur på høyt nivå Hadoop myter Hadoop utfordringer (maskinvare / programvare) Labs: diskuter dine Big Data-prosjekter og problemer
Planlegging og installasjon Velge programvare, Hadoop distribusjoner Dimensjonering av klyngen, planlegging for vekst Velge maskinvare og nettverk Rack-topologi Installasjon Multi-tenancy Katalogstruktur, logger Benchmarking Labs: klyngeinstallasjon, kjør ytelsesbenchmarks
    HDFS-operasjoner Konsepter (horisontal skalering, replikering, datalokalitet, rackbevissthet) Noder og demoner (NameNode, Secondary NameNode, HA Standby NameNode, DataNode) Helseovervåking Kommandolinje- og nettleserbasert administrasjon Legge til lagring, erstatte defekte stasjoner Labs: bli kjent med HDFS-kommandolinjer
Datainntak Flume for logger og annen datainntak i HDFS Sqoop for import fra SQL databaser til HDFS, samt eksport tilbake til SQL Hadoop datavarehus med Hive Kopiering av data mellom klynger (distcp) Bruke S3 som komplementær til HDFS Data beste praksis for inntak og arkitekturer Labs: oppsett og bruk av Flume, det samme for Sqoop
    MapReduce operasjoner og administrasjon Parallell databehandling før mapreduce: sammenlign HPC vs Hadoop administrasjon MapReduce cluster loads Noder og Daemons (JobTracker, TaskTracker) MapReduce UI gå gjennom Mapreduce konfigurasjon Job config Optimalisere MapReduce Idiotsikker MR: hva du skal fortelle programmerere dine MapReduce eksempler
YARN: ny arkitektur og nye muligheter YARN-designmål og implementeringsarkitektur Nye aktører: ResourceManager, NodeManager, Application Master Installere YARN Jobbplanlegging under YARN Labs: undersøk jobbplanlegging
    Avanserte emner Maskinvareovervåking Klyngeovervåking Legge til og fjerne servere, oppgradere Hadoop Sikkerhetskopiering, gjenoppretting og forretningskontinuitetsplanlegging Oozie jobbarbeidsflyter Hadoop høy tilgjengelighet (HA) Hadoop Federation Sikre klyngen din med Kerberos Labs: konfigurer overvåking
Valgfrie spor Cloudera Manager for klyngeadministrasjon, overvåking og rutineoppgaver; installasjon, bruk. I dette sporet utføres alle øvelser og laboratorier innenfor Cloudera distribusjonsmiljø (CDH5) Ambari for klyngeadministrasjon, overvåking og rutineoppgaver; installasjon, bruk. I dette sporet utføres alle øvelser og laboratorier innenfor Ambari cluster manager og Hortonworks Data Platform (HDP 2.0)

Krav

  • komfortabel med grunnleggende Linux systemadministrasjon
  • grunnleggende skriptferdigheter

Kunnskap om Hadoop og distribuert databehandling er ikke nødvendig, men vil bli introdusert og forklart i kurset.

Laboratoriemiljø

Zero Install : Det er ikke nødvendig å installere hadoop-programvare på elevenes maskiner! En fungerende hadoop-klynge vil bli gitt for studenter.

Studentene trenger følgende

  • en SSH-klient (Linux og Mac har allerede ssh-klienter, for Windows Putty anbefales)
  • en nettleser for å få tilgang til klyngen. Vi anbefaler Firefox-nettleseren med FoxyProxy-utvidelsen installert
 21 timer

Antall deltakere



Price per participant

Testimonials (3)

Relaterte kurs

Related Categories