Kursplan
- Introduksjon
- Hadoop historie, begreper
- Økosystem
- Distribusjoner
- Høyere nivå arkitektur
- Hadoop myter
- Hadoop utfordringer (maskinvare / programvare)
- Læringslaber: diskutere dine Big Data prosjekter og problemer
- Planlegging og installasjon
- Valg av programvare, Hadoop distribusjoner
- Størrelse på klusteret, planlegging for vekst
- Valg av maskinvare og nettverk
- Rack-topologi
- Installasjon
- Flere brukere
- Katalogstruktur, logger
- Benchmarking
- Læringslaber: klusterinstallasjon, kjøre ytelsesbenchmarker
- HDFS-operasjoner
- Begreper (horisontal skalerbarhet, replikering, data-lokalitet, rack-bevissthet)
- Noder og demoner (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
- Helseovervåking
- Kommando-linje- og nettleserbasert administrasjon
- Legge til lagring, erstatte defekte disker
- Læringslaber: bli kjent med HDFS kommando-linjer
- Datainnsamling
- Flume for logger og annen datainnsamling til HDFS
- Sqoop for å importere fra SQL databaser til HDFS, samt eksportere tilbake til SQL
- Hadoop data warehousing med Hive
- Kopiere data mellom kluster (distcp)
- Bruke S3 som komplement til HDFS
- Best practices og arkitekturer for datainnsamling
- Læringslaber: oppsette og bruke Flume, samme for Sqoop
- MapReduce-operasjoner og administrasjon
- Paralell beregning før MapReduce: sammenligne HPC med Hadoop administrasjon
- MapReduce klusterbelastning
- Noder og demoner (JobTracker, TaskTracker)
- MapReduce UI gjennomgang
- MapReduce konfigurasjon
- Jobbkonfigurasjon
- Optimalisere MapReduce
- Sikre MapReduce: hva du skal si til programmørene dine
- Læringslaber: kjøre MapReduce eksempler
- YARN: ny arkitektur og nye muligheter
- YARN designmål og implementeringsarkitektur
- Nye aktører: ResourceManager, NodeManager, Application Master
- Installere YARN
- Jobbscheduling under YARN
- Læringslaber: undersøke jobbscheduling
- Avanserte emner
- Maskinvareovervåking
- Klusterovervåking
- Legge til og fjerne servere, oppgradere Hadoop
- Sikkerhetskopiering, gjenoppretting og forretningskontinuitetsplanlegging
- Oozie jobbfløy
- Hadoop høy tilgjengelighet (HA)
- Hadoop federasjon
- Sikre klusteret ditt med Kerberos
- Læringslaber: sette opp overvåking
- Valgfrie spørsmål
- Cloudera Manager for klusteradministrasjon, overvåking og rutineoppgaver; installasjon, bruk. I denne sporet utfører alle øvelser og læringslaber innenfor Cloudera distribusjonsmiljøet (CDH5)
- Ambari for klusteradministrasjon, overvåking og rutineoppgaver; installasjon, bruk. I denne sporet utfører alle øvelser og læringslaber innenfor Ambari kluster manager og Hortonworks Data Platform (HDP 2.0)
Krav
- bekjent med grunnleggende Linux systemadministrasjon
- grunnleggende skriptingsevner
Kunnskap om Hadoop og fordelt databehandling er ikke nødvendig, men vil bli introdusert og forklares i kurset.
Labmiljø
Zero Install: Det er ikke nødvendig å installere hadoop-programvare på studentenes maskiner! En fungerende hadoop-klaster vil bli tilgjengelig for studentene.
Studenter vil trenge følgende
- en SSH-klient (Linux og Mac har allerede ssh-klienter, for Windows anbefales Putty)
- en nettleser for å få tilgang til klusteret. Vi anbefaler Firefox-nettleser med FoxyProxy-utvidelsen installert
Testimonials (5)
The live examples
Ahmet Bolat - Accenture Industrial SS
Kurs - Python, Spark, and Hadoop for Big Data
During the exercises, James explained me every step whereever I was getting stuck in more detail. I was completely new to NIFI. He explained the actual purpose of NIFI, even the basics such as open source. He covered every concept of Nifi starting from Beginner Level to Developer Level.
Firdous Hashim Ali - MOD A BLOCK
Kurs - Apache NiFi for Administrators
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Kurs - Impala for Business Intelligence
That I had it in the first place.
Peter Scales - CACI Ltd
Kurs - Apache NiFi for Developers
practical things of doing, also theory was served good by Ajay