Takk for at du sendte din henvendelse! En av våre teammedlemmer vil kontakte deg straks.
Takk for at du sendte din bestilling! En av våre teammedlemmer vil kontakte deg straks.
Kursplan
- Introduksjon
- Hadoop historie, begreper
- Økosystem
- Distribusjoner
- Høyere nivå arkitektur
- Hadoop myter
- Hadoop utfordringer (maskinvare / programvare)
- Læringslaber: diskutere dine Big Data prosjekter og problemer
- Planlegging og installasjon
- Valg av programvare, Hadoop distribusjoner
- Størrelse på klusteret, planlegging for vekst
- Valg av maskinvare og nettverk
- Rack-topologi
- Installasjon
- Flere brukere
- Katalogstruktur, logger
- Benchmarking
- Læringslaber: klusterinstallasjon, kjøre ytelsesbenchmarker
- HDFS-operasjoner
- Begreper (horisontal skalerbarhet, replikering, data-lokalitet, rack-bevissthet)
- Noder og demoner (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
- Helseovervåking
- Kommando-linje- og nettleserbasert administrasjon
- Legge til lagring, erstatte defekte disker
- Læringslaber: bli kjent med HDFS kommando-linjer
- Datainnsamling
- Flume for logger og annen datainnsamling til HDFS
- Sqoop for å importere fra SQL databaser til HDFS, samt eksportere tilbake til SQL
- Hadoop data warehousing med Hive
- Kopiere data mellom kluster (distcp)
- Bruke S3 som komplement til HDFS
- Best practices og arkitekturer for datainnsamling
- Læringslaber: oppsette og bruke Flume, samme for Sqoop
- MapReduce-operasjoner og administrasjon
- Paralell beregning før MapReduce: sammenligne HPC med Hadoop administrasjon
- MapReduce klusterbelastning
- Noder og demoner (JobTracker, TaskTracker)
- MapReduce UI gjennomgang
- MapReduce konfigurasjon
- Jobbkonfigurasjon
- Optimalisere MapReduce
- Sikre MapReduce: hva du skal si til programmørene dine
- Læringslaber: kjøre MapReduce eksempler
- YARN: ny arkitektur og nye muligheter
- YARN designmål og implementeringsarkitektur
- Nye aktører: ResourceManager, NodeManager, Application Master
- Installere YARN
- Jobbscheduling under YARN
- Læringslaber: undersøke jobbscheduling
- Avanserte emner
- Maskinvareovervåking
- Klusterovervåking
- Legge til og fjerne servere, oppgradere Hadoop
- Sikkerhetskopiering, gjenoppretting og forretningskontinuitetsplanlegging
- Oozie jobbfløy
- Hadoop høy tilgjengelighet (HA)
- Hadoop federasjon
- Sikre klusteret ditt med Kerberos
- Læringslaber: sette opp overvåking
- Valgfrie spørsmål
- Cloudera Manager for klusteradministrasjon, overvåking og rutineoppgaver; installasjon, bruk. I denne sporet utfører alle øvelser og læringslaber innenfor Cloudera distribusjonsmiljøet (CDH5)
- Ambari for klusteradministrasjon, overvåking og rutineoppgaver; installasjon, bruk. I denne sporet utfører alle øvelser og læringslaber innenfor Ambari kluster manager og Hortonworks Data Platform (HDP 2.0)
Krav
- bekjent med grunnleggende Linux systemadministrasjon
- grunnleggende skriptingsevner
Kunnskap om Hadoop og fordelt databehandling er ikke nødvendig, men vil bli introdusert og forklares i kurset.
Labmiljø
Zero Install: Det er ikke nødvendig å installere hadoop-programvare på studentenes maskiner! En fungerende hadoop-klaster vil bli tilgjengelig for studentene.
Studenter vil trenge følgende
- en SSH-klient (Linux og Mac har allerede ssh-klienter, for Windows anbefales Putty)
- en nettleser for å få tilgang til klusteret. Vi anbefaler Firefox-nettleser med FoxyProxy-utvidelsen installert
21 Timer
Referanser (1)
Praktiske øvelser. Klassen skulle have vært 5 dager, men de 3 dager bidrog til at klare op for mange spørsmål jeg hadde fra min tidligere erfaring med NiFi
James - BHG Financial
Kurs - Apache NiFi for Administrators
Maskinoversatt