Kursplan
Del 1: Introduksjon til Hadoop
- hadoop historie, konsepter
- økosystem
- distribusjoner
- arkitektur på høyt nivå
- hadoop-myter
- hadoop utfordringer
- maskinvare / programvare
- lab : første titt på Hadoop
Seksjon 2: HDFS
- Design og arkitektur
- konsepter (horisontal skalering, replikering, datalokalitet, rackbevissthet)
- Daemons : Namenode, Sekundær namenode, Datanode
- kommunikasjon / hjerteslag
- dataintegritet
- lese-/skrivebane
- Namenode High Availability (HA), Federation
- laboratorier : Samhandling med HDFS
Seksjon 3: Kartreduser
- konsepter og arkitektur
- daemons (MRV1): jobtracker / tasktracker
- faser: driver, kartlegger, stokk/sorter, redusering
- Map Reduce versjon 1 og versjon 2 (YARN)
- Internaler i Map Reduce
- Introduksjon til Java Map Reduce-programmet
- labs : Kjøre et eksempel på MapReduce-program
Seksjon 4: Gris
- pig vs java kart redusere
- gris jobb flyt
- gris latinsk språk
- ETL med gris
- Transformasjoner og sammenføyninger
- Brukerdefinerte funksjoner (UDF)
- laboratorier: skrive griseskript for å analysere data
Del 5: Hive
- arkitektur og design
- datatyper
- SQL støtte i Hive
- Opprette Hive tabeller og spørre
- partisjoner
- blir med
- tekstbehandling
- laboratorier : ulike laboratorier for behandling av data med Hive
Seksjon 6: HBase
- konsepter og arkitektur
- hbase vs RDBMS vs cassandra
- HBase Java API
- Tidsseriedata på HBase
- skjemadesign
- laboratorier: Interaksjon med HBase ved hjelp av skall; programmering i HBase Java API ; Skjemadesignøvelse
Krav
- komfortabel med Java programmeringsspråk (de fleste programmeringsøvelser er i java)
- komfortabel i Linux miljø (kunne navigere Linux kommandolinje, redigere filer med vi / nano)
Laboratoriemiljø
Zero Install : Det er ikke nødvendig å installere hadoop-programvare på elevenes maskiner! En fungerende hadoop-klynge vil bli gitt for studenter.
Studentene trenger følgende
- en SSH-klient (Linux og Mac har allerede ssh-klienter, for Windows Putty anbefales)
- en nettleser for å få tilgang til klyngen. Vi anbefaler nettleseren Firefox
Testimonials (5)
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Kurs - Impala for Business Intelligence
practical things of doing, also theory was served good by Ajay
Dominik Mazur - Capgemini Polska Sp. z o.o.
Kurs - Hadoop Administration on MapR
The VM I liked very much The Teacher was very knowledgeable regarding the topic as well as other topics, he was very nice and friendly I liked the facility in Dubai.
Safar Alqahtani - Elm Information Security
Kurs - Big Data Analytics in Health
Liked very much the interactive way of learning.
Luigi Loiacono
Kurs - Data Analysis with Hive/HiveQL
I mostly liked the trainer giving real live Examples.