Takk for at du sendte din henvendelse! En av våre teammedlemmer vil kontakte deg straks.
Takk for at du sendte din bestilling! En av våre teammedlemmer vil kontakte deg straks.
Kursplan
Hver sesjon varer 2 timer
Dag-1: Sesjon -1: Business Overview av Hvorfor Big Data Business Intelligence i Regjeringen
- Case Studies fra NIH, DoE
- Tilpasningsgrad for Big Data i Regjeringens organer og hvordan de tilpasser fremtidige operasjoner rundt Big Data Predictive Analytics
- Bred skala applikasjoner i DoD, NSA, IRS, USDA osv.
- Integrering av Big Data med gammel data
- Grunnleggende forståelse av teknologier som muliggjør prediktive analyser
- Data Integrasjon og dashboard-visualisering
- Svindelhantering
- Generering av forretningsregler/Svindeldeteksjon
- Truseldeteksjon og profileringsprosesser
- Kostnads- og nytteanalyser for Big Data-implementering
Dag-1: Sesjon-2: Introduksjon til Big Data-1
- Hovedkarakteristika ved Big Data: volum, variasjon, hastighet og troverdighet. MPP-arkitektur for volum.
- Data Warehouses – statiske skjemaer, sakte utviklende datasett
- MPP-databaser som Greenplum, Exadata, Teradata, Netezza, Vertica osv.
- Hadoop-baserte løsninger – ingen forutsetninger om strukturen i datasettet.
- Vanlige mønstre: HDFS, MapReduce (kryss), hente fra HDFS
- Batcher: egnet for analytiske/ikke-interaktive oppgaver
- Volum: CEP streaming data
- Vanlige valg: CEP-produkter (f.eks. Infostreams, Apama, MarkLogic osv)
- Mindre produksjonsklare: Storm/S4
- NoSQL-databaser – (kolonnebasert og nøkkel-verdi): Best egnet som analytisk tilskudd til data warehouse/databaser
Dag-1: Sesjon -3: Introduksjon til Big Data-2
NoSQL-løsninger
- Nøkkel-verdi lagring - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- Nøkkel-verdi lagring - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- Nøkkel-verdi lagring (Hierarkisk) - GT.m, Cache
- Nøkkel-verdi lagring (Ordonert) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- Nøkkel-verdi cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tupel lagring - Gigaspaces, Coord, Apache River
- Objektdatabaser - ZopeDB, DB40, Shoal
- Dokument lagring - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Bred kolonnebasert lagring - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Variasjoner av data: Introduksjon til datareinsingsproblemer i Big Data
- RDBMS – statisk struktur/skjema, fremmer ikke en agil, utforskende miljø.
- NoSQL – halvstrukturert, tilstrekkelig struktur til å lagre data uten eksakt skjema før lagring
- Datareinsingsproblemer
Dag-1: Sesjon-4: Big Data Introduksjon-3: Hadoop
- Når skal man velge Hadoop?
- STRUKTURERT - Bedriftsdatawarehouses/databaser kan lagre enorme mengder data (til en kostnad) men påtvinger struktur (ikke godt for aktiv utforskning)
- Halvstrukturert data – vanskelig med tradisjonelle løsninger (DW/DB)
- Lagring av data = KJEMPEINSATS og statisk selv etter implementering
- For variasjon og volum av data, kryss på vanlig hårdvare – HADOOP
- Vanlig hårdvare trengs for å opprette en Hadoop-kluster
Introduksjon til MapReduce /HDFS
- MapReduce – distribuert beregning over flere servere
- HDFS – gjør data tilgjengelig lokalt for beregningsprosessen (med redundans)
- Data – kan være ustrukturert/skjemaløs (unntatt RDBMS)
- Utviklerens ansvar å gi mening til data
- Programmering av MapReduce = arbeid med Java (for- og ulemper), manuelt laste data inn i HDFS
Dag-2: Sesjon-1: Big Data Økosystem – Oppbygging av Big Data ETL: Big Data-verktøyuniverset – hvilke å bruke og når?
- Hadoop vs. Andre NoSQL-løsninger
- For interaktiv, tilfeldig tilgang til data
- HBase (kolonnebasert database) over Hadoop
- Tilfeldig tilgang til data, men restriksjoner (maks 1 PB)
- Ikke egnet for ad-hoc-analyse, egnet for logging, telling, tidsrekke
- Sqoop - Importer fra databaser til Hive eller HDFS (JDBC/ODBC-tilgang)
- Flume – Streame data (f.eks. loggdata) til HDFS
Dag-2: Sesjon-2: Big Data Management System
- Bevegelige deler, beregningsnoder starter/feiler: ZooKeeper – For konfigurering/koordinering/navneservice
- Kompleks pipeline/arbeidsflyt: Oozie – Administrer arbeidsflyt, avhengigheter, daisy chain
- Distribuer, konfigurere, klusterhåndtering, oppgraderinger osv. (sysadmin) : Ambari
- I Skyen: Whirr
Dag-2: Sesjon-3: Prediktive analyser i Business Intelligence -1: Grundleggende Teknikker & Maskinlæringbasert BI
- Introduksjon til maskinlæring
- Lære klassifiseringsteknikker
- Bayesiansk prediksjon - forberede treningsfil
- Support Vector Machine
- KNN p-Tree Algebra & vertikal minering
- Neuronett
- Stort problem med mange variabler i Big Data - Random Forest (RF)
- Automasjonsproblem i Big Data – Multi-modell ensembler RF
- Automasjon gjennom Soft10-M
- Tekstanalyseverktøy - Treeminer
- Agil læring
- Agentbasert læring
- Distribuert læring
- Introduksjon til åpne verktøy for prediktive analyser: R, Rapidminer, Mahut
Dag-2: Sesjon-4 Prediktive analyser økosystem-2: Vanlige prediktive analytiske problemer i regjeringen
- Insight analyse
- Visualisering analyse
- Strukturerte prediktive analyser
- Ustrukturerte prediktive analyser
- Trusel/fraudstar/leverandør-profilering
- Anbefalingsmotor
- Mønsterdeteksjon
- Regel/Scenario oppdagelse – feil, svindel, optimalisering
- Rotårsaksoppdagelse
- Sentiment analyse
- CRM analyse
- Nettverksanalyse
- Tekstanalyse
- Teknologisk assistert gjennomgang
- Svindelanalyse
- Realtidanalyse
Dag-3: Sesjon-1: Realtids- og Skalerbar Analyse Over Hadoop
- Hvorfor vanlig analyseteknikker mislykkes i Hadoop/HDFS
- Apache Hama- for bulk synkrone distribuerte beregninger
- Apache SPARK- for klusterberegning for realtidsanalyse
- CMU Graphics Lab2- grafbasert asynkron tilnærming til distribuert beregning
- KNN p-Algebra basert tilnærming fra Treeminer for redusert hårdvareregningskostnad
Dag-3: Sesjon-2: Verktøy for eDiscovery og Forensik
- eDiscovery over Big Data vs. Legacy data – en sammenligning av kostnader og ytelse
- Prediktiv kodning og teknologisk assistert gjennomgang (TAR)
- Live demo av en Tar produkt (vMiner) for å forstå hvordan TAR fungerer for raskere oppdagelse
- Raskere indeksering gjennom HDFS – datahastighet
- NLP eller Naturlig språkanalyse – forskjellige teknikker og åpne kilder
- eDiscovery i fremmedspråklige – teknologi for fremmedspråklig behandling
Dag-3: Sesjon 3: Big Data BI for Cyber Security – Forstå fullstendig 360-graders oversikt fra rask datainnsamling til trusseldeteksjon
- Forstå grunnleggende sikkerhetsanalyse – angrepsflate, sikkerhetsfeilkonfigurasjon, vertshåndtering
- Nettverksinfrastruktur/Stor datapipe / Respons ETL for realtidsanalyse
- Preskriptiv vs. prediktiv – Faste regler basert vs. automatisk oppdagelse av trusselregler fra metadata
Dag-3: Sesjon 4: Big Data i USDA: Bruk i landbruk
- Introduksjon til IoT (Internet of Things) for landbruk - Sensorbasert Big Data og kontroll
- Introduksjon til satellittbilder og bruk i landbruk
- Integrering av sensor- og billeddata for jordfruktbarhet, dyrkingsanbefalinger og prognoser
- Landbruksforsikring og Big Data
- Aktuelle skadeberegninger
Dag-4: Sesjon-1: Svindelforebygging BI fra Big Data i regjeringen – Svindelanalyse
- Grunnleggende klassifisering av svindelanalyse – regelbasert vs. prediktive analyser
- Overvåket vs. uovervåket maskinlæring for svindelmønsterdeteksjon
- Leverandørsvindel/overfakturering for prosjekter
- Medicare- og Medicaid-svindel – svindeldeteksjonsteknikker for kravsbehandling
- Reiseutleggssvindel
- IRS-returssvindel
- Case studies og live demo vil bli gitt der data er tilgjengelig.
Dag-4: Sesjon-2: Sosial medieanalyse – Innhenting og analyse av informasjon
- Big Data ETL API for ekstraksjon av sosial mediedata
- Tekst, bilder, metadata og video
- Sentimentanalyse fra sosial mediefeeder
- Kontekstuell og ikke-kontekstuell filtrering av sosial mediefeeder
- Sosial medie dashboard for å integrere ulike sosialemedier
- Automatisk profilering av sosial medieprofiler
- Live demo av hver analyse vil bli gitt gjennom Treeminer-verktøyet.
Dag-4: Sesjon-3: Big Data-analyse i bildebehandling og videostrømmer
- Lagringsteknikker for bilder i Big Data - Lagringsløsning for data som overstiger petabyter
- LTFS og LTO
- GPFS-LTFS (Lagret lagringsløsning for store billedata)
- Grunnleggende bildeanalyse
- Objekterkjennelse
- Bildesegmentering
- Bevegelsessporing
- 3-D bildrekonstruksjon
Dag-4: Sesjon-4: Big Data-applikasjoner i NIH
- Oppstående områder i bioinformatikk
- Metagenomikk og Big Data-miningsproblemer
- Big Data prediktive analyser for farmakogenomikk, metabolomikk og proteomikk
- Big Data i nedstrøms genetiske prosesser
- Anvendelse av Big Data prediktive analyser i offentlig helse
Big Data dashboard for rask tilgang til ulike data og visning:
- Integrering av eksisterende applikasjonsplattformer med Big Data dashboard
- Big Data-håndtering
- Case Study av Big Data Dashboard: Tableau og Pentaho
- Bruk Big Data-app for å skyte plasseringstjenester i regjeringen.
- Spore- og håndteringssystemer
Dag-5: Sesjon-1: Hvordan retteferdige Big Data BI-implementering innen en organisasjon
- Definere ROI for Big Data-implementering
- Case studies for å spare analytikertid for innsamling og forberedelse av data – økning i produktivitet
- Case studies for inntektsøkning ved å spare på lisensdatabasekostnader
- Inntektsøkning fra plasseringstjenester
- Besparinger fra svindelforebygging
- En integrert regnearkstilnærming for å beregne omtrentlige utgifter vs. inntektsøkning/besparinger fra Big Data-implementering.
Dag-5: Sesjon-2: Steg-for-steg prosedyre for å erstatte gammel datasystem med Big Data-system
- Forstå praktisk Big Data-migreringsplan
- Hva er den viktige informasjonen som trengs før arkitekturen av en Big Data-implementering
- Hvilke er de forskjellige måtene å beregne volum, hastighet, variasjon og troverdighet på
- Hvordan estimere datavekst
- Case studies
Dag-5: Sesjon 4: Gjennomgang av Big Data-leverandører og gjennomgang av deres produkter. Spørsmål og svar
- Accenture
- APTEAN (Tidligere CDC Software)
- Cisco Systems
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (Tidligere 10Gen)
- Mu Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institute
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (Del av EMC)
Krav
- Grunnleggende kunnskap om virksomhetsdrift og datasystemer i Govt. i deres domene
- Grunnleggende forståelse av SQL/Oracle eller relasjonsdatabase
- Grunnleggende forståelse av Statistics (på regnearknivå)
35 timer
Referanser (1)
Trenerens evne til å tilpasse kurset med kravene til organisasjonen annet enn bare å tilby kurset for å levere det.
Masilonyane - Revenue Services Lesotho
Kurs - Big Data Business Intelligence for Govt. Agencies
Maskinoversatt