Takk for at du sendte din henvendelse! En av våre teammedlemmer vil kontakte deg straks.
Takk for at du sendte din bestilling! En av våre teammedlemmer vil kontakte deg straks.
Kursplan
Hvert sesjon er 2 timer
Dag-1: Sesjon -1: Virksomhetsoversikt av hvorfor Big Data Business Intelligence i regeringen
- Case Studies fra NIH, DoE
- Adopsjonsrate for Big Data i regeringsorganisasjoner og hvordan de justerer fremtidig drift rundt prediktiv analyse av Big Data
- Bred anwendungsområde i DoD, NSA, IRS, USDA etc.
- Integrasjon av Big Data med leggemyndigheter data
- Grunnleggende forståelse av aktiverende teknologi i prediktiv analyse
- Dataintegrering og dashboardvisualisering
- Bedrifterhverv
- Generasjon av bedriftsregler/frauddeteksjon
- Truetektdeteksjon og profilering
- Kostnadsfordelanalyse for implementering av Big Data
Dag-1: Sesjon-2 : Introduksjon til Big Data-1
- Hovedkarakteristikk for Big Data-volum, varietet, fart og nøyaktighet. MPP-arkitektur for volum.
- Datawarehouses – statisk skjema, langsamt evoluerende datasett
- MPP Databases som Greenplum, Exadata, Teradata, Netezza, Vertica etc.
- Hadoop-baserte løsninger – ingen forutsetninger for struktur av datasett.
- Typisk mønster: HDFS, MapReduce (hjelle), hente fra HDFS
- Batch – egnet til analytisk/interaktiv
- Volum: CEP streaming data
- Typiske valg – CEP-produkter (f.eks. Infostreams, Apama, MarkLogic etc)
- Mindre produksjonssant – Storm/S4
- NoSQL Databases – (kolonnebasert og nøkkel-verdi): best egnet som analytisk tillegg til datawarehouse/database
Dag-1 : Sesjon -3 : Introduksjon til Big Data-2
NoSQL løsninger
- KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Store (Hierarkisk) - GT.m, Cache
- KV Store (Sortert) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tuple Store - Gigaspaces, Coord, Apache River
- Objektdatabase - ZopeDB, DB40, Shoal
- Dokumentlager - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Variasjoner i data: Introduksjon til datarenskning i Big Data
- RDBMS – statisk struktur/skjema, framskynder ikke fleksibel, utforskende miljø.
- NoSQL – semi-strukturert, nok struktur for å lagre data uten nøyaktig skjema før lagring av data
- Datarenskning utfordringer
Dag-1 : Sesjon-4 : Introduksjon til Big Data-3: Hadoop
- Når velge Hadoop?
- STRUKTURERT - Virksomhetsdatawarehouses/databaser kan lagre massive mengder data (med en kost) men pålærer struktur (ikke god for aktiv utforskning)
- SEMISTRUKTURERT data – svært vanskelig med tradisjonelle løsninger (DW/DB)
- Data-warehousing = stor innsats og statisk selv etter implementering
- For varietet & volum av data, kjørt på kommersiell hardvara – HADOOP
- Kostnadsen kommersiell H/W kreves for å opprette en Hadoop-kluster
Introduksjon til Map Reduce /HDFS
- MapReduce – distribuert beregning over flere servere
- HDFS – gjør data tilgjengelig lokalt for beregningsprosessen (med redundans)
- Data – kan være ustrukturert/skjemasløst (ulikt RDBMS)
- Utvikleransvar for å forstå data
- Programmering av MapReduce = arbeid med Java (fordeler/nedsidesider), manuell lasting av data til HDFS
Dag-2: Sesjon-1: Big Data økosystem - Bygging av Big Data ETL: universet av Big Data-verktøy - hvilket å bruke og når?
- Hadoop vs. andre NoSQL-løsninger
- For interaktiv, tilfeldig tilgang til data
- Hbase (kolonneorientert database) på toppen av Hadoop
- Tilfeldig tilgang til data men restriksjoner pålagt (max 1 PB)
- Ikke egnet for ad-hoc-analyse, god for logging, telling, tidsserie
- Sqoop - Import fra databaser til Hive eller HDFS (JDBC/ODBC-tilgang)
- Flume – strømme data (f.eks. loggdata) til HDFS
Dag-2: Sesjon-2: Big Data-håndteringssystem
- Flytende deler, beregningsnoder starter/feiler : ZooKeeper - For konfigurasjon/samarbeid/navneservice
- Kompleks pipeline/workflow: Oozie – administrere workflow, avhengigheter, daisy chain
- Deployering, konfigurasjon, klustermanagement, oppgradering etc (sys admin) : Ambari
- I skyen: Whirr
Dag-2: Sesjon-3: Prediktiv analyse i Business Intelligence -1: Grunnleggende teknikker & maskinlæring basert BI:
- Introduksjon til maskinlæring
- Læringsklasseifiserings teknikker
- Bayesisk prediksjon - forberedelse av treningsfil
- Support Vector Machine
- KNN p-Tre Algebra & vertikal mining
- Neuralt nettverk
- Big Data store variabelproblemer - Tilkfeldig skog (RF)
- Automatisering av Big Data-problem – Multi-modell ensemble RF
- Automatisering gjennom Soft10-M
- Tekstanalyseverktøy - Treeminer
- Fleksibel læring
- Agentbasert læring
- Distribuert læring
- Introduksjon til Open source-verktøy for prediktiv analyse: R, Rapidminer, Mahout
Dag-2: Sesjon-4 Prediktiv analysøkosystem -2: Vanlige prediktive analytiske problemer i regeringen
- Innsiktsanalyse
- Visualiseringsanalyse
- Strukturert prediktiv analyse
- Ustrukturert prediktiv analyse
- Truetektdeteksjon/frauddeteksjon/leverandørfilering
- Anbefalingsmotor
- Mønsterdeteksjon
- Regelscenariodiscovery – feil, fraude, optimering
- Råorsakdiscovery
- Sentimentanalyse
- CRM-analyse
- Netværksanalyse
- Tekstanalyse
- Teknologisamarbeid for gjenoppbygging
- Fraudanalyse
- Reeltidsanalyse
Dag-3 : Sesjon-1: Reeltid og skalerbar analyse over Hadoop
- Hvorfor felles analysealgoritmer feiler i Hadoop/HDFS
- Apache Hama - for massiv synkronisert distribuert beregning
- Apache SPARK - for klusterberegning for reeltidsanalyse
- CMU Graphics Lab2 - Grafbasert asynkron tilnærming til distribuert beregning
- KNN p-Algebra basert tilnærming fra Treeminer for redusert maskinvarekostnad av operasjonen
Dag-3: Sesjon-2: Verktøy for eDiscovery og forensikk
- eDiscovery over Big Data vs. leggemyndigheter data – en sammenligning av kostnad og ytelse
- Prediktiv koding og teknologisamarbeid for gjenoppbygging (TAR)
- Live demo av et TAR-produkt (vMiner) for å forstå hvordan TAR fungerer for hurtigere oppdagelse
- Hurtigere indeksering gjennom HDFS – fart på data
- NLP eller Natural Language Processing – ulike teknikker og open source-produkter
- eDiscovery i fremmede språk - teknologi for fremmedspråkalisering
Dag-3 : Sesjon 3: Big Data BI for cyber-sikkerhet – Forståelse av helheten 360 graders perspektiv fra hurtig datainnsamling til truetektdeteksjon
- Forstå grunnleggende sikkerhetsanalyse - angrepsflate, sikkerhetskonfigurasjon, vertforsvar
- Netværksinfrastruktur / stort datapipe / respons ETL for reeltidsanalyse
- Preskriptiv vs prediktiv - fast regelbasert vs auto-oppdaging av trueteknregler fra metadata
Dag-3: Sesjon 4: Big Data i USDA: Anvendelse i landbruk
- Introduksjon til IoT (Internett av ting) for landbruk - sensorbasert Big Data og kontroll
- Introduksjon til satellittbilde og dens anvendelse i landbruk
- Integrering av sensordata og bilde for jords fertileitet, anbefaling av dyrkning og prognoser
- Landbruksforsikring og Big Data
- Prognose for skadeforfallys
Dag-4 : Sesjon-1: Svindelforebygging BI fra Big Data i regering - svindelanalyse:
- Grunnleggende klassifisering av svindelanalyse - regelbasert vs prediktiv analyse
- Supervisert vs u-supervisert maskinlæring for svindelmønsterdeteksjon
- Leverandørsvidel / overkostnader for prosjekter
- Medicare og Medicaid-svindel - svindeldeteksjonteknikker for klarebehandlingsprosesser
- Reiseutgiftssvindel
- IRS-refundsvidel
- Case studies og live demo vil bli gitt der data er tilgjengelig.
Dag-4 : Sesjon-2: Analyse av sosial medier - inntelligenssamling og analyse
- Big Data ETL API for ekstrahering av sosiale media data
- Tekst, bilde, metadata og video
- Sentimentanalyse fra sosiale medierfeed
- Kontekstuell og ikke-kontekstuell filtrering av sosiale mediafeed
- Sosialmediedashboard for å integrere diverse sosiale medier
- Automatisk profilering av sosialmediaprofil
- Live demo av hver analyse vil bli gitt gjennom Treeminer-verktøy.
Dag-4 : Sesjon-3: Big Data-analyse i bildebehandling og videofeeder
- Bilderlagringsteknikker i Big Data - lagringsløsning for data som overstiger petabytes
- LTFS og LTO
- GPFS-LTFS (lagert lageringsløsning for stort bilde)
- Grunnleggende bildeanalyse
- Objekterkjenning
- Bildeavdeling
- Bevegelsessporing
- 3-D bildegenskapsrekonstruksjon
Dag-4: Sesjon-4: Big Data-anvendelser i NIH:
- Oppkommende områder av bioinformasjon
- Metagenomics og Big Data-gyttingsspor
- Prediktiv analyse for Big Data i farmakogenomikk, metabolomikk og proteomikk
- Big Data i nedstrøms genomikkprosesser
- Anvendelse av prediktiv analyse for Big data i folkehelse
Big Data-dashboard for hurtig tilgang til ulike data og visning:
- Integrasjon av eksisterende applikasjonsplattform med Big Data-dashboard
- Big Data-håndtering
- Case study of Big Data Dashboard: Tableau og Pentaho
- Bruk av Big Data-app for å drive lokasjonsbaserte tjenester i regeringen
- Sporingssystem og håndtering
Dag-5 : Sesjon-1: Hvordan rettferdigføre implementering av Big Data BI i en organisasjon:
- Definere ROI for Big Data-implementering
- Case studies for å spare Analyst Time for innsamling og forberedelse av data – økning i produktivitet
- Case studies for inntektsvinst fra sparring for lisenserte databasekostnader
- Inntektsvinst fra lokasjonsbaserte tjenester
- Sparinger fra svindelforebygging
- Et integrert spreadsheet-tilnærming for å beregne tilnærmet kost vs. inntektsvinst/sparinger fra Big Data-implementering.
Dag-5 : Sesjon-2: Trinvis fremgangsmåte for å erstatte leggemyndigheter data system med et Big Data-system:
- Forstå praktisk Big Data-migreringsvei
- Hva er det viktigste informasjonen som trengs før arkitektur av en Big Data-implementering
- Hva er de ulike måtene for å beregne volum, fart, varietet og nøyaktighet av data
- Hvordan estimere datavekst
- Case studies
Dag-5: Sesjon 4: Gjennomgang av Big Data-leverandører og gjennomgang av deres produkter. Q/A sesjon:
- Accenture
- APTEAN (tidligere CDC Software)
- Cisco Systems
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (tidligere 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institute
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (del av EMC)
Krav
- Grunnleggende kunnskap om virksomhetsdrift og datasystemer i regeringen innenfor deres domene
- Grunnleggende forståelse av SQL/Oracle eller relasjonelle databaser
- Grunnleggende kunnskap om statistikk (på kalkulytarnivå)
35 timer
Referanser (1)
Instruktørens evne til å tilpasse kurset til organisasjonens krav, og ikke bare å gi kurset for å levere det.
Masilonyane - Revenue Services Lesotho
Kurs - Big Data Business Intelligence for Govt. Agencies
Maskinoversatt