Kursplan

Hvert sesjon er 2 timer

Dag-1: Sesjon -1: Virksomhetsoversikt av hvorfor Big Data Business Intelligence i regeringen

  • Case Studies fra NIH, DoE
  • Adopsjonsrate for Big Data i regeringsorganisasjoner og hvordan de justerer fremtidig drift rundt prediktiv analyse av Big Data
  • Bred anwendungsområde i DoD, NSA, IRS, USDA etc.
  • Integrasjon av Big Data med leggemyndigheter data
  • Grunnleggende forståelse av aktiverende teknologi i prediktiv analyse
  • Dataintegrering og dashboardvisualisering
  • Bedrifterhverv
  • Generasjon av bedriftsregler/frauddeteksjon
  • Truetektdeteksjon og profilering
  • Kostnadsfordelanalyse for implementering av Big Data

Dag-1: Sesjon-2 : Introduksjon til Big Data-1

  • Hovedkarakteristikk for Big Data-volum, varietet, fart og nøyaktighet. MPP-arkitektur for volum.
  • Datawarehouses – statisk skjema, langsamt evoluerende datasett
  • MPP Databases som Greenplum, Exadata, Teradata, Netezza, Vertica etc.
  • Hadoop-baserte løsninger – ingen forutsetninger for struktur av datasett.
  • Typisk mønster: HDFS, MapReduce (hjelle), hente fra HDFS
  • Batch – egnet til analytisk/interaktiv
  • Volum: CEP streaming data
  • Typiske valg – CEP-produkter (f.eks. Infostreams, Apama, MarkLogic etc)
  • Mindre produksjonssant – Storm/S4
  • NoSQL Databases – (kolonnebasert og nøkkel-verdi): best egnet som analytisk tillegg til datawarehouse/database

Dag-1 : Sesjon -3 : Introduksjon til Big Data-2

NoSQL løsninger

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV Store (Hierarkisk) - GT.m, Cache
  • KV Store (Sortert) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tuple Store - Gigaspaces, Coord, Apache River
  • Objektdatabase - ZopeDB, DB40, Shoal
  • Dokumentlager - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Variasjoner i data: Introduksjon til datarenskning i Big Data

  • RDBMS – statisk struktur/skjema, framskynder ikke fleksibel, utforskende miljø.
  • NoSQL – semi-strukturert, nok struktur for å lagre data uten nøyaktig skjema før lagring av data
  • Datarenskning utfordringer

Dag-1 : Sesjon-4 : Introduksjon til Big Data-3: Hadoop

  • Når velge Hadoop?
  • STRUKTURERT - Virksomhetsdatawarehouses/databaser kan lagre massive mengder data (med en kost) men pålærer struktur (ikke god for aktiv utforskning)
  • SEMISTRUKTURERT data – svært vanskelig med tradisjonelle løsninger (DW/DB)
  • Data-warehousing = stor innsats og statisk selv etter implementering
  • For varietet & volum av data, kjørt på kommersiell hardvara – HADOOP
  • Kostnadsen kommersiell H/W kreves for å opprette en Hadoop-kluster

Introduksjon til Map Reduce /HDFS

  • MapReduce – distribuert beregning over flere servere
  • HDFS – gjør data tilgjengelig lokalt for beregningsprosessen (med redundans)
  • Data – kan være ustrukturert/skjemasløst (ulikt RDBMS)
  • Utvikleransvar for å forstå data
  • Programmering av MapReduce = arbeid med Java (fordeler/nedsidesider), manuell lasting av data til HDFS

Dag-2: Sesjon-1: Big Data økosystem - Bygging av Big Data ETL: universet av Big Data-verktøy - hvilket å bruke og når?

  • Hadoop vs. andre NoSQL-løsninger
  • For interaktiv, tilfeldig tilgang til data
  • Hbase (kolonneorientert database) på toppen av Hadoop
  • Tilfeldig tilgang til data men restriksjoner pålagt (max 1 PB)
  • Ikke egnet for ad-hoc-analyse, god for logging, telling, tidsserie
  • Sqoop - Import fra databaser til Hive eller HDFS (JDBC/ODBC-tilgang)
  • Flume – strømme data (f.eks. loggdata) til HDFS

Dag-2: Sesjon-2: Big Data-håndteringssystem

  • Flytende deler, beregningsnoder starter/feiler : ZooKeeper - For konfigurasjon/samarbeid/navneservice
  • Kompleks pipeline/workflow: Oozie – administrere workflow, avhengigheter, daisy chain
  • Deployering, konfigurasjon, klustermanagement, oppgradering etc (sys admin) : Ambari
  • I skyen: Whirr

Dag-2: Sesjon-3: Prediktiv analyse i Business Intelligence -1: Grunnleggende teknikker & maskinlæring basert BI:

  • Introduksjon til maskinlæring
  • Læringsklasseifiserings teknikker
  • Bayesisk prediksjon - forberedelse av treningsfil
  • Support Vector Machine
  • KNN p-Tre Algebra & vertikal mining
  • Neuralt nettverk
  • Big Data store variabelproblemer - Tilkfeldig skog (RF)
  • Automatisering av Big Data-problem – Multi-modell ensemble RF
  • Automatisering gjennom Soft10-M
  • Tekstanalyseverktøy - Treeminer
  • Fleksibel læring
  • Agentbasert læring
  • Distribuert læring
  • Introduksjon til Open source-verktøy for prediktiv analyse: R, Rapidminer, Mahout

Dag-2: Sesjon-4 Prediktiv analysøkosystem -2: Vanlige prediktive analytiske problemer i regeringen

  • Innsiktsanalyse
  • Visualiseringsanalyse
  • Strukturert prediktiv analyse
  • Ustrukturert prediktiv analyse
  • Truetektdeteksjon/frauddeteksjon/leverandørfilering
  • Anbefalingsmotor
  • Mønsterdeteksjon
  • Regelscenariodiscovery – feil, fraude, optimering
  • Råorsakdiscovery
  • Sentimentanalyse
  • CRM-analyse
  • Netværksanalyse
  • Tekstanalyse
  • Teknologisamarbeid for gjenoppbygging
  • Fraudanalyse
  • Reeltidsanalyse

Dag-3 : Sesjon-1: Reeltid og skalerbar analyse over Hadoop

  • Hvorfor felles analysealgoritmer feiler i Hadoop/HDFS
  • Apache Hama - for massiv synkronisert distribuert beregning
  • Apache SPARK - for klusterberegning for reeltidsanalyse
  • CMU Graphics Lab2 - Grafbasert asynkron tilnærming til distribuert beregning
  • KNN p-Algebra basert tilnærming fra Treeminer for redusert maskinvarekostnad av operasjonen

Dag-3: Sesjon-2: Verktøy for eDiscovery og forensikk

  • eDiscovery over Big Data vs. leggemyndigheter data – en sammenligning av kostnad og ytelse
  • Prediktiv koding og teknologisamarbeid for gjenoppbygging (TAR)
  • Live demo av et TAR-produkt (vMiner) for å forstå hvordan TAR fungerer for hurtigere oppdagelse
  • Hurtigere indeksering gjennom HDFS – fart på data
  • NLP eller Natural Language Processing – ulike teknikker og open source-produkter
  • eDiscovery i fremmede språk - teknologi for fremmedspråkalisering

Dag-3 : Sesjon 3: Big Data BI for cyber-sikkerhet – Forståelse av helheten 360 graders perspektiv fra hurtig datainnsamling til truetektdeteksjon

  • Forstå grunnleggende sikkerhetsanalyse - angrepsflate, sikkerhetskonfigurasjon, vertforsvar
  • Netværksinfrastruktur / stort datapipe / respons ETL for reeltidsanalyse
  • Preskriptiv vs prediktiv - fast regelbasert vs auto-oppdaging av trueteknregler fra metadata

Dag-3: Sesjon 4: Big Data i USDA: Anvendelse i landbruk

  • Introduksjon til IoT (Internett av ting) for landbruk - sensorbasert Big Data og kontroll
  • Introduksjon til satellittbilde og dens anvendelse i landbruk
  • Integrering av sensordata og bilde for jords fertileitet, anbefaling av dyrkning og prognoser
  • Landbruksforsikring og Big Data
  • Prognose for skadeforfallys

Dag-4 : Sesjon-1: Svindelforebygging BI fra Big Data i regering - svindelanalyse:

  • Grunnleggende klassifisering av svindelanalyse - regelbasert vs prediktiv analyse
  • Supervisert vs u-supervisert maskinlæring for svindelmønsterdeteksjon
  • Leverandørsvidel / overkostnader for prosjekter
  • Medicare og Medicaid-svindel - svindeldeteksjonteknikker for klarebehandlingsprosesser
  • Reiseutgiftssvindel
  • IRS-refundsvidel
  • Case studies og live demo vil bli gitt der data er tilgjengelig.

Dag-4 : Sesjon-2: Analyse av sosial medier - inntelligenssamling og analyse

  • Big Data ETL API for ekstrahering av sosiale media data
  • Tekst, bilde, metadata og video
  • Sentimentanalyse fra sosiale medierfeed
  • Kontekstuell og ikke-kontekstuell filtrering av sosiale mediafeed
  • Sosialmediedashboard for å integrere diverse sosiale medier
  • Automatisk profilering av sosialmediaprofil
  • Live demo av hver analyse vil bli gitt gjennom Treeminer-verktøy.

Dag-4 : Sesjon-3: Big Data-analyse i bildebehandling og videofeeder

  • Bilderlagringsteknikker i Big Data - lagringsløsning for data som overstiger petabytes
  • LTFS og LTO
  • GPFS-LTFS (lagert lageringsløsning for stort bilde)
  • Grunnleggende bildeanalyse
  • Objekterkjenning
  • Bildeavdeling
  • Bevegelsessporing
  • 3-D bildegenskapsrekonstruksjon

Dag-4: Sesjon-4: Big Data-anvendelser i NIH:

  • Oppkommende områder av bioinformasjon
  • Metagenomics og Big Data-gyttingsspor
  • Prediktiv analyse for Big Data i farmakogenomikk, metabolomikk og proteomikk
  • Big Data i nedstrøms genomikkprosesser
  • Anvendelse av prediktiv analyse for Big data i folkehelse

Big Data-dashboard for hurtig tilgang til ulike data og visning:

  • Integrasjon av eksisterende applikasjonsplattform med Big Data-dashboard
  • Big Data-håndtering
  • Case study of Big Data Dashboard: Tableau og Pentaho
  • Bruk av Big Data-app for å drive lokasjonsbaserte tjenester i regeringen
  • Sporingssystem og håndtering

Dag-5 : Sesjon-1: Hvordan rettferdigføre implementering av Big Data BI i en organisasjon:

  • Definere ROI for Big Data-implementering
  • Case studies for å spare Analyst Time for innsamling og forberedelse av data – økning i produktivitet
  • Case studies for inntektsvinst fra sparring for lisenserte databasekostnader
  • Inntektsvinst fra lokasjonsbaserte tjenester
  • Sparinger fra svindelforebygging
  • Et integrert spreadsheet-tilnærming for å beregne tilnærmet kost vs. inntektsvinst/sparinger fra Big Data-implementering.

Dag-5 : Sesjon-2: Trinvis fremgangsmåte for å erstatte leggemyndigheter data system med et Big Data-system:

  • Forstå praktisk Big Data-migreringsvei
  • Hva er det viktigste informasjonen som trengs før arkitektur av en Big Data-implementering
  • Hva er de ulike måtene for å beregne volum, fart, varietet og nøyaktighet av data
  • Hvordan estimere datavekst
  • Case studies

Dag-5: Sesjon 4: Gjennomgang av Big Data-leverandører og gjennomgang av deres produkter. Q/A sesjon:

  • Accenture
  • APTEAN (tidligere CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (tidligere 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (del av EMC)

Krav

  • Grunnleggende kunnskap om virksomhetsdrift og datasystemer i regeringen innenfor deres domene
  • Grunnleggende forståelse av SQL/Oracle eller relasjonelle databaser
  • Grunnleggende kunnskap om statistikk (på kalkulytarnivå)
 35 timer

Antall deltakere


Pris per deltaker

Referanser (1)

Kommende kurs

Relaterte kategorier