Kursplan

Hver sesjon varer 2 timer

Dag-1: Sesjon -1: Business Overview av Hvorfor Big Data Business Intelligence i Regjeringen

  • Case Studies fra NIH, DoE
  • Tilpasningsgrad for Big Data i Regjeringens organer og hvordan de tilpasser fremtidige operasjoner rundt Big Data Predictive Analytics
  • Bred skala applikasjoner i DoD, NSA, IRS, USDA osv.
  • Integrering av Big Data med gammel data
  • Grunnleggende forståelse av teknologier som muliggjør prediktive analyser
  • Data Integrasjon og dashboard-visualisering
  • Svindelhantering
  • Generering av forretningsregler/Svindeldeteksjon
  • Truseldeteksjon og profileringsprosesser
  • Kostnads- og nytteanalyser for Big Data-implementering

Dag-1: Sesjon-2: Introduksjon til Big Data-1

  • Hovedkarakteristika ved Big Data: volum, variasjon, hastighet og troverdighet. MPP-arkitektur for volum.
  • Data Warehouses – statiske skjemaer, sakte utviklende datasett
  • MPP-databaser som Greenplum, Exadata, Teradata, Netezza, Vertica osv.
  • Hadoop-baserte løsninger – ingen forutsetninger om strukturen i datasettet.
  • Vanlige mønstre: HDFS, MapReduce (kryss), hente fra HDFS
  • Batcher: egnet for analytiske/ikke-interaktive oppgaver
  • Volum: CEP streaming data
  • Vanlige valg: CEP-produkter (f.eks. Infostreams, Apama, MarkLogic osv)
  • Mindre produksjonsklare: Storm/S4
  • NoSQL-databaser – (kolonnebasert og nøkkel-verdi): Best egnet som analytisk tilskudd til data warehouse/databaser

Dag-1: Sesjon -3: Introduksjon til Big Data-2

NoSQL-løsninger

  • Nøkkel-verdi lagring - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • Nøkkel-verdi lagring - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • Nøkkel-verdi lagring (Hierarkisk) - GT.m, Cache
  • Nøkkel-verdi lagring (Ordonert) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • Nøkkel-verdi cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tupel lagring - Gigaspaces, Coord, Apache River
  • Objektdatabaser - ZopeDB, DB40, Shoal
  • Dokument lagring - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Bred kolonnebasert lagring - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Variasjoner av data: Introduksjon til datareinsingsproblemer i Big Data

  • RDBMS – statisk struktur/skjema, fremmer ikke en agil, utforskende miljø.
  • NoSQL – halvstrukturert, tilstrekkelig struktur til å lagre data uten eksakt skjema før lagring
  • Datareinsingsproblemer

Dag-1: Sesjon-4: Big Data Introduksjon-3: Hadoop

  • Når skal man velge Hadoop?
  • STRUKTURERT - Bedriftsdatawarehouses/databaser kan lagre enorme mengder data (til en kostnad) men påtvinger struktur (ikke godt for aktiv utforskning)
  • Halvstrukturert data – vanskelig med tradisjonelle løsninger (DW/DB)
  • Lagring av data = KJEMPEINSATS og statisk selv etter implementering
  • For variasjon og volum av data, kryss på vanlig hårdvare – HADOOP
  • Vanlig hårdvare trengs for å opprette en Hadoop-kluster

Introduksjon til MapReduce /HDFS

  • MapReduce – distribuert beregning over flere servere
  • HDFS – gjør data tilgjengelig lokalt for beregningsprosessen (med redundans)
  • Data – kan være ustrukturert/skjemaløs (unntatt RDBMS)
  • Utviklerens ansvar å gi mening til data
  • Programmering av MapReduce = arbeid med Java (for- og ulemper), manuelt laste data inn i HDFS

Dag-2: Sesjon-1: Big Data Økosystem – Oppbygging av Big Data ETL: Big Data-verktøyuniverset – hvilke å bruke og når?

  • Hadoop vs. Andre NoSQL-løsninger
  • For interaktiv, tilfeldig tilgang til data
  • HBase (kolonnebasert database) over Hadoop
  • Tilfeldig tilgang til data, men restriksjoner (maks 1 PB)
  • Ikke egnet for ad-hoc-analyse, egnet for logging, telling, tidsrekke
  • Sqoop - Importer fra databaser til Hive eller HDFS (JDBC/ODBC-tilgang)
  • Flume – Streame data (f.eks. loggdata) til HDFS

Dag-2: Sesjon-2: Big Data Management System

  • Bevegelige deler, beregningsnoder starter/feiler: ZooKeeper – For konfigurering/koordinering/navneservice
  • Kompleks pipeline/arbeidsflyt: Oozie – Administrer arbeidsflyt, avhengigheter, daisy chain
  • Distribuer, konfigurere, klusterhåndtering, oppgraderinger osv. (sysadmin) : Ambari
  • I Skyen: Whirr

Dag-2: Sesjon-3: Prediktive analyser i Business Intelligence -1: Grundleggende Teknikker & Maskinlæringbasert BI

  • Introduksjon til maskinlæring
  • Lære klassifiseringsteknikker
  • Bayesiansk prediksjon - forberede treningsfil
  • Support Vector Machine
  • KNN p-Tree Algebra & vertikal minering
  • Neuronett
  • Stort problem med mange variabler i Big Data - Random Forest (RF)
  • Automasjonsproblem i Big Data – Multi-modell ensembler RF
  • Automasjon gjennom Soft10-M
  • Tekstanalyseverktøy - Treeminer
  • Agil læring
  • Agentbasert læring
  • Distribuert læring
  • Introduksjon til åpne verktøy for prediktive analyser: R, Rapidminer, Mahut

Dag-2: Sesjon-4 Prediktive analyser økosystem-2: Vanlige prediktive analytiske problemer i regjeringen

  • Insight analyse
  • Visualisering analyse
  • Strukturerte prediktive analyser
  • Ustrukturerte prediktive analyser
  • Trusel/fraudstar/leverandør-profilering
  • Anbefalingsmotor
  • Mønsterdeteksjon
  • Regel/Scenario oppdagelse – feil, svindel, optimalisering
  • Rotårsaksoppdagelse
  • Sentiment analyse
  • CRM analyse
  • Nettverksanalyse
  • Tekstanalyse
  • Teknologisk assistert gjennomgang
  • Svindelanalyse
  • Realtidanalyse

Dag-3: Sesjon-1: Realtids- og Skalerbar Analyse Over Hadoop

  • Hvorfor vanlig analyseteknikker mislykkes i Hadoop/HDFS
  • Apache Hama- for bulk synkrone distribuerte beregninger
  • Apache SPARK- for klusterberegning for realtidsanalyse
  • CMU Graphics Lab2- grafbasert asynkron tilnærming til distribuert beregning
  • KNN p-Algebra basert tilnærming fra Treeminer for redusert hårdvareregningskostnad

Dag-3: Sesjon-2: Verktøy for eDiscovery og Forensik

  • eDiscovery over Big Data vs. Legacy data – en sammenligning av kostnader og ytelse
  • Prediktiv kodning og teknologisk assistert gjennomgang (TAR)
  • Live demo av en Tar produkt (vMiner) for å forstå hvordan TAR fungerer for raskere oppdagelse
  • Raskere indeksering gjennom HDFS – datahastighet
  • NLP eller Naturlig språkanalyse – forskjellige teknikker og åpne kilder
  • eDiscovery i fremmedspråklige – teknologi for fremmedspråklig behandling

Dag-3: Sesjon 3: Big Data BI for Cyber Security – Forstå fullstendig 360-graders oversikt fra rask datainnsamling til trusseldeteksjon

  • Forstå grunnleggende sikkerhetsanalyse – angrepsflate, sikkerhetsfeilkonfigurasjon, vertshåndtering
  • Nettverksinfrastruktur/Stor datapipe / Respons ETL for realtidsanalyse
  • Preskriptiv vs. prediktiv – Faste regler basert vs. automatisk oppdagelse av trusselregler fra metadata

Dag-3: Sesjon 4: Big Data i USDA: Bruk i landbruk

  • Introduksjon til IoT (Internet of Things) for landbruk - Sensorbasert Big Data og kontroll
  • Introduksjon til satellittbilder og bruk i landbruk
  • Integrering av sensor- og billeddata for jordfruktbarhet, dyrkingsanbefalinger og prognoser
  • Landbruksforsikring og Big Data
  • Aktuelle skadeberegninger

Dag-4: Sesjon-1: Svindelforebygging BI fra Big Data i regjeringen – Svindelanalyse

  • Grunnleggende klassifisering av svindelanalyse – regelbasert vs. prediktive analyser
  • Overvåket vs. uovervåket maskinlæring for svindelmønsterdeteksjon
  • Leverandørsvindel/overfakturering for prosjekter
  • Medicare- og Medicaid-svindel – svindeldeteksjonsteknikker for kravsbehandling
  • Reiseutleggssvindel
  • IRS-returssvindel
  • Case studies og live demo vil bli gitt der data er tilgjengelig.

Dag-4: Sesjon-2: Sosial medieanalyse – Innhenting og analyse av informasjon

  • Big Data ETL API for ekstraksjon av sosial mediedata
  • Tekst, bilder, metadata og video
  • Sentimentanalyse fra sosial mediefeeder
  • Kontekstuell og ikke-kontekstuell filtrering av sosial mediefeeder
  • Sosial medie dashboard for å integrere ulike sosialemedier
  • Automatisk profilering av sosial medieprofiler
  • Live demo av hver analyse vil bli gitt gjennom Treeminer-verktøyet.

Dag-4: Sesjon-3: Big Data-analyse i bildebehandling og videostrømmer

  • Lagringsteknikker for bilder i Big Data - Lagringsløsning for data som overstiger petabyter
  • LTFS og LTO
  • GPFS-LTFS (Lagret lagringsløsning for store billedata)
  • Grunnleggende bildeanalyse
  • Objekterkjennelse
  • Bildesegmentering
  • Bevegelsessporing
  • 3-D bildrekonstruksjon

Dag-4: Sesjon-4: Big Data-applikasjoner i NIH

  • Oppstående områder i bioinformatikk
  • Metagenomikk og Big Data-miningsproblemer
  • Big Data prediktive analyser for farmakogenomikk, metabolomikk og proteomikk
  • Big Data i nedstrøms genetiske prosesser
  • Anvendelse av Big Data prediktive analyser i offentlig helse

Big Data dashboard for rask tilgang til ulike data og visning:

  • Integrering av eksisterende applikasjonsplattformer med Big Data dashboard
  • Big Data-håndtering
  • Case Study av Big Data Dashboard: Tableau og Pentaho
  • Bruk Big Data-app for å skyte plasseringstjenester i regjeringen.
  • Spore- og håndteringssystemer

Dag-5: Sesjon-1: Hvordan retteferdige Big Data BI-implementering innen en organisasjon

  • Definere ROI for Big Data-implementering
  • Case studies for å spare analytikertid for innsamling og forberedelse av data – økning i produktivitet
  • Case studies for inntektsøkning ved å spare på lisensdatabasekostnader
  • Inntektsøkning fra plasseringstjenester
  • Besparinger fra svindelforebygging
  • En integrert regnearkstilnærming for å beregne omtrentlige utgifter vs. inntektsøkning/besparinger fra Big Data-implementering.

Dag-5: Sesjon-2: Steg-for-steg prosedyre for å erstatte gammel datasystem med Big Data-system

  • Forstå praktisk Big Data-migreringsplan
  • Hva er den viktige informasjonen som trengs før arkitekturen av en Big Data-implementering
  • Hvilke er de forskjellige måtene å beregne volum, hastighet, variasjon og troverdighet på
  • Hvordan estimere datavekst
  • Case studies

Dag-5: Sesjon 4: Gjennomgang av Big Data-leverandører og gjennomgang av deres produkter. Spørsmål og svar

  • Accenture
  • APTEAN (Tidligere CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (Tidligere 10Gen)
  • Mu Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (Del av EMC)

Krav

  • Grunnleggende kunnskap om virksomhetsdrift og datasystemer i Govt. i deres domene
  • Grunnleggende forståelse av SQL/Oracle eller relasjonsdatabase
  • Grunnleggende forståelse av Statistics (på regnearknivå)
 35 timer

Antall deltakere


Pris per deltaker

Referanser (1)

Kommende kurs

Relaterte kategorier