Kursplan

Hver økt er på 2 timer

Dag-1: Økt -1: Forretningsoversikt over hvorfor Big Data Business Intelligence i Govt.

    Kasusstudier fra NIH, DoE Big Data-tilpasningsrate i Govt. Byråer og hvordan de samordner sin fremtidige drift rundt Big Data Predictive Analytics Broad Scale Application Area i DoD, NSA, IRS, USDA etc. Sammenkobling av Big Data med eldre data Grunnleggende forståelse av muliggjørende teknologier i prediktiv analyse Dataintegrasjon og dashbordvisualisering svindel ledelse Forretningsregel/ generering av svindeldeteksjon Trusseldeteksjon og profilering Kostnads-nytteanalyse for implementering av Big Data

Dag-1: Sesjon-2: Introduksjon av Big Data-1

    Hovedkarakteristika for Big Data-volum, variasjon, hastighet og sannhet. MPP-arkitektur for volum. Datavarehus – statisk skjema, langsomt utviklende datasett MPP-databaser som Greenplum, Exadata, Teradata, Netezza, Vertica etc. Hadoop-baserte løsninger – ingen betingelser for strukturen til datasettet. Typisk mønster : HDFS, MapReduce (crunch), hente fra HDFS Batch- egnet for analytisk/ikke-interaktiv Volum : CEP streaming data Typiske valg – CEP-produkter (f.eks. Infostreams, Apama, MarkLogic etc) Mindre produksjonsklare – Storm/S4 NoSQL-databaser – (kolonne og nøkkelverdi): Passer best som analytisk tillegg til datavarehus/database

Dag-1 : Økt -3 : Introduksjon til Big Data-2

IngenSQL løsninger

    KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB) KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB KV Store (hierarkisk) - GT.m, Cache KV Store (bestilt) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua Tuple Store - Gigaspaces, Coord, Apache River Object Database - ZopeDB, DB40, Document Store - CouchDBal , Couchbase, MongoDB, Jackrabbit, XML-Databaser, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Varieties of Data: Introduksjon til Data Cleaning problemstilling i Big Data

    RDBMS – statisk struktur/skjema, fremmer ikke smidig, utforskende miljø. NeiSQL – semistrukturert, nok struktur til å lagre data uten eksakt skjema før lagring av data Problemer med datarensing

Dag-1: Økt-4: Big Data-introduksjon-3: Hadoop

    Når skal du velge Hadoop? STRUKTURERT - Enterprise datavarehus/databaser kan lagre massive data (til en kostnad), men påtvinge struktur (ikke bra for aktiv utforskning) SEMI STRUKTURERT data – vanskelig å gjøre med tradisjonelle løsninger (DW/DB) Lagerdata = ENORM innsats og statisk selv etter implementering For variasjon og volum av data, knust på råvaremaskinvare – HADOOP Commodity H/W trengte for å lage en Hadoop klynge

Introduksjon til Map Reduce /HDFS

    MapReduce – distribuer databehandling over flere servere HDFS – gjør data tilgjengelig lokalt for databehandlingsprosessen (med redundans) Data – kan være ustrukturerte/skjemaløse (i motsetning til RDBMS) Utvikleransvar for å forstå data Programming MapReduce = arbeider med Java ( fordeler/ulemper), laster data manuelt inn i HDFS

Dag-2: Økt-1: Big Data Økosystem-bygging Big Data ETL: univers av Big Data Verktøy-hvilken skal brukes og når?

    Hadoop vs. Andre NoSQL-løsninger For interaktiv, tilfeldig tilgang til data Hbase (kolonneorientert database) på toppen av Hadoop Tilfeldig tilgang til data, men begrensninger pålagt (maks. 1 PB) Ikke bra for ad-hoc-analyse, bra for logging, telling, tidsserier Sqoop - Importer fra databaser til Hive eller HDFS (JDBC/ODBC-tilgang) Flume – Strøm data (f.eks. loggdata) til HDFS

Dag-2: Økt-2: Big Data Management System

    Bevegelige deler, beregningsnoder starter/feiler :ZooKeeper - For konfigurasjons-/koordinerings-/navngivningstjenester Kompleks pipeline/arbeidsflyt: Oozie – administrer arbeidsflyt, avhengigheter, seriekjede Implementer, konfigurer, klyngeadministrasjon, oppgradering osv. (sys admin) :Ambari In Cloud : Whirr

Dag-2: Økt-3: Prediktiv analyse i Business Intelligence -1: Fundamental Techniques & Machine learning based BI:

    Introduksjon til maskinlæring Lære klassifiseringsteknikker Bayesiansk prediksjonsforberedende opplæringsfil Support Vector Machine KNN p-Tree Algebra & vertical mining Neural Network Big Data stort variabelt problem -Random forest (RF) Big Data Automatiseringsproblem – Multi-modellensemble RF Automation gjennom Soft10-M Tekstanalyseverktøy-Treeminer Agile læring Agentbasert læring Distribuert læring Introduksjon til åpen kildekode-verktøy for prediktiv analyse: R, Rapidminer, Mahut

Dag-2: Økt-4 Predictive analytics økosystem-2: Vanlige prediktive analytiske problemer i Govt.

    Innsiktsanalytisk Visualiseringsanalytisk Strukturert prediktiv analytisk Ustrukturert prediktiv analytisk Trussel-/svindelstjerne-/leverandørprofilering Anbefaling Engine Mønstergjenkjenning Regel-/scenariooppdagelse – feil, svindel, optimalisering Oppdagelse av rotårsak Sentimentanalyse CRM-analytisk Nettverksanalytisk Tekstanalyse Teknologiassistert gjennomgang Analytisk analyse av svindel i sanntid

Dag-3: Sesjon-1: Sanntid og Scalable Analytic Over Hadoop

    Hvorfor vanlige analytiske algoritmer mislykkes i Hadoop/HDFS Apache Hama- for Bulk Synchronous distributed computing Apache SPARK- for cluster computing for sanntidsanalytisk CMU Graphics Lab2- Grafbasert asynkron tilnærming til distribuert databehandling KNN p-Algebra basert tilnærming fra Treeminer for redusert maskinvare driftskostnader

Dag-3: Økt-2: Verktøy for eDiscovery og Forensics

    eDiscovery over Big Data vs. eldre data – en sammenligning av kostnader og ytelse Prediktiv koding og teknologiassistert gjennomgang (TAR) Live demo av et Tar-produkt (vMiner) for å forstå hvordan TAR fungerer for raskere oppdagelse Raskere indeksering gjennom HDFS – datahastighet NLP eller Natural Language Processing – ulike teknikker og åpen kildekode-produkter eDiscovery i fremmedspråk-teknologi for fremmedspråksbehandling

Dag-3: Økt 3: Big Data BI for Cyber Security – Forstå hele 360 graders visninger av rask datainnsamling til trusselidentifikasjon

    Forstå det grunnleggende om sikkerhetsanalyse-angrepsoverflate, feilkonfigurasjon av sikkerhet, vertsforsvar Nettverksinfrastruktur/ Stort datarør / Respons ETL for sanntidsanalyse Preskriptiv vs prediktiv – Fast regelbasert vs automatisk oppdagelse av trusselregler fra metadata

Dag-3: Sesjon 4: Big Data i USDA: Application in Agriculture

    Introduksjon til IoT (Internet of Things) for jordbrukssensorbasert Big Data og kontroll Introduksjon til satellittavbildning og dens anvendelse i landbruket Integrering av sensor- og bildedata for fruktbarhet av jord, dyrkingsanbefaling og prognoser Landbruksforsikring og Big Data Prognose av avlingstap

Dag-4: Økt-1: Svindelforebygging BI fra Big Data i Govt-Fraud analytic:

    Grunnleggende klassifisering av svindelanalyse- regelbasert vs prediktiv analyse Overvåket vs uovervåket Maskinlæring for svindelmønsterdeteksjon Leverandørsvindel/overbelastning for prosjekter Medicare og Medicaid svindeloppdagelsesteknikker for behandling av kravsbehandling Reiserefusjonssvindel IRS refusjonssvindel Kasusstudier og live demo vil gis der data er tilgjengelig.

Dag-4: Sesjon-2: Social Media Analytisk- Etterretningsinnhenting og analyse

    Big Data ETL API for å trekke ut sosiale mediedata Tekst, bilde, metadata og video Sentimentanalyse fra sosiale medier-feed Kontekstuell og ikke-kontekstuell filtrering av sosiale medier-feed Social Media Dashboard for å integrere ulike sosiale medier Automatisert profilering av sosiale medier-profil Live-demo av hver analyse vil bli gitt gjennom Treeminer Tool.

Dag-4: Økt-3: Big Data Analytisk i bildebehandling og videofeeder

    Bildelagringsteknikker i Big Data- Lagringsløsning for data som overstiger petabyte LTFS og LTO GPFS-LTFS (lagdelt lagringsløsning for store bildedata) Grunnleggende om bildeanalyse Objektgjenkjenning Bildesegmentering Bevegelsessporing 3D-bilderekonstruksjon

Dag-4: Økt-4: Big Data søknader i NIH:

    Nye områder innen Bio-informatikk Meta-genomics og Big Data mining-spørsmål Big Data Predictive Analytics for Pharmacogenomics, Metabolomics and Proteomics Big Data i nedstrøms Genomics-prosess Anvendelse av Big Data Predictive Analytics in Public Health

Big Data Dashboard for rask tilgang til ulike data og visning:

    Integrasjon av eksisterende applikasjonsplattform med Big Data Dashboard Big Data Management Case Study of Big Data Dashboard: Tableau og Pentaho Bruk Big Data-appen til å pushe lokasjonsbaserte tjenester i Govt. Sporingssystem og styring

Dag-5: Sesjon-1: Hvordan rettferdiggjøre Big Data BI-implementering i en organisasjon:

    Definere ROI for Big Data implementering Kasusstudier for lagring Analytiker Tid for innsamling og klargjøring av data – økning i produktivitetsgevinst Kasusstudier av inntektsgevinst ved å lagre den lisensierte databasekostnaden Inntektsgevinst fra lokasjonsbaserte tjenester Sparing fra svindelforebygging En integrert regnearktilnærming til beregne ca. kostnad vs. inntektsgevinst/besparelse fra Big Data implementering.

Dag-5: Sesjon-2: Trinn-for-trinn prosedyre for å erstatte eldre datasystem til Big Data System:

    Forstå praktisk Big Data Migrasjonsveikart Hva er den viktige informasjonen som trengs før du planlegger en Big Data implementering. Hva er de forskjellige måtene å beregne volum, hastighet, variasjon og sannhetsgrad av data Hvordan estimere datavekst Casestudier

Dag-5: Økt 4: Gjennomgang av Big Data Leverandører og gjennomgang av deres produkter. Q/A økt:

    Accenture APTEAN (Tidligere CDC-programvare) Cisco Systems Cloudera Dell EMC GoodData Corporation Guavus Hitachi Data Systems Hortonworks HP IBM Informatica Intel Jaspersoft Microsoft MongoDB (tidligere 10Gen) MU Sigma Netapp Operaløsninger Oracle Pentaho Platfora Qliktech Quantum Rackspace Revolution-programvare AGAS-programvare SAP SAS Sforce Analytics /Terracotta Soft10 Automation Splunk Sqrrl Supermicro Tableau Software Teradata Think Big Analytics Tidemark Systems Treeminer VMware (del av EMC)

Krav

  • Grunnleggende kunnskap om virksomhetsdrift og datasystemer i Govt. i deres domene
  • Grunnleggende forståelse av SQL/Oracle eller relasjonsdatabase
  • Grunnleggende forståelse av Statistics (på regnearknivå)
 35 timer

Antall deltakere



Price per participant

Testimonials (4)

Relaterte kurs

Related Categories