Kursplan

===== Dag 01 ===== Oversikt over Big Data Business Intelligence for Criminal Intelligence Analysis

    Kasusstudier fra rettshåndhevelse – Predictive Policing Adopsjonsrate for big data i rettshåndhevelsesbyråer og hvordan de samordner sin fremtidige drift rundt Big Data Predictive Analytics Nye teknologiløsninger som skuddsensorer, overvåkingsvideo og sosiale medier Bruke Big Data-teknologi for å redusere informasjon overbelastning Forbinde Big Data med eldre data Grunnleggende forståelse av muliggjørende teknologier i prediktiv analyse Dataintegrasjon og dashbordvisualisering Svindelhåndtering Forretningsregler og svindeldeteksjon Trusseldeteksjon og profilering Kostnadsnytteanalyse for implementering av Big Data

Introduksjon til Big Data

    Hovedkarakteristika for Big Data - Volum, Variasjon, Hastighet og Veracity. MPP (Massively Parallel Processing)-arkitektur Datavarehus – statisk skjema, langsomt utviklende datasett MPP-databaser: Greenplum, Exadata, Teradata, Netezza, Vertica etc. Hadoop-baserte løsninger – ingen betingelser for strukturen til datasettet. Typisk mønster : HDFS, MapReduce (crunch), hente fra HDFS Apache Spark for strømbehandling Batch- egnet for analytisk/ikke-interaktiv Volum : CEP streaming data Typiske valg – CEP-produkter (f.eks. Infostreams, Apama, MarkLogic etc) Mindre produksjonsklar – Storm/S4 NoSQL-databaser – (kolonne og nøkkelverdi): Best egnet som analytisk tillegg til datavarehus/database

IngenSQL løsninger

    KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB) KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB KV Store (hierarkisk) - GT.m, Cache KV Store (bestilt) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua Tuple Store - Gigaspaces, Coord, Apache River Object Database - ZopeDB, DB40, Document Store - CouchDBal , Couchbase, MongoDB, Jackrabbit, XML-Databaser, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Variasjoner av data: Introduksjon til Data Cleaning problemer i Big Data

    RDBMS – statisk struktur/skjema, fremmer ikke smidig, utforskende miljø. NeiSQL – semistrukturert, nok struktur til å lagre data uten eksakt skjema før lagring av data Problemer med datarensing

Hadoop

    Når skal du velge Hadoop? STRUKTURERT - Enterprise datavarehus/databaser kan lagre massive data (til en kostnad), men påtvinge struktur (ikke bra for aktiv leting) SEMI STRUKTURERT data – vanskelig å utføre ved bruk av tradisjonelle løsninger (DW/DB) Lagerdata = ENORM innsats og statisk til og med etter implementering For variasjon og volum av data, knust på råvaremaskinvare – HADOOP Commodity H/W trengte for å lage en Hadoop klynge

Introduksjon til Map Reduce /HDFS

    MapReduce – distribuer databehandling over flere servere HDFS – gjør data tilgjengelig lokalt for databehandlingsprosessen (med redundans) Data – kan være ustrukturerte/skjemaløse (i motsetning til RDBMS) Utvikleransvar for å forstå data Programming MapReduce = arbeider med Java ( fordeler/ulemper), laster data manuelt inn i HDFS

===== Dag 02 ===== Big Data Økosystem -- Bygge Big Data ETL (ekstrahere, transformere, laste) -- Hvilke Big Data verktøy skal brukes og når?

    Hadoop vs. Andre NoSQL-løsninger For interaktiv, tilfeldig tilgang til data Hbase (kolonneorientert database) på toppen av Hadoop Tilfeldig tilgang til data, men restriksjoner pålagt (maks 1 PB) Ikke bra for ad-hoc-analyse, bra for logging, telling, tidsserier Sqoop - Importer fra databaser til Hive eller HDFS (JDBC/ODBC-tilgang) Flume – Strøm data (f.eks. loggdata) til HDFS

Big Data Management System

    Bevegelige deler, beregningsnoder starter/feiler :ZooKeeper - For konfigurasjons-/koordinerings-/navngivningstjenester Kompleks pipeline/arbeidsflyt: Oozie – administrer arbeidsflyt, avhengigheter, seriekjede Implementer, konfigurer, klyngeadministrasjon, oppgradering osv. (sys admin) :Ambari In Cloud : Whirr

Predictive Analytics -- Grunnleggende teknikker og maskinlæringsbasert Business Intelligence

    Introduksjon til maskinlæring Lære klassifiseringsteknikker Bayesiansk prediksjon -- utarbeide en opplæringsfil Support Vector Machine KNN p-Tree Algebra & vertikal gruvedrift Nevrale nettverk Big Data stort variabelt problem -- Random forest (RF) Big Data Automatiseringsproblem – Multi-modell ensemble RF Automatisering gjennom Soft10-M Tekstanalyseverktøy-Treeminer Agile læring Agentbasert læring Distribuert læring Introduksjon til åpen kildekode-verktøy for prediktiv analyse: R, Python, Rapidminer, Mahut

Predictive Analytics Økosystem og dets anvendelse i Criminal Intelligence Analysis

    Teknologi og etterforskningsprosessen Innsiktsanalyse Visualiseringsanalyse Strukturert prediktiv analyse Ustrukturert prediktiv analyse Trussel-/svindelstjerne-/leverandørprofilering Anbefaling Engine Mønstergjenkjenning Regel/Scenario-oppdagelse – feil, svindel, optimalisering Oppdagelse av rotårsak Sentimentanalyse CRM-analyse Nettverksanalyse Tekstanalyser fra innhenting utskrifter, vitneforklaringer, nettprat osv. Teknologiassistert gjennomgang Svindelanalyse Sanntidsanalyse

===== Dag 03 ===== Sanntid og Scalable Analytics Over Hadoop

    Hvorfor vanlige analytiske algoritmer mislykkes i Hadoop/HDFS Apache Hama- for Bulk Synchronous distributed computing Apache SPARK- for cluster computing og sanntidsanalytisk CMU Graphics Lab2- Grafbasert asynkron tilnærming til distribuert databehandling KNN p -- Algebrabasert tilnærming fra Treeminer for reduserte maskinvarekostnader ved drift

Verktøy for eDiscovery og etterforskning

    eDiscovery over Big Data vs. eldre data – en sammenligning av kostnader og ytelse Predictive coding og Technology Assisted Review (TAR) Live-demo av vMiner for å forstå hvordan TAR muliggjør raskere oppdagelse Raskere indeksering gjennom HDFS – Datahastighet NLP (Natural Language processing) – åpen kildekode-produkter og -teknikker eDiscovery på fremmedspråk -- teknologi for fremmedspråksbehandling

Big Data BI for Cyber Security – Få en 360-graders visning, rask datainnsamling og trusselidentifikasjon

    Forstå det grunnleggende om sikkerhetsanalyse -- angrepsoverflate, feilkonfigurasjon av sikkerhet, vertsforsvar Nettverksinfrastruktur / Stor datapipe / Respons ETL for sanntidsanalyse Preskriptiv vs prediktiv - Fast regelbasert vs automatisk oppdagelse av trusselregler fra metadata

Innsamling av ulike data for kriminaletterretningsanalyse

    Bruke IoT (Internet of Things) som sensorer for å fange data Bruke satellittbilder for innenlandsk overvåking Bruke overvåking og bildedata for kriminell identifikasjon Andre datainnsamlingsteknologier -- droner, kroppskameraer, GPS-merkesystemer og termisk bildeteknologi Kombinerer automatisk datainnhenting med data innhentet fra informanter, avhør og forskning Forecasting kriminell aktivitet

===== Dag 04 ===== Svindelforebygging BI fra Big Data i Fraud Analytics

    Grunnleggende klassifisering av svindelanalyse -- regelbasert vs prediktiv analyse Overvåket vs uovervåket Maskinlæring for svindelmønsterdeteksjon Business til forretningssvindel, svindel med medisinske krav, forsikringssvindel, skatteunndragelse og hvitvasking av penger

Social Media Analyse – Etterretningsinnhenting og analyse

    Hvordan Social Media brukes av kriminelle til å organisere, rekruttere og planlegge Big Data ETL API for å trekke ut sosiale medier-data Tekst, bilde, metadata og video Sentimentanalyse fra sosiale medier-feed Kontekstuell og ikke-kontekstuell filtrering av sosiale medier-feed Social Media Dashboard for å integrere ulike sosiale medier Automatisert profilering av sosiale medier-profilen Live demo av hver analyse vil bli gitt gjennom Treeminer Tool

Big Data Analyse innen bildebehandling og videofeeder

    Bildelagringsteknikker i Big Data -- Lagringsløsning for data som overstiger petabyte LTFS (Linear Tape File System) og LTO (Linear Tape Open) GPFS-LTFS (General Parallel File System - Linear Tape File System) -- lagdelt lagringsløsning for Big bildedata Grunnleggende om bildeanalyse Objektgjenkjenning Bildesegmentering Bevegelsessporing 3D-bilderekonstruksjon

Biometrikk, DNA og neste generasjons identifiseringsprogrammer

    Utover fingeravtrykk og ansiktsgjenkjenning Talegjenkjenning, tastetrykk (analyse av brukerens skrivemønster) og CODIS (kombinert DNA-indekssystem) Utover DNA-matching: bruk av rettsmedisinsk DNA-fenotyping for å konstruere et ansikt fra DNA-prøver

Big Data Dashboard for rask tilgang til ulike data og visning:

    Integrasjon av eksisterende applikasjonsplattform med Big Data Dashboard Big Data Management Case Study of Big Data Dashboard: Tableau og Pentaho Bruk Big Data-appen til å pushe lokasjonsbaserte tjenester i Govt. Sporingssystem og styring

===== Dag 05 ===== Hvordan rettferdiggjøre Big Data BI-implementering i en organisasjon:

    Definere ROI (Return on Investment) for implementering av Big Data Case-studier for å spare analytikertid i innsamling og klargjøring av data – øke produktiviteten Inntektsgevinst fra lavere databaselisenskostnader Inntektsgevinst fra lokasjonsbaserte tjenester Kostnadsbesparelser fra svindelforebygging Et integrert regneark tilnærming for å beregne omtrentlige utgifter vs. inntektsgevinst/besparelser fra implementering av Big Data.

Trinn for trinn prosedyre for å erstatte et eldre datasystem med et Big Data system

    Big Data Veikart for migrering Hvilken viktig informasjon er nødvendig før man bygger et Big Data system? Hva er de forskjellige måtene å beregne volum, hastighet, variasjon og sannhet av data Hvordan estimere datavekst Kasusstudier

Gjennomgang av Big Data Leverandører og gjennomgang av deres produkter.

    Accenture APTEAN (Tidligere CDC-programvare) Cisco Systems Cloudera Dell EMC GoodData Corporation Guavus Hitachi Data Systems Hortonworks HP IBM Informatica Intel Jaspersoft Microsoft MongoDB (tidligere 10Gen) MU Sigma Netapp Operaløsninger Oracle Pentaho Platfora Qliktech Quantum Rackspace Revolution-programvare AGAS-programvare SAP SAS Sforce Analytics /Terracotta Soft10 Automation Splunk Sqrrl Supermicro Tableau Software Teradata Think Big Analytics Tidemark Systems Treeminer VMware (del av EMC)

Q/A økt

Krav

  • Kjennskap til rettshåndhevelsesprosesser og datasystemer
  • Grunnleggende forståelse av SQL/Oracle eller relasjonsdatabase
  • Grunnleggende forståelse av statistikk (på regnearknivå)
 35 timer

Antall deltakere



Price per participant

Testimonials (4)

Related Categories