Kursplan
Dag 01
Oversikt over Big Data Business Intelligence for Criminal Intelligence Analysis
- Saksstudier fra rettshåndhevelse – prediktivt politiarbeid
- Big Data adopsjonsrate i rettshåndhevelsesbyråer og hvordan de justerer sin fremtidige drift rundt Big Data Predictive Analytics
- Nye teknologiløsninger som skuddsensorer, overvåkingsvideo og sosiale medier
- Bruke Big Data teknologi for å redusere informasjonsoverbelastning
- Grensesnitt Big Data med eldre data
- Grunnleggende forståelse av muliggjørende teknologier i prediktiv analyse
- Data Integration & Dashboardvisualisering
- Svindelhåndtering
- Business Rules og svindeloppdagelse
- Trusseldeteksjon og profilering
- Nyttekostnadsanalyse for Big Data implementering
Introduksjon til Big Data
- Hovedkarakteristika for Big Data -- Volum, Variety, Velocity og Veracity.
- MPP (Massively Parallel Processing) arkitektur
- Data Warehouses – statisk skjema, datasett i sakte utvikling
- MPP Databases: Greenplum, Exadata, Teradata, Netezza, Vertica etc.
- Hadoop Baserte løsninger – ingen betingelser for strukturen til datasettet.
- Typisk mønster: HDFS, MapReduce (crunch), hente fra HDFS
- Apache Spark for strømbehandling
- Batch-egnet for analytisk/ikke-interaktiv
- Volum: CEP-strømmedata
- Typiske valg – CEP-produkter (f.eks. Infostreams, Apama, MarkLogic osv.)
- Mindre produksjonsklar – Storm/S4
- NoSQL Databases – (kolonne og nøkkelverdi): Passer best som analytisk tillegg til datavarehus/database
IngenSQL løsninger
- KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Store (hierarkisk) - GT.m, Cache
- KV Store (bestilt) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tuple Store - Gigaspaces, Coord, Apache River
- Objekt Database - ZopeDB, DB40, Shoal
- Document Store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Wide Columnar Store – BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Variasjoner av data: Introduksjon til Data Cleaning problemer i Big Data
- RDBMS – statisk struktur/skjema, fremmer ikke smidig, utforskende miljø.
- NoSQL – semistrukturert, nok struktur til å lagre data uten eksakt skjema før lagring av data
- Problemer med datarensing
Hadoop
- Når skal du velge Hadoop?
- STRUKTURERT - Enterprise datavarehus/databaser kan lagre massive data (til en kostnad), men påtvinge struktur (ikke bra for aktiv leting)
- SEMI STRUKTURERT data – vanskelig å utføre ved bruk av tradisjonelle løsninger (DW/DB)
- Lagerdata = ENORM innsats og statisk selv etter implementering
- For variasjon og volum av data, crunched på råvaremaskinvare – HADOOP
- Vare H/W som trengs for å lage en Hadoop-klynge
Introduksjon til Map Reduce /HDFS
- MapReduce – distribuer databehandling over flere servere
- HDFS – gjør data tilgjengelig lokalt for databehandlingen (med redundans)
- Data – kan være ustrukturerte/skjemaløse (i motsetning til RDBMS)
- Utvikleransvar for å forstå data
- Programming MapReduce = arbeider med Java (fordeler/ulemper), laster data manuelt inn i HDFS
Dag 02
Big Data Økosystem -- Bygging Big Data ETL (ekstrahere, transformere, laste) -- Hvilke Big Data verktøy skal brukes og når?
- Hadoop vs. andre NoSQL løsninger
- For interaktiv, tilfeldig tilgang til data
- Hbase (kolonneorientert database) på toppen av Hadoop
- Tilfeldig tilgang til data, men begrensninger pålagt (maks 1 PB)
- Ikke bra for ad-hoc-analyse, bra for logging, telling, tidsserier
- Sqoop - Importer fra databaser til Hive eller HDFS (JDBC/ODBC-tilgang)
- Flume – Strøm data (f.eks. loggdata) inn i HDFS
Big Data Management System
- Bevegelige deler, beregningsnoder starter/feiler :ZooKeeper - For konfigurasjons-/koordinerings-/navnetjenester
- Kompleks pipeline/arbeidsflyt: Oozie – administrer arbeidsflyt, avhengigheter, seriekjede
- Distribuer, konfigurer, klyngeadministrasjon, oppgradering etc (sys admin): Ambari
- In Cloud: Whirr
Predictive Analytics -- Grunnleggende teknikker og maskinlæringsbasert Business Intelligence
- Introduksjon til Machine Learning
- Lære klassifiseringsteknikker
- Bayesian Prediction -- forbereder en treningsfil
- Støtte Vector Machine
- KNN p-Tree Algebra & vertikal gruvedrift
- Neural Networks
- Big Data stort variabelt problem -- Tilfeldig skog (RF)
- Big Data Automatiseringsproblem – Multi-modell ensemble RF
- Automatisering gjennom Soft10-M
- Tekstanalyseverktøy-Treeminer
- Agile læring
- Agentbasert læring
- Distribuert læring
- Introduksjon til åpen kildekode-verktøy for prediktiv analyse: R, Python, Rapidminer, Mahut
Predictive Analytics Økosystem og dets anvendelse i Criminal Intelligence Analysis
- Teknologi og etterforskningsprosessen
- Innsiktsanalytisk
- Visualiseringsanalyse
- Strukturert prediktiv analyse
- Ustrukturert prediktiv analyse
- Trussel-/svindelstjerne-/leverandørprofilering
- Anbefalt motor
- Mønstergjenkjenning
- Oppdagelse av regel/scenario – feil, svindel, optimalisering
- Oppdagelse av rotårsak
- Sentimentanalyse
- CRM-analyse
- Nettverksanalyse
- Tekstanalyse for å få innsikt fra utskrifter, vitneforklaringer, nettprat, etc.
- Teknologiassistert gjennomgang
- Svindelanalyse
- Sanntidsanalyse
Dag 03
Sanntid og Scalable Analytics Over Hadoop
- Hvorfor vanlige analytiske algoritmer mislykkes i Hadoop/HDFS
- Apache Hama- for Bulk Synchronous distributed computing
- Apache SPARK- for klyngedatabehandling og sanntidsanalyse
- CMU Graphics Lab2- Grafbasert asynkron tilnærming til distribuert databehandling
- KNN p -- Algebrabasert tilnærming fra Treeminer for reduserte maskinvarekostnader ved drift
Verktøy for eDiscovery og etterforskning
- eDiscovery over Big Data vs. eldre data – en sammenligning av kostnader og ytelse
- Prediktiv koding og teknologiassistert gjennomgang (TAR)
- Live demo av vMiner for å forstå hvordan TAR muliggjør raskere oppdagelse
- Raskere indeksering gjennom HDFS – Datahastighet
- NLP (Natural Language Processing) – åpen kildekode-produkter og -teknikker
- eDiscovery i fremmedspråk -- teknologi for fremmedspråksbehandling
Big Data BI for Cyber Security – Få en 360-graders visning, rask datainnsamling og trusselidentifikasjon
- Forstå det grunnleggende om sikkerhetsanalyse -- angrepsoverflate, feilkonfigurasjon av sikkerhet, vertsforsvar
- Nettverksinfrastruktur / Stor datapipe / Response ETL for sanntidsanalyse
- Preskriptiv vs prediktiv - Fast regelbasert kontra automatisk oppdagelse av trusselregler fra metadata
Innsamling av ulike data for kriminaletterretningsanalyse
- Bruke IoT (Internet of Things) som sensorer for å fange data
- Bruk av satellittbilder for innenlandsk overvåking
- Bruk av overvåkings- og bildedata for kriminell identifikasjon
- Andre datainnsamlingsteknologier -- droner, kroppskameraer, GPS-merkesystemer og termisk bildeteknologi
- Kombinere automatisert datainnhenting med data hentet fra informanter, avhør og forskning
- Forecasting kriminell virksomhet
Dag 04
Fraud prevention BI fra Big Data i Fraud Analytics
- Grunnleggende klassifisering av svindelanalyse -- regelbasert kontra prediktiv analyse
- Overvåket vs uovervåket maskinlæring for svindelmønsterdeteksjon
- Business til forretningssvindel, medisinsk skadesvindel, forsikringssvindel, skatteunndragelse og hvitvasking av penger
Social Media Analyse – Etterretningsinnhenting og analyse
- Hvordan Social Media brukes av kriminelle til å organisere, rekruttere og planlegge
- Big Data ETL API for å trekke ut sosiale mediedata
- Tekst, bilde, metadata og video
- Sentimentanalyse fra feed for sosiale medier
- Kontekstuell og ikke-kontekstuell filtrering av sosiale medier-feed
- Social Media Dashboard for å integrere ulike sosiale medier
- Automatisert profilering av sosiale medier profil
- Live demo av hver analyse vil bli gitt gjennom Treeminer Tool
Big Data Analyse innen bildebehandling og videofeeder
- Bildelagringsteknikker i Big Data -- Lagringsløsning for data som overstiger petabyte
- LTFS (Linear Tape File System) og LTO (Linear Tape Open)
- GPFS-LTFS (General Parallel File System - Linear Tape File System) -- lagdelt lagringsløsning for store bildedata
- Grunnleggende om bildeanalyse
- Gjenkjenning av objekter
- Bildesegmentering
- Bevegelsessporing
- 3-D bilderekonstruksjon
Biometrikk, DNA og neste generasjons identifiseringsprogrammer
- Utover fingeravtrykk og ansiktsgjenkjenning
- Talegjenkjenning, tastetrykk (analyse av brukerens skrivemønster) og CODIS (kombinert DNA-indekssystem)
- Beyond DNA-matching: bruk av rettsmedisinsk DNA-fenotyping for å konstruere et ansikt fra DNA-prøver
Big Data Dashboard for rask tilgang til ulike data og visning:
- Integrasjon av eksisterende applikasjonsplattform med Big Data Dashboard
- Big Data ledelse
- Kasusstudie av Big Data Dashboard: Tableau og Pentaho
- Bruk Big Data-appen til å pushe stedsbaserte tjenester i Govt.
- Sporingssystem og styring
Dag 05
Hvordan rettferdiggjøre Big Data BI-implementering i en organisasjon:
- Definere ROI (Return on Investment) for implementering Big Data
- Kasusstudier for å spare analytikertid ved innsamling og klargjøring av data – øke produktiviteten
- Inntektsgevinst fra lavere databaselisenskostnader
- Inntektsgevinst fra lokasjonsbaserte tjenester
- Kostnadsbesparelser fra svindelforebygging
- En integrert regnearktilnærming for å beregne omtrentlige utgifter vs. inntektsgevinst/besparelser fra Big Data implementering.
Trinn for trinn prosedyre for å erstatte et eldre datasystem med et Big Data system
- Big Data Migrasjonsveikart
- Hvilken kritisk informasjon er nødvendig før man bygger et Big Data-system?
- Hva er de forskjellige måtene for å beregne volum, hastighet, variasjon og sannhet av data
- Hvordan estimere datavekst
- Kasusstudier
Gjennomgang av Big Data Leverandører og gjennomgang av deres produkter.
- Accenture
- APTEAN (tidligere CDC-programvare)
- Cisco Systemer
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi datasystemer
- Hortonverk
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (Tidligere 10Gen)
- MU Sigma
- Netapp
- Opera-løsninger
- Oracle
- Pentaho
- Platfora
- Qliktech
- Kvante
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institutt
- Sisense
- Software AG/Terracotta
- Soft10 automatisering
- Splunk
- Sqrrl
- Supermikro
- Tableau Programvare
- Teradata
- Tenk Big Analytics
- Tidemark Systems
- Treeminer
- VMware (En del av EMC)
Q/A økt
Krav
- Kjennskap til rettshåndhevelsesprosesser og datasystemer
- Grunnleggende forståelse av SQL/Oracle eller relasjonsdatabase
- Grunnleggende forståelse av statistikk (på regnearknivå)
Publikum
- Rettshåndhevelsesspesialister med teknisk bakgrunn
Referanser (1)
Vanskelige emner presentert på en enkel og brukervennlig måte.
Marcin - GE Medical Systems Polska Sp. z o.o.
Kurs - Introduction to Predictive AI
Maskinoversatt