Kursplan
===== Dag 01 ===== Oversikt over Big Data Business Intelligence for Criminal Intelligence Analysis
- Kasusstudier fra rettshåndhevelse – Predictive Policing Adopsjonsrate for big data i rettshåndhevelsesbyråer og hvordan de samordner sin fremtidige drift rundt Big Data Predictive Analytics Nye teknologiløsninger som skuddsensorer, overvåkingsvideo og sosiale medier Bruke Big Data-teknologi for å redusere informasjon overbelastning Forbinde Big Data med eldre data Grunnleggende forståelse av muliggjørende teknologier i prediktiv analyse Dataintegrasjon og dashbordvisualisering Svindelhåndtering Forretningsregler og svindeldeteksjon Trusseldeteksjon og profilering Kostnadsnytteanalyse for implementering av Big Data
Introduksjon til Big Data
- Hovedkarakteristika for Big Data - Volum, Variasjon, Hastighet og Veracity. MPP (Massively Parallel Processing)-arkitektur Datavarehus – statisk skjema, langsomt utviklende datasett MPP-databaser: Greenplum, Exadata, Teradata, Netezza, Vertica etc. Hadoop-baserte løsninger – ingen betingelser for strukturen til datasettet. Typisk mønster : HDFS, MapReduce (crunch), hente fra HDFS Apache Spark for strømbehandling Batch- egnet for analytisk/ikke-interaktiv Volum : CEP streaming data Typiske valg – CEP-produkter (f.eks. Infostreams, Apama, MarkLogic etc) Mindre produksjonsklar – Storm/S4 NoSQL-databaser – (kolonne og nøkkelverdi): Best egnet som analytisk tillegg til datavarehus/database
IngenSQL løsninger
- KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB) KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB KV Store (hierarkisk) - GT.m, Cache KV Store (bestilt) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua Tuple Store - Gigaspaces, Coord, Apache River Object Database - ZopeDB, DB40, Document Store - CouchDBal , Couchbase, MongoDB, Jackrabbit, XML-Databaser, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Variasjoner av data: Introduksjon til Data Cleaning problemer i Big Data
- RDBMS – statisk struktur/skjema, fremmer ikke smidig, utforskende miljø. NeiSQL – semistrukturert, nok struktur til å lagre data uten eksakt skjema før lagring av data Problemer med datarensing
Hadoop
- Når skal du velge Hadoop? STRUKTURERT - Enterprise datavarehus/databaser kan lagre massive data (til en kostnad), men påtvinge struktur (ikke bra for aktiv leting) SEMI STRUKTURERT data – vanskelig å utføre ved bruk av tradisjonelle løsninger (DW/DB) Lagerdata = ENORM innsats og statisk til og med etter implementering For variasjon og volum av data, knust på råvaremaskinvare – HADOOP Commodity H/W trengte for å lage en Hadoop klynge
Introduksjon til Map Reduce /HDFS
- MapReduce – distribuer databehandling over flere servere HDFS – gjør data tilgjengelig lokalt for databehandlingsprosessen (med redundans) Data – kan være ustrukturerte/skjemaløse (i motsetning til RDBMS) Utvikleransvar for å forstå data Programming MapReduce = arbeider med Java ( fordeler/ulemper), laster data manuelt inn i HDFS
===== Dag 02 ===== Big Data Økosystem -- Bygge Big Data ETL (ekstrahere, transformere, laste) -- Hvilke Big Data verktøy skal brukes og når?
- Hadoop vs. Andre NoSQL-løsninger For interaktiv, tilfeldig tilgang til data Hbase (kolonneorientert database) på toppen av Hadoop Tilfeldig tilgang til data, men restriksjoner pålagt (maks 1 PB) Ikke bra for ad-hoc-analyse, bra for logging, telling, tidsserier Sqoop - Importer fra databaser til Hive eller HDFS (JDBC/ODBC-tilgang) Flume – Strøm data (f.eks. loggdata) til HDFS
Big Data Management System
- Bevegelige deler, beregningsnoder starter/feiler :ZooKeeper - For konfigurasjons-/koordinerings-/navngivningstjenester Kompleks pipeline/arbeidsflyt: Oozie – administrer arbeidsflyt, avhengigheter, seriekjede Implementer, konfigurer, klyngeadministrasjon, oppgradering osv. (sys admin) :Ambari In Cloud : Whirr
Predictive Analytics -- Grunnleggende teknikker og maskinlæringsbasert Business Intelligence
- Introduksjon til maskinlæring Lære klassifiseringsteknikker Bayesiansk prediksjon -- utarbeide en opplæringsfil Support Vector Machine KNN p-Tree Algebra & vertikal gruvedrift Nevrale nettverk Big Data stort variabelt problem -- Random forest (RF) Big Data Automatiseringsproblem – Multi-modell ensemble RF Automatisering gjennom Soft10-M Tekstanalyseverktøy-Treeminer Agile læring Agentbasert læring Distribuert læring Introduksjon til åpen kildekode-verktøy for prediktiv analyse: R, Python, Rapidminer, Mahut
Predictive Analytics Økosystem og dets anvendelse i Criminal Intelligence Analysis
- Teknologi og etterforskningsprosessen Innsiktsanalyse Visualiseringsanalyse Strukturert prediktiv analyse Ustrukturert prediktiv analyse Trussel-/svindelstjerne-/leverandørprofilering Anbefaling Engine Mønstergjenkjenning Regel/Scenario-oppdagelse – feil, svindel, optimalisering Oppdagelse av rotårsak Sentimentanalyse CRM-analyse Nettverksanalyse Tekstanalyser fra innhenting utskrifter, vitneforklaringer, nettprat osv. Teknologiassistert gjennomgang Svindelanalyse Sanntidsanalyse
===== Dag 03 ===== Sanntid og Scalable Analytics Over Hadoop
- Hvorfor vanlige analytiske algoritmer mislykkes i Hadoop/HDFS Apache Hama- for Bulk Synchronous distributed computing Apache SPARK- for cluster computing og sanntidsanalytisk CMU Graphics Lab2- Grafbasert asynkron tilnærming til distribuert databehandling KNN p -- Algebrabasert tilnærming fra Treeminer for reduserte maskinvarekostnader ved drift
Verktøy for eDiscovery og etterforskning
- eDiscovery over Big Data vs. eldre data – en sammenligning av kostnader og ytelse Predictive coding og Technology Assisted Review (TAR) Live-demo av vMiner for å forstå hvordan TAR muliggjør raskere oppdagelse Raskere indeksering gjennom HDFS – Datahastighet NLP (Natural Language processing) – åpen kildekode-produkter og -teknikker eDiscovery på fremmedspråk -- teknologi for fremmedspråksbehandling
Big Data BI for Cyber Security – Få en 360-graders visning, rask datainnsamling og trusselidentifikasjon
- Forstå det grunnleggende om sikkerhetsanalyse -- angrepsoverflate, feilkonfigurasjon av sikkerhet, vertsforsvar Nettverksinfrastruktur / Stor datapipe / Respons ETL for sanntidsanalyse Preskriptiv vs prediktiv - Fast regelbasert vs automatisk oppdagelse av trusselregler fra metadata
Innsamling av ulike data for kriminaletterretningsanalyse
- Bruke IoT (Internet of Things) som sensorer for å fange data Bruke satellittbilder for innenlandsk overvåking Bruke overvåking og bildedata for kriminell identifikasjon Andre datainnsamlingsteknologier -- droner, kroppskameraer, GPS-merkesystemer og termisk bildeteknologi Kombinerer automatisk datainnhenting med data innhentet fra informanter, avhør og forskning Forecasting kriminell aktivitet
===== Dag 04 ===== Svindelforebygging BI fra Big Data i Fraud Analytics
- Grunnleggende klassifisering av svindelanalyse -- regelbasert vs prediktiv analyse Overvåket vs uovervåket Maskinlæring for svindelmønsterdeteksjon Business til forretningssvindel, svindel med medisinske krav, forsikringssvindel, skatteunndragelse og hvitvasking av penger
Social Media Analyse – Etterretningsinnhenting og analyse
- Hvordan Social Media brukes av kriminelle til å organisere, rekruttere og planlegge Big Data ETL API for å trekke ut sosiale medier-data Tekst, bilde, metadata og video Sentimentanalyse fra sosiale medier-feed Kontekstuell og ikke-kontekstuell filtrering av sosiale medier-feed Social Media Dashboard for å integrere ulike sosiale medier Automatisert profilering av sosiale medier-profilen Live demo av hver analyse vil bli gitt gjennom Treeminer Tool
Big Data Analyse innen bildebehandling og videofeeder
- Bildelagringsteknikker i Big Data -- Lagringsløsning for data som overstiger petabyte LTFS (Linear Tape File System) og LTO (Linear Tape Open) GPFS-LTFS (General Parallel File System - Linear Tape File System) -- lagdelt lagringsløsning for Big bildedata Grunnleggende om bildeanalyse Objektgjenkjenning Bildesegmentering Bevegelsessporing 3D-bilderekonstruksjon
Biometrikk, DNA og neste generasjons identifiseringsprogrammer
- Utover fingeravtrykk og ansiktsgjenkjenning Talegjenkjenning, tastetrykk (analyse av brukerens skrivemønster) og CODIS (kombinert DNA-indekssystem) Utover DNA-matching: bruk av rettsmedisinsk DNA-fenotyping for å konstruere et ansikt fra DNA-prøver
Big Data Dashboard for rask tilgang til ulike data og visning:
- Integrasjon av eksisterende applikasjonsplattform med Big Data Dashboard Big Data Management Case Study of Big Data Dashboard: Tableau og Pentaho Bruk Big Data-appen til å pushe lokasjonsbaserte tjenester i Govt. Sporingssystem og styring
===== Dag 05 ===== Hvordan rettferdiggjøre Big Data BI-implementering i en organisasjon:
- Definere ROI (Return on Investment) for implementering av Big Data Case-studier for å spare analytikertid i innsamling og klargjøring av data – øke produktiviteten Inntektsgevinst fra lavere databaselisenskostnader Inntektsgevinst fra lokasjonsbaserte tjenester Kostnadsbesparelser fra svindelforebygging Et integrert regneark tilnærming for å beregne omtrentlige utgifter vs. inntektsgevinst/besparelser fra implementering av Big Data.
Trinn for trinn prosedyre for å erstatte et eldre datasystem med et Big Data system
- Big Data Veikart for migrering Hvilken viktig informasjon er nødvendig før man bygger et Big Data system? Hva er de forskjellige måtene å beregne volum, hastighet, variasjon og sannhet av data Hvordan estimere datavekst Kasusstudier
Gjennomgang av Big Data Leverandører og gjennomgang av deres produkter.
- Accenture APTEAN (Tidligere CDC-programvare) Cisco Systems Cloudera Dell EMC GoodData Corporation Guavus Hitachi Data Systems Hortonworks HP IBM Informatica Intel Jaspersoft Microsoft MongoDB (tidligere 10Gen) MU Sigma Netapp Operaløsninger Oracle Pentaho Platfora Qliktech Quantum Rackspace Revolution-programvare AGAS-programvare SAP SAS Sforce Analytics /Terracotta Soft10 Automation Splunk Sqrrl Supermicro Tableau Software Teradata Think Big Analytics Tidemark Systems Treeminer VMware (del av EMC)
Q/A økt
Krav
- Kjennskap til rettshåndhevelsesprosesser og datasystemer
- Grunnleggende forståelse av SQL/Oracle eller relasjonsdatabase
- Grunnleggende forståelse av statistikk (på regnearknivå)
Testimonials (4)
Tydelige forklaringer med gode eksempler slik at jeg kan forholde meg til min egen arbeidslinje.
Elaine Vermeulen - Sandoz BV
Kurs - Alteryx for Developers
Machine Translated
I enjoyed the exercises session the most as I get to understand how to apply. Would definitely enjoyed it more if there are more combination exercises :)
Joan Ng
Kurs - Data Preparation with Alteryx
Use cases were awesome! and Ray involved each and every one of us in each use case.
Zara - Trench Ltd
Kurs - Alteryx for Data Analysis
team work