Kursplan

Detaljert treningerstruktur

  1. Introduksjon til NLP
    • Forklaring av NLP
    • NLP-rammeverk
    • Kommercielle anvendelser av NLP
    • Henting data fra webben
    • Arbeid med ulike APIer for å hente tekstdata
    • Arbeid og lagring av tekstkorpus, inkludert innhold og relevante metadata
    • Fordeler ved bruk av Python og NLTK-krysskurs
  2. Praktisk forståelse av et korpus og en datasett
    • Hvorfor trenger vi et korpus?
    • Korpusanalyse
    • Type dataattributter
    • Forskjellige filformater for korpus
    • Forklaring av en datasett for NLP-applikasjoner
  3. Forståelse av setningsstrukturen
    • Komponenter i NLP
    • Naturleg språkforståelse
    • Morfologisk analyse - stam, ord, token, talenteringstagger
    • Syntaktisk analyse
    • Semantisk analyse
    • Håndtering av ambiguitet
  4. Forklaring og forarbeiding av tekstdata
    • Korpus - rå tekst
      • Setningstokenering
      • Stemming for rå tekst
      • Lemmatisering av rå tekst
      • Fjerning av stoppord
    • Korpus - rå setninger
      • Ordtokenering
      • Ordlemmatisering
    • Arbeid med Term-Dokument-/Dokument-Term-matriser
    • Teksttokenering til n-gram og setninger
    • Praktisk og tilpasset forarbeiding
  5. Analyse av tekstdata
    • Grunnegenskaper ved NLP
      • Parsers og parsing
      • POS-tagging og taggere
      • Navnentitetsgjenkjenning
      • N-gram
      • Sekk med ord
    • Statistiske egenskaper ved NLP
      • Konsepter i lineær algebra for NLP
      • Sannsynlighetsteori for NLP
      • TF-IDF
      • Vektorisering
      • Kodekere og dekodekere
      • Normalisering
      • Sannsynlighetsmodeller
    • Fremgangsmåter for avansert egenskapsutvinning og NLP
      • Grunnleggende kunnskaper om word2vec
      • Komponenter i word2vec-modellen
      • Logikk bak word2vec-modellen
      • Utvidelse av word2vec-konseptet
      • Anvendelse av word2vec-modell
    • Tilfellessak: Anvendelse av sekken med ord: automatisk tekstsummering ved hjelp av forenklet og ekte Luhn's algoritmer
  6. Dokumentklustering, klassifisering og emne-modellering
    • Klustering av dokumenter og mønstermining (hierarkisk klustering, k-means, etc.)
    • Jmf. og klassifisering av dokumenter ved hjelp av TFIDF, Jaccard og cosinusavstandsmål
    • Klassifisering av dokumenter ved hjelp av Naïve Bayes og maksimal entropi
  7. Identifisering av viktige tekstelementer
    • Dimensjonsreduksjon: Prinsipalkomponentanalyse, singulærverdidekomposisjon, ikke-negative matrisefaktorisering
    • Emne-modellering og informasjonshenting ved hjelp av latente semantisk analyse
  8. Enhetsgjenkjenning, sentimentanalyse og avansert emnemodellering
    • Positivt vs. negativt: grad av sentiment
    • Gjenstandsrespons-teori
    • Talenteringstaggning og dens anvendelse: finne personer, steder og organisasjoner nevnt i tekst
    • Avansert emne-modellering: Latent Dirichlet Allocation
  9. Tilfellessaker
    • Mineringsanalyse av ustrukturerte brukereanmeldelser
    • Sentimentklassifisering og visualisering av produktereviewdata
    • Mineringsanalyse av søkelogg for bruksmønstre
    • Tekstklassifisering
    • Emne-modellering

Krav

Kunnskap og bevissthet om NLP-prinsipper og en forståelse av AI-anvendelser i virksomheter

 21 timer

Antall deltakere


Pris per deltaker

Referanser (1)

Kommende kurs

Relaterte kategorier