Ta kontakt

Kursplan

Detaljeringsgrad for opplæring

  1. Innføring til NLP
    • Forståelse av NLP
    • NLP-rammeverk
    • Kommersielle anvendelser av NLP
    • Henting av data fra nettet
    • Arbeid med ulike API-er for å hente tekstdata
    • Arbeid med og lagring av tekstkorpus, som lagrer innhold og relevant metadata
    • Fordeler med å bruke Python og rask innføring i NLTK
  2. Praktisk forståelse av et korpus og datasett
    • Hvorfor trenger vi et korpus?
    • Korpusanalyse
    • Typer dataegenskaper
    • Forskjellige filformater for korpus
    • Forberedelse av et datasett for NLP-applikasjoner
  3. Forståelsen av setningsstrukturen
    • NLP-komponenter
    • Forståelse av naturlig språk
    • Morfologisk analyse - rot, ord, token, talemerker
    • Syntaktisk analyse
    • Semantisk analyse
    • Håndtering av tvetydighet
  4. Forarbeid av tekstdata
    • Korpus - rå tekst
      • Setnings-tokenisering
      • Rotutvelgelse (stemming) for rå tekst
      • Lemmautvelgelse (lemmatization) av rå tekst
      • Fjerning av stoppord
    • Korpus - rå setninger
      • Ord-tokenisering
      • Lemmautvelgelse av ord
    • Arbeid med term-dokument-/dokument-term-matriser
    • Teksttokenisering til n-grammer og setninger
    • Praktisk og tilpasset forarbeid
  5. Analyse av tekstdata
    • Grunnleggende funksjoner i NLP
      • Parsere og parsing
      • POS-tagging og taggere
      • Anerkjennelse av navngitte enheter
      • N-grammer
      • Ordpose (bag of words)
    • Statistiske funksjoner i NLP
      • Konsekter av lineær algebra for NLP
      • Teoretiske begreper for sannsynlighetsregning i NLP
      • TF-IDF
      • Vektorisering
      • Kodere og avkoding
      • Normalisering
      • Sannsynlighetsmodeller
    • Avansert funksjonsutvikling og NLP
      • Grunnleggende om word2vec
      • Komponenter i word2vec-modellen
      • Logikken til word2vec-modellen
      • Utvidelse av begrepet word2vec
      • Anvendelse av word2vec-modellen
    • Tilfellestudie: Anvendelse av ordpose: automatisk tekstsummatering ved forenklede og ekte Luhn-algoritmer
  6. Dokumentklynging, klassifisering og emneanalyse
    • Dokumentklynging og mønstergraving (hierarkisk klynging, k-means, klynging, osv.)
    • Sammenligning og klassifisering av dokumenter ved bruk av TF-IDF, Jaccard og kosinusavstandsmål
    • Dokumentklassifisering med Naiv Bayes og Maksimum Entropi
  7. Identifisering av viktige tekstelementer
    • Reduksjon av dimensjonalitet: Hovedkomponentanalyse, singularverdidekomponering, ikke-negativ matrixfaktorisering
    • Emneanalyse og informasjonsretreving ved hjelp av latent semantisk analyse
  8. Uttak av enheter, holdningsanalyse og avansert emneanalyse
    • Positiv vs. negativ: holdningsgrad
    • Emnesvarsteori
    • POS-tagging og dets anvendelse: finne personer, steder og organisasjoner nevnt i teksten
    • Avansert emneanalyse: Latent Dirichlet Allocation
  9. Tilfellestudier
    • Graving i ustrukturerte brukeromtaler
    • Holdningsklassifisering og visualisering av produktomtaler
    • Graving i søkeloger for bruksmønstre
    • Tekstklassifisering
    • Emneanalyse

Krav

Kunnskap og forståelse av NLP-prinsipper og en forståelse av AI-applikasjoner i forretningslivet

 21 Timer

Antall deltakere


Pris per deltaker

Referanser (1)

Kommende kurs

Relaterte kategorier