Kursplan

Detaljert opplæringsoversikt

  1. Innføring i NLP
    • Forståelse av NLP
    • NLP-rammeverk
    • Kommersielle anvendelser av NLP
    • Henting av data fra nettet
    • Arbeid med ulike API'er for å hente tekstdata
    • Arbeid med og lagring av tekstkorpus med innhold og relevante metadata
    • Fordeler ved bruk av Python og NLTK hurtigkurs
  2. Praktisk forståelse av et korpus og dataset
    • Hvorfor trenger vi et korpus?
    • Korpusanalyse
    • Typer av dataattributter
    • Forskjellige filformater for korpus
    • Forberedelse av et dataset for NLP-applikasjoner
  3. Forståelse av setningsstruktur
    • Komponenter i NLP
    • Naturlig språkforståelse
    • Morfologisk analyse - stamme, ord, token, taleteikn
    • Syntaktisk analyse
    • Semantisk analyse
    • Håndtering av ambiguitet
  4. Forbehandling av tekstdata
    • Korpus - rå tekst
      • Setningstokenisering
      • Stemming for rå tekst
      • Lemmisering av rå tekst
      • Fjerning av stoppord
    • Korpus - rå setninger
      • Word tokenisering
      • Word lemmatisering
    • Arbeid med Term-Dokument/Dokument-Term-matriser
    • Teksttokenisering i n-grammer og setninger
    • Praktisk og tilpasset forbehandling
  5. Analyse av tekstdata
    • Grunnleggende egenskaper ved NLP
      • Parsere og parsering
      • POS-merking og merkere
      • Navn-entitetsgjennkjenning
      • N-grammer
      • Bag of words
    • Statistiske egenskaper ved NLP
      • Konsepter fra lineær algebra for NLP
      • Sannsynlighetsteori for NLP
      • TF-IDF
      • Vektorisering
      • Kodere og dekodere
      • Normalisering
      • Sannsynlighetsmodeller
    • Avansert funksjonsingeniørvirksomhet og NLP
      • Grunnleggende om word2vec
      • Komponenter i word2vec-modellen
      • Logikken bak word2vec-modellen
      • Utvidelse av word2vec-konseptet
      • Anvendelse av word2vec-modellen
    • Saksbehandling: Anvendelse av bag of words: automatisk tekstsammanfatning ved bruk av forenklede og egentlige Luhns-algoritmer
  6. Dokumentklustering, klassifisering og tema-modellering
    • Dokumentklustering og mønsterutvinning (hierarkisk klustering, k-means-klustering, osv.)
    • Sammenligning og klassifisering av dokumenter ved bruk av TF-IDF, Jaccard og cosinus-avstandsmål
    • Dokumentklassifisering ved bruk av Naïve Bayes og Maximum Entropy
  7. Identifisering av viktig tekst Elementer
    • Reduksjon av dimensjon: Principal Component Analysis, Singular Value Decomposition non-negative matrix factorization
    • Tema-modellering og informasjonshenting ved bruk av Latent Semantic Analysis
  8. Entitetseksstraksjon, Sentiment Analysis og avansert tema-modellering
    • Positiv vs. negativ: grad av sentiment
    • Item Response Theory
    • Part-of-speech-merking og dens anvendelse: finne personer, steder og organisasjoner nevnt i tekst
    • Avansert tema-modellering: Latent Dirichlet Allocation
  9. Saksbehandling
    • Utvinning av ustrukturerte brukeranmeldelser
    • Sentimentklassifisering og visualisering av Produktanmeldelsesdata
    • Utvinning av søkelogger for brukermønster
    • Tekstklassifisering
    • Tema-modellering

Krav

Kunnskap og bevissthet om NLP-prinsipper og en forståelse av AI-applikasjoner i forretningslivet

 21 timer

Antall deltakere


Price per participant

Testimonials (1)

Upcoming Courses

Related Categories