Kursplan

Detaljert opplæringsoversikt

    Introduksjon til NLP Forstå NLP NLP Frameworks Kommersielle anvendelser av NLP Skrape data fra nettet Arbeide med ulike APIer for å hente tekstdata Arbeide og lagre tekstkorpus lagre innhold og relevante metadata Fordeler med å bruke Python og NLTK lynkurs Praktisk forståelse av et korpus og et datasett Hvorfor trenger vi et korpus? Korpusanalyse Typer av dataattributter Ulike filformater for korpora Forberede et datasett for NLP-applikasjoner Forstå strukturen til en setning Komponenter av NLP Naturlig språkforståelse Morfologisk analyse - stamme, ord, token, talemerker Syntaktisk analyse Semantisk analyse Håndtering av tvetydighet Tekstdataforbehandling Korpus - råtekst Setningstokenisering Stemming for råtekst Lemmisering av råtekst Stopp ordfjerning Korpusråsetninger Word tokenisering Word lemmatisering Arbeide med Term-Dokument/Dokument-Term matriser Teksttokenisering til n-gram og setninger Praktisk og tilpasset forbehandling Analysere tekstdata Grunnleggende funksjon i NLP-parsere og analysering av POS-tagging og -taggere Navneenhetsgjenkjenning N-gram Pose med ord Statistiske trekk ved NLP Konsepter for lineær algebra for NLP Probabilistisk teori for NLP TF-IDF vektoriseringskodere og -dekodere Normalisering Probabilistiske modeller Avansert funksjonsteknikk og NLP Grunnleggende om word2vec Komponenter av word2vec-modellen Logikken til word2vec-modellen Utvidelse av word2vec-konseptet Anvendelse av word2vec-modellen Kasusstudie: Anvendelse av pose med ord: automatisk tekstoppsummering ved bruk av forenklede og sanne Luhns algoritmer Dokumentklynger, klassifisering og emnemodellering Dokumentklynger og mønsterutvinning (hierarkisk clustering, k-midler, clustering, etc.) Sammenligning og klassifisering av dokumenter ved hjelp av TFIDF, Jaccard og cosinusavstandsmål Dokumentklassifisering ved bruk av Naive Bayes og maksimal entropi Identifisere viktige tekstelementer Redusere dimensjonalitet: Hovedkomponentanalyse, Singular Value Decomposition ikke-negativ matrisefaktorisering Emnemodellering og informasjonsinnhenting ved bruk av latent semantisk analyse Entitetsekstraksjon, sentimentanalyse og avansert emnemodellering Positive vs. tekst Avansert emnemodellering: Latent Dirichlet Allocation Case-studier Gruvedrift av ustrukturerte brukeranmeldelser Sentimentklassifisering og visualisering av produktgjennomgang Data Mining søkelogger for bruksmønstre Tekstklassifisering Emnemodellering

Krav

Kunnskap og bevissthet om NLP-prinsipper og en forståelse av AI-applikasjoner i næringslivet

 21 timer

Antall deltakere



Price per participant

Testimonials (2)

Relaterte kurs

Smart Robots for Developers

84 timer

Related Categories