Kursplan

Oversikt over talegenkjenningsteknologier

  • Historie og utvikling av talegenkjenning
  • Lydmodeller, språkmodeller og dekoding
  • Moderne arkitekturer: RNNs, transformers og Whisper

Forhåndsbehandling av lyd og grunnleggende transkripsjon

  • Behandling av lyddataformater og samplingsfrekvenser
  • Rengjøring, beskjæring og segmentering av lyd
  • Generering av tekst fra lyd: sanntids vs batch

Praktisk bruk av Whisper og andre APIer

  • Installasjon og bruk av OpenAI Whisper
  • Kalling av sky-APIer (Google, Azure) for transkripsjon
  • Sammenligning av ytelse, latenens og kostnad

Språk, aksenter og domenadaptasjon

  • Arbeid med flere språk og aksenter
  • Egendefinerte ordbøker og støytoleranse
  • Behandling av juridisk, medisinsk eller teknisk språk

Format for utdata og integrasjon

  • Legging til tidsstempel, tegnsetting og taleretiketter
  • Eksportering til tekst-, SRT- eller JSON-formater
  • Integrering av transkripsjoner i applikasjoner eller databaser

Implementeringslaboratorier for bruksscenarier

  • Transkripsjon av møter, intervjuer eller podcasts
  • Tale-til-tekst-kommandosystemer
  • Sanntids-undertekster for video-/lydstrømmer

Evaluering, begrensninger og etikk

  • Nøyaktighetsmetrikker og modelltesting
  • Bias og rettferdighet i talemodeller
  • Personvern- og komplianshensyn

Oppsummering og neste trinn

Krav

  • En forståelse for generelle AI- og maskinlæringskonsepter
  • Familiaritet med lyd- eller mediadatamformater og -verktøy

Målgruppe

  • Datavitenskapsfolk og AI-ingeniører som jobber med stemmedata
  • Programutviklere som bygger transkripsjonsbaserte applikasjoner
  • Organisasjoner som utforsker talegenkjenning for automatisering
 14 Timer

Antall deltakere


Pris per deltaker

Kommende kurs

Relaterte kategorier