Kursplan

Oversikt over Speech Recognition teknologier

  • Historien og utviklingen av talegjenkjenning
  • Akustiske modeller, språkmodeller, og dekoding
  • Moderne arkitekturer: RNNs, transformere, og Whisper

Audio forbehandling og grunnleggende transkripsjon

  • Håndtering av lydformater og prøvetakingshastigheter
  • Rensing, trimning, og segmentering av lyd
  • Generering av tekst fra lyd: sanntids- vs. batchprosessering

Praksis med Whisper og andre APIer

  • Installering og bruk av OpenAI Whisper
  • Oppkalling av sky-APIer (Google, Azure) for transkripsjon
  • Sammenligning av ytelse, latens, og kostnad

Språk, aksenter, og domeneanpassning

  • Arbeid med flere språk og aksenter
  • Egendefinerte ordforråder og støynivåtoleranse
  • Håndtering av juridisk, medisinsk eller teknisk språk

Utdataformatering og integrering

  • Tilføying av tidsstempler, skilletegn, og taleretiketter
  • Eksport til tekst, SRT, eller JSON-formater
  • Integrering av transkripsjoner i applikasjoner eller databaser

Use Case Implementeringslaboratorier

  • Transkripsjon av møter, intervjuer, eller podcasts
  • Stemme-til-tekst kommando systemer
  • Sanntidsunderskrifter for video-/lydstremer

Vurdering, begrensninger, og etikk

  • Nøyaktighetsmålinger og modellbenchmarking
  • Forhold og rettferdighet i talemodeller
  • Overveielser om personvern og overholdelse

Oppsummering og neste skritt

Krav

  • En forståelse av generelle AI- og maskinlæringskonsepter
  • Kjennskap med lyd- eller mediafilformater og verktøy

Målgruppe

  • Datavitere og AI-ingeniører som arbeider med stemmedata
  • Programvareutviklere som bygger applikasjoner basert på transkripsjon
  • Organisasjoner som utforsker talegjenkjennelse for automatisering
 14 timer

Antall deltakere


Price per participant

Upcoming Courses

Related Categories