Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Kursplan
Oversikt over Speech Recognition teknologier
- Historien og utviklingen av talegjenkjenning
- Akustiske modeller, språkmodeller, og dekoding
- Moderne arkitekturer: RNNs, transformere, og Whisper
Audio forbehandling og grunnleggende transkripsjon
- Håndtering av lydformater og prøvetakingshastigheter
- Rensing, trimning, og segmentering av lyd
- Generering av tekst fra lyd: sanntids- vs. batchprosessering
Praksis med Whisper og andre APIer
- Installering og bruk av OpenAI Whisper
- Oppkalling av sky-APIer (Google, Azure) for transkripsjon
- Sammenligning av ytelse, latens, og kostnad
Språk, aksenter, og domeneanpassning
- Arbeid med flere språk og aksenter
- Egendefinerte ordforråder og støynivåtoleranse
- Håndtering av juridisk, medisinsk eller teknisk språk
Utdataformatering og integrering
- Tilføying av tidsstempler, skilletegn, og taleretiketter
- Eksport til tekst, SRT, eller JSON-formater
- Integrering av transkripsjoner i applikasjoner eller databaser
Use Case Implementeringslaboratorier
- Transkripsjon av møter, intervjuer, eller podcasts
- Stemme-til-tekst kommando systemer
- Sanntidsunderskrifter for video-/lydstremer
Vurdering, begrensninger, og etikk
- Nøyaktighetsmålinger og modellbenchmarking
- Forhold og rettferdighet i talemodeller
- Overveielser om personvern og overholdelse
Oppsummering og neste skritt
Krav
- En forståelse av generelle AI- og maskinlæringskonsepter
- Kjennskap med lyd- eller mediafilformater og verktøy
Målgruppe
- Datavitere og AI-ingeniører som arbeider med stemmedata
- Programvareutviklere som bygger applikasjoner basert på transkripsjon
- Organisasjoner som utforsker talegjenkjennelse for automatisering
14 timer