Takk for at du sendte din henvendelse! En av våre teammedlemmer vil kontakte deg straks.
Takk for at du sendte din bestilling! En av våre teammedlemmer vil kontakte deg straks.
Kursplan
Oversikt over talegenkjenningsteknologier
- Historie og utvikling av talegenkjenning
- Lydmodeller, språkmodeller og dekoding
- Moderne arkitekturer: RNNs, transformers og Whisper
Forhåndsbehandling av lyd og grunnleggende transkripsjon
- Behandling av lyddataformater og samplingsfrekvenser
- Rengjøring, beskjæring og segmentering av lyd
- Generering av tekst fra lyd: sanntids vs batch
Praktisk bruk av Whisper og andre APIer
- Installasjon og bruk av OpenAI Whisper
- Kalling av sky-APIer (Google, Azure) for transkripsjon
- Sammenligning av ytelse, latenens og kostnad
Språk, aksenter og domenadaptasjon
- Arbeid med flere språk og aksenter
- Egendefinerte ordbøker og støytoleranse
- Behandling av juridisk, medisinsk eller teknisk språk
Format for utdata og integrasjon
- Legging til tidsstempel, tegnsetting og taleretiketter
- Eksportering til tekst-, SRT- eller JSON-formater
- Integrering av transkripsjoner i applikasjoner eller databaser
Implementeringslaboratorier for bruksscenarier
- Transkripsjon av møter, intervjuer eller podcasts
- Tale-til-tekst-kommandosystemer
- Sanntids-undertekster for video-/lydstrømmer
Evaluering, begrensninger og etikk
- Nøyaktighetsmetrikker og modelltesting
- Bias og rettferdighet i talemodeller
- Personvern- og komplianshensyn
Oppsummering og neste trinn
Krav
- En forståelse for generelle AI- og maskinlæringskonsepter
- Familiaritet med lyd- eller mediadatamformater og -verktøy
Målgruppe
- Datavitenskapsfolk og AI-ingeniører som jobber med stemmedata
- Programutviklere som bygger transkripsjonsbaserte applikasjoner
- Organisasjoner som utforsker talegenkjenning for automatisering
14 Timer