Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Kursplan
Innføring i tale-syntese og stemmekloning
- Oversikt over tekst-til-tale (TTS) og neural stemme-syntese
- Stemmekloning vs talegenerering: brukstilfeller og grenser
- Hovedmodeller: Tacotron, WaveNet, FastSpeech, VITS
Arbeid med kommersielle plattformer
- Bruk av ElevenLabs og Resemble AI
- Stemmeoppretting, -kloning og -redigering
- API-adgang og tekst-til-tale-prosesser
Oppbygging med åpne kilder-verktøy
- Installering og konfigurasjon av Coqui TTS
- Trening av egendefinerte stemmer og datasethåndtering
- Generering av tale med fin kontroll (tonehøyde, hastighet, følelse)
Datapreparasjon og stemmedata
- Innsamling og rensing av stemmeprøver
- Segmentering, merking og transkriptalignering
- Etisk innsamling og stemmesamtykke
Integrering i applikasjoner
- Innbygging av TTS på nettsteder og applikasjoner
- Oppretting av IVR-systemer og interaktive bots
- Generering av syntetisk dialog for video og spill
Vurdering av kvalitet og realistiskhet
- MOS (Mean Opinion Score) og forståelighetstester
- Kontroll av uttrykksfullehet og prosodi
- Sammenligning av latens, troverdighet og realistiskhet
Etiske, juridiske og styreconsiderasjoner
- Deepfake-risiko og ansvarlig bruk
- Samtykke, tilskrivning og opphavsrettsligheten
- Reguleringer og organisasjonspolitikk
Oppsummering og neste trinn
Krav
- Forståelse av grunnleggende maskinlæring
- Kjennskap til lydfilformater og redigeringsverktøy
- Grunnleggende Python programmeringsferdigheter
Målgruppe
- AI-utviklere og ingeniører interessert i talesyntese
- Innholdsprodusenter og medieteknologer som utforsker stemmegjenkjenning
- F&U-lag som bygger personlige eller dynamiske lydsystemer
14 timer