Kursplan

Innføring i tale-syntese og stemmekloning

  • Oversikt over tekst-til-tale (TTS) og neural stemme-syntese
  • Stemmekloning vs talegenerering: brukstilfeller og grenser
  • Hovedmodeller: Tacotron, WaveNet, FastSpeech, VITS

Arbeid med kommersielle plattformer

  • Bruk av ElevenLabs og Resemble AI
  • Stemmeoppretting, -kloning og -redigering
  • API-adgang og tekst-til-tale-prosesser

Oppbygging med åpne kilder-verktøy

  • Installering og konfigurasjon av Coqui TTS
  • Trening av egendefinerte stemmer og datasethåndtering
  • Generering av tale med fin kontroll (tonehøyde, hastighet, følelse)

Datapreparasjon og stemmedata

  • Innsamling og rensing av stemmeprøver
  • Segmentering, merking og transkriptalignering
  • Etisk innsamling og stemmesamtykke

Integrering i applikasjoner

  • Innbygging av TTS på nettsteder og applikasjoner
  • Oppretting av IVR-systemer og interaktive bots
  • Generering av syntetisk dialog for video og spill

Vurdering av kvalitet og realistiskhet

  • MOS (Mean Opinion Score) og forståelighetstester
  • Kontroll av uttrykksfullehet og prosodi
  • Sammenligning av latens, troverdighet og realistiskhet

Etiske, juridiske og styreconsiderasjoner

  • Deepfake-risiko og ansvarlig bruk
  • Samtykke, tilskrivning og opphavsrettsligheten
  • Reguleringer og organisasjonspolitikk

Oppsummering og neste trinn

Krav

  • Forståelse av grunnleggende maskinlæring
  • Kjennskap til lydfilformater og redigeringsverktøy
  • Grunnleggende Python programmeringsferdigheter

Målgruppe

  • AI-utviklere og ingeniører interessert i talesyntese
  • Innholdsprodusenter og medieteknologer som utforsker stemmegjenkjenning
  • F&U-lag som bygger personlige eller dynamiske lydsystemer
 14 timer

Antall deltakere


Price per participant

Upcoming Courses

Related Categories