Kursplan

Introduksjon til Talesyntese og Stemmekloning

  • Oversikt over tekst-til-tale (TTS) og nevrale stemmesyntese
  • Stemmekloning vs talesyntese: brukssituasjoner og grenser
  • Nøkkelmønstre: Tacotron, WaveNet, FastSpeech, VITS

Arbeid med Kommersielle Plattformer

  • Bruk av ElevenLabs og Resemble AI
  • Stemmeopprettelse, kloning og redigering
  • API-tilgang og tekst-til-tale-arbeidsflyt

Bygging med Open-Source-verktøy

  • Installasjon og konfigurasjon av Coqui TTS
  • Trening av tilpassede stemmer og datasettbehandling
  • Generering av tale med finede kontroll (tonhøyde, hastighet, følelse)

Dataforberedelse og Stemmedatasettbehandling

  • Samling og rengjøring av stemmeprover
  • Segmentering, merking og justering av transkripter
  • Etisk innsamling og stemmeconsent

Applikasjonsintegrering

  • Integrering av TTS i nettsteder og applikasjoner
  • Opprettelse av IVR-systemer og interaktive bots
  • Generering av syntetisk dialog for video og spill

Evaluering av Kvalitet og Realisme

  • MOS (Mean Opinion Score) og forståelighetstester
  • Kontroll av uttrykksfullhet og melodigrad
  • Sammenligning av svarhastighet, troverdighet og realism

Etiske, Lovlige og Styringsmessige Overveiegelser

  • Deepfake-risikoer og ansvarlig bruk
  • Samtykke, referanser og opphavsrettshensyn
  • Reguleringer og organisatoriske retningslinjer

Oppsummering og Neste Trinn

Krav

  • Forståelse av grunnleggende maskinlæring
  • Familiaritet med lydfilformater og redigeringsverktøy
  • Grunnleggende Python-programmeringsevner

Målgruppe

  • AI-utviklere og ingeniører interessert i talesyntese
  • Innholdskretere og medieteknologer som utforsker stemmegenenerering
  • R&D-team som bygger personlige eller dynamiske lydsystemer
 14 Timer

Antall deltakere


Pris per deltaker

Kommende kurs

Relaterte kategorier