Kursplan

Introduksjon til Multi-Modal AI

  • Hva er multi-modal AI?
  • Viktige utfordringer og applikasjoner
  • Oversikt over ledende multi-modale modeller

Tekstbehandling og naturlig språkforståelse

  • Utnytting av LLMs for tekstbaserte AI-agenter
  • Forståelse av prompt-engineering for multi-modale oppgaver
  • Justering av tekstmodeller for domene-spesifikke applikasjoner

Bildegjennkjenning og generering

  • Behandling av bilder med AI: klassifisering, beskrivelse og objektdetektering
  • Generering av bilder med diffusjonsmodeller (Stable Diffusion, DALLE)
  • Integrering av bildedata med tekstbaserte modeller

Tale- og lydbehandling

  • Talegjennkjenning med Whisper ASR
  • Tekst-til-tale (TTS) synteseteknikker
  • Forbedring av brukerinteraksjon med stemmebasert AI

Integrering av Multi-Modal Inputs

  • Oppretting av AI-pipelines for behandling av flere inputtyper
  • Fusjonsteknikker for kombinasjon av tekst, bilde og tale data
  • Reelle applikasjoner av multi-modale AI-agenter

Distribusjon av Multi-Modal AI Agenter

  • Oppretting av API-drevet multi-modale AI-løsninger
  • Optimalisering av modeller for ytelse og skalerbarhet
  • Best practices for distribusjon av multi-modale AI i produksjon

Etiske Overveielser og Framtidsretninger

  • Bias og rettferdighet i multi-modal AI
  • Privatlivskrenkelser med multi-modale data
  • Framtidige utviklinger innen multi-modal AI

Oppsummering og Neste Skritt

Krav

  • En forståelse av grunnleggende maskinlæring
  • Erfaring med Python-programmering
  • Kjennskap med dype læringrammeverk (f.eks., TensorFlow, PyTorch)

Målgruppe

  • AI-utviklere
  • Forskere
  • Multimediaingeniører
 21 timer

Antall deltakere


Price per participant

Testimonials (1)

Upcoming Courses

Related Categories