Kursplan

Innføring i multimodal AI

  • Oversikt over multimodal AI og virkelige applikasjoner
  • Utfordringer ved integrering av tekst, bilde og lyddata
  • Forskningsfremskritt og fremskritt innen feltet

Dataforarbeiding og feature engineering

  • Håndtering av tekst, bilde og lyddatasett
  • Forbehandlingsteknikker for multimodal læring
  • Metoder for ekstraksjon og fusjon av data

Bygging av multimodale modeller med PyTorch og Hugging Face

  • Innføring i PyTorch for multimodal læring
  • Bruk av Hugging Face Transformers for NLP og visjonsteknologi oppgaver
  • Kombinasjon av ulike modaliteter i en enhetlig AI-modell

Implementering av tale, visjon og tekstfusjon

  • Integrering av OpenAI Whisper for talegjenkjennelse
  • Bruk av DeepSeek-Vision for bildebehandling
  • Fusjonsteknikker for kryssmodal læring

Trening og optimalisering av multimodale AI-modeller

  • Strategier for trening av multimodale AI-modeller
  • Optimaliseringsteknikker og justering av hyperparametere
  • Å takle bias og forbedre modellens generaliseringsevne

Utplasser multimodal AI i virkelige applikasjoner

  • Eksport av modeller for produksjonsbruk
  • Utplasser AI-modeller på skyplattformer
  • Ytelsesovervåking og modellvedlikehold

Avanserte emner og fremtidige trender

  • Zero-shot og few-shot learning i multimodal AI
  • Etiske overveielser og ansvarlig AI-utvikling
  • Fremvoksende trender i multimodal AI-forskning

Oppsummering og neste skritt

Krav

  • Sterk forståelse av maskinlæring og dyplæringskonsepter
  • Erfaring med AI-rammeverk som PyTorch eller TensorFlow
  • Kjennskap til behandling av tekst-, bilde- og lyddata

Målgruppe

  • AI-utviklere
  • Maskinlæringsteknikere
  • Forskere
 21 timer

Antall deltakere


Price per participant

Upcoming Courses

Related Categories