Kursplan
Innføring i multimodal AI
- Oversikt over multimodal AI og virkelige applikasjoner
- Utfordringer ved integrering av tekst, bilde og lyddata
- Forskningsfremskritt og fremskritt innen feltet
Dataforarbeiding og feature engineering
- Håndtering av tekst, bilde og lyddatasett
- Forbehandlingsteknikker for multimodal læring
- Metoder for ekstraksjon og fusjon av data
Bygging av multimodale modeller med PyTorch og Hugging Face
- Innføring i PyTorch for multimodal læring
- Bruk av Hugging Face Transformers for NLP og visjonsteknologi oppgaver
- Kombinasjon av ulike modaliteter i en enhetlig AI-modell
Implementering av tale, visjon og tekstfusjon
- Integrering av OpenAI Whisper for talegjenkjennelse
- Bruk av DeepSeek-Vision for bildebehandling
- Fusjonsteknikker for kryssmodal læring
Trening og optimalisering av multimodale AI-modeller
- Strategier for trening av multimodale AI-modeller
- Optimaliseringsteknikker og justering av hyperparametere
- Å takle bias og forbedre modellens generaliseringsevne
Utplasser multimodal AI i virkelige applikasjoner
- Eksport av modeller for produksjonsbruk
- Utplasser AI-modeller på skyplattformer
- Ytelsesovervåking og modellvedlikehold
Avanserte emner og fremtidige trender
- Zero-shot og few-shot learning i multimodal AI
- Etiske overveielser og ansvarlig AI-utvikling
- Fremvoksende trender i multimodal AI-forskning
Oppsummering og neste skritt
Krav
- Sterk forståelse av maskinlæring og dyplæringskonsepter
- Erfaring med AI-rammeverk som PyTorch eller TensorFlow
- Kjennskap til behandling av tekst-, bilde- og lyddata
Målgruppe
- AI-utviklere
- Maskinlæringsteknikere
- Forskere
Referanser (1)
Vår instruktor, Yashank, var ekstremt kunnskapsrik. Han tilpasset kurset til det vi virkelig trengte å lære, og vi hadde en utmerket læringsopplevelse med ham. Hans forståelse av domenet han underviste i var impresjonerende; han delte innsikter fra ekte erfaringer og hjalp oss med å løse reelle problemer vi sto overfor i arbeidet vårt.
Ahmed Nazeem - Maldives Pension Administration Office
Kurs - Multimodal AI for Enhanced User Experience
Maskinoversatt