Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Kursplan
Introduksjon til Multi-Modal AI
- Hva er multimodal AI?
- Sentrale utfordringer og applikasjoner
- Oversikt over ledende multimodale modeller
Tekstbehandling og naturlig språkforståelse
- Utnytte LLM-er for tekstbaserte AI-agenter
- Forstå prompt engineering for multimodale oppgaver
- Finjustere tekstmodeller for domenespesifikke applikasjoner
Bildegjenkjenning og generering
- Behandling av bilder med AI: klassifisering, bildetekst og objektgjenkjenning
- Generer bilder med diffusjonsmodeller (Stable Diffusion, DALLE)
- Integrering av bildedata med tekstbaserte modeller
Tale- og lydbehandling
- Talegjenkjenning med Whisper ASR
- Tekst-til-tale (TTS) synteseteknikker
- Forbedrer brukerinteraksjon med stemmebasert AI
Integrering av multimodale innganger
- Bygge AI-rørledninger for behandling av flere inputtyper
- Fusjonsteknikker for å kombinere tekst-, bilde- og taledata
- Virkelige applikasjoner av multimodale AI-agenter
Utplassering av multimodal AI Agents
- Bygge API-drevne multimodale AI-løsninger
- Optimalisering av modeller for ytelse og skalerbarhet
- Beste praksis for distribusjon av multimodal AI i produksjon
Etiske vurderinger og fremtidige trender
- Bias og rettferdighet i multimodal AI
- Personvernhensyn med multimodale data
- Fremtidig utvikling innen multimodal AI
Sammendrag og neste trinn
Krav
- En forståelse av grunnleggende maskinlæring
- Erfaring med Python programmering
- Kjennskap til rammeverk for dyp læring (f.eks. TensorFlow, PyTorch)
Publikum
- AI-utviklere
- Forskere
- Multimediaingeniører
21 timer
Testimonials (1)
Trener som svarer på spørsmål på stedet.
Adrian
Kurs - Agentic AI Unleashed: Crafting LLM Applications with AutoGen
Machine Translated