Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Kursplan
Introduksjon til multimodal AI og Ollama
- Oversikt over multimodal læringsmetoder
- Hovedutfordringer ved integrering av visjon og språk
- Evner og arkitektur for Ollama
Oppsett av Ollama-miljøet
- Installering og konfigurasjon av Ollama
- Arbeid med lokal modellutplasser
- Integrering av Ollama med Python og Jupyter
Arbeid med multimodale innspill
- Integrering av tekst og bilder
- Inkorporering av lyd og strukturert data
- Utforming av forbehandlingsrørledninger
Tilpasninger for forståelse av dokumenter
- Ekstraksjon av strukturert informasjon fra PDF-er og bilder
- Kombinasjon av OCR med språkmodeller
- Oppbygging av intelligente dokumentanalysearbeidsflyter
Visuell spørsmålsbesvaring (VQA)
- Oppsett av VQA-datamengder og benchmarker
- Trening og vurdering av multimodale modeller
- Oppbygging av interaktive VQA-applikasjoner
Design av multimodale agenter
- Prinsipper for agentdesign med multimodal resonnering
- Kombinasjon av oppfattelse, språk og handling
- Utplasserings av agenter for virkelige tilfeller
Avansert integrering og optimering
- Finjustering av multimodale modeller med Ollama
- Optimering av inferensytelse
- Skalerbarhet og utplasseringsbetraktninger
Oppsummering og neste steg
Krav
- God kjennskap til maskinlæringskonsepter
- Erfaring med dyplearning-rammeverk som PyTorch eller TensorFlow
- Kjennskap til naturlig språkbehandling og datamaskinvisjon
Målgruppe
- Maskinlæringsingeniører
- AI-forskere
- Produktutviklere som integrerer visjon og tekstarbeidsflyter
21 timer