Kursplan

Introduksjon til multimodal AI og Ollama

  • Oversikt over multimodal læringsmetoder
  • Hovedutfordringer ved integrering av visjon og språk
  • Evner og arkitektur for Ollama

Oppsett av Ollama-miljøet

  • Installering og konfigurasjon av Ollama
  • Arbeid med lokal modellutplasser
  • Integrering av Ollama med Python og Jupyter

Arbeid med multimodale innspill

  • Integrering av tekst og bilder
  • Inkorporering av lyd og strukturert data
  • Utforming av forbehandlingsrørledninger

Tilpasninger for forståelse av dokumenter

  • Ekstraksjon av strukturert informasjon fra PDF-er og bilder
  • Kombinasjon av OCR med språkmodeller
  • Oppbygging av intelligente dokumentanalysearbeidsflyter

Visuell spørsmålsbesvaring (VQA)

  • Oppsett av VQA-datamengder og benchmarker
  • Trening og vurdering av multimodale modeller
  • Oppbygging av interaktive VQA-applikasjoner

Design av multimodale agenter

  • Prinsipper for agentdesign med multimodal resonnering
  • Kombinasjon av oppfattelse, språk og handling
  • Utplasserings av agenter for virkelige tilfeller

Avansert integrering og optimering

  • Finjustering av multimodale modeller med Ollama
  • Optimering av inferensytelse
  • Skalerbarhet og utplasseringsbetraktninger

Oppsummering og neste steg

Krav

  • God kjennskap til maskinlæringskonsepter
  • Erfaring med dyplearning-rammeverk som PyTorch eller TensorFlow
  • Kjennskap til naturlig språkbehandling og datamaskinvisjon

Målgruppe

  • Maskinlæringsingeniører
  • AI-forskere
  • Produktutviklere som integrerer visjon og tekstarbeidsflyter
 21 timer

Antall deltakere


Price per participant

Upcoming Courses

Related Categories