Kursplan

Introduksjon til Vision-Language Modeller

  • Oversikt over VLMs og deres rolle i multimodal AI
  • Populære arkitekter: CLIP, Flamingo, BLIP, etc.
  • Brukstilfeller: søk, beskrivelse, autonome systemer, innholdsanalyse

Forberedelse av Fine-Tuning Miljø

  • Oppsett av OpenCLIP og andre VLM-biblioteker
  • Datasetformater for bilde-tekstpar
  • Forbehandlingsrørledninger for syns- og språkinnput

Fine-Tuning av CLIP og Liknende Modeller

  • Kontrastivt tap og felles innleggsrom
  • Hender på: fine-tuning av CLIP på egendefinerte datasets
  • Håndtering av domene-spesifikk og flerspråklig data

Avanserte Fine-Tuning Teknikker

  • Bruker LoRA og adapterbaserte metoder for effektivitet
  • Prompt tuning og visuell prompt-injeksjon
  • Zero-shot vs. fine-tuned evalueringsavveininger

Evaluering og Benchmarking

  • Metrikker for VLMs: henting nøyaktighet, BLEU, CIDEr, recall
  • Visuell-tekst-utligningsdiagnostikk
  • Visualisering av innleggsrom og feilklassifiseringer

Utplassering og Bruk i Reelle Applikasjoner

  • Eksport av modeller for inferens (TorchScript, ONNX)
  • Integrering av VLMs i rørledninger eller APIer
  • Resursbetraktninger og modellskalering

Tilfellestudier og Anvendt Scenarier

  • Mediaanalyse og innholdsmoderering
  • Søk og henting i e-handel og digitale biblioteker
  • Multimodal interaksjon i robotikk og autonome systemer

Sammenfatning og Neste Skritt

Krav

  • Forståelse av dyp læring for visjon og NLP
  • Erfaring med PyTorch og transformerbaserte modeller
  • Kjennskap til multimodal modellarkitektur

Målgruppe

  • Datalogiingeniører innen datavisualisering
  • AI-utviklere
 14 timer

Antall deltakere


Pris per deltaker

Kommende kurs

Relaterte kategorier