Kursplan

Introduksjon til Gemini 3 Multimodalitet

  • Evner over tekst, bilder, lyd og video
  • Modellvalg og endepunktoversikt
  • Nøkkelkonsepter i multimodal resonnementering

Arbeid med tekst og strukturerte inndata

  • Prompt-strategier for tekstgenerering
  • Metadata, kontekstvinduer og embeddings
  • Tekstbasert orchestrasjon av multimodale oppgaver

Bildetolkning og visuelle arbeidsflyter

  • Bildeanalyse og tolkning med Gemini 3
  • Opprettelse av visuelle søke- og taggingverktøy
  • Bygging av image-to-text og text-to-image-interaksjoner

Lydinnputbehandling

  • Talegenkjenning og transkripsjonsarbeidsflyter
  • Lydhendelseoppdaging og tolkning
  • Integrasjon av lyd med tekst- og visuelle inndata

Video-innholdforståelse og scenetolkning

  • Bild-for-bilde og kontinuerlig videoresonnementering
  • Oppbygging av sammendrag- og highlights-ekstraheringsverktøy
  • Video-basert automatisering og innholdsarbeidsflyter

Design av multimodale applikasjonarkitekture

  • Kombinering av flere inputtyper i én pipeline
  • Latens, kostnad og beregningsbetingelser
  • Beste praksis for skalerbare multimodale systemer

Prototyping av multimodale applikasjoner

  • Praktisk oppbygging av multimodale prototyper
  • Hurtig iterasjon med prompt-injektering
  • Testing og forfining av brukeropplevelse-arbeidsflyter

Distribusjon av multimodale løsninger

  • Distribusjonsstrategier og miljøoppsett
  • Overvåking av sanntidsytelse
  • Sikkerhets- og samsvarbetingelser

Oppsummering og neste skritt

Krav

  • Forståelse av moderne AI-konsepter
  • Erfaring med Python eller JavaScript
  • Familiaritet med REST APIer

Målgruppe

  • Designere
  • Innholdskretere
  • Tekniske produktteam
 14 timer

Antall deltakere


Pris per deltaker

Referanser (1)

Kommende kurs

Relaterte kategorier