Kursplan

Introduksjon til Skalering av Ollama

  • Ollamas arkitektur og skaleringsoverveielser
  • Vanlige flaskehalser i flerbrukerutplasseringer
  • Best practices for infrastrukturberedskap

Ressursallokering og GPU-optimering

  • Effektive CPU/GPU-utnyttelsesstrategier
  • Minne- og båndbreddeoverveielser
  • Ressursbegrensninger på beholdernivå

Utplasserings med Beholdere og Kubernetes

  • Kontainering av Ollama med Docker
  • Kjøring av Ollama i Kubernetes-klustre
  • Lastfordeling og tjenestelokalisering

Automatisk Skalering og Batchprosessering

  • Utforming av automatisk skaleringspolitikk for Ollama
  • Batchinferenseteknikker for gjennomstrømningsoptimering
  • Forholdet mellom forsinkelse og gjennomstrømning

Forsinkelsesoptimering

  • Profilering av inferensytelse
  • Cache-strategier og modelloppvarming
  • Redusere I/O og kommunikasjonsoverhode

Overvåking og Observabilitet

  • Integrering av Prometheus for metrikker
  • Opprettelse av dashboards med Grafana
  • Varsling og håndtering av hendelser for Ollama-infrastruktur

Kostnadsstyring og Skaleringsstrategier

  • Kostnadsbevisst GPU-allokering
  • Overveielser ved bruk av sky vs. lokal utplasseringsløsninger
  • Strategier for bærekraftig skalering

Oppsummering og Neste Skritt

Krav

  • Erfaring med Linux systemadministrasjon
  • Forståelse av containere og orchestration
  • Kjennskap med deployering av maskinlæringsmodeller

Målgruppe

  • DevOps-ingeniører
  • ML infrastrukturlag
  • Sitereliabilitetsingeniører
 21 timer

Antall deltakere


Price per participant

Upcoming Courses

Related Categories