Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Kursplan
Introduksjon til Skalering av Ollama
- Ollamas arkitektur og skaleringsoverveielser
- Vanlige flaskehalser i flerbrukerutplasseringer
- Best practices for infrastrukturberedskap
Ressursallokering og GPU-optimering
- Effektive CPU/GPU-utnyttelsesstrategier
- Minne- og båndbreddeoverveielser
- Ressursbegrensninger på beholdernivå
Utplasserings med Beholdere og Kubernetes
- Kontainering av Ollama med Docker
- Kjøring av Ollama i Kubernetes-klustre
- Lastfordeling og tjenestelokalisering
Automatisk Skalering og Batchprosessering
- Utforming av automatisk skaleringspolitikk for Ollama
- Batchinferenseteknikker for gjennomstrømningsoptimering
- Forholdet mellom forsinkelse og gjennomstrømning
Forsinkelsesoptimering
- Profilering av inferensytelse
- Cache-strategier og modelloppvarming
- Redusere I/O og kommunikasjonsoverhode
Overvåking og Observabilitet
- Integrering av Prometheus for metrikker
- Opprettelse av dashboards med Grafana
- Varsling og håndtering av hendelser for Ollama-infrastruktur
Kostnadsstyring og Skaleringsstrategier
- Kostnadsbevisst GPU-allokering
- Overveielser ved bruk av sky vs. lokal utplasseringsløsninger
- Strategier for bærekraftig skalering
Oppsummering og Neste Skritt
Krav
- Erfaring med Linux systemadministrasjon
- Forståelse av containere og orchestration
- Kjennskap med deployering av maskinlæringsmodeller
Målgruppe
- DevOps-ingeniører
- ML infrastrukturlag
- Sitereliabilitetsingeniører
21 timer