Takk for at du sendte din henvendelse! En av våre teammedlemmer vil kontakte deg straks.
Takk for at du sendte din bestilling! En av våre teammedlemmer vil kontakte deg straks.
Kursplan
EXO-infrastruktur som kode
- Oversikt over EXO-distribusjonsmønstre: enkelt-node, multi-node og RDMA-klyster
- Automatisere avhengighetsinstallasjon (Xcode, uv, Node.js, Rust) med konfigurasjonsadministrasjon
- Bruk av Nix-flakes for reproducerbare EXO-bygg og utviklermiljøer
- Skrive Ansible-playbooks eller skript for uovervåket klyster-provisioning
Reproducerbare bygg og CI-integrasjon
- Låse avhengigheter og bygge dashboardet i CI-pipelines
- Kjøre EXO-smoke-tester i GitHub Actions eller GitLab CI-runners
- Opprette gullbilder og snapshot-baserte tilbakekallingsarbeidsflyter for macOS og Linux-VMer
- Versjonere tilpassede modellkort sammen med applikasjonskode
Klysteroppdagelse og nettverksautomatisering
- Konfigurere mDNS og statisk DNS for pålitelig libp2p-node-oppdagelse
- Automatisere opprettelse av nettverksprofiler og Thunderbolt-broadministrasjon på macOS
- Bruk av tilpassede namespace (EXO_LIBP2P_NAMESPACE) for å separere dev-, staging- og prod-klyster
- Brannmurregler og nettverkssegmentering for multi-tenant-miljøer
Lagring og modell-livssyklusshåndtering
- Designe EXO_MODELS_DIRS og EXO_MODELS_READ_ONLY_DIRS-strategier
- Montere NFS- eller SAN-deles som lesebeskyttede modell-lager for rask provisioning
- Rensing av utgåtte buffere og versjonerte vekter-oppbevaringspolicyer
- Automatisere forhåndsnedlasting og helsekontroller før rulleringsoppdateringer
Overvåking og alarmering
- Send EXO-logger til sentralisert logging (ELK, Loki eller Splunk)
- Bygge Grafana-dashboarder fra EXO_TRACING_ENABLED-utdata
- Alarmer på endringer i klystermedlemskap, OOM-hendelser og spisser i inferenslatens
- Korrelere macmon-maskinvaretelemetri med modellytelse-regresjoner
Oppdatering, tilbakekall og katastrofeforsvar
- Staging EXO-binæroppdateringer i en kanari-node før flåtebred rullering
- Modellnivå tilbakekalling: bytte mellom kvantiserte versjoner uten å laste ned på nytt
- Sikkerhetskopiere og gjenopprette klysterstat, tilpassede namespace og bufrerte vekter
- Dokumentere gjenopprettingsmanualer for totale klyster-ombygginger
Sikkerhetsoppstramming og compliance
- Legge på TLS ved reversproxy-lagret (nginx, traefik) for dashboardet og API-et
- Implementere API-ratebegrensning og IP-hvitliste for EXO-endepunkter
- Isolere klyster med VLAN-er og zero-trust-nettverkspolicyer
- Auditera tilgang og opprettholde en inventar over distribuerte modeller og versjoner
Krav
- Er erfaring med DevOps-praksis (CI/CD, IaC, container-orkestrering)
- Kenning til macOS eller Linux-systemadministrasjon og pakkehåndtering
- Forståelse for nettverk, DNS og lagringskonsepter
Målgruppe
- DevOps-ingeniører
- Infrastrukturarkitekter
- SREs ansvarlige for on-premise AI-arbeidsbelastninger
21 Timer
Referanser (2)
Craig var ekstremt engasjert i opplæringen, alltid sikrede at vi holdt fokus, tilpasset eksemplene til våre daglige aktiviteter og ga alltid et svar når vi spurte, selv om informasjonen ikke var inkludert i presentasjonen.
Ecaterina Ioana Nicoale - BOOKING HOLDINGS ROMANIA SRL
Kurs - DevOps Foundation®
Maskinoversatt
Høy nivå av engasjement og kunnskap hos treneren
Jacek - Softsystem
Kurs - DevOps Engineering Foundation (DOEF)®
Maskinoversatt