Ta kontakt

Kursplan

EXO-infrastruktur som kode

  • Oversikt over EXO-distribusjonsmønstre: enkelt-node, multi-node og RDMA-klyster
  • Automatisere avhengighetsinstallasjon (Xcode, uv, Node.js, Rust) med konfigurasjonsadministrasjon
  • Bruk av Nix-flakes for reproducerbare EXO-bygg og utviklermiljøer
  • Skrive Ansible-playbooks eller skript for uovervåket klyster-provisioning

Reproducerbare bygg og CI-integrasjon

  • Låse avhengigheter og bygge dashboardet i CI-pipelines
  • Kjøre EXO-smoke-tester i GitHub Actions eller GitLab CI-runners
  • Opprette gullbilder og snapshot-baserte tilbakekallingsarbeidsflyter for macOS og Linux-VMer
  • Versjonere tilpassede modellkort sammen med applikasjonskode

Klysteroppdagelse og nettverksautomatisering

  • Konfigurere mDNS og statisk DNS for pålitelig libp2p-node-oppdagelse
  • Automatisere opprettelse av nettverksprofiler og Thunderbolt-broadministrasjon på macOS
  • Bruk av tilpassede namespace (EXO_LIBP2P_NAMESPACE) for å separere dev-, staging- og prod-klyster
  • Brannmurregler og nettverkssegmentering for multi-tenant-miljøer

Lagring og modell-livssyklusshåndtering

  • Designe EXO_MODELS_DIRS og EXO_MODELS_READ_ONLY_DIRS-strategier
  • Montere NFS- eller SAN-deles som lesebeskyttede modell-lager for rask provisioning
  • Rensing av utgåtte buffere og versjonerte vekter-oppbevaringspolicyer
  • Automatisere forhåndsnedlasting og helsekontroller før rulleringsoppdateringer

Overvåking og alarmering

  • Send EXO-logger til sentralisert logging (ELK, Loki eller Splunk)
  • Bygge Grafana-dashboarder fra EXO_TRACING_ENABLED-utdata
  • Alarmer på endringer i klystermedlemskap, OOM-hendelser og spisser i inferenslatens
  • Korrelere macmon-maskinvaretelemetri med modellytelse-regresjoner

Oppdatering, tilbakekall og katastrofeforsvar

  • Staging EXO-binæroppdateringer i en kanari-node før flåtebred rullering
  • Modellnivå tilbakekalling: bytte mellom kvantiserte versjoner uten å laste ned på nytt
  • Sikkerhetskopiere og gjenopprette klysterstat, tilpassede namespace og bufrerte vekter
  • Dokumentere gjenopprettingsmanualer for totale klyster-ombygginger

Sikkerhetsoppstramming og compliance

  • Legge på TLS ved reversproxy-lagret (nginx, traefik) for dashboardet og API-et
  • Implementere API-ratebegrensning og IP-hvitliste for EXO-endepunkter
  • Isolere klyster med VLAN-er og zero-trust-nettverkspolicyer
  • Auditera tilgang og opprettholde en inventar over distribuerte modeller og versjoner

Krav

  • Er erfaring med DevOps-praksis (CI/CD, IaC, container-orkestrering)
  • Kenning til macOS eller Linux-systemadministrasjon og pakkehåndtering
  • Forståelse for nettverk, DNS og lagringskonsepter

Målgruppe

  • DevOps-ingeniører
  • Infrastrukturarkitekter
  • SREs ansvarlige for on-premise AI-arbeidsbelastninger
 21 Timer

Antall deltakere


Pris per deltaker

Referanser (2)

Kommende kurs

Relaterte kategorier