Ta kontakt

Kursplan

Grunnleggende om Tencent Hunyuan i produksjon

  • Oversikt over Tencent Hunyuan-modell-tjenestescenarier
  • Produksjonsegenskaper ved store og MoE-modeller
  • Vanlige flaskehalser knyttet til latens, gjennomstrømming og kostnader
  • Definere tjenestenivåmål for inferensarbeidslast

Implementeringsarkitektur og tjenesteflyt

  • Kjernekomponenter i en produksjonssjikt for inferens
  • Valg mellom containerbaserte, lokale og skybaserte implementeringsmodeller
  • Grunnleggende om modellinnlasting, forespørselsrouting og GPU-tildeling
  • Design for pålitelighet og operativ enkelthet

Praktisk latensoptimalisering

  • Bruk av optimerte inferensmotorer som TensorRT der det er aktuelt
  • KV-cache-konsepter og praktisk justering av cache
  • Reduksjon av oppstart, varmstart og responsomkostninger
  • Måling av tid til første token og hastighet på token-generering

Gjennomstrømming, batching og GPU-effektivitet

  • Kontinuerlig batching og strategier for forespørselsbatching
  • Håndtering av samtidighet og køoppførsel
  • Forbedret GPU-utnyttelse uten å skade brukeropplevelsen
  • Håndtering av forespørsler med langt kontekstvindu og blandede arbeidslast

Kvantisering og kostnadskontroll

  • Hvorfor kvantisering er viktig for produksjonstjenester
  • Praktiske avveininger mellom FP16, INT8 og andre vanlige presisjonsalternativer
  • Balansering av modellkvalitet, latens og infrastrukturkostnader
  • Oppbygging av en enkel sjekkliste for kostnadsoptimalisering

Operasjoner, overvåking og beredskapsgjennomgang

  • Triggerpunkter for autoskaling av inferenstjenester
  • Overvåking av latens, gjennomstrømming, cache-bruk og GPU-helse
  • Grunnleggende om logging, varsling og hendelseshåndtering
  • Gjennomgang av en referanseimplementering og oppretting av forbedringsplan

Krav

  • Grunnleggende forståelse av implementering og inferensarbeidsflyt for store språkmodeller
  • Erfaring med containere, sky- eller lokal infrastruktur og tjenester basert på API
  • Praktisk kunnskap om Python eller systemingeniøroppgaver

Målgruppe

  • ML-ingeniører som deployer LLM-er i produksjon
  • Plattformingeniører som er ansvarlige for GPU-baserte inferenstjenester
  • Løsningsarkitekter som designer skalerbare AI-tjenesteplattformer
 14 Timer

Antall deltakere


Pris per deltaker

Kommende kurs

Relaterte kategorier