Takk for at du sendte din henvendelse! En av våre teammedlemmer vil kontakte deg straks.
Takk for at du sendte din bestilling! En av våre teammedlemmer vil kontakte deg straks.
Kursplan
Grunnleggende prinsipper for Mastra-felsøkning og evaluering
- Forståelse av agentadferdsmodeller og feilmoduser
- Kjerneprinsipper for felsøkning i Mastra
- Evaluering av deterministiske og ikke-deterministiske agenthandlinger
Oppsett av miljøer for agenttesting
- Konfigurere test-sandkasser og isolerte evalueringrom
- Samle inn logger, spor og telemetri for detaljert analyse
- Forberede datasett og spørsmål for strukturert testing
Felsøkning av AI-agentadferd
- Spore beslutningsbaner og interne grunnleggende signaler
- Identifisere hallucineringer, feil og ubehovet adferd
- Bruke observasjonsdashboards for å finne rotsak
Evalueringsmål og benchmarkingrammeverk
- Definere kvantitative og kvalitative evalueringssmall
- Måle nøyaktighet, konsekvens og kontekstuell overholdelse
- Bruke benchmarkdatasett for gjentakelig vurdering
Pålittelhetsingeniøring for AI-agenter
- Designe pålittelhetstester for agenter som kjører over lengre tid
- Oppdage drift og nedgang i agentprestasjon
- Implementere trygghetstiltak for kritiske arbeidsflytter
Kvalitetsvoldprosesser og automatisering
- Bygge QA-rørledninger for kontinuerlig evaluering
- Automatisere regresjonstester for agentoppdateringer
- Integrere QA med CI/CD og virksomhetsarbeidsflytter
Avanserte teknikker for reduksjon av hallucineringer
- Promptingstrategier for å redusere ubehovet utdata
- Valideringsløkker og selvkontrollmekanismer
- Eksperimentere med modellkombinasjoner for å forbedre pålittelheten
Rapportering, overvåking og kontinuerlig forbedring
- Utvikle QA-rapporter og agentscorekort
- Overvåke langsiktig adferd og feilmønstre
- Iterere over evalueringrammeverk for utviklende systemer
Oppsummering og neste trinn
Krav
- Forståelse av AI-agentadferd og modellinteraksjoner
- Erfaring med felsøkning eller testing av komplekse programvare-systemer
- Kjenner til observasjonsverktøy eller loggingverktøy
Målgruppe
- Kvalitetsvoldsinjourer
- AI-pålittelhetsinjourer
- Utviklere ansvarlige for agentkvalitet og -prestasjon
21 timer