Start med retningslinjer på vanlig norsk. Utviklere beskriver forventet og forbudt atferd med egne ord, hentet fra produktkrav, compliance-dokumenter, systeminstrukser eller lanseringssjekklister . Et eksempel kan være: «Denne kundeservice-agenten skal ikke utstede refusjoner over 5000 kroner uten godkjenning fra en overordnet».
En språkmodell tolker spesifikasjonene til strukturerte regler. ASSERT bruker en språkmodell (LLM) for å fortolke fritekstbeskrivelsene og produsere en maskinlesbar spesifikasjon over akseptable og uakseptable handlinger .
Generering av målrettede testscenarioer. Rammeverket lager systematisk skreddersydde scenarioer, grensetilfeller og inputdata designet for å teste om agenten bryter de angitte retningslinjene .
Kjør testpakken mot den aktuelle agenten. ASSERT kjører testene mot selve agent-implementasjonen og registrerer hvert eneste mellomliggende trinn og funksjonskall agenten foretar seg underveis . Rammeverket er agnostisk og fungerer med blant andre LangChain, CrewAI, AutoGen, LiteLLM og OpenAI – utviklere låses ikke til Microsofts egen plattform
.
Motta en poengsatt og sporbar rapport. Hver enkelt test produserer et strukturert vurderingskort med en bestått/ikke-bestått-konklusjon og en detaljert begrunnelse fra en dommermodell. Fordi hele kjøringsloggen er bevart, kan utviklere grave seg helt ned til det nøyaktige funksjonskallet eller beslutningspunktet hvor agenten sporet av .
Det som skiller ASSERT fra generiske evalueringsverktøy, er det skarpe fokuset på applikasjonsspesifikke atferdsgrenser. En agent kan oppnå toppscore på målinger av hjelpsomhet og sannferdighet, men likevel bryte en produktregel som «aldri del kunders e-postadresser med eksterne tjenester». ASSERT er spesialbygd for å fange opp akkurat den typen feil .
Microsoft posisjonerer rammeverket som sikkerhetssentrert og påpeker at evalueringsmetodikken ble validert spesifikt for sikkerhetsvurdering, ikke bare for generelle kvalitetsmålinger .
ASSERT lanseres sammen med Agent Control Specification (ACS), et annet åpen kildekode-prosjekt fra Microsoft som lar team definere portable policy-filer. Disse spesifiserer hva en agent har lov til og ikke har lov til, når menneskelig godkjenning kreves, og hvilken dokumentasjon som skal loggføres .
Den tiltenkte arbeidsflyten er integrert: utviklere kjører ASSERT først for å avdekke mangler, legger på kjøretidskontroller via ACS, og kjører deretter ASSERT på nytt for å måle forbedringen med før-og-etter-målinger . Denne sløyfen – spesifiser, evaluer, kontroller, re-evaluer – gir utviklingsteam en repeterbar prosess for å herde agentiske systemer før de settes i drift.
I praksis kan en utvikler spesifisere en regel som: «Denne dokumentanalyseagenten skal ikke sende e-post til personer utenfor selskapet, skal begrense konfidensiell informasjon til ledergruppen, og skal gi konsise sammendrag med forutgående kontekst.» ASSERT vil da automatisk generere de nødvendige, målrettede testsakene, kjøre dem og flagge ethvert policybrudd med en poengsatt rapport og fullstendig logg over hendelsesforløpet .
Comments
0 comments