Převod do strojové specifikace. ASSERT použije velký jazykový model (LLM), aby textu porozuměl a vytvořil z něj strukturovaný, strojově čitelný soubor akceptovatelného a nepřijatelného chování .
Generování nepřátelských scénářů. Tady začíná ta pravá zábava. Framework systematicky vytváří cílené scénáře a okrajové případy, které se snaží vaše pravidla prolomit a agenta nachytat .
Spuštění testů proti vašemu agentovi. ASSERT testy spustí naostro proti vaší implementaci agenta a krok za krokem zaznamenává každé jeho rozhodnutí a volání nástrojů . Je přitom agnostický k platformě, takže není problém ho použít s LangChain, CrewAI, AutoGen nebo OpenAI. Nejste svázáni s Microsoft Foundry
.
Bodovaný report s dohledatelnou stopou. Každý test skončí jasným verdiktem – prošel/neprošel – a podrobným zdůvodněním od hodnotícího modelu. Protože se ukládá celá historie akcí agenta, vývojáři se mohou přesně provrtat k tomu konkrétnímu kroku, kde se to celé pokazilo .
To, co ASSERT zásadně odlišuje, je jeho posedlost aplikačně-specifickými mantinely. Agent může na jedničku projít testy zdvořilosti a faktické správnosti, ale přitom v klidu porušovat vaše zlaté pravidlo „nikdy nesdílej e-maily zákazníků s externími službami“ . ASSERT je stavěný přesně na odchytávání této kategorie chyb.
ASSERT nevznikl ve vzduchoprázdnu. Microsoft ho vydal bok po boku se specifikací Agent Control Specification (ACS). To je další open-source projekt, který týmům umožní definovat přenositelné soubory politik. V nich se nadefinuje, co agent smí a nesmí, kdy potřebuje lidské schválení a jaké důkazy se musí protokolovat .
Zamýšlený pracovní postup je elegantně integrovaný: Nejprve spustíte ASSERT, abyste objevili chyby. Pak nasadíte runtime ochranu pomocí ACS. A nakonec ASSERT pustíte znovu, abyste ještě před ostrým provozem číselně změřili, o kolik se agent zlepšil . Tento cyklus – specifikuj, otestuj, ošetři, znovu otestuj – dává inženýrským týmům opakovatelný proces pro otužování agentů.
V praxi to může vypadat třeba takto: Definujete pravidlo: „Tento rešeršní agent nesmí posílat e-maily nikomu mimo firmu, musí omezit důvěrné informace pouze na členy představenstva a musí poskytovat stručné shrnutí s kontextem.“ ASSERT automaticky vygeneruje odpovídající testy, spustí je a jakékoli porušení oznámkuje s plnou auditní stopou .
Comments
0 comments