Si parte da una politica in italiano. Gli sviluppatori descrivono i comportamenti attesi e vietati usando un linguaggio naturale, pescando da requisiti di prodotto, documenti normativi o checklist di lancio . Un esempio? "Questo agente di supporto non deve emettere rimborsi superiori a 500 euro senza l'approvazione di un supervisore"
.
Un LLM trasforma le policy in regole strutturate. ASSERT usa un modello linguistico per interpretare il testo libero e produrre una specifica machine-readable di cosa è accettabile e cosa no .
Generazione di casi di test ostili. Il framework crea sistematicamente scenari mirati, casi limite e input progettati apposta per mettere alla prova l'agente e vedere se infrange le regole .
Esecuzione contro l'agente reale. ASSERT esegue la suite di test contro l'agente vero e proprio, registrando ogni singolo passo intermedio e ogni "chiamata" a strumenti esterni . Non importa quale framework tu abbia scelto: funziona con LangChain, CrewAI, AutoGen, LiteLLM, OpenAI e molti altri. Nessun vincolo con l'ecosistema Microsoft Foundry
.
Un referto dettagliato e tracciabile. Ogni test produce una pagella strutturata con un verdetto (superato/fallito) e una motivazione dettagliata di un modello "giudice". Poiché l'intera esecuzione è tracciata, puoi risalire esattamente al punto in cui l'agente ha preso la decisione sbagliata .
La vera forza di ASSERT è la sua chirurgica precisione applicativa. Un agente può stracciare ogni test di precisione e utilità, eppure violare una regola interna come "non condividere mai gli indirizzi email dei clienti con servizi esterni". ASSERT è nato per scovare proprio questa categoria di errori, con una metodologia di valutazione convalidata specificamente per la sicurezza, non solo per metriche di qualità astratte .
ASSERT non arriva da solo. Viene rilasciato insieme all'Agent Control Specification (ACS), un altro progetto open source che permette di definire file di policy portatili per stabilire cosa un agente può e non può fare, quando serve l'ok umano e cosa deve essere registrato .
Il flusso di lavoro ideale è un ciclo virtuoso: prima si scovano i difetti con ASSERT, poi si applicano i controlli a runtime con ACS, e infine si esegue di nuovo ASSERT per misurare il miglioramento con metriche "prima e dopo" . Un processo ripetibile per "blindare" qualsiasi sistema agentico prima del deploy.
Comments
0 comments