Processen från tanke till utvärdering sker i en femstegsraket:
Det som skiljer ASSERT från traditionella utvärderingsverktyg är fokuset på just din verksamhets unika regler. En AI-agent kan få toppbetyg i generella tester för sanningsenlighet, men på samma gång skicka kunders personnummer till en extern tjänst. Det är den typen av beteende ASSERT är byggt för att fånga upp. Microsoft betonar att ramverket är säkerhetscentrerat och att utvärderingsmetodiken validerats specifikt för säkerhetsbedömning .
ASSERT lanseras tillsammans med Agent Control Specification (ACS), ett annat open source-projekt från Microsoft. ACS låter team definiera portabla policyfiler som specificerar vad en agent får och inte får göra, när mänskligt godkännande krävs och vilken information som måste loggas .
Den tänkta arbetsflödet är integrerat: utvecklare kör först ASSERT för att hitta brister. Därefter implementerar de körningskontroller med ACS. Slutligen körs ASSERT igen för att mäta förbättringen med konkreta före- och eftermätningar . Slingan – specificera, utvärdera, kontrollera, omvärdera – ger utvecklingsteam en repeterbar process för att härda agentbaserade system innan de når verkliga användare.
Ett praktiskt exempel: en utvecklare kan specificera regeln "Denna dokumentforskningsagent får inte skicka e-post till personer utanför företaget, får bara dela konfidentiell information med personer i ledningsgruppen, och måste ge koncisa sammanfattningar med tidigare sammanhang." ASSERT genererar då automatiskt motsvarande utmanande testfall, kör dem och flaggar eventuella policyöverträdelser med ett poängsatt resultatkort och fullständig spårbarhet .
ASSERT är öppen källkod och finns på github.com/responsibleai/ASSERT. Vid lanseringen fick det stöd från communityn, bland annat från CrewAI, Arize AI, LiteLLM, Pipecat och Pydantic .
Comments
0 comments