ASSERT folgt einer fünfstufigen Pipeline, die die Absicht eines Entwicklers in eine bewertbare und nachvollziehbare Auswertung umwandelt:
Start mit Klartext-Richtlinien. Entwickler beschreiben erwartete und verbotene Verhaltensweisen in natürlicher Sprache – abgeleitet von Produktanforderungen, Compliance-Dokumenten, System-Prompts oder Launch-Checklisten . Ein Beispiel: „Dieser Support-Agent darf ohne Zustimmung eines Managers keine Rückerstattungen über 500 Euro veranlassen“
.
Sprachmodell übersetzt Richtlinien in strukturierte Regeln. ASSERT nutzt ein Large Language Model (LLM), um die frei formulierten Beschreibungen zu interpretieren und eine maschinenlesbare Spezifikation akzeptabler und inakzeptabler Handlungen zu erstellen .
Generierung adversariale Testfälle. Das Framework erstellt systematisch gezielte Szenarien, Grenzfälle und Eingaben – mit dem spezifischen Ziel, zu prüfen, ob der Agent die vorgegebenen Richtlinien verletzt .
Ausführung gegen den Ziel-Agenten. ASSERT führt die Test-Suite direkt mit dem echten Agenten aus und zeichnet dabei jeden Zwischenschritt und Werkzeugaufruf (Tool Call) auf . Das Framework agiert dabei unabhängig von der verwendeten Technologie und funktioniert mit LangChain, CrewAI, AutoGen, LiteLLM und OpenAI – Entwickler werden also nicht an Microsoft Foundry gebunden
.
Erhalt einer bewertbaren, nachvollziehbaren Auswertung. Für jeden Testfall wird eine strukturierte Scorecard mit einem Bestanden/Nicht-bestanden-Urteil und einer detaillierten Begründung durch ein Richtermodell (Judge Model) erstellt. Da die gesamte Ausführungsspur erhalten bleibt, können Entwickler bis zum exakten Werkzeugaufruf oder Entscheidungsschritt zurückverfolgen, an dem der Agent einen Fehler gemacht hat .
Was ASSERT von herkömmlichen Evaluierungstools unterscheidet, ist der Fokus auf anwendungsspezifische Verhaltensgrenzen. Ein Agent kann in Benchmarks für Hilfsbereitschaft und Wahrheitsgehalt perfekt abschneiden und dennoch eine Produktregel verletzen wie „Gib niemals Kunden-E-Mail-Adressen an externe Dienste weiter“. ASSERT wurde genau für diese Art von Fehlern entwickelt . Microsoft positioniert das Framework als sicherheitszentriert und betont, dass die zugrundeliegende Methodik speziell für Sicherheitsbewertungen validiert wurde – und nicht nur für Qualitätsmetriken
.
ASSERT wird zusammen mit der sogenannten Agent Control Specification (ACS) ausgeliefert, einem weiteren Open-Source-Projekt von Microsoft. ACS ermöglicht es Teams, portable Richtliniendateien zu definieren, die genau festlegen, was ein Agent tun darf und was nicht, wann eine menschliche Genehmigung erforderlich ist und welche Nachweise protokolliert werden müssen . Der angedachte Arbeitsablauf ist dabei integrativ: Entwickler setzen zuerst ASSERT ein, um Schwachstellen zu entdecken, wenden dann Laufzeitkontrollen mittels ACS an und lassen ASSERT schließlich erneut laufen, um die Verbesserung mit Vorher-Nachher-Metriken zu messen
. Dieser Kreislauf – Spezifizieren, Evaluieren, Kontrollieren, Re-Evaluieren – bietet Entwicklerteams einen wiederholbaren Prozess, um agentische Systeme vor dem Deployment zu härten.
In der Praxis könnte ein Entwickler eine Regel formulieren wie: „Dieser Dokument-Recherche-Agent darf keine E-Mails an Personen außerhalb des Unternehmens senden, muss vertrauliche Informationen auf Führungskräfte der C-Ebene beschränken und soll prägnante Zusammenfassungen mit vorherigem Kontext liefern.“ ASSERT würde die entsprechenden adversariale Testfälle automatisch generieren, ausführen und jeden Richtlinienverstoß mit einer bewerteten Reportkarte samt vollständiger Ablaufverfolgung melden .
Comments
0 comments