由用「人話」寫嘅政策開始:開發者用日常語言(自然語言)寫低佢哋期望同禁止嘅行為,呢啲內容可以嚟自產品需求、合規文件、系統提示(System Prompt)或者上線清單(Launch Checklist) 。例如:「呢個客服 Agent 未經經理批准,唔可以批超過 HK$4,000 嘅退款」
。
LLM 將規格解讀成結構化規則:ASSERT 會用一個語言模型(LLM)去解讀呢啲自由格式嘅文字描述,然後輸出一個機器睇得明嘅規範,分清楚邊啲行為係可以接受,邊啲係唔得嘅 。
生成「攻擊性」測試案例:框架跟住就會有系統咁自動生成一啲針對性嘅場景、極端情況(Edge Cases)同輸入,目的就係要專登測試下個 AI Agent 會唔會違反你定落嘅政策 。
喺目標 Agent 身上執行測試:ASSERT 會將呢堆測試用喺你個真實嘅 AI Agent 身上,仲會記錄低過程入面每一步嘅決定同工具呼叫(Tool Call)。佢唔限死你用邊個框架,無論你係用 LangChain、CrewAI、AutoGen、LiteLLM 定係 OpenAI 都得,開發者唔會因此被鎖死喺微軟嘅 Foundry 平台
。
收返份有得分、有得追蹤嘅報告:每個測試都會產生一份結構化嘅「計分卡」,清楚寫明係「合格」定「唔合格」,仲會有一個「裁判模型」(Judge Model)提供詳細嘅理由,解釋點解會咁樣判斷。因為成個執行過程嘅軌跡(Trace)都被完整保存,開發者可以逐層「鑽」入去,睇返個 Agent 究竟係喺邊一步工具呼叫或者決策出咗事 。
ASSERT 同一般評估工具最大嘅分別,在於佢關注嘅係應用程式特定嘅行為邊界。一個 AI Agent 喺「有冇禮貌」或者「真實性」呢類通用基準測試攞滿分,但佢仍然有可能會違反你產品嘅規矩,例如「絕對唔可以將客戶電郵地址分享畀外部服務」。ASSERT 就係專門設計嚟捉呢類失敗嘅 。微軟將呢個框架定位為「安全為先」,仲特別提到佢嘅評估方法係經過驗證,專門用嚟做安全評估,而唔單止係一般嘅品質度量
。
ASSERT 係同 Agent Control Specification (ACS) 一齊發布嘅,ACS 又係另一個微軟嘅開源項目,佢等團隊可以定義一啲「可攜式」嘅政策檔案(Policy File),清楚寫明一個 AI Agent 可以同絕對唔可以做啲乜、幾時要人批准、仲有要記錄低啲咩證據 。
理想嘅工作流程係咁嘅:開發者首先用 ASSERT 嚟發現缺陷,然後透過 ACS 加入執行階段嘅控制,最後再行多次 ASSERT 去量度「使用前後」嘅改善有幾大 。呢個循環——「制定規範 → 評估 → 控制 → 再評估」——為工程團隊提供咗一個可以重複使用嘅流程,喺 AI Agent 系統正式部署之前,將佢哋「加固」(Hardening)到穩穩陣陣。
舉個實戰例子:一個開發者可以咁樣制定規矩:「呢個文件研究 Agent 唔可以 send 電郵畀公司以外嘅人、機密資訊只可以提供畀 C-Level 高層、同埋要提供包含前文後理嘅簡潔摘要。」ASSERT 就會自動生成相對應嘅攻擊性測試案例、自動執行,然後喺報告度標示出任何違反政策嘅地方,仲會提供完整嘅追蹤記錄 。
Comments
0 comments