ASSERT 遵循一个五步流水线,把开发者的意图转化为清晰、可诊断的评估体系:
ASSERT 与传统通用评估工具的区别就在于,它专注于应用特有的行为边界。一个 Agent 可能在“有用性和真实性”的基准测试中拿满分,却仍然可能触犯一条具体的产品规则,比如“绝不向外部服务分享客户邮件地址”。ASSERT 正是为此类“应用特有”的失败模式而生 。微软将其定位为一个以安全为中心的框架,强调其评估方法专门针对安全性评估进行了验证,而不仅仅是通用的质量指标
。
ASSERT 并非孤军奋战,它与另一个微软开源项目——Agent Control Specification (ACS) 一同发布。ACS 允许团队定义可移植的策略文件,明确 Agent 能做什么、绝不能做什么、何时需要人类审批,以及必须记录哪些证据 。
这两者的预期工作流是深度集成的:开发者首先运行 ASSERT 来发现缺陷,然后通过 ACS 施加运行时控制,最后再次运行 ASSERT 来通过前后对比指标衡量改进程度 。这个“规范 -> 评估 -> 控制 -> 再评估”的闭环,为工程团队提供了一个可重复的流程,用于在上线前“硬化”AI 代理系统。
在实际操作中,开发者可以写下这样的规则:“此文档研究 Agent 不得向公司外的人发送邮件,必须将机密信息限制在 C 级高管范围内,并提供结合先前上下文的简洁摘要。” ASSERT 便会自动生成相应的对抗性测试用例,运行它们,并在任何策略被违反时,用一份带评分的报告和完整的轨迹记录来告警 。
Comments
0 comments