sk-ant-这种将注入数据中的自然语言指令变为可执行命令的攻击面,正是提示注入的核心,这是一种正在迅速定义AI智能体安全格局的威胁向量。
一个关键细节是,这是一次协同披露,补丁先于公告发布。
Claude Code的披露,是在一个更全面的安全评估背景下发生的。就在一天前,即2026年6月4日,微软AI红队发布了其《智能体AI系统失效模式分类法》2.0版。这次重大更新基于对已部署智能体长达12个月的真实红队实战经验,新增了七个全新的失效类别,其影响远超单一的代码执行缺陷。
这些新增的失效模式,代表了安全研究人员对自主AI系统思考方式的重大升级:
针对Claude Code案例及更广泛的分类更新,微软为所有将AI智能体集成到构建流水线的团队,制定了一套安全建议。其核心指导思想是:部分隔离是一种虚假的安全感。
贯穿这些建议的,是一个安全社区称之为 "二原则" 的核心架构理念。该原则源自Meta于2025年10月提出的实用智能体安全框架,它规定一个智能体在以下三个条件中,应满足不超过两个:处理不可信输入、有权访问敏感数据,以及具备执行可改变外部状态操作的能力。Claude Code的漏洞正是对这一原则的典型违背,因为该智能体同时处理来自不可信PR的输入,并持有具有强大能力的凭证。
Comments
0 comments