然而,这个千锤百炼的安全神话,只维持了不到24小时。
6月10日,一名化名为 “Pliny the Liberator” 的知名AI红队研究者公开宣布,他不仅成功绕过了Fable 5的所有安全分类器,还完整提取并公开了该模型长达12万字符的系统提示词(System Prompt),甚至从模型中诱导生成了包括漏洞利用代码、详细的网络安全攻击步骤和受限的化学合成指导在内的危险内容 。这次闪电般的攻破,让AI界围绕“前沿模型能否被有效监管”的争论再度白热化。
Pliny将他这次的攻击手法命名为**“狼群狩猎”**——这不是一个单一的、巧妙的提示词,而是一套由多个AI智能体协同配合、步步为营的组合拳 。这一战术混合了多种先进的对抗性策略,每一环节都恰好击中了AI安全系统的盲区:
多智能体协同攻击:Pliny并非自己动手写提示词,而是用一个已经越狱过的Claude Opus 4.8模型作为攻击代理,让其系统性地、自动化地去探测和攻击更强大的Fable 5 。这标志着一个危险的范式转变——“用模型去攻击模型”。事实上,就在几周前,他用一个Opus 4.7的智能体在Opus 4.8发布的7分钟内就对其完成了自动化攻击
。
Unicode与同形字符混淆:攻击者将恶意指令中的字符用看起来一模一样、但编码不同的Unicode字符替换。这让Anthropic训练来识别危险词句的输入分类器形同虚设,因为它“看”到的是一堆乱码 。
长篇上下文操控与叙事伪装:危险的请求被精心包装在冗长的角色扮演游戏、教科书章节、或者苏格拉底式的哲学对话中。这种“叙事框架”将恶意意图深埋在看似无害的上下文里,足以在安全系统触发警报前,让模型开始“认真”处理它的请求 。
分解与重组:一项诸如“编写一个栈缓冲区溢出漏洞利用程序”的危险任务,会被拆解成一系列单独看起来毫无害处的子步骤。安全系统会认为每个步骤都很安全,但当Fable 5一步步处理完所有步骤后,一个完整的攻击代码就被组合出来了 。Pliny自己也表示,这种分解与重组的方法尤其有效,因为每个提示单独看都是“清白”的
。
在代码渲染器中逐步升级:Pliny曾公开分享过一个技巧:将对话引入“代码工件”(Artifact)的渲染模式。这个模式会因代码框架而产生大量的“令牌噪音”,这些噪音可以遮蔽安全触发器。在这个嘈杂的“掩护”下,他可以用苏格拉底式的提问方式,一点点地引导模型生成越来越敏感的内容 。
在发布Fable 5之前,Anthropic曾不厌其烦地向公众详细描绘了其坚不可摧的安全防线:
然而,Pliny的“狼群狩猎”无情地推翻了这一切。一个号称经过上千小时对抗性测试的安全系统,在一位独立研究者面前只撑了不到一天。更讽刺的是,这次攻击依赖的并非什么惊天动地的软件漏洞,而是Anthropic的分类器训练中似乎完全忽略了的、基于“社会工程学”的提示技巧 。
这并非孤立事件,而是Pliny the Liberator这位传奇研究者的“常规操作”。他创造了一个令人不安的“闪电越狱”模式:
这背后反映出一个根本性的方法论转变。Pliny自己将其描述为“模型越狱模型”的时代 。攻击者不再费心去手动打磨一个“魔咒”般的提示词,而是将已攻破的模型作为自主攻击武器,去对抗新模型。当前的安全分类器主要是为了应对静态的、单次的提示攻击而训练的,但在这种智能体主导的、多轮次、任务分解式的攻击面前,却显得力不从心。安全公司Repello AI在分析2026年的越狱趋势时也指出,最具威胁的攻击不再是单一的越狱提示,而是那些通过“一系列看似无害的步骤”来完成攻击目标的多轮对抗性序列
。
Fable 5被攻破,并不一定意味着Anthropic的安全工作是徒劳的,但它确实暴露出了一个令整个行业不安的规模性难题:为什么专业机构上千小时的测试都未能发现的问题,一个执着的个人研究者在一天之内就能解决?
这巨大的差距表明,当前的安全认证体系,无论多么严格,都可能系统地低估了真实世界里对抗性创意的多样性,尤其是在应对智能体、多轮次和社会工程学等新兴攻击手法时。
这也带来了一个更深层的困境:如果一个模型的护栏,坚固到足以抵挡数月的结构化测试,却在面对一次精心策划的“群狼”围攻时瞬间崩溃,那么对于向公众发布的前沿模型而言,“安全认证”到底意味着什么?Pliny的闪电越狱模式在多个公司、多种模型架构中都能屡试不爽,这暗示着,当前面临的挑战可能并非某个模型设计的特有缺陷,而是整个基于提示词层面的AI安全分类器范式,可能已经走到了尽头。
Comments
0 comments