近期被披露的几种攻击技术,让我们看清了“越狱”已变得何等轻而易举。
“傀儡操控”。这是一种向助手的预填充回复中注入虚假的“已接受”信息,从而利用模型追求自我一致性来绕过安全训练的技术。它无需优化、无需模型权重、也无需任何专业工具——仅需一个支持助手预填充功能的API接口即可。在2026年4月的一次测试中,所有接受预填充的模型都至少在某种程度上表现出脆弱性,受影响的模型甚至包括GPT-4o、Claude 4 Sonnet和Gemini 2.5 Flash等闭源巨头 。
“以子之矛,攻子之盾”。这是一种令人担忧的“元漏洞”。一项发表于2026年的研究发现,直接将公开发表的大模型安全研究论文内容作为提示词进行攻击,竟能在那些对齐良好的模型上取得97%到98%的成功率,这甚至包括Claude 3.5 Sonnet这样的闭源系统 。
“好心办坏事的安全操控”。这项发现展示了一个深刻的讽刺:旨在提升安全性的技术,如何产生适得其反的效果。为减少模型在良性查询上的“过度拒绝”而采用的推理时激活操控技术,被发现会无意中放大Llama 3.1 8B和Gemma 2 2B等模型的越狱漏洞 。
“推理护栏的颠覆”。这堪称最令人担忧的新型攻击向量之一。2026年3月的一项研究发现,仅仅在输入提示词中添加少量模板令牌,就能劫持基于推理的安全护栏。更可怕的是,这些推理系统一旦失守,其产生的有害内容甚至会超过那些没有此类护栏的模型 。
欧盟AI法案中的通用人工智能规则已于2025年8月正式生效 。任何训练算力超过10²⁵次浮点运算的模型——这一门槛足以将Llama 4.2 Ultra及所有主流商业模型囊括在内——都被归类为存在全系统风险
。
这给相关公司带来的影响是立竿见影的:
对开源模型的豁免条款确实存在,但有清晰的边界。按照自由和开源许可证发布且未进行商业化的模型,在很大程度上不适用最严格的监管义务 ,但一旦模型构成全系统风险,这项豁免即刻失效
。欧盟在2026年5月完成的法案修订中,重申了这一边界
。而Meta的Llama社区许可协议,已经被明确认定为不满足开源豁免条件
。
层出不穷的脆弱性证据,正催生着对更强安全加固方案的市场需求。一项2025年的研究显示,仅在2000个安全样本上进行训练,就能将攻击成功率降低10%到30%。其成本低得惊人——对于80亿参数模型仅需3美元,而对720亿参数模型也不过20美元。经过加固,最成功的攻击方法的成功率能被压制在5%左右 。
从经济账来看,低成本的安全加固完全可行,但它尚未在整个开源生态中成为标配。随着监管压力骤增和攻防态势的持续升级,那些在生产环境中部署这些模型的企业可能会发现,这笔区区20美元的“安全保险”,正变得难以忽视,更难以推脱。
Comments
0 comments