接下来在实践中我应该做什么？

该框架标志着美国AI政策从“危机驱动”转向“规则驱动”，其成果或将影响G7国家间关于前沿AI安全标准的国际讨论。

白宫与Anthropic联手打造AI安全评估框架：为“越狱”漏洞分级，划定政府干预红线 | 回答 | Studio Global AI

答案已发布4天前Last edited 4天前26 来源

白宫与Anthropic联手打造AI安全评估框架：为“越狱”漏洞分级，划定政府干预红线

白宫与Anthropic正在联合开发一个技术框架，旨在根据三个维度——被绕过的防护措施、被暴露的危险能力、实际危害影响——对AI“越狱”漏洞的严重程度进行分级，从而确立清晰、预设的政府干预阈值。此前，美国政府以国家安全为由，对Anthropic新发布的Claude Fable 5和Mythos 5模型实施出口管制，要求90分钟内限制外国人访问，导致模型全球下架，双方就漏洞严重性发生激烈争执。

使用 Studio Global AI 搜索并核查事实浏览更多热门页面

46K0

An abstract digital illustration representing AI safety oversight, with a glowing neural network design in blue and gold tones against a dark background. — What are the key details and points of contention in the White House's collaboration with Anthropic to develop a unified compliance frameworThe White House and Anthropic are jointly developing a unified grading system for AI jailbreak vulnerabilities, aiming to replace ad hoc crisis responses with clear risk thresholds.
AI 提示
Create a landscape editorial hero image for this Studio Global article: What are the key details and points of contention in the White House's collaboration with Anthropic to develop a unified compliance framewor. Article summary: Here is a comprehensive breakdown of the White House–Anthropic collaboration, the disputes, and the emerging framework.. Topic tags: general, general web, user generated, news. Style: premium digital editorial illustration, source-backed research mood, clean composition, high detail, modern web publication hero. Use reference image context only for broad subject, composition, and topical grounding; do not copy the exact image. Avoid: logos, brand marks, copyrighted characters, real person likenesses, fake screenshots, UI text, readable text, watermarks, charts with fake numbers, clickbait thumbnails, icons, and tiny thumbnail layouts. Make it useful as an illus
openai.com

2026年6月12日，美国商务部向Anthropic CEO Dario Amodei发送了一份出口管制指令，要求该公司在90分钟内限制其两个最先进AI模型——Claude Fable 5和Claude Mythos 5——对外国国民的访问权限。这两个模型仅于三天前发布。由于无法可靠地执行仅限美国用户的访问限制，Anthropic被迫在全球范围内禁用了这两个模型。此举是美国政府首次命令前沿AI实验室将已部署的模型从市场上撤下，并由此引发了一系列事件，正在重塑联邦政府处理AI安全监管的方式。

关于“危险越狱”的界定之争

出口管制的直接导火索是一项报告的“越狱”方法——一种绕过模型安全护栏的技术。但双方对其严重性存在严重分歧。

Anthropic的立场： CEO Dario Amodei在与官员的紧急通话中辩称，涉事的越狱是**“狭窄的”且“非通用的”**——并非一种可以被广泛利用的系统性绕过方法。该公司公开表示，政府仅提供了“关于一个潜在的、狭窄的、非通用的越狱漏洞的口头证据”。Anthropic在一篇博客文章中表示：“我们不同意‘一个狭窄的潜在越狱漏洞’应该成为召回一个商业模型的原因” 。
政府的立场： 白宫认为，在一个具有高级网络攻击能力（Fable 5的设计目的之一是识别软件漏洞）的模型上，任何被证实的绕过安全护栏的行为都是不可接受的国家安全风险，特别是如果这些模型仍可被外国对手访问。

分歧迅速升级。据多家媒体报道，Amodei在与政府官员的通话中进行了有力反驳，称政府的担忧是基于误解，谈判一度濒临彻底破裂。

白宫将Fable 5指定为其新AI行政令护栏的测试案例，并协调了商务部、财政部和白宫本身。政府担心该模型的能力可能使中国获得网络攻击工具和其他危险的双重用途技术。

从对抗到谈判：构建统一合规框架

在出口管制危机爆发后的数日内，白宫和Anthropic从对抗转向了结构性谈判。2026年4月17日，Amodei与白宫官员举行了被称为富有成效的“休战”会谈——这是自Anthropic与五角大楼此前发生摩擦以来的首次高层接触。

后续高层讨论中的关键人物包括美国商务部长Howard Lutnick、国家网络总监Sean Cairncross以及Anthropic联合创始人Tom Brown 。政府已协调商务部、财政部和白宫共同处理Fable 5测试案例。

这些会谈中产生的核心项目是一个用于评估前沿AI模型安全漏洞（尤其是越狱漏洞）严重程度的统一合规框架 。该框架旨在创建通用基准，用于判断安全缺陷是否足以证明政府干预的合理性。

统一分级系统：三大评估标准

该努力的核心是一个统一的越狱漏洞分级系统。尽管官方标签（例如“严重”、“高”、“中”、“低”）或详细的评分细则尚未公开发布，但据报道，该框架根据三个风险评估标准来评估漏洞：

被绕过的防护措施 — 哪些安全护栏（例如，宪法分类器、实时过滤器）被攻克。
被暴露的危险能力 — 哪些危险的模型能力（例如，网络攻击、生物指导、化学合成）变得可被访问。
实际危害影响 — 该越狱漏洞在多大范围内易于被利用，以及可能造成何种危害。

政府的目标是利用这个分级系统建立清晰、预设的风险阈值，当达到阈值时，将自动决定是否实施出口管制、要求采取缓解措施或阻止部署——而不是在危机发生后临时行动。

政府的战略目标：从被动反应走向规则驱动

政府的首要目标是从被动、危机驱动的干预转向一个基于规则的系统 。通过和Anthropic共同制定分级框架和风险阈值，白宫旨在：

为AI实验室创造可预测性，明确什么会触发政府行动。
建立共享术语，用于描述漏洞的严重程度。
避免未来再出现像Fable 5和Mythos 5那样，模型公开部署后，又因出口管制而被突然关停的情况。

关键不确定性： 该框架的详细标准、适用范围和时间表均未公开。三个风险评估标准（被绕过的防护措施、被暴露的危险能力、实际危害影响）已被多家媒体报道，但具体的评分方法尚未披露。

更广泛的G7背景

美国与Anthropic的框架制定是在G7关于AI安全标准的讨论背景下进行的。G7一直在努力协调国际基准，以评估前沿AI风险。白宫和Anthropic正在构建的统一分级系统预计将会参考，并反过来影响这些更广泛的多边谈判，尽管G7的具体成果仍在协商中。

接下来会发生什么

该框架的制定标志着美国AI政策的一次重大转向。就在出口管制事件发生几天前，Amodei发表了一篇政策文章，主张政府应拥有强制性法律权力，去阻止或撤销那些未能通过独立安全测试的前沿AI模型的部署。6月12日的危机以一种意想不到的对抗性方式检验了这一原则。

一个仍然悬而未决的关键问题：如何界定“狭窄、可控的漏洞”与“需要政府干预的系统性风险”之间的界限。这个答案不仅将影响Anthropic未来的模型发布，还将塑造前沿AI开发更广泛的监管格局。

白宫与Anthropic联手打造AI安全评估框架：为“越狱”漏洞分级，划定政府干预红线

关于“危险越狱”的界定之争

从对抗到谈判：构建统一合规框架

统一分级系统：三大评估标准

政府的战略目标：从被动反应走向规则驱动

更广泛的G7背景

接下来会发生什么

Search, cite, and publish your own answer

人们还问

“白宫与Anthropic联手打造AI安全评估框架：为“越狱”漏洞分级，划定政府干预红线”的简短答案是什么？

首先要验证的关键点是什么？

接下来在实践中我应该做什么？

来源

Comments