答案已发布2个月前Last edited 上个月19 来源

Anthropic Mythos AI 网络安全能力评测：优势、局限与与 GPT‑5.5 的真实差距

Q: 首先要验证的关键点是什么？

独立评估认为 Mythos 在漏洞发现和多步骤网络攻击模拟方面明显进步，但还不能替代安全专家。 英国 AI 安全研究所称 Mythos 是首个完成企业网络端到端攻击模拟的模型之一 [5]。

独立评估认为 Mythos 在漏洞发现和多步骤网络攻击模拟方面明显进步，但还不能替代安全专家。英国 AI 安全研究所称 Mythos 是首个完成企业网络端到端攻击模拟的模型之一 [5]。模型在漏洞严重性判断、漏洞利用验证等关键环节仍需要人类参与 [8]。

使用 Studio Global AI 搜索并核查事实浏览更多热门页面

Concept illustration of advanced AI analyzing cybersecurity vulnerabilities across computer networks — What do independent tests and recent government responses reveal about Anthropic’s Mythos AI as a cybersecurity tool—specifically its strengFrontier AI models like Anthropic’s Mythos are being tested for their ability to find software vulnerabilities and simulate cyberattacks.
AI 提示
Create a landscape editorial hero image for this Studio Global article: What do independent tests and recent government responses reveal about Anthropic’s Mythos AI as a cybersecurity tool—specifically its streng. Article summary: Independent tests suggest Claude Mythos is a real step up for AI-assisted cyber work, especially vulnerability discovery and multi-step attack simulation, but not a turnkey security analyst. The strongest public evidence. Topic tags: general, government, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject ""You have a significant increase in the volume of vulnerabilities discovered, but they don't seem to have deployed a tool that helps you fix" source context "Anthrophic's Mythos: Experts warn cyber threat was already here" Reference image 2: visual subject ""You have a significant increase in the volu
openai.com

Mythos：AI 网络安全能力的一次明显跃升

独立评估表明，Anthropic 的 Claude Mythos 在 AI 辅助网络安全领域确实带来了明显进步，尤其是在漏洞发现和多步骤攻击模拟方面。不过，它更像是“高效率助手”，而不是能够独立工作的安全专家。

英国政府支持的 AI Security Institute（AISI） 在测试中指出，Mythos Preview 在网络安全评估中的表现相比此前的前沿模型“明显提升” 。研究人员还发现，它是首个能够完成 端到端企业网络攻击模拟 的模型之一——这是一个需要多阶段推理和工具使用的复杂任务，人类专家通常需要约 20 小时才能完成。

这些结果意味着：AI 在复杂网络任务中的自动化能力正在快速提高。

最大优势：发现漏洞与串联攻击步骤

从公开资料来看，Mythos 的核心优势在于 漏洞发现与攻击链推理能力。

Anthropic 的红队测试材料称，该模型能够：

在真实开源代码库中发现 零日漏洞（zero‑day）。
对闭源软件进行 漏洞利用逆向工程。
将已知但尚未广泛修补的 “N‑day”漏洞 转化为可利用的攻击代码。

政府测试也显示，这类模型越来越擅长把多个独立任务连接成完整攻击流程，而不仅仅是解决单个安全挑战。

英国国家网络安全中心（NCSC）也警告称，前沿 AI 模型已经能够在网络攻击的一些关键环节提供帮助，例如寻找零日漏洞或解决复杂加密问题。

关键局限：漏洞严重性判断与利用验证

尽管 Mythos 在漏洞发现方面表现强劲，但现有证据也显示它 仍无法独立完成完整安全分析流程。

例如：

模型发现的漏洞是否真实可利用，通常仍需人类验证。
漏洞严重性（如 CVSS 等级）的判断并不稳定。
安全团队仍需人工决定修补优先级和风险影响。

一些关于 Mythos 找到“数千个高危漏洞”的说法主要来自厂商相关材料或未经充分独立验证的报道，因此更合理的看法是：这些数字目前仍属于 厂商声明，而非已全面复现的研究结果 。

在实际企业环境中，这还可能带来新的问题：模型可以非常快地产生大量疑似漏洞，但安全团队仍需花时间验证，从而造成 漏洞筛查压力（triage overload）。

与 GPT‑5.5 的比较：领先优势可能没有想象中大

另一项重要发现是：Mythos 并非唯一达到这一能力水平的模型。

AISI 在后续测试中评估了 OpenAI 的 GPT‑5.5，并发现 另一家开发商的模型也达到了类似水平的网络安全能力 。

在该机构的网络安全测试套件中：

Mythos 首次完成了企业网络攻击模拟
GPT‑5.5 随后也成功完成同类多步骤任务

这表明，在前沿模型竞争中，能力提升正在迅速扩散，而不是长期由单一模型保持领先。

一些第三方测试还指出，在以真实历史漏洞为基础的基准中，GPT‑5.5 也展现出接近 Mythos 的漏洞发现能力。

因此，从 成本与性能比（cost‑adjusted performance） 的角度看，Mythos 的优势可能取决于整体系统设计、工具链和访问控制，而不只是模型本身。

为什么银行和政府都在争取使用这些模型

尽管能力仍有限，但政府和金融机构仍在争相测试类似 Mythos 的系统。

原因很简单：如果攻击者也能使用这些工具，防御方必须先拥有它们。

例如：

日本三大银行据报道将获得 Mythos 的访问权限，用于寻找金融系统漏洞。
日本政府甚至成立了专门工作组，评估该模型可能带来的网络攻击风险。
欧洲银行和监管机构也在寻求获得类似 AI 模型，用于网络防御研究。

在金融、能源和政府基础设施等领域，这种技术被视为一种 “攻防双用”能力。

AI 网络能力正在快速加速

AISI 的研究还显示，AI 能够独立完成的网络安全任务长度正在迅速增加。

该机构估计，自 2024 年以来，模型能够自动完成的网络任务复杂度 大约每 4.7 个月翻倍 。

这种增长速度意味着：

AI 可能迅速成为漏洞发现的重要工具
同样也可能降低网络攻击的技术门槛

总体判断

综合政府评估与公开测试结果，Mythos 最合理的定位是：

一个高效率、能力强但具有双重用途的网络安全助手，而不是自动化的网络防御专家。

它在漏洞发现和复杂任务串联方面表现突出，但关键问题仍未完全解决，例如：

误报率和漏洞验证
实际环境中的可复现性
与其他模型相比的成本优势

随着 GPT‑5.5 以及更多专业安全代理系统的出现，未来的竞争可能不再只是“哪一个模型最强”，而是 谁能构建最有效的 AI 安全工具链与工作流程。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜索并核查事实

人们还问