此次升级有几点尤为突出。在能力层面,Opus 4.8 在智能体编程、多学科知识工作和智能体计算机操作方面表现更佳 。一项名为动态工作流的新功能允许模型在 Claude Code 中同时调度数百个并行子智能体,来执行跨越数十万行代码的代码库级迁移任务
。用户还可以配置努力程度——高、超高和最大三档,并可使用快速模式,该模式速度提升 2.5 倍,成本却只有之前快速模式的三分之一
。
可靠性也得到了重大升级。Opus 4.8 经过专门训练,能更有效地标记出自身工作中的不确定性。相比前代产品,它在发现自身代码存在缺陷却不予标记的可能性降低了约四分之三,这解决了一个常见痛点:高级模型总是自信地输出带有问题的代码 。Anthropic 将此描述为在软件工程领域实现模型诚实性的一次突破
。
至关重要的是,尽管 Opus 4.8 是一个更强大的自主智能体,但它部署在与其他 Claude Opus 4 家族模型相同级别的 ASL-3(AI 安全等级 3) 标准之上。这些协议包括严格的防护措施,能够自动阻止涉及禁止或高风险网络安全用途的请求,并设有强大的安全控制,以保护模型权重免遭手段高超的非国家行为体窃取 。
Claude Mythos Preview 的故事,才是让这个发布日有别于常规模型升级的关键所在。2026 年 4 月,Anthropic 首次透露该模型的存在,但明确表示不会公开发布。核心问题在于:Mythos Preview 展示了在所有主流操作系统和网络浏览器中自主发现并利用零日漏洞的能力 。英国 AI 安全研究所(AISI)证实,Mythos Preview 成功解开了 73% 的专家级夺旗(CTF)网络安全挑战——这一成绩将以往的模型远远甩在身后
。
为了降低显而易见的风险,Anthropic 启动了 Project Glasswing 这一受控计划,与包括 AWS、苹果、谷歌、微软、CrowdStrike 和摩根大通在内的大约 50 家合作伙伴一道,将 Mythos Preview 仅用于防御性的漏洞发现 。其成果堪称历史性。合作伙伴们在全球最重要的基础软件中,总共发现了超过 1 万个高危或严重级别的漏洞,并且大多数机构在接入模型的第一个月内就各自发现了数百个此类缺陷
。其中,有 6,202 个被归类为新颖的、此前未知的零日漏洞
。这些发现遍布关键基础设施,并包含一些极其隐蔽的缺陷,例如在号称最安全的操作系统之一 OpenBSD 中发现了一个潜伏了 27 年的漏洞
。
5 月 28 日,Anthropic 宣布这项实验取得了成功,并透露正在准备在未来几周内向所有客户发布“神话级”模型,将其定义为一个“全新的模型品类” 。Glasswing 项目产出的成果提供了证据,证明在适当的护栏下,这些模型可以安全地用于防御性网络工作。行业分析师预测,Claude Mythos 1 预计将在 2026 年 6 月与 Gemini 3.5 Pro 和 Grok 5 等其他重要模型一同登场
。
与这些产品发布相伴的,是一次足以引起震动的金融操作。同日,Anthropic 宣布完成了 650 亿美元的 H 轮融资,投后估值高达 9650 亿美元,比其 2 月份 3800 亿美元的估值翻了一番还多 。本轮融资由 Altimeter Capital、Dragoneer、Greenoaks 和红杉资本领投,Blackstone、D.E. Shaw、DST Global 和富达投资等进行了大额参投
。
这笔资金正式确立了 Anthropic 全球最具价值 AI 初创公司的地位,超越了 OpenAI 上一次 8520 亿美元的确认估值 。Anthropic 表示,这笔资金将用于扩大计算能力,以满足企业客户对 Claude 日益增长的需求,并推动产品的全球扩展
。
将“神话”推向广泛普及的决定,并非没有遭到强烈反对。这场辩论的核心是“双重用途”困境:让神话模型在寻找漏洞以便修复方面表现出色的推理能力,同样也使其成为了终极的攻击性工具 。分析师警告称,广泛开放访问权限可能会让恶意行为者掌握一种工具,它能自主地将多个漏洞串联起来,绕过操作系统的沙盒和浏览器渲染器的保护
。
传统的漏洞奖励与道德黑客模式,如今面临着一个存在主义问题。如果一个模型就能自主地发现数千个零日漏洞,人类安全研究员的角色将从发现者转变为分类与遏制者 。Anthropic 的遏制策略——即通过 Project Glasswing 筛选出 50 家受信任的企业——既引来了赞扬也受到了批评。支持者认为这证明了该模型的防御价值,同时防止了灾难性的外泄;而批评者则认为,将这样的工具隔绝于更广泛的安全社区之外,会拖慢全球打补丁的进程
。
5 月 28 日的系列公告,标志着一项实验的结束,也标志着一个新阶段的开始。Anthropic 正在押注:广泛可用神话级模型的防御性收益将超过其攻击性风险。而随着模型的正式交付,这场豪赌的结果即将被检验。
Comments
0 comments