在针对命令行智能体编码的 Terminal-Bench 2.1 测试中,Opus 4.8 得分为 74.6%。尽管仍落后于 GPT-5.5 的 78.2%,但较 Opus 4.7 的 66.1% 实现了大幅飞跃 。在智能体计算机使用层面,Opus 4.8 在 OSWorld-Verified 上得分 83.4%,以微弱优势超过 Opus 4.7(82.8%)和 GPT-5.5(78.7%)
。
在由 GDPval-AA 衡量的知识工作能力上,Opus 4.8 获得了 1890 Elo 分,远超 GPT-5.5(1769 分),并大幅领先 Gemini(1314 分)。在针对多学科推理的“人类最后的考试”中,Opus 4.8 在使用工具时的得分为 57.9%,这是 Anthropic 目前所有公开模型中取得的最高成绩
。
这意味着,诸如欺骗或配合滥用等“不一致行为”的比例,在 Opus 4.8 中得到了显著降低,其表现水准已与 Anthropic 认为对齐性最好的 Claude Mythos Preview 模型相当 。对于那些依赖 AI 来审查或生成生产级代码的开发者来说,这至关重要——他们需要的是一个会主动标记自身盲点的模型,而不是一个自信满满地交付有缺陷输出的模型。
在 Claude Code 中,Anthropic 为此提高了速率限制,以适应用户为了追求更高“努力”水平而增加的 Token 消耗 。这让开发者在处理复杂编码和智能体任务时,能在延迟、成本和推理深度之间进行更精细的权衡。
Claude Opus 4.8 的标准定价与 Opus 4.7 完全持平:输入价格为每百万 Token 5 美元,输出价格为每百万 Token 25 美元 。Prompt 缓存的写入和刷新费用也保持不变
。
更重磅的定价调整在于速度层面。Opus 4.8 的快速模式(可提供高达 2.5 倍的输出生成速度)现在输入价格降至每百万 Token 10 美元,输出价格降至每百万 Token 50 美元 。这相较于过去 Opus 4.6 和 4.7 快速模式的每百万 Token 30/150 美元,降价幅度高达三分之二
。
目前,Anthropic 已停止对 Opus 4.6 提供快速模式,并建议用户迁移至 Opus 4.8 或 4.7 的快速模式 。要在 API 中使用快速模式,开发者只需设置
speed: "fast"claude-opus-4-8,并包含 fast-mode-2026-02-01 的测试版请求头即可 。
该模型现已在 Claude API 上可用,别名为 claude-opus-4-8。它支持快速模式、Prompt 缓存和批处理配置 。Pro、Max、Team 和 Enterprise 计划的用户可立即访问 Opus 4.8
。
伴随 Opus 4.8 发布,Anthropic 还对 Mythos 级模型的开放时间表做出了更明确的表态。自 2026 年 4 月 7 日起,Claude Mythos Preview 一直通过“玻璃翼计划”(Project Glasswing)限制在约 50 家防御性安全合作伙伴内部使用 。该模型的进攻性网络安全能力过于强大,导致 Anthropic 一度拒绝将其公开发布
。
但在 5 月 28 日,Anthropic 更新了公开口径,表示计划在未来数周内向所有客户发布 Mythos 级模型 。这是自“玻璃翼计划”启动以来,公司给出的最明确时间表。同时,公司还披露了高达 650 亿美元的 H 轮融资,投后估值达到 9650 亿美元,这进一步强化了一个信号:Mythos 的商业化路径正从研究预览走向更广泛的可用性
。
Claude Opus 4.8 是一个“小步快跑”式的迭代升级,它为开发者带来了三个实际层面的区别:
对于正在评估是否迁移的团队,最有力的信号是:在你的实际编码、智能体和知识工作任务中直接测试 Opus 4.8——尤其是在那些长时间运行的会话中,自我纠正、不确定性标记以及大规模并行子智能体编排能力将发挥关键作用。
Comments
0 comments