Claude Code 的强大能力背后,是 Anthropic 历代旗舰模型。每一代 Opus 模型都直接提升了工具的编程、推理和可靠性。
Opus 4.6 在规划、长时间运行的智能体任务可靠性以及大型代码库操作方面带来了显著改进。最值得注意的是,它在测试版中引入了 100 万个 token 的上下文窗口——这是 Opus 系列模型中首个能够处理如此规模上下文的版本 。
从 Opus 4.6 到 Opus 4.7 的飞跃,对编程基准测试来说是颠覆性的。仅凭这一次模型发布,Anthropic 就将 SWE-bench Verified (自适应模式)上的得分从 80.8% 提升到了 87.6% 。它还将 SWE-bench Pro 的成绩从 53.4% 提升到 64.3%——领先最接近的竞争对手超过 10 个百分点
。
Opus 4.7 引入了自适应思考,能动态地为每项任务分配计算资源,并将 100 万 token 上下文窗口稳定在了生产环境质量,适用于 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 平台 。
最新的模型升级侧重于优化而非变革。Opus 4.8 直接构建在 Opus 4.7 之上,将 SWE-bench Pro 的得分从 64.3% 提升至 69.2%,同时大幅降低了未被检测出的代码缺陷率。Anthropic 报告称,该模型对自身代码中的缺陷视而不见的可能性降低了四倍,并且测试者观察到它更愿意标记不确定性,避免做出无根据的断言 。
至关重要的是,Opus 4.8 保持了与 Opus 4.7 的 API 兼容性,且价格不变。它还带来了一个比前代模型便宜三分之二、速度快 2.5 倍的快速模式,直接改善了开发者在 Claude Code 中的使用体验 。
Anthropic 于 2026 年 5 月 6 日在旧金山举行了其首届年度开发者大会“Code with Claude”,并在伦敦和东京设有分会场 。该会议并没有展示新模型,而是将重点完全放在了平台能力上——最引人注目的是针对 Claude 托管智能体的新功能。
“做梦”(Dreaming)(研究预览版) 是这批功能中最具概念野心的一个。当智能体空闲时,一个按计划的背景进程会回顾多达 100 个过往对话,提取出重复的模式、工作流和错误,然后重写智能体的记忆存储以实现更高信号。原始会话数据保持不变——智能体只会在明确采纳时才更新这些记忆,并且开发者可以选择在记忆变更前进行人工审核 。
多智能体编排(Multi-Agent Orchestration)(公测版) 允许一个主导智能体分解复杂任务,并将工作分派给一个专家子智能体舰队——每个子智能体都有自己的模型、提示词和工具——在共享文件系统上并行运行 。
除了托管智能体的功能,Code with Claude 大会还有其他几项发布:
Claude Code 最引人瞩目的基准测试数据,是其在 Claude Opus 4.7 自适应模式下取得的 87.6% 的 SWE-bench Verified 得分 。这一成绩代表了截至 2026 年 6 月,在普遍可用的 AI 编程智能体中最高的公布结果。
SWE-bench Verified 是一个精心筛选的集合,包含来自开源 Python 仓库的 500 个真实世界的 GitHub 问题,需要智能体端到端地解决。它已成为智能体软件工程领域的行业标准参照基准。Claude Code 在此排行榜上的崛起——从 Opus 4.5 的 80.9% 到 Opus 4.7 的 87.6%——一直是该产品发展的核心叙事 。
87.6% 这个数字并非一成不变。它取决于模型、提示词以及编排工具使用的“运行环境”。Claude Opus 4.7 的自适应模式会为每项任务动态分配计算资源,为复杂的重构任务投入更多。而没有这个自适应环境的独立 Claude Code,在同一基准上得分为 80.8% 。
在难度更高的 SWE-bench Pro 基准(测试更复杂的真实问题解决能力)上,Opus 4.7 得分 64.3%,领先于 GPT-5.4(57.7%)、GPT-5.5(58.6%)和 Gemini 3.1 Pro(54.2%)。Opus 4.8 随后又将 SWE-bench Pro 成绩推高至 69.2%
。
Claude Code 的性能还延伸到了其他多个基准:
值得注意的是,竞争格局仍然充满变数。OpenAI 的 GPT-5.5 曾在 2026 年中短暂以 88.7% 的成绩在 SWE-bench Verified 上领先,造成了一个 Claude Code 领跑 SWE-bench Pro,而 GPT-5.5 领跑 Verified 的分裂局面 。排行榜随着每次模型发布而不断演变。
Anthropic 对 Claude Code 的定位已凝聚在长周期自主性这一概念上。Claude Opus 4.8 被描述为具有“在长时间运行的任务上持续工作的连贯性和自主性”,并特别被标注为“Anthropic 在复杂推理、长周期智能体编程和高自主性工作中能力最强的模型” 。
相较于单次提示词自动补全,这种对持续、独立操作的强调,正是 Claude Code 最显著的差异化之处。“做梦”、自适应计算资源分配和多智能体编排等功能,都指向一种理念:智能体应能在跨会话的条件下运行,从自身输出中学习,并在最少的开发者干预下管理复杂的多文件项目。
Anthropic 也开始强调模型诚实度作为一种竞争优势。Opus 4.8 的发布中着重提到了该模型愿意标记不确定性、避免做出无根据断言的特点——这是一种实用、以安全为导向的框架,旨在吸引那些需要信任其智能体在生产环境中输出的开发者 。
Comments
0 comments