由于各家使用的基准测试版本和测试协议不同,直接对比模型性能变得复杂。但就相同测试可比的得分而言,Opus 4.8在开发者最看重的几个领域上领先GPT-5.5。
| 基准测试 | Opus 4.8 | Opus 4.7 | GPT-5.5 |
|---|---|---|---|
| SWE-bench Verified(编程) | 88.6% | 87.6% | 无法直接对比 |
| SWE-bench Pro(智能体编程) | 69.2% | 64.3% | 58.6% |
| Terminal-Bench 2.1 | 74.6% | — | — |
| Terminal-Bench 2.0 | — | 69.4% | 82.7% |
| 多学科推理(带工具) | 57.9% | 54.7% | 无法直接对比 |
| 多学科推理(无工具) | ~62.1% | — | — |
| GPQA Diamond(研究生级科学) | 93.6% | 94.2% | — |
| MMLU(通用知识) | — | 91.3% | — |
| AIME 2024(数学竞赛) | — | 99.8% | — |
| CursorBench | 最高 | 基线 | — |
| GDPval-AA(知识工作) | 1890 | 1753 | 1769 |
| Super-Agent(端到端) | 100% | — | 非100% |
| 智能体计算机使用 | 83.4% | 82.8% | 78.7% |
SWE-bench Pro是衡量真实软件工程任务最被广泛引用的基准测试,Opus 4.8成绩为69.2%,领先GPT-5.5的58.6%达10.6个百分点 。Opus 4.7此前就以64.3%领先,Opus 4.8进一步扩大了这一优势。Anthropic在发布时强调,Opus 4.8完成任务更快,代码bug相比旧模型减少了4倍
。
解读这个基准测试需要格外仔细。GPT-5.5在Terminal-Bench 2.0上据报为82.7% ,而Opus 4.8的74.6%是基于更新的Terminal-Bench 2.1版本测得的
。两者不能直接比较。此外,OpenAI公布的82.7%这一数据遭到审查,该基准测试维护者的排行榜同日显示的成绩为82.0% ± 2.2
。Opus 4.7在Terminal-Bench 2.0上的成绩是69.4%
,而使用不同测试框架的独立测试发现,GPT-5.5在此基准测试上有时表现甚至不如GPT-5.4
。
在GDPval-AA知识工作评估中,Opus 4.8的Elo得分为1890,对比GPT-5.5的1769分,优势约7% 。Opus 4.8还是首个在Anthropic的Super-Agent基准测试中达到100%完成率的模型,意味着它在测试套件中成功执行了每一个端到端的智能体任务
。GPT-5.5未能实现100%的完成率。
在智能体式计算机使用 (OSWorld-Verified) 上,分数更为接近:Opus 4.8为83.4%,GPT-5.5为78.7%,Opus 4.7则为82.8% 。这些提升幅度集中在个位数百分点,还算不上代际飞跃。
在Anthropic随Opus 4.8发布的可比基准测试中,GPT-5.5的测试覆盖面较窄,部分原因是OpenAI侧重不同的评价指标。在GPQA Diamond(研究生水平的科学推理)上,Opus 4.7已达到94.2% ;更早期的对比显示,GPT-5.4在纯数学推理和部分知识回忆测试上相对于Opus 4.7具有微弱优势
。目前尚无Opus 4.8与GPT-5.5在此项的直接对比,不过Opus 4.8的报告成绩为93.6%
。
| 规格 | Opus 4.8 | Opus 4.7 | GPT-5.5 |
|---|---|---|---|
| 上下文窗口 | 100万token | 100万token | 100万token |
| 快速模式 | 2.5倍速 ($10/$50) | 2.5倍速 ($10/$50) | N/A |
| 发布日期 | 2026年5月28日 | 2026年4月16日 | 2026年4月23日 |
| 批处理折扣 | 50% | 50% | 50% (弹性处理) |
| 提示词缓存 | 是 (最高节省90%) | 是 (最高节省90%) | 是 (节省90%) |
阅读独立基准测试时,应意识到其局限性:
选择Claude Opus 4.8,如果: 你的主要工作负载是智能体编程、计算机操控任务、知识工作或长上下文处理。它在所有可对比的基准测试中均处领先,且定价与Opus 4.7保持一致。
选择GPT-5.5,如果: 你已深度嵌入OpenAI生态中,极端重视纯数学推理能力,或预期token效率的提升能够在你特定提示模式下抵消更高的单价。
继续留用Opus 4.7,如果: 你需要前沿水平的智能体编程能力(SWE-bench Pro 64.3%的成绩依然大幅领先GPT-5.5),且你评估后不急需Opus 4.8带来的特定增益——但鉴于价格完全一致,没有太多理由不选择升级。
对于运行输出密集型智能体或进行大规模文档分析的开发者而言,Claude Opus输出价格便宜17%,且长上下文不额外加价,这会对月度API账单产生实实在在的节省效果。
Comments
0 comments