直接比較模型有時都幾棘手,因為大家用嘅跑分版本同測試準則都唔同。喺啲可以用同一個測試比較嘅項目入面,Opus 4.8喺開發者最關心嘅領域都領先GPT-5.5。
| 跑分項目 | Opus 4.8 | Opus 4.7 | GPT-5.5 |
|---|---|---|---|
| SWE-bench Verified(編程) | 88.6% | 87.6% | 冇直接可比性 |
| SWE-bench Pro(Agentic Coding) | 69.2% | 64.3% | 58.6% |
| Terminal-Bench 2.1 | 74.6% | — | — |
| Terminal-Bench 2.0 | — | 69.4% | 82.7% |
| 多學科推理(用工具) | 57.9% | 54.7% | 冇直接可比性 |
| 多學科推理(唔用工具) | ~62.1% | — | — |
| GPQA Diamond(研究生級別科學) | 93.6% | 94.2% | — |
| MMLU(廣泛知識) | — | 91.3% | — |
| AIME 2024(數學競賽) | — | 99.8% | — |
| CursorBench | 最高 | Baseline | — |
| GDPval-AA(知識工作) | 1890 | 1753 | 1769 |
| Super-Agent(端到端) | 100% | — | 唔係100% |
| Agentic電腦使用 | 83.4% | 82.8% | 78.7% |
SWE-bench Pro係目前最廣泛用嚟衡量真實軟件工程任務嘅基準測試。Opus 4.8攞到69.2%,而GPT-5.5就得58.6%,差距足足有10.6個百分點 。Opus 4.7嗰陣已經以64.3%領先,而家Opus 4.8再將優勢擴大。Anthropic嘅公告仲強調,比起以前嘅模型,Opus 4.8完成任務更快,程式碼錯誤(Bug)少咗4倍
。
呢個跑分要睇得好小心。GPT-5.5報告佢喺Terminal-Bench 2.0攞到82.7% ,而Opus 4.8嘅74.6%係用Terminal-Bench 2.1呢個新版本去測
。兩個數根本冇得直接比較。仲有,OpenAI嗰個82.7%嘅宣稱都受到審查;跑分擁有者嘅排行榜喺同一日顯示嘅分數係82.0% ± 2.2
。Opus 4.7喺Terminal-Bench 2.0嘅分數係69.4%
,而一啲用唔同測試框架嘅獨立測試就發現,GPT-5.5喺呢個跑分上面,有時表現仲差過GPT-5.4
。
喺GDPval-AA呢個知識工作評估入面,Opus 4.8攞到1890嘅Elo分數,對比GPT-5.5嘅1769,優勢大約係7% 。Opus 4.8仲係第一個喺Anthropic嘅Super-Agent跑分入面,達成100%完成率嘅模型,意思即係佢成功執行晒測試套件入面所有端到端嘅自動化任務
。GPT-5.5就做唔到100%。
喺Agentic電腦使用(OSWorld-Verified)方面,分數就相對接近啲:Opus 4.8係83.4%,GPT-5.5係78.7%,Opus 4.7就係82.8% 。呢啲都係單位數嘅改善,唔算係咩世代大躍進。
GPT-5.5喺Anthropic同Opus 4.8一齊發布嗰啲共用跑分上面,數據覆蓋比較薄弱,部分原因係OpenAI集中火力喺唔同嘅指標度。喺GPQA Diamond(研究生級別科學推理)方面,Opus 4.7攞到94.2% ,而之前嘅比較就顯示,GPT-5.4喺純數學推理同一啲知識回憶測試上面,稍微領先Opus 4.7少少
。暫時仲未有Opus 4.8同GPT-5.5喺GPQA Diamond嘅直接比較,不過Opus 4.8據報係攞到93.6%
。
| 規格 | Opus 4.8 | Opus 4.7 | GPT-5.5 |
|---|---|---|---|
| 上下文窗口 | 100萬Token | 100萬Token | 100萬Token |
| 加速模式 | 2.5倍速 ($10/$50) | 2.5倍速 ($10/$50) | N/A |
| 發布日期 | 2026年5月28號 | 2026年4月16號 | 2026年4月23號 |
| 批次折扣 | 50% | 50% | 50% (Flex) |
| 即時提示快取 | 支援 (最多慳90%) | 支援 (最多慳90%) | 支援 (慳90%) |
睇第三方跑分嗰陣,要記住佢哋嘅局限性:
揀Claude Opus 4.8如果: Agentic Coding、電腦使用任務、知識工作、或者長上下文操作係你最主要嘅工作量。佢喺所有有得比較嘅共用跑分都領先,而且價錢同Opus 4.7一樣冇變過。
揀GPT-5.5如果: 你已經深深嵌入咗OpenAI嘅生態系統、優先考慮純數學推理、或者期望Token效率嘅提升,可以喺你特定嘅提示模式下抵消每Token貴咗嘅價錢。
繼續用Opus 4.7如果: 你需要前線級別嘅Agentic Coding(SWE-bench Pro 64.3%仍然大幅拋離GPT-5.5),而且唔需要Opus 4.8帶嚟嘅特定提升——但考慮到價錢一樣,實在冇乜理由唔升級。
對於要跑高輸出量自動代理(Agent)或者長文件分析嘅開發者嚟講,Claude Opus嘅輸出價錢平17%,而且長文收費劃一,呢啲都會令你每月嘅API帳單有實實在在嘅差別。
Comments
0 comments