要直接比較模型並不容易,因為它們常常在不同版本的基準上,遵循著不同的測試協定。但只要在相同的測試項目上取得成績,Opus 4.8幾乎都在開發者最關心的領域裡取得領先。
| 基準項目 | Opus 4.8 | Opus 4.7 | GPT-5.5 |
|---|---|---|---|
| SWE-bench Verified(編碼) | 88.6% | 87.6% | 無法直接比較 |
| SWE-bench Pro(代理編碼) | 69.2% | 64.3% | 58.6% |
| Terminal-Bench 2.1 | 74.6% | — | — |
| Terminal-Bench 2.0 | — | 69.4% | 82.7% |
| 多領域推理(使用工具) | 57.9% | 54.7% | 無法直接比較 |
| 多領域推理(無工具) | ~62.1% | — | — |
| GPQA Diamond(研究生級科學) | 93.6% | 94.2% | — |
| MMLU(廣泛知識) | — | 91.3% | — |
| AIME 2024(競賽數學) | — | 99.8% | — |
| CursorBench | 最高分 | 基準線 | — |
| GDPval-AA(知識工作) | 1890 | 1753 | 1769 |
| Super-Agent(端到端) | 100% | — | 未達100% |
| 代理型電腦操作 | 83.4% | 82.8% | 78.7% |
在實際軟體工程任務領域裡,SWE-bench Pro是最廣受引用的基準。Opus 4.8取得了69.2%的成績,對比GPT-5.5的58.6%,有著10.6個百分點的明顯領先 。Opus 4.7原先就已經以64.3%領先,如今Opus 4.8更進一步擴大了這個優勢。Anthropic在發布中還特別強調,模型任務完成的速度更快,而且程式碼瑕疵的發生率比起前代降低了約4倍
。
這個基準需要你仔細閱讀。GPT-5.5在Terminal-Bench 2.0的回報成績為82.7% ,而Opus 4.8的74.6%則是在較新版本的Terminal-Bench 2.1上測得的
。這兩者無法直接比較。此外,OpenAI聲稱的82.7%也曾受到嚴格檢視;同一日,基準擁有者的排行榜顯示的成績是82.0% ± 2.2
。Opus 4.7在Terminal-Bench 2.0的成績為69.4%
,同時也有獨立測試採用不同測試框架後發現,GPT-5.5在這個基準上的表現甚至偶爾不如GPT-5.4
。
在知識工作評估項目GDPval-AA上,Opus 4.8取得了1890的Elo分數,相較於GPT-5.5的1769,大約有7%的優勢 。Opus 4.8也是第一款在Anthropic自家的Super-Agent基準中,達到100%完成率的模型,意味著它成功執行了測試套件中每一項端到端的代理任務
,而GPT-5.5並未達到100%。
在代理型電腦操作(OSWorld-Verified)的面向上,雙方的分數比較接近:Opus 4.8為83.4%,GPT-5.5為78.7%,Opus 4.7則為82.8% 。這些差距都還在個位數百分點的範圍內,並不算跳躍世代的升級。
GPT-5.5在Anthropic發布Opus 4.8時所一同公布的共享基準上,涵蓋量明顯較少,部分原因在於OpenAI過往常聚焦於不同的指標。在GPQA Diamond(研究生級科學推理)上,Opus 4.7曾達到94.2% ,而稍早的比較也顯示,GPT-5.4在純數學推理與某些知識召回測試上,曾對Opus 4.7握有微幅優勢
。Opus 4.8與GPT-5.5在這個項目上,還沒有直接的比較能參考,不過Opus 4.8紀錄的成績是93.6%
。
| 規格 | Opus 4.8 | Opus 4.7 | GPT-5.5 |
|---|---|---|---|
| 脈絡視窗 | 1M tokens | 1M tokens | 1M tokens |
| 快速模式 | 2.5倍速($10/$50) | 2.5倍速($10/$50) | 不適用 |
| 發布日期 | 2026年5月28日 | 2026年4月16日 | 2026年4月23日 |
| 批次折扣 | 50% | 50% | 50%(彈性) |
| 提示詞快取 | 是(最高節省90%) | 是(最高節省90%) | 是(節省90%) |
三款模型都將脈絡視窗定在100萬個Tokens,不過Anthropic在文件中記載Opus 4.8的單次請求最大輸出為128K Tokens 。GPT-5.5的單次最大輸出則列為32K Tokens
。
Claude的快速模式為選用功能,運作速度大約為標準的2.5倍。Anthropic表示,Opus 4.8的快速模式費用,比起先前幾代Opus的快速推論便宜了三倍 。GPT-5.5則沒有同等的加價提速層級。
在閱讀獨立的基準成績時,有幾個限制需要放在心上:
選擇 Claude Opus 4.8 如果: 你的工作核心圍繞在代理編碼、電腦操作任務、知識工作,或是高負載的長脈絡作業。它在每一個能夠直接比較的共享基準上幾乎全面領先,而且定價完全沒有調漲,延續了Opus 4.7的水準。
選擇 GPT-5.5 如果: 你已經深度整合在OpenAI的生態系裡,特別看重純粹的數學推理能力,或是你的特定提示詞模式,可以透過Token效率的提升來抵銷它較高的單價。
繼續使用 Opus 4.7 如果: 你需要的是前線水準的代理編碼功能(64.3%的SWE-bench Pro成績依然遠勝GPT-5.5),而且暫時不需要Opus 4.8帶來的那些特定進步。然而,既然價格完全一模一樣,似乎也沒有什麼理由不急著升級。
對於那些運作大量輸出代理,或是需要分析長篇文件的開發者來說,Claude Opus便宜了約17%的輸出定價,以及那份不分長短都始終如一的脈絡費率,將會對每個月的API帳單,產生具體而實際的影響。
Comments
0 comments