如果只問 GPT-5.5 是否全面勝過 Claude Opus 4.7,公開 benchmark 目前給不出乾淨答案。比較合理的讀法是:GPT-5.5 在終端機、瀏覽與部分長流程 agent 工作上訊號較強;Claude Opus 4.7 則在 SWE-Bench Pro、MCP Atlas,以及部分 reasoning/tooling 匯總表裡更占優 [5][
6][
11]。
更重要的是,這些分數不應被當成上線決策的最後裁判。許多數字來自模型供應商公告或第三方整理;LLM Stats 也提醒,GPT-5.5 的部分分數可能是供應商自報,尚未經獨立驗證 [8]。因此,公開 benchmark 最適合用來篩選候選模型,而不是直接決定產品要用哪一個。
先看結論:哪個 benchmark 對你有用?
| Benchmark | GPT-5.5 | Claude Opus 4.7 | 該怎麼讀 |
|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 69.4% | GPT-5.5 對命令列工作流優勢明顯。OpenAI 說此測試涵蓋需要規劃、反覆迭代與工具協調的複雜 command-line tasks [ |
| SWE-Bench Pro | 58.6% | 64.3% | Claude Opus 4.7 領先。這更接近真實 GitHub issue 修復,而不是單純會不會操作終端機 [ |
| GPQA Diamond | 93.6% | 94.2% | Claude 小幅領先 0.6 個百分點;不能把這個差距直接放大成所有 reasoning 任務都更強 [ |
| BrowseComp | 84.4% | 79.3% | GPT-5.5 在 Vellum 與 Mashable 的表格中都領先 [ |
| GDPval | 84.9% | 80.3% | GPT-5.5 在 Vellum 表格中領先 [ |
| OSWorld-Verified | 78.7% | 78.0% | GPT-5.5 只小幅領先,實務上仍應用自己的流程再測一次 [ |
| MCP Atlas | 75.3% | 79.1% | Claude Opus 4.7 在這個工具協調類評測中領先 [ |
| FrontierMath T1–3 | 51.7% | 43.8% | GPT-5.5 在 Vellum 表格中領先 [ |
| FinanceAgent v1.1 | 來源未提供完整對照數字 | DataCamp 列 Claude 為 64.4% | LLM Stats 將 Claude 列為 FinanceAgent v1.1 的領先者;但本組來源缺少完整配對分數,解讀要保守 [ |
| Humanity’s Last Exam | 來源不一致 | 來源不一致 | 不建議拿來當最終 tie-breaker。LLM Stats、Mashable 與 o-mega 給出的訊號並不一致 [ |
如果只照 LLM Stats 的匯總來看,在兩家供應商都有回報的 10 個 benchmark 裡,Claude Opus 4.7 領先 6 項,GPT-5.5 領先 4 項。LLM Stats 也概括說,Claude 的優勢集中在 reasoning-heavy 與 review-grade 測試,GPT-5.5 的優勢則集中在長流程 tool-use 與 shell-driven tasks [6]。這個整理有參考價值,但它無法解決所有資料矛盾,尤其是 Humanity’s Last Exam [
6][
9][
11]。
Coding:Terminal-Bench 與 SWE-Bench Pro 不是同一件事
如果你的產品是 CLI(命令列介面)copilot、DevOps 助手,或需要模型在終端機裡跑測試、讀錯誤、改檔案、再重跑,GPT-5.5 是更值得優先試的候選。公開表格顯示,GPT-5.5 在 Terminal-Bench 2.0 拿到 82.7%,高於 Claude Opus 4.7 的 69.4% [5][
11]。OpenAI 對 Terminal-Bench 2.0 的描述,也正是複雜命令列工作流:需要規劃、迭代與工具協調 [
23]。
但如果你的任務更像真實軟體 issue 修復,情況就反過來。Claude Opus 4.7 在 SWE-Bench Pro 以 64.3% 領先 GPT-5.5 的 58.6% [5][
11]。OpenAI 將 SWE-Bench Pro 描述為評估模型解決真實 GitHub issue 的能力 [
23]。所以,若你的 workload 是大型 repo bug fixing、多檔案修改、review-grade software tasks,而不是長時間控制 terminal,Claude Opus 4.7 應該進入第一輪測試。
至於 SWE-Bench Verified,本組來源不足以乾脆判定誰贏。MindStudio 記 Claude Opus 4.7 為 82.4%,APIyi 與 DataCamp 則記為 87.6%;而且這些來源沒有提供同一列中穩定、完整的 GPT-5.5 vs Claude Opus 4.7 對照 [1][
2][
3]。
Agent 與工作流:GPT-5.5 訊號多,但 Claude 仍有強區
在 agent 工作流這一組,GPT-5.5 有不少正面訊號。Vellum 表格顯示,GPT-5.5 在 BrowseComp 以 84.4% 對 79.3% 領先,在 GDPval 以 84.9% 對 80.3% 領先,在 OSWorld-Verified 以 78.7% 對 78.0% 小幅領先 [5]。Mashable 也列出 GPT-5.5 在 BrowseComp 以同樣的 84.4% 對 79.3% 領先 [
11]。LLM Stats 另外說 GPT-5.5 領先 CyberGym,但可見片段沒有列出百分比 [
6]。
Claude Opus 4.7 的強項也不能忽略。Vellum 表格中,Claude 在 MCP Atlas 以 79.1% 對 GPT-5.5 的 75.3% 領先 [5]。LLM Stats 將 Claude 列為 FinanceAgent v1.1 的領先模型,而 DataCamp 記 Claude Opus 4.7 在 FinanceAgent v1.1 為 64.4% [
3][
6]。Anthropic 也把 Claude Opus 4.7 描述為在 coding、agents、vision 與多步驟任務上更強的新版 Opus [
28]。
所以,若你的 workload 偏向 shell、瀏覽、OS-style automation,GPT-5.5 有較好的起跑位置。若你的任務偏向結構化工具協調、MCP 類流程或金融 agent,Claude Opus 4.7 不應太早被排除,而應直接拿你的任務集來測。
Reasoning:GPQA 很接近,HLE 暫時不適合當決勝點
在 GPQA Diamond,Claude Opus 4.7 得 94.2%,GPT-5.5 得 93.6% [5][
11]。這確實是 Claude 領先,但差距只有 0.6 個百分點。若你的場景是科學問答、專業分析或長鏈 reasoning,較穩妥的做法不是直接照 GPQA 排名選邊,而是把兩個模型都放進你的內部題庫測試。
Humanity’s Last Exam 則更需要保守解讀。LLM Stats 說 Claude Opus 4.7 在 HLE no tools 與 HLE with tools 都領先 [6]。Mashable 卻列出另一組結果:HLE no tools 是 GPT-5.5 40.6%、Opus 4.7 31.2%;HLE with tools 則是 Claude 54.7%、GPT-5.5 52.2% [
11]。o-mega 又給出另一組 HLE 數字 [
9]。當來源不一致時,除非你能用同一套 prompt、工具設定與評分流程重跑,否則 HLE 不適合拿來當最後裁判。
那到底該先選誰?
優先試 GPT-5.5,如果你的重點是:
- terminal agent、shell workflow、test loop、DevOps automation;Terminal-Bench 2.0 對 GPT-5.5 的訊號很強 [
5][
11][
23]。
- browsing/search-style workflow、GDPval、OSWorld-Verified 或 FrontierMath T1–3;Vellum 與 Mashable 的表格在這些項目上較常支持 GPT-5.5 [
5][
11]。
優先試 Claude Opus 4.7,如果你的重點是:
- 類似 SWE-Bench Pro 的真實軟體 issue 修復,因為 Claude 在這一項領先 GPT-5.5 [
5][
11]。
- GPQA-style 科學 reasoning、MCP/tool orchestration 或 finance-agent workflow;GPQA Diamond、MCP Atlas、FinanceAgent v1.1 與 LLM Stats 的整理都支持把 Claude 放進 shortlist [
3][
5][
6][
11]。
最安全的做法,是不要只靠 leaderboard。把你的 workload 拆成四組:repo coding、terminal/agent automation、無工具 reasoning、有工具 workflow。每一組都用同樣 prompt、同樣工具權限、同樣 sampling、同樣 reasoning effort 與同樣評分標準。公開 benchmark 告訴你該從哪裡開始;內部 eval 才能告訴你哪個模型真的適合上產品,尤其在部分公開分數可能是供應商自報且尚未獨立驗證的情況下 [8]。




