如果你想用一張 leaderboard 決定 GPT-5.5 定 Claude Opus 4.7,答案其實係:唔好咁做。現有公開 benchmark 未能支持「GPT-5.5 全面好過 Claude Opus 4.7」或者相反嘅結論。比較清晰嘅訊號係按工作類型拆開睇:GPT-5.5 喺 terminal、browsing 同部分長流程 agent workflow 較強;Claude Opus 4.7 則喺 SWE-Bench Pro、MCP Atlas,以及部分 reasoning/tooling benchmark 佔優 [5][
6][
11]。
更重要係,呢批分數有唔少來自供應商公布或第三方整理。LLM Stats 亦提醒,GPT-5.5 部分分數可能屬 self-reported,即由模型供應商自行回報,未必已經有獨立驗證 [8]。所以,公開 benchmark 最好用嚟篩選候選模型,唔好直接當成產品選型嘅最後答案。
先睇總表:邊個 benchmark 代表咩意思?
| Benchmark | GPT-5.5 | Claude Opus 4.7 | 應該點讀 |
|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 69.4% | GPT-5.5 優勢明顯。OpenAI 形容呢個 benchmark 測試複雜 command-line workflow,需要 planning、iteration 同工具協調 [ |
| SWE-Bench Pro | 58.6% | 64.3% | Claude Opus 4.7 領先。呢個評測聚焦真實 GitHub issue resolution;OpenAI 亦公布 GPT-5.5 在此得 58.6% [ |
| GPQA Diamond | 93.6% | 94.2% | Claude 微微領先 0.6 個百分點,但差距太細,唔適合當所有 reasoning 任務嘅決定性證據 [ |
| BrowseComp | 84.4% | 79.3% | GPT-5.5 在 Vellum 同 Mashable 對照表都領先 [ |
| GDPval | 84.9% | 80.3% | GPT-5.5 在 Vellum 表中領先 [ |
| OSWorld-Verified | 78.7% | 78.0% | GPT-5.5 只係些微領先,實際產品 workflow 要再自行測 [ |
| MCP Atlas | 75.3% | 79.1% | Claude Opus 4.7 在 Vellum 表中領先;呢類 benchmark 較接近 tool orchestration 能力 [ |
| FrontierMath T1–3 | 51.7% | 43.8% | GPT-5.5 在 Vellum 表中領先 [ |
| FinanceAgent v1.1 | 未有完整對照數字 | DataCamp 記錄 Claude Opus 4.7 為 64.4% | LLM Stats 指 Claude 在 FinanceAgent v1.1 領先,但此處來源未提供完整成對數字,應審慎解讀 [ |
| Humanity’s Last Exam | 來源不一致 | 來源不一致 | 唔建議用嚟做 tie-breaker,除非你可以用同一 setup 重跑;LLM Stats、Mashable 同 o-mega 俾出嘅訊號並不一致 [ |
如果照 LLM Stats 嘅整理,在雙方都有回報嘅 10 個 benchmark 入面,Claude Opus 4.7 領先 6 個,GPT-5.5 領先 4 個。LLM Stats 同時總結,Claude 嘅優勢較集中喺 reasoning-heavy 同 review-grade 測試;GPT-5.5 嘅優勢就較集中喺長時間 tool-use 同 shell-driven tasks [6]。呢個總結有參考價值,但解決唔到 Humanity’s Last Exam 呢類來源互相矛盾嘅問題 [
6][
9][
11]。
Coding:Terminal-Bench 同 SWE-Bench 唔係量度同一樣嘢
講 coding,好多人會直接問邊個「寫 code 勁啲」。但公開數據顯示,答案要先分清你係做 terminal agent,定係做真實 repo issue 修復。
如果你嘅產品係 CLI copilot、DevOps assistant,或者 coding agent 需要自己跑 test、睇 error、改 file、再迭代,GPT-5.5 係較值得優先試嘅候選。GPT-5.5 在 Terminal-Bench 2.0 得 82.7%,高過 Claude Opus 4.7 嘅 69.4% [5][
11]。OpenAI 指 Terminal-Bench 2.0 測試複雜 command-line workflow,當中需要 planning、iteration 同 tool coordination [
23]。
但如果你嘅任務更似「喺真實 codebase 入面修 GitHub issue」,Claude Opus 4.7 嘅訊號更強。Claude 在 SWE-Bench Pro 得 64.3%,高過 GPT-5.5 嘅 58.6% [5][
11]。OpenAI 將 SWE-Bench Pro 描述為評估真實 GitHub issue resolution 能力嘅 benchmark [
23]。換句話講,做 bug fixing、repo 內改動、或者 review-grade software tasks,Claude Opus 4.7 應該入第一輪 shortlist。
至於 SWE-Bench Verified,呢批來源未夠乾淨,唔適合用嚟直接判勝負。MindStudio 記錄 Claude Opus 4.7 為 82.4%,但 APIyi 同 DataCamp 記錄為 87.6%;而提供嘅來源亦冇畀出一組穩定、同條件嘅 GPT-5.5 對 Claude Opus 4.7 數字 [1][
2][
3]。
Agent workflow:GPT-5.5 領先多個項目,但 Claude 仍有強區
Agent 類任務要拆得更細。假如你嘅 workflow 偏向 shell、browser、OS 操作,GPT-5.5 有較多正面訊號。Vellum 表中,GPT-5.5 在 BrowseComp 以 84.4% 對 79.3% 領先、GDPval 以 84.9% 對 80.3% 領先、OSWorld-Verified 以 78.7% 對 78.0% 輕微領先 [5]。Mashable 亦記錄 GPT-5.5 在 BrowseComp 以同一組 84.4% 對 79.3% 領先 [
11]。LLM Stats 另指 GPT-5.5 在 CyberGym 領先,但提供片段未顯示百分比分數 [
6]。
Claude Opus 4.7 並唔係冇優勢。Vellum 表中,Claude 在 MCP Atlas 以 79.1% 對 GPT-5.5 嘅 75.3% 領先 [5]。LLM Stats 指 Claude 在 FinanceAgent v1.1 領先,而 DataCamp 記錄 Claude Opus 4.7 在 FinanceAgent v1.1 得 64.4% [
3][
6]。Anthropic 亦形容 Claude Opus 4.7 係新一代 Opus model,在 coding、agents、vision 同 multi-step tasks 上更強 [
28]。
所以,若你做嘅係 shell automation、browsing/search-style workflow、OS-style 操作,GPT-5.5 值得先試;若你做嘅係較結構化嘅 tool orchestration、MCP workflow,或者 finance-agent 類任務,Claude Opus 4.7 唔應該太早被剔走。
Reasoning:GPQA 好接近,HLE 暫時唔穩陣
GPQA Diamond 方面,Claude Opus 4.7 得 94.2%,GPT-5.5 得 93.6% [5][
11]。Claude 係領先,但只高 0.6 個百分點。對科學問答、專業分析、長推理任務嚟講,呢個差距未足以證明 Claude 一定更啱你個 use case;更合理做法係用你自己嘅題庫同評分準則,同時測兩個模型。
Humanity’s Last Exam 就更加要小心。LLM Stats 指 Claude Opus 4.7 在 HLE no tools 同 HLE with tools 都領先 [6]。但 Mashable 記錄 HLE no tools 係 GPT-5.5 40.6% 對 Opus 4.7 31.2%,而 HLE with tools 則係 Claude 54.7% 對 GPT-5.5 52.2% [
11]。o-mega 又提供另一組 HLE 數字 [
9]。當來源未能對齊,HLE 暫時唔應該成為決定模型選型嘅最後一票。
實際應該點揀?
如果你最重視 terminal agent、shell workflow、test loop、長流程 automation,可以先試 GPT-5.5。Terminal-Bench 2.0 對 GPT-5.5 嘅支持最明顯:82.7% 對 Claude Opus 4.7 嘅 69.4% [5][
11][
23]。按 Vellum 同 Mashable 嘅數據,GPT-5.5 亦值得優先測 browsing/search-style workflow、GDPval、OSWorld-Verified 同 FrontierMath T1–3 [
5][
11]。
如果你最重視真實軟件 issue 修復,尤其係 SWE-Bench Pro 類型任務,Claude Opus 4.7 應該先入 shortlist,因為它在 SWE-Bench Pro 領先 GPT-5.5 [5][
11]。Claude 亦值得用於 GPQA-style scientific reasoning、MCP/tool orchestration 同 finance-agent workflow 嘅直接測試,相關依據包括 GPQA Diamond、MCP Atlas、FinanceAgent v1.1 以及 LLM Stats 嘅整理 [
3][
5][
6][
11]。
最穩陣做法唔係問「邊個模型最強」,而係將你嘅工作拆成四類:repo 內 coding、terminal/agent automation、無工具 reasoning、以及有工具 workflow。每一類都用同一批 prompt、同一組工具權限、同一 sampling 設定、同一 reasoning effort,同一套評分準則去跑。公開 benchmark 可以話你知由邊度開始試;但真正決定產品用邊個模型,仍然要靠你自己嘅 eval。尤其係當部分公開分數可能係自報或未經獨立驗證時,內部測試先係最後防線 [8]。




