公開基準測試不支持直接排出單一總冠軍。GPT 5.5在Terminal Bench 2.0達82.7%,適合先測終端機代理編碼;Claude Opus 4.7在SWE Bench Pro 64.3%、SWE Bench Verified 87.6%,更像程式修復首選候選 [19][27][5]。
Claude Opus 4.7 的焦點數字是 AWS 報告的 SWE bench Verified 87.6%,顯示其在代理式編碼場景具競爭力,但不能視為所有任務的通用表現 [7]。
Claude Opus 4.7 目前公開資料中常見的三個數字是 SWE bench Verified 87.6%、GPQA 94.2%、SWE bench Multilingual 80.5%;其中 SWE bench Verified 的來源支撐最穩。
Claude Mythos Preview 最常被引用的數字是 SWE bench 93.9%;這是軟體工程與程式碼任務的訊號,不是模型的整體總分 [1][2]。
Claude Mythos Preview 最吸睛的數字是 SWE bench Verified 93.9%;但 Anthropic 將它列為 Project Glasswing 的邀請制研究預覽模型,並非一般可自由註冊使用的標準模型。
沒有單一冠軍:Claude Opus 4.7 在可比資料中展現最強品質訊號,HLE 與 SWE Bench Pro 領先;但 GPT 5.5 在 Terminal Bench 2.0 明顯占優 [3][16]。
沒有單一贏家:LLM Stats 在 10 個共同回報基準中列 Claude Opus 4.7 領先 6 項、GPT 5.5 領先 4 項,但分數多為供應商在 high reasoning tier 自報,BenchLM 也說重疊資料不足,不能當最終排名。
沒有總冠軍:Claude Opus 4.7 在 SWE Bench Pro 以 64.3% 對 58.6% 領先,GPT 5.5 在 Terminal Bench 2.0 以 82.7% 對 69.4% 領先;這些分數適合初篩,不該取代自家任務評測。[14]
目前沒有乾淨的四方總冠軍:GPT 5.5 有 OpenAI 官方的 Terminal Bench 2.0 82.7% 與 SWE Bench Pro 58.6%;Claude Opus 4.7 的 Coding 優勢主要來自第三方對照資料 [24][4]。
沒有一款模型在所有指標全面勝出:GPT 5.5 在 ARC AGI 2 達 85%,高於 Claude Opus 4.7 的 75.8%,並在 Terminal Bench 2.0 以 82.7% 明顯領先。[1][3]
在雙方共同回報的 10 個公開基準中,Claude Opus 4.7 領先 6 項,GPT 5.5 領先 4 項;但更合理的看法不是排總名次,而是看任務型態。[15]
目前沒有足夠一致的公開基準可公平排出 1–4 名;Artificial Analysis 給 Claude Opus 4.7 57 分,GPT 5.5 xhigh 則以 60 分領先 Intelligence Index,但 LLM Stats 顯示兩者在不同測試互有勝負 [12][14][15]。