GPT 5.5 在 Artificial Analysis 的整體 Intelligence Index 訊號最強:xhigh 為 60、high 為 59;Claude Opus 4.7 Adaptive Reasoning Max Effort 為 57。[2]
目前沒有足夠公開證據能支持「單一總冠軍」。Claude Opus 4.7 的官方文件最完整,DeepSeek V4 的價格與輸出規格最清楚。
不是一張總榜決勝負:Claude Opus 4.7 在 GPQA Diamond 94.2% 與 HLE 無工具 46.9% 領先;GPT 5.5 Pro 在 HLE 有工具 57.2% 與 BrowseComp 90.1% 領先;GPT 5.5 在 Terminal Bench 2.0 以 82.7% 領先 [2]。
目前公開資料不足以把四款模型排成可靠的 1 到 4 名。Claude Opus 4.7 的 BenchLM 97/100、SWE bench Verified 82.4%,以及 GPT 5.5 的 GDPval 84.9%,屬於不同評測軸,不能直接加總成單一總分 [2][3][29]。
沒有絕對贏家:GPT 5.5 在 Terminal Bench 2.0 以 82.7% 對 69.4% 明顯領先;Claude Opus 4.7 在 SWE Bench Pro 以 64.3% 對 58.6% 反超 [5][11]。
公開數據不支持單一「總冠軍」:GPT 5.5 在可見 Intelligence Index 60/59、BrowseComp 84.4% 與 Terminal Bench 2.0 82.7% 最突出;Claude Opus 4.7 在 GPQA Diamond 94.2% 與 HLE no tools 46.9% 領先,Kimi K2.6 則缺少完整四方同場數據。[2][7][4]
沒有絕對冠軍。Claude Opus 4.7 在 SWE bench Pro 以 64.3% 對 58.6% 領先 GPT 5.5;但 GPT 5.5 在 Terminal Bench 2.0 以 82.7% 對 69.4% 明顯領先,且不同來源的模型模式與測試條件不完全一致 [6][14]。
沒有絕對贏家:Claude Opus 4.7 在第三方比較中以 87.6% SWE bench Verified、64.3% SWE bench Pro 領先 DeepSeek V4 Pro 的 80.6% 與 55.4% [28]。
沒有可靠的單一總冠軍:同場資料顯示 Claude Opus 4.7 在 GPQA Diamond 94.2% 與 SWE Bench Pro/SWE Pro 64.3% 領先;GPT 5.5/GPT 5.5 Pro 則在 Terminal Bench 2.0 82.7% 與 BrowseComp 90.1% 領先。[4]
快速結論:綜合能力與複雜代理工作流先測 GPT 5.5;長文檔研究與金融資料處理看 Claude Opus 4.7;高吞吐與預算敏感任務看 DeepSeek V4;需要開放權重、多模態或 256K 上下文則看 Kimi K2.6。[4][6][7][9]
Claude Opus 4.7 在 GPQA Diamond 以 94.2% 領先,並在無工具 Humanity’s Last Exam 以 46.9% 領先;GPT 5.5 則以 82.7% 拿下 Terminal Bench 2.0 [4][5]。
GPT 5.5 是目前資料中最穩的全能型:Artificial Analysis Intelligence Index xhigh 為 60 分、high 為 59 分,BrowseComp 為 84.4% [2][3]。