目前不能公平排出四模型總冠軍:同表可比的 OpenAI 數據顯示 Claude Opus 4.7 在 SWE Bench Pro 64.3% 高於 GPT 5.5 58.6%,但 GPT 5.5 在 Terminal Bench 2.0 82.7% 高於 Claude 69.4%;Kimi K2.6 與 DeepSeek V4 缺少同等級交叉驗證。[21]
DeepSeek V4 已在 2026 年 4 月 24 日出現在官方 API 文件的「Preview Release」頁面;較穩妥的結論是:它看起來很強,但尚不足以斷言是全球最強。[13]
目前沒有足夠公開資料可公平排出單一總冠軍;可引用數據顯示 GPT 5.5 在 Terminal Bench 2.0 為 82.7%,Claude Opus 4.7 在 SWE Bench Pro 為 64.3%,但後者來自次級整理引用 AWS,且不同來源與工具設定不能混成絕對榜單。[27][4]
公開基準測試不支持直接排出單一總冠軍。GPT 5.5在Terminal Bench 2.0達82.7%,適合先測終端機代理編碼;Claude Opus 4.7在SWE Bench Pro 64.3%、SWE Bench Verified 87.6%,更像程式修復首選候選 [19][27][5]。
沒有單一冠軍:Claude Opus 4.7 在可比資料中展現最強品質訊號,HLE 與 SWE Bench Pro 領先;但 GPT 5.5 在 Terminal Bench 2.0 明顯占優 [3][16]。
目前沒有足夠證據說 GPT 5.5 或 DeepSeek V4 全面勝出:BenchLM 顯示 DeepSeek V4 Flash High 在 coding 平均分 72.2 對 58.6 領先,但 GPT 5.5 在 agentic tasks 81.8 對 55.4 領先;最大 caveat 是各來源比較的 DeepSeek V4 版本不同 [13]。
在有直接公開數字的程式基準上,DS V4 Pro Max 的 LiveCodeBench(Pass@1)為 93.5,高於 K2.6 Thinking 的 89.6;但這是 DeepSeek 公布的表格,仍需保留餘地 [18][35]。
目前沒有乾淨的四方總冠軍:GPT 5.5 有 OpenAI 官方的 Terminal Bench 2.0 82.7% 與 SWE Bench Pro 58.6%;Claude Opus 4.7 的 Coding 優勢主要來自第三方對照資料 [24][4]。
沒有一款模型在所有指標全面勝出:GPT 5.5 在 ARC AGI 2 達 85%,高於 Claude Opus 4.7 的 75.8%,並在 Terminal Bench 2.0 以 82.7% 明顯領先。[1][3]
實務程式開發先試 Kimi K2.6。AkitaOnRails 的 LLM Coding Benchmark 中,Kimi K2.6 得 87 分、Tier A;DeepSeek V4 Flash 為 78 分、DeepSeek V4 Pro 為 69 分,兩者皆為 Tier B[8]。
目前沒有足夠一致的公開基準可公平排出 1–4 名;Artificial Analysis 給 Claude Opus 4.7 57 分,GPT 5.5 xhigh 則以 60 分領先 Intelligence Index,但 LLM Stats 顯示兩者在不同測試互有勝負 [12][14][15]。
可比較的公開表格並沒有給出單一總冠軍:Claude Opus 4.7 在 GPQA Diamond 以 94.2% 領先,並在 HLE 無工具情境拿到 46.9% [6]。