| 低 |
第一,SWE-bench、SWE-bench Verified、SWE-bench Pro 不是同一個東西。Vals AI 將 SWE-bench 描述為用來解決生產環境軟體工程任務的 benchmark ;而 SWE-bench Pro 的論文則把它定位為更困難、面向長時程軟體工程任務的測試
。所以,看到 SWE-bench Pro 分數較低,不一定代表模型退步,而可能是題目本來就更難。
第二,GPQA Diamond 與 MMLU 都要小心解讀。TNW 指出,在 GPQA Diamond 上,Opus 4.7、GPT-5.4 Pro、Gemini 3.1 Pro 等 frontier 模型已經非常接近,差距落在測量雜訊範圍內 。MMLU 更需要降權看待:Nanonets 指出,2026 年頂尖模型已普遍超過 88%,這個 benchmark 已很難細分領先群
。
第三,分數的來源很重要。官方模型文章、獨立 leaderboard、彙整網站、社群討論與技術部落格,不該被視為同等證據。BenchLM 甚至指出,Claude Opus 4.7 的資料頁雖然已被追蹤,但因為還缺乏足夠非生成的公開 benchmark 覆蓋,所以暫時排除在公開 leaderboard 之外 。這類註記比單一高分更值得看。
Claude Opus 4.7 是這四款模型中,公開證據最完整的一個。Anthropic 表示,Opus 4.7 在其內部 research-agent benchmark 六個模組中並列總分最高,分數為 0.715,並且在其測試模型中交出最一致的長上下文表現 。這是官方內部測試,不能直接等同第三方獨立 benchmark,但它清楚說明 Anthropic 對 Opus 4.7 的定位:多步工作、長上下文與代理式任務。
外部訊號最明確的是 SWE-bench。Vals AI 在 2026 年 4 月 24 日更新的 SWE-bench 頁面中,將 Claude Opus 4.7 列為第一,分數為 82.00% 。Vellum 則報告 Opus 4.7 在 SWE-bench Verified 為 87.6%、SWE-bench Pro 為 64.3%
。LMCouncil 也列出 Claude Opus 4.7 在 SWE-bench Verified 為 83.5% ± 1.7
。
在科學推理方面,Claude Opus 4.7 在 O-Mega、Vellum 與 TNW 的 GPQA Diamond 數字都是 94.2% 。不過,這項優勢不宜過度放大,因為 TNW 已提醒 frontier 模型在 GPQA Diamond 上差距很小,這個 benchmark 不足以單獨決定總冠軍
。
GPT-5.5 的強項在一般推理。O-Mega 報告 GPT-5.5 在 MMLU 為 92.4%、GPQA Diamond 為 93.6%、ARC-AGI-2 為 85.0%、ARC-AGI-1 為 95.0% 。Vellum 也列出 GPT-5.5 在 GPQA Diamond 為 93.6%,在該表中低於 Claude Opus 4.7 的 94.2%
。BenchLM 則把 GPT-5.5 放在高階模型行列:暫定 leaderboard 總分 89/100、112 個模型中排名第 5,並在 verified leaderboard 的 16 個模型中排名第 2
。
主要保留點是可追溯性。這次可引用資料中,GPT-5.5 的數字主要來自文章、彙整頁與 leaderboard,而沒有找到一份能與 Anthropic Opus 4.7 官方材料等量齊觀的 OpenAI 官方 benchmark card。Appwrite 稱 GPT-5.5 於 2026 年 4 月 23 日推出,Vals AI 也列出 openai/gpt-5.5 的 release date 為 2026 年 4 月 23 日,並給出 Vals Index accuracy 67.76% ± 1.79;但這些資料仍不能取代官方完整 benchmark 說明 。
DeepSeek 的最大問題不是沒有亮點,而是版本標籤太容易混在一起。可引用資料裡同時出現 DeepSeek V4、DeepSeek V4 Pro、DeepSeek V4 Pro High;把其中一個版本的分數直接套到另一個版本,會讓比較失真 。
Hugging Face 上有 DeepSeek-V4-Pro 的社群討論,列入 GPQA、GSM8K、HLE、MMLU-Pro、SWE-bench Pro、SWE-bench Verified、Terminal-Bench 2.0 等評測項目 。BenchLM 則對 DeepSeek V4 Pro High 報告 Agentic 83.8/100、Coding 88.8/100、Knowledge 72.1/100
。NxCode 宣稱 DeepSeek V4 在 SWE-bench 達 81%,並在 100 萬 token Needle-in-a-Haystack 測試達 97%,但該來源也提醒,97% 這個長上下文數字需要獨立測試支持才更有說服力
。
Redreamality 提供另一個正面訊號:DeepSeek V4 在純 coding 指標上,LiveCodeBench 為 93.5、Codeforces 為 3206 。但同一來源也總結,若是 SWE-bench Pro、Terminal-Bench 2.0 這類長時程代理式工作,封閉 frontier 模型仍然領先
。
實務上,DeepSeek V4/V4 Pro 很適合被放進內部 proof of concept,尤其是團隊重視技術控制、開放權重生態、本地部署或成本結構時。但就目前公開證據而言,它還沒有達到 Claude 在 SWE-bench 與官方多步任務資料上的同等穩固程度 。
Kimi K2.6 不應被完全排除,但也不能被包裝成已經有同等資料覆蓋。LLM Stats 將 Kimi K2.6 列為 GPQA 0.91,WhatLLM 則把它放進 Quality Index 前十 。這代表它確實出現在部分榜單中,但不足以與 Claude Opus 4.7、GPT-5.5、DeepSeek V4/V4 Pro 做全面 benchmark 對照。
還有一個常見錯誤:用 Kimi K2.5 的成績替代 Kimi K2.6。Simon Willison 在 2026 年 2 月整理 SWE-bench Verified 更新時,提到的是 Kimi K2.5,而不是 Kimi K2.6 。對嚴謹比較來說,這兩者不能互換。因此 Kimi K2.6 目前最合適的標籤是:資料不足,等待更多可比 benchmark。
最穩的簡報方式,是把性能與證據品質分開。第一頁放使用場景建議;第二頁放 benchmark 數字;第三頁專門放限制與方法論。這樣可以避免一張排行榜造成錯誤安全感。
核心訊息可以很簡潔:Claude Opus 4.7 是 coding 與代理式任務中公開證據最充分的領先者;GPT-5.5 是一般推理上最強的競爭者之一;DeepSeek V4/V4 Pro 是值得內測的技術型替代方案;Kimi K2.6 則仍缺可比資料。
方法論註記至少要寫三點。第一,不要把 SWE-bench、SWE-bench Verified、SWE-bench Pro 當成同一項測試,因為 SWE-bench Pro 被設計為更困難的長時程軟體工程 benchmark 。第二,不要把 MMLU 當主要決策依據,因為頂尖模型已經在 88% 以上擠成一團
。第三,每個數字都要標示來源類型:官方、leaderboard、彙整平台、社群評測或單方 claim。
如果目標是做一份證據站得住腳的 2026 模型比較,Claude Opus 4.7 應排在 coding 與代理式任務第一順位,因為它同時有 Anthropic 官方訊號、Vals AI SWE-bench 領先資料,以及 Vellum 對 SWE-bench Verified、SWE-bench Pro 的強勢數字 。
GPT-5.5 應被視為推理能力的一線對手,尤其是 GPQA 與 ARC-AGI 數字亮眼;但目前可引用資料多為二手或彙整來源,結論要加上這層保留 。DeepSeek V4/V4 Pro 值得內部測試,不宜直接宣布領先
。Kimi K2.6 則暫時只能列為資料不足,等待更多跨 benchmark 的可比證據
。
Comments
0 comments