| 低 |
首先,benchmark 本身唔係同一樣嘢。SWE-bench 著眼於實際 software engineering 任務;Vals AI 將佢描述為解決 production software engineering tasks 嘅 benchmark 。但 SWE-bench Pro 又要另外睇,因為相關 paper 將佢定位為更困難、面向長周期 software engineering 任務嘅 benchmark
。
其次,GPQA Diamond 雖然常用嚟睇科學推理,但對頂尖模型嘅分辨力開始有限。TNW 指出,在 GPQA Diamond 上,Opus 4.7、GPT-5.4 Pro、Gemini 3.1 Pro 等 frontier models 已經非常接近,差距落入 measurement noise 之內 。MMLU 更加要小心:Nanonets 指 2026 年 top models 已普遍高過 88%,令 MMLU 太飽和,難以細分最前列模型
。
第三,來源重量唔同。官方 benchmark、獨立 leaderboard、聚合器、社群討論、技術 blog,可信度唔可以一視同仁。例如 BenchLM 表示,Claude Opus 4.7 相關 profile 仍未放入公開 leaderboard,原因係未有足夠非生成、公開 benchmark 覆蓋去安全排名 。呢類註腳好重要,因為佢提醒你:即使模型好強,公開證據仍可能未完全齊。
Claude Opus 4.7 係今次四個模型入面,公開證據最完整嘅一個。Anthropic 官方表示,Opus 4.7 在其內部 research-agent benchmark 六個模組中以 0.715 並列整體最高,並且係其測試模型之中 long-context 表現最一致 。由於呢個係內部 benchmark,唔應該當成獨立第三方測試;但作為官方能力方向訊號,佢相當清楚。
外部訊號方面,SWE-bench 最關鍵。Vals AI 在 2026年4月24日更新嘅 SWE-bench 頁面列 Claude Opus 4.7 以 82.00% 排第一 。Vellum 另外報告 Claude Opus 4.7 在 SWE-bench Verified 達 87.6%,SWE-bench Pro 達 64.3%
。LMCouncil 則列出 Claude Opus 4.7 在 SWE-bench Verified 為 83.5% ± 1.7
。
正確讀法唔係揀最高一個數字,然後話其他錯。更穩陣係話:Claude 在多個 software engineering 相關來源都處於領先或高位;但 SWE-bench、SWE-bench Verified、SWE-bench Pro 唔係同一個 test,結果亦可能受日期、配置、子集同方法影響 。
在科學推理上,Claude Opus 4.7 在 O-Mega、Vellum、TNW 都見到 GPQA Diamond 94.2% 。不過,正如上面所講,GPQA 對 frontier models 已經好擠,單靠呢個分數唔足以宣佈總冠軍
。
GPT-5.5 最突出係推理。O-Mega 報告 GPT-5.5 在 MMLU 有 92.4%、GPQA Diamond 93.6%、ARC-AGI-2 85.0%、ARC-AGI-1 95.0% 。Vellum 亦列出 GPT-5.5 在 GPQA Diamond 為 93.6%,喺該表低過 Claude Opus 4.7
。BenchLM 則將 GPT-5.5 放在高階模型位置:provisional leaderboard 89/100,在 verified leaderboard 排 16 個模型之中第 2
。
主要保留係可追溯性。今次可用資料入面,GPT-5.5 多數出現在文章、聚合器同 benchmark 頁面;未見到一張 OpenAI 官方 benchmark card,可以同 Anthropic 對 Claude Opus 4.7 嘅官方材料作同級對照。Appwrite 指 GPT-5.5 相關發布文章日期為 2026年4月24日,並寫到 OpenAI 在 2026年4月23日 shipped GPT-5.5;Vals AI 亦列 openai/gpt-5.5 release date 為 4/23/2026,Vals Index 為 67.76% ± 1.79 。但呢啲仍然唔等於一份官方 benchmark card。
所以,如果做 executive summary,GPT-5.5 應該被定位為「通用推理一線競爭者」,尤其因為 GPQA 同 ARC-AGI 數字好強;但如果你要求四個模型都有同質、公開、可追溯證據,就唔應該直接封佢做總冠軍 。
DeepSeek 最大問題唔係冇亮點,而係版本有啲亂。現有資料有時講 DeepSeek V4,有時講 DeepSeek V4 Pro,有時又係 DeepSeek V4 Pro High。呢幾個唔應該自動當成同一個模型,亦唔應該將一個變體嘅分數搬去另一個變體 。
Hugging Face 上 DeepSeek-V4-Pro 社群討論列出多個評測項目,包括 GPQA、GSM8K、HLE、MMLU-Pro、SWE-bench Pro、SWE-bench Verified、Terminal-Bench 2.0 。BenchLM 則報告 DeepSeek V4 Pro High 在 Agentic 類別有 83.8/100,Coding 類別有 88.8/100,Knowledge 類別有 72.1/100
。
NxCode 對 DeepSeek V4 有更進取嘅說法:SWE-bench 81%,以及 1M tokens Needle-in-a-Haystack 97%;但佢同時以「如果 97% 在獨立測試站得住」作前提,意味呢個 long-context claim 未可直接當成定論 。
Redreamality 亦提供另一個正面訊號:DeepSeek V4 在 LiveCodeBench 93.5、Codeforces 3206 。不過同一篇分析亦總結,對於 SWE-bench Pro、Terminal-Bench 2.0 呢類長周期 agentic work,封閉 frontier models 仍然領先
。
實務上,DeepSeek V4/V4 Pro 值得做內部 PoC,尤其如果團隊重視技術控制、成本結構、開放生態或者本地部署可行性。但基於現有公開資料,佢仍未去到 Claude 在 SWE-bench 同 Anthropic 官方 multi-step 訊號嗰種證據強度 。
Kimi K2.6 唔應該被完全排除,但亦唔應該扮到好似已有同級 benchmark 覆蓋。LLM Stats 將 Kimi K2.6 列為 GPQA 0.91;WhatLLM 亦將 Kimi K2.6 放入按 Quality Index 排列嘅 top 10 模型 。呢啲係有用訊號,但未夠支持佢同 Claude Opus 4.7、GPT-5.5、DeepSeek V4/V4 Pro 做全面、逐項 benchmark 對照。
另一個要避開嘅坑係用 Kimi K2.5 代替 Kimi K2.6。Simon Willison 在 2026年2月記錄過 Kimi K2.5 在 SWE-bench Verified 相關更新入面嘅表現,但嗰個係另一個版本,唔可以靜雞雞搬去 Kimi K2.6 。嚴謹寫法應該係:Kimi K2.6 目前證據不足,等待更多多 benchmark 驗證。
最穩陣嘅簡報結構係三頁:
尤其要加三句 disclaimer。第一,唔好將 SWE-bench、SWE-bench Verified、SWE-bench Pro 當成同一個測試,因為 SWE-bench Pro 本身就係更難、面向長周期 software engineering 任務 。第二,唔好過度依賴 MMLU,因為 top models 已集中在 88% 以上,分辨力下降
。第三,DeepSeek 同 Kimi 要特別標明版本同資料覆蓋,避免將不同模型或不同變體混為一談
。
如果目標係做一份「證據可 defend」嘅 2026 模型比較,Claude Opus 4.7 應該排第一:佢有 Anthropic 官方 multi-step / long-context 訊號,又有 Vals AI SWE-bench 第一,以及第三方對 SWE-bench Verified、SWE-bench Pro 嘅強勢數字 。
Comments
0 comments