至於 Grok 4.3 同 DeepSeek V4,由於公開評測方法較少或透明度較低,目前較難做完全公平比較。
如果只睇 程式能力,目前最強嘅公開訊號其實來自 Claude Opus 4.7。
佢喺 SWE‑Bench Pro 取得:
相比之下:
雖然 Claude 喺 SWE‑Bench 表現最好,但 GPT‑5.5 喺 terminal workflow 任務 特別強,例如:
Grok 4.3 嘅 coding benchmark 則比較零散,例如:
近年 benchmark 越來越重視 AI 能否協調多個工具完成複雜任務。
喺呢方面,Google 公布嘅資料顯示 Gemini 3.5 Flash 表現非常突出。
例如:
OpenAI 嘅 GPT‑5.5 亦喺知識型工作 benchmark 表現強勢。
例如 GDPval 評估跨專業知識任務,GPT‑5.5 達到:
Claude Opus 4.7 同樣喺 電腦操作 benchmark 表現不錯:
Benchmark 成績未必完全反映實際部署體驗。
例如 Grok 4.3 特別強調:
而 DeepSeek 系列通常以 低成本或可自部署(open‑weight)策略 作為主要賣點,對企業私有部署場景特別有吸引力。
DeepSeek V4 最可信嘅第三方評估來自 美國國家標準與技術研究院(NIST)旗下 CAISI 計劃。
該評估指出:
報告亦提到:
即使有公開數字,跨公司比較仍然存在幾個問題:
因此任何「全球排名」都需要小心解讀。
根據目前公開數據,大致格局可以這樣理解:
實際選擇模型時,「最好」其實好依賴用途——例如 coding agent、研究助理、長文本分析或者低成本推理,都可能導致完全不同的最佳選擇。
Comments
0 comments