| 実環境でのバグ修正能力を評価。3モデルが僅差で並びます。 |
| SWE-Bench Pro | 60.6 | 55.4 | 58.6 | より難易度の高いソフトウェア工学タスク。Qwenがリード。 |
| SWE-Bench Multilingual | 78.3 | — | 76.7 | 多言語対応のコーディング能力を測定。 |
| Terminal-Bench 2.0 | 69.7 | 67.9 | 66.7 | ターミナル操作を伴う実践的なエージェントタスク。 |
| LiveCodeBench Pass@1 | — | 93.5 | 89.6 | 競技プログラミングに近いコーディング能力。DeepSeekが圧倒的。 |
| Codeforces Rating | — | 3206 | — | 競技プログラミングのレーティング。人間のトップクラスに匹敵。 |
| SciCode | 53.5 | — | — | 科学的なコーディング問題を解く能力。 |
| MCP-Mark | 60.8 | — | — | AIエージェントの一般的な性能評価。Qwenが他を圧倒。 |
DeepSeek V4の価格に関する注意点: DeepSeekは2026年5月31日までの期間限定で75%オフのプロモーションを実施し、後に恒久化しました。
その結果、Pro Maxの出力トークン単価は$0.87と、競合の数分の一から数十分の一という破格の設定になっています。
ソフトウェア工学の実力を測る「SWE-Bench Verified」では、3モデルが80.2%から80.6%という、わずか0.4ポイント差にひしめく大接戦となりました。これは、既存のコードベースからバグを探し修正するという、実際の開発現場に近いテストで、三者とも「実戦レベル」に達していることを意味します。
その上で、得意分野は明確に分かれています。
数学や科学の難問に答える純粋な推論能力では、Qwen3.7 Maxが頭一つ抜けています。
一方、Kimi K2.6は、与えられたツールを駆使して難問を解く「実践的な応用力」で光ります。
DeepSeek V4 Pro Maxの最大の武器は、間違いなくその「価格」です。
ただし、米国国立標準技術研究所(NIST)のCAISI評価では、DeepSeek V4 Proのベンチマークは自己申告の数値よりも実力が低い可能性が指摘されています。2026年5月のレポートでは、CAISIの非公開評価における同モデルの実力は、約8ヶ月前のGPT-5と同程度とされました。
最高のコストパフォーマンスを追求するなら「DeepSeek V4 Pro Max」、最高の推論性能を求めるなら「Qwen3.7 Max」、ツール連携型のエージェントや検索システムを構築するなら「Kimi K2.6」と、開発の目的と予算に応じた最適解が異なるのが、2026年半ばのLLM戦線の現状と言えるでしょう。
Comments
0 comments