| Kimi K2.6 | 58.6% | 80.2% | — | Hugging Faceのページでは、open-source、native multimodal agentic modelと説明されています。 | B(限定的):SWE-Bench系の数値は第三者記事に基づく参考値です。GPT-5.5やClaude Opus 4.7と同じ公式比較表で確認できる数値ではありません。 |
| DeepSeek V4 | — | — | — | — | C(資料不足):本稿で使える資料の範囲では、検証可能なベンチマーク値が不足しています。 |
OpenAIのGPT-5.5評価表では、SWE-Bench ProにおいてClaude Opus 4.7が64.3%、GPT-5.5が58.6%です。 これは本稿で最も見比べやすい直接比較の一つです。同じ表に並んでいるため、少なくとも引用上は条件の違いを意識しながら比較しやすいからです。
Kimi K2.6については、Kilo AIの第三者記事がSWE-Bench Pro 58.6%としています。 数字だけ見ればGPT-5.5と同水準に見えますが、GPT-5.5やClaude Opus 4.7と同じ表で確認された値ではありません。そのため、厳密な勝敗というより、候補選定の参考シグナルとして扱うのが妥当です。
同じOpenAI表では、Terminal-Bench 2.0でGPT-5.5が82.7%、Claude Opus 4.7が69.4%です。 コマンドライン操作、開発環境内での実行、ターミナルを使うcoding agentのような用途を重視するなら、GPT-5.5は優先的に検証リストへ入れる価値があります。
ただし、Kimi K2.6とDeepSeek V4については、本稿で引用できるTerminal-Bench 2.0の数値がありません。したがって、この列では4モデルの完全な順位付けはできません。
Claude Opus 4.7のSWE-Bench Verified 87.6%は、第三者のClaude Opus 4.7レビューや整理記事に掲載されています。 Verdentの整理では、この数値はAnthropic-conductedで、memorization screens appliedと説明されています。
CursorBench 70%も同様に第三者整理で確認できます。
一方、Kimi K2.6のSWE-Bench Verified 80.2%はKilo AIの第三者記事に基づきます。 どちらも無視すべき数字ではありませんが、OpenAIの同一表に並ぶSWE-Bench ProやTerminal-Bench 2.0ほど、単純な直接比較には向きません。
GPT-5.5はExpert-SWE(Internal)で73.1%とされていますが、OpenAI自身がinternal evalとして掲載し、さらに他ラボがこのevalでmemorization evidenceを指摘していると注記しています。 そのため、GPT-5.5の内部的な能力シグナルとしては見られても、4モデルを横断する総合順位の中心に置くのは避けたほうがよいでしょう。
実際のGitHub issue修正や複雑なソフトウェアエンジニアリングに近い用途なら、Claude Opus 4.7を先に試す理由があります。 同じOpenAI表のSWE-Bench Proでは、Claude Opus 4.7が64.3%でGPT-5.5の58.6%を上回っています。 Vellumもこの比較を、real GitHub issue resolutionの文脈で解釈しています。
ターミナル操作型のcoding agentを重視するなら、GPT-5.5を優先候補にできます。 Terminal-Bench 2.0ではGPT-5.5が82.7%、Claude Opus 4.7が69.4%です。 これはGPT-5.5がすべてのコーディング用途で上という意味ではなく、少なくともこのベンチマークでは明確に強い、という読み方です。
オープンモデル系の候補が必要なら、Kimi K2.6はショートリストに入ります。 Hugging Faceではopen-source、native multimodal agentic modelと説明され、第三者記事ではSWE-Bench Pro 58.6%、SWE-Bench Verified 80.2%とされています。 ただし、同一条件の公式比較表でGPT-5.5やClaude Opus 4.7と並んだ数値ではないため、自分のタスクセットで再検証する前提で見るべきです。
DeepSeek V4は、現時点では無理に順位表へ入れないのが安全です。 本稿で確認できる資料には、引用可能で十分に検証できるベンチマーク値がありません。空欄を残すほうが、不確かな数値で順位を作るより誠実です。
現時点でいえることは明快です。Claude Opus 4.7はSWE-Bench ProでGPT-5.5を上回り、GPT-5.5はTerminal-Bench 2.0でClaude Opus 4.7を上回ります。 Kimi K2.6のSWE-Bench系数値は競争力がありそうですが、証拠レベルは一段下げて読む必要があります。
DeepSeek V4は資料不足です。
モデル選定では、ベンチマーク表を最終結論ではなく、検証候補を絞るための地図として使うのが現実的です。実際には、対象リポジトリ、使用言語、テスト環境、ツール呼び出し、失敗時の復旧、レイテンシ、コストまで含めて、自社または自分のタスクで小さく再測定する必要があります。その結果のほうが、4モデルの総合ランキングよりも実運用に近い判断材料になります。
Comments
0 comments