| ターミナル操作、ブラウザ、ツール利用型エージェント | GPT-5.5/GPT-5.5 Pro | GPT-5.5はTerminal-Bench 2.0で82.7%、GPT-5.5 ProはBrowseCompで90.1%と、同表で最高。 |
| ソフトウェア開発 | Claude Opus 4.7を先に検証。GPT-5.5とKimi K2.6も実案件で再評価 | 同一比較表ではClaude Opus 4.7がSWE-Bench Pro/SWE Proで64.3%。LLM StatsでもClaude Opus 4.7は0.64で、GPT-5.5とKimi K2.6の0.59を上回る。 |
| コスト重視、大量API呼び出し | DeepSeek V4 | DeepSeek V4-Pro-Maxは同一表で首位項目はないが、DeepSeekは米国最新モデルのおよそ6分の1のコストと報じられている。 |
| Kimi系エコシステム、代替コーディングエージェントの検証 | Kimi K2.6 | DocsBotのBrowseCompは83.2%、LLM StatsのSWE-Bench Proは0.59。ただし4モデル同一条件の完全な表は不足している。 |
| 超長文コンテキストを使うワークフロー | Claude Opus 4.7/GPT-5.5が有利 | GPT-5.5とClaude Opus 4.7は1M context windowと報じられ、Artificial Analysisの比較でもClaude Opus 4.7は1000k tokens、Kimi K2.6は256k tokensとされている。 |
次の数字は、DeepSeek V4-Pro-Max、GPT-5.5/GPT-5.5 Pro、Claude Opus 4.7を同じ比較表で見られるものです。GPT-5.5 Proは一部項目にのみ登場します。なお、この表にはKimi K2.6は含まれていません。
この表だけを見ると、Claude Opus 4.7は高難度推理、ツールなしの問題解決、ソフトウェア開発、MCP Atlasで優位です。GPT-5.5系はターミナル、ブラウザ、ツール利用のようなエージェント寄りのタスクで目立ちます。
DeepSeek V4-Pro-Maxは、この同一表では首位項目がありません。ただしBrowseCompは83.4%で、GPT-5.5の84.4%に近く、Claude Opus 4.7の79.3%を上回っています。
Kimi K2.6は「データがない」のではなく、データの出所や実行モード、比較相手が揃っていません。したがって、以下の数字は検証候補に入れるための材料であり、上の同一表と完全に同じランキングとして扱うべきではありません。
Kimi K2.6の位置づけは、現時点では「高ポテンシャルのショートリスト候補」です。Kimi系のエコシステム、低コストのコーディングエージェント、代替モデルルートを試したい場合は十分に検証対象になります。ただし、4モデルの中で証明済みの総合王者だと断言するには、同一条件の証拠がまだ足りません。
ベンチマークは能力を見るための材料です。しかし本番導入では、API価格、出力トークン単価、コンテキスト長、モデルサイズ、運用コストも同じくらい重要になります。
価格面での大きなシグナルは、GPT-5.5とClaude Opus 4.7の入力単価がどちらも$5/100万入力トークンとされる一方、出力単価はGPT-5.5が$30、Claude Opus 4.7が$25と報じられている点です。DeepSeekは、米国最新モデルのおよそ6分の1というコスト訴求で存在感を出しています。
学術的な推理、複雑な分析、ツールを使わない高信頼の回答を重視するなら、まずClaude Opus 4.7を試すのが自然です。同一比較表ではGPQA Diamondが94.2%で、GPT-5.5の93.6%、DeepSeek V4-Pro-Maxの90.1%を上回ります。Humanity’s Last Examのno toolsでも46.9%で首位です。
エージェントにシェル操作、ブラウザ操作、外部ツール連携を任せるなら、GPT-5.5/GPT-5.5 Proが強い候補です。GPT-5.5はTerminal-Bench 2.0で82.7%と、Claude Opus 4.7の69.4%、DeepSeek V4-Pro-Maxの67.9%を大きく上回ります。GPT-5.5 ProはBrowseCompで90.1%と、同表の最高値です。
SWE-Bench Pro/SWE Proでは、Claude Opus 4.7が64.3%で、GPT-5.5の58.6%、DeepSeek V4-Pro-Maxの55.4%を上回っています。 LLM StatsのSWE-Bench Proでも、Claude Opus 4.7は0.64、GPT-5.5とKimi K2.6は0.59、DeepSeek V4-Pro-Maxは0.55です。
ただし、コーディング性能は対象リポジトリ、言語、テスト環境、エージェント設定、プロンプトの作り方で結果が変わりやすい領域です。単一の実務コーディングテストではClaude Opus 4.7が97、GPT-5.5 xHighが96、Kimi K2.6が87、DeepSeek V4 Flashが78、DeepSeek V4 Proが69とされていますが、これだけで本番採用を決めるのは早計です。
トークン単価がボトルネックで、すべてのベンチマークで最高値を取る必要がないなら、DeepSeek V4は現実的な候補です。同一表ではDeepSeek V4-Pro-Maxは首位ではないものの、前線モデルに近い項目があります。加えて、DeepSeekは米国最新モデルのおよそ6分の1のコストと報じられています。
一方で、DeepSeek V4 Proは大規模です。DataCampはPro版を1.6T total parameters、49B active parameters、865GB downloadとしています。 APIだけでなく自社運用を検討する場合は、GPU、推論費用、ダウンロード、保守体制まで含めて判断する必要があります。
一言でまとめると、Claude Opus 4.7は高難度推理とソフトウェア開発ベンチマークで強く、GPT-5.5/GPT-5.5 Proはツール利用、ターミナル、ブラウザ系で強い。DeepSeek V4-Pro-Maxは能力とコストの折衷案で、Kimi K2.6は有望だが同一条件の証拠がまだ不足しています。
実際に導入するなら、公開ベンチマークの総合点だけで決めないことです。自分のリポジトリ、バグチケット、調査ワークフロー、ツール権限、コンテキスト長、レイテンシー、許容できる誤り、トークンコストを揃え、4モデルに同じ評価タスクを走らせる。そこまでやって初めて、ベンチマークは「記事上の順位」から「自社にとっての選定基準」に変わります。
Comments
0 comments