| 高難度推論、レビュー、失敗許容度の低い判断 | Claude Opus 4.7 | GPQA Diamondで94.2%、Humanity’s Last Exam no-toolsで46.9%と、同じ表のGPT-5.5とDeepSeek-V4-Pro-Maxを上回ります。 |
| 高トラフィックでコストに敏感なAPI利用 | DeepSeek V4 | 公開価格は100万入力トークンあたり1.74米ドル、100万出力トークンあたり3.48米ドルで、GPT-5.5とClaude Opus 4.7の同口径価格を下回ります。 |
| オープンソースのcoding-agent、長いコーディングワークフローの実験 | Kimi K2.6 | DocsBotはKimi K2.6をMoonshot AIのopen-source native multimodal agentic modelと説明し、256K contextを示しています。ただし、他の3モデルと完全に同じ土俵の公開ベンチマークは不足しています。 |
DeepSeekについては、資料によってDeepSeek V4、DeepSeek V4 Pro、DeepSeek-V4-Pro-Maxという表記が混在しています。 下の表では、出典に出ている名称をそのまま残し、異なる設定を同一モデルとして扱いすぎないようにしています。
Artificial Analysisの可視要約では、Intelligence Indexの上位にGPT-5.5 xhighが60、GPT-5.5 highが59、Claude Opus 4.7 Adaptive Reasoning, Max Effortが57として掲載されています。 この範囲ではGPT-5.5がClaude Opus 4.7より上に見えますが、同じ要約にはDeepSeek V4とKimi K2.6の同口径スコアが出ていないため、4モデル全体の総合順位までは言えません。
GPT-5.5が特に目立つのは、長く続くツール利用タスクです。BrowseCompは84.4%、Terminal-Bench 2.0は82.7%で、VentureBeatの表ではClaude Opus 4.7とDeepSeek-V4-Pro-Maxを上回ります。 OpenAIの公開情報でも、GDPval 84.9%、OSWorld-Verified 78.7%、Tau2-bench Telecom 98.0%といった、知識労働や実環境操作に近いベンチマークの数値が示されています。
高難度推論では、Claude Opus 4.7の優位が比較的はっきり見えます。VentureBeatの要約では、GPQA DiamondがClaude Opus 4.7 94.2%、GPT-5.5 93.6%、DeepSeek-V4-Pro-Max 90.1%。Humanity’s Last Exam no-toolsはClaude Opus 4.7 46.9%、GPT-5.5 41.4%、GPT-5.5 Pro 43.1%、DeepSeek-V4-Pro-Max 37.7%です。
LLM Statsも、両社が報告している10個のベンチマークではClaude Opus 4.7が6件、GPT-5.5が4件でリードしていると整理しています。Claudeの強みはreasoning-heavyとreview-grade testsに、GPT-5.5の強みはlong-running tool-use testsに寄っているという見立てです。
DeepSeek V4の魅力は、性能そのものよりも価格とのバランスにあります。Mashableの要約では、DeepSeek V4は100万入力トークンあたり1.74米ドル、100万出力トークンあたり3.48米ドルで、1M context windowとされています。GPT-5.5は5 / 30米ドル、Claude Opus 4.7は5 / 25米ドルで、いずれも同じく1M context windowとされています。
DataCampのDeepSeek V4比較でも、DeepSeek V4 Pro、GPT-5.5、Claude Opus 4.7の価格とcontext windowは同様の口径で示されています。 さらにDeepSeek-V4-Pro-MaxはBrowseCompで83.4%と、GPT-5.5の84.4%に近い値です。
そのため、大量のAPI呼び出しをさばく用途では、まずDeepSeek V4を安価なルートとして回帰テストに入れる判断は自然です。
Kimi K2.6は、単純な総合順位よりも、オープンソース系のcoding-agent候補として見るほうが無理がありません。DocsBotはKimi K2.6をMoonshot AIのopen-source native multimodal agentic modelと説明し、long-horizon coding、coding-driven design、autonomous execution、swarm-based orchestration向けのモデルとして紹介しています。
一方で、数値の扱いには注意が必要です。Verdentの要約ではKimi K2.6がSWE-Bench Pro 58.60%、SWE-Bench Verified 80.20%、LiveCodeBench v6 89.60%、Terminal-Bench 2.0 66.70%とされていますが、Kimi K2.6の数値はMoonshot AI official model card由来で、SWE-Bench ProはMoonshot in-house harnessを使ったものだと注記されています。 つまり、Kimi K2.6は試す価値のある候補ですが、この数値をそのままGPT-5.5、Claude Opus 4.7、DeepSeek V4との完全な順位表に入れるのは慎重であるべきです。
DataCampのDeepSeek V4比較では、SWE-Bench ProはDeepSeek V4 Pro 55.4%、GPT-5.5 58.6%、Claude Opus 4.7 64.3%です。 Yahoo / Investing.comも、GPT-5.5はTerminal-Bench 2.0で82.7%、SWE-Bench Proで58.6%と報じ、SWE-Bench ProはGitHub issue resolutionを評価するものだと説明しています。
ただし、ソフトウェア開発の現場ではSWE-Bench Proの1指標だけでは足りません。大規模リポジトリ修正、コードレビュー、長時間のcoding-agent運用では、ツール呼び出し、途中復帰、差分の妥当性、失敗時の修正能力まで見たいところです。可視のSWE-Bench ProではClaude Opus 4.7が高く、Terminal-Bench 2.0のような長いツール作業ではGPT-5.5が強く、Kimi K2.6は自社のリポジトリとツールチェーンで補足テストする位置づけになります。
多くのプロダクトチームにとって、答えは「どれか1つを買う」ではなく、モデルルーティングと回帰テストを作ることです。
公開情報だけで一次選定するなら、GPT-5.5はagentic tool-useと可視の総合指標で強い候補、Claude Opus 4.7は推論とreview-gradeタスクで強い候補、DeepSeek V4は価格面で最も魅力的な候補、Kimi K2.6はオープンソース / coding-agentの実験候補です。
本番導入前には、同じプロンプト、同じツール権限、同じコンテキスト長、同じ成功判定で回帰テストを組むべきです。公開ベンチマークの役割は、最初に誰を試すかを決めること。最終的な選定は、プロダクトのタスク、エラーのコスト、トークン単価を合わせて判断するのが安全です。
Comments
0 comments