GPT-5.5は、現時点で最も強く示されたオールラウンダーです。 Artificial Analysisの抜粋では、GPT-5.5 xhighが60点、GPT-5.5 highが59点で、Claude Opus 4.7の57点を上回っています 。BrowseCompでも、GPT-5.5は84.4%、DeepSeek V4は83.4%、Claude Opus 4.7は79.3%とされています
。
Claude Opus 4.7は、ソフトウェア開発と知識系の指標で強みが目立ちます。 SWE-Bench ProではClaude Opus 4.7が64.3%、GPT-5.5が58.6%で、Claudeが上回ります 。GPQA DiamondでもClaude Opus 4.7は94.2%、GPT-5.5は93.6%と、Claudeがわずかに先行しています
。一方で、Terminal-Bench 2.0ではGPT-5.5が82.7%、Claude Opus 4.7が69.4%で、GPT-5.5が大きく上回ります
。
DeepSeek V4は、価格性能のインパクトが大きいモデルです。 VentureBeatが引用するBrowseCompでは83.4%で、GPT-5.5の84.4%に1.0ポイント差まで迫り、Claude Opus 4.7の79.3%を上回っています 。Mashableが示すAPI価格では、DeepSeek V4は100万入力トークンあたり1.74米ドル、100万出力トークンあたり3.48米ドルで、GPT-5.5の5米ドル/30米ドル、Claude Opus 4.7の5米ドル/25米ドルより低くなっています
。
Kimi K2.6は、今回の材料だけでは公平に順位づけできません。 DocsBotはKimi K2.6を、オープンソースでネイティブ・マルチモーダルなエージェント型モデル、1TパラメータMoE、32B有効パラメータ、256Kコンテキストを備えるモデルとして説明しています 。ただし、GPT-5.5、Claude Opus 4.7、DeepSeek V4と同じ土俵で並べられる十分なベンチマーク値は、今回のソースにはありません
。
ベンチマークの数字は、偏差値やランキング表のように一列に並べたくなります。しかしAIモデル比較では、スコアの出どころや測定条件がかなり重要です。
DataCampは関連するフロンティアモデル比較で、一部のベンチマーク値がベンダー報告であり、異なるハーネス、つまり評価の実行環境や設定が使われている場合があると注意しています 。これは、今回のように複数ソースを横断して読む場合の大事な前提です。
さらに、モデル名が同じように見えても、設定が異なることがあります。Artificial AnalysisではGPT-5.5 xhigh、GPT-5.5 high、Claude Opus 4.7 Adaptive Reasoning, Max Effortが並んでいます 。VentureBeatのDeepSeek側の表現はDeepSeek-V4-Pro-Maxです
。推論、コーディング、エージェント作業では、こうした設定差が結果に影響しうるため、単純な1位・2位だけで判断するのは避けたいところです
。
今回のソースで最もわかりやすい総合指標は、Artificial AnalysisのIntelligence Index抜粋です。ここではGPT-5.5 xhighが60点で1位、GPT-5.5 highが59点で2位、Claude Opus 4.7 Adaptive Reasoning, Max Effortが57点で3位とされています 。
この範囲では、GPT-5.5がClaude Opus 4.7に対して小さいながらも明確な差をつけています 。ただし、同じ抜粋からDeepSeek V4とKimi K2.6を含めた4モデルの完全な数値比較はできません
。
BrowseCompは、GPT-5.5、Claude Opus 4.7、DeepSeek V4を直接見比べやすい数少ない材料です。VentureBeatによると、GPT-5.5 Proは90.1%、GPT-5.5は84.4%、DeepSeek V4は83.4%、Claude Opus 4.7は79.3%です 。
ただし、VentureBeatはDeepSeek-V4-Pro-Maxについて、直接比較できるベンチマーク全体でGPT-5.5やClaude Opus 4.7を退けたようには見えない、と整理しています 。つまり、BrowseCompでDeepSeek V4が非常に強いことは確かですが、それだけで総合勝利とは言えません
。
コーディング領域では、どのベンチマークを見るかで勝者が変わります。SWE-Bench ProではClaude Opus 4.7が64.3%、GPT-5.5が58.6%で、Claudeが上です 。VellumはClaude Opus 4.7のSWE-Bench Verifiedを87.6%としています
。
| ベンチマーク | GPT-5.5 | Claude Opus 4.7 | 読み方 |
|---|---|---|---|
| SWE-Bench Pro | 58.6% | 64.3% | Claudeが上 |
| SWE-Bench Verified | 今回のソースでは直接値なし | 87.6% | Claudeの強い値だが、4モデル比較ではない |
| Terminal-Bench 2.0 | 82.7% | 69.4% | GPT-5.5が大きく上 |
DeepSeek V4について、VentureBeatは複数の直接比較可能なベンチマークで上位モデルに近いと説明していますが、今回の抜粋で最もはっきりした数値はBrowseCompです 。Kimi K2.6についても、DocsBotは長期コーディングやエージェント性能の向上を説明していますが、GPT-5.5、Claude Opus 4.7、DeepSeek V4と同じ表で比べられる十分な数値はありません
。
知識・推論系では、GPT-5.5とClaude Opus 4.7はかなり接近しています。GPQA DiamondではGPT-5.5が93.6%、Claude Opus 4.7が94.2%で、Claudeがわずかに上です 。
Mashableが示すHumanity’s Last Examでは、ツールなしではGPT-5.5が40.6%、Claude Opus 4.7が31.2%でGPT-5.5が上ですが、ツールありではGPT-5.5が52.2%、Claude Opus 4.7が54.7%でClaudeがわずかに上回ります 。
| ベンチマーク | GPT-5.5 | Claude Opus 4.7 | この数値での優位 |
|---|---|---|---|
| GPQA Diamond | 93.6% | 94.2% | Claudeがわずかに上 |
| Humanity’s Last Exam | 40.6% | 31.2% | GPT-5.5が上 |
| Humanity’s Last Exam、ツールあり | 52.2% | 54.7% | Claudeがわずかに上 |
業務・エージェント系の指標でも、勝者は固定ではありません。VellumはGDPvalでGPT-5.5が84.9%、Claude Opus 4.7が80.3%、OSWorld-VerifiedでGPT-5.5が78.7%、Claude Opus 4.7が78.0%、MCP AtlasでGPT-5.5が75.3%、Claude Opus 4.7が79.1%としています 。OpenAIはFinanceAgent v1.1でGPT-5.5を60.0%、Claude Opus 4.7を64.4%と示しています
。
| ベンチマーク | GPT-5.5 | Claude Opus 4.7 | 読み方 |
|---|---|---|---|
| GDPval | 84.9% | 80.3% | GPT-5.5が上 |
| OSWorld-Verified | 78.7% | 78.0% | GPT-5.5が僅差で上 |
| MCP Atlas | 75.3% | 79.1% | Claudeが上 |
| FinanceAgent v1.1 | 60.0% | 64.4% | Claudeが上 |
Anthropicは社内のResearch Agent Benchmarkにも触れており、Claude Opus 4.7が6モジュール全体で最高総合スコア0.715を分け合い、General FinanceではOpus 4.6の0.767に対して0.813を記録したと説明しています 。ただし、これは社内ベンチマークであり、今回の4モデルを独立に同条件で並べた表ではないため、Claudeのエージェント系の強さを示す参考情報として読むのが妥当です
。
API利用では、最高スコアだけでなく、入力・出力トークンあたりの単価が効いてきます。Mashableによると、DeepSeek V4は100万入力トークンあたり1.74米ドル、100万出力トークンあたり3.48米ドルで、コンテキストウィンドウは100万トークンです 。
同じソースでは、GPT-5.5は100万入力トークンあたり5米ドル、100万出力トークンあたり30米ドル、Claude Opus 4.7は100万入力トークンあたり5米ドル、100万出力トークンあたり25米ドルで、いずれも100万トークンのコンテキストウィンドウとされています 。
| モデル | 入力価格、100万トークンあたり | 出力価格、100万トークンあたり | コンテキスト |
|---|---|---|---|
| DeepSeek V4 | 1.74米ドル | 3.48米ドル | 100万トークン |
| GPT-5.5 | 5米ドル | 30米ドル | 100万トークン |
| Claude Opus 4.7 | 5米ドル | 25米ドル | 100万トークン |
| Kimi K2.6 | 今回のソースでは確認できる直接価格なし | 今回のソースでは確認できる直接価格なし | 256Kトークン |
Kimi K2.6については、DocsBotが256Kコンテキスト、1TパラメータMoE、32B有効パラメータ、最大300サブエージェント、4,000の協調ステップに対応するエージェント・オーケストレーションを説明しています 。これは技術仕様としては重要ですが、GPT-5.5、Claude Opus 4.7、DeepSeek V4と同じ基準で価格や性能を比較する材料にはまだ不足しています
。
今回の比較で最も大事なのは、単独の絶対王者を探すより、用途ごとの強みを見ることです。
Claude Opus 4.7は、SWE-Bench Pro、SWE-Bench Verified、GPQA Diamond、FinanceAgent v1.1などで存在感があります 。コード生成だけでなく、レビュー、知識処理、金融系のエージェント作業でも検討対象になります。
DeepSeek V4は、BrowseCompでGPT-5.5にかなり近い数値を出しながら、引用されているAPI価格が低い点で目立ちます 。コストを重視するチームにとっては、単なる下位候補ではなく、十分に検証する価値のある選択肢です。
Comments
0 comments