公開済みの数値を見る限り、この比較は「1つの総合王者を決めるレース」ではありません。もっとも横並びに近い表はGPT-5.5、GPT-5.5 Pro、Claude Opus 4.7、DeepSeek-V4-Pro-Maxを対象にしています。一方、Kimi K2.6はHugging Faceのモデルカードとevalファイルから補う形になるため、同じ条件の直接比較としては読めません [6][
25][
37]。
もう一つ大事なのは、DeepSeek V4の表記です。共通表に出てくるのはDeepSeek-V4-Pro-Maxですが、別ソースのSWE-Bench Verifiedの数値はDeepSeek V4-Proを指しています [6][
15]。つまり、「DeepSeek V4は常にこの1つの数値」と見るのではなく、V4系のどのバリアントかを分けて読む必要があります。
用途別に最初に試すなら
- ツールなしの難しいreasoning: まずClaude Opus 4.7。共通表ではGPQA DiamondとHumanity’s Last Exam(HLE)ツールなしで首位です [
6]。
- ターミナル操作を含むagenticタスク: GPT-5.5が有力です。Terminal-Bench 2.0で82.7%、Claude Opus 4.7は69.4%、DeepSeek-V4-Pro-Maxは67.9%でした [
6]。
- ツール利用やブラウジング込みの推論: GPT-5.5 Proが強い領域です。HLEツールありで57.2%、BrowseCompで90.1%を示しています [
6]。
- codingと自前運用の検証: Kimi K2.6は別枠で確認したい候補です。モデルカードではSWE-Bench Verified 80.2、SWE-Bench Pro 58.6、Terminal-Bench 2.0 66.7が示されています [
25][
37]。また、重みがHugging Faceで利用可能で、vLLM、SGLang、KTransformersで実行できるとされています [
7]。
- コストを強く意識する用途: DeepSeek V4は共通表では首位ではありませんが、API価格は100万inputトークンあたり1.74ドル、100万outputトークンあたり3.48ドルとされ、GPT-5.5の5ドル/30ドル、Claude Opus 4.7の5ドル/25ドルより低い水準です [
6][
14][
19]。
ベンチマーク結果の早見表
| ベンチマーク | GPT-5.5 | GPT-5.5 Pro | Claude Opus 4.7 | DeepSeek V4 | Kimi K2.6 | 利用可能なデータでの首位 |
|---|---|---|---|---|---|---|
| GPQA Diamond | 93.6% [ | 未掲載 | 94.2% [ | 90.1%(DeepSeek-V4-Pro-Max)[ | 未掲載 | Claude Opus 4.7 [ |
| Humanity’s Last Exam、ツールなし | 41.4% [ | 43.1% [ | 46.9% [ | 37.7%(DeepSeek-V4-Pro-Max)[ | 未掲載 | Claude Opus 4.7 [ |
| Humanity’s Last Exam、ツールあり | 52.2% [ | 57.2% [ | 54.7% [ | 48.2%(DeepSeek-V4-Pro-Max)[ | 未掲載 | GPT-5.5 Pro [ |
| Terminal-Bench 2.0 | 82.7% [ | 未掲載 | 69.4% [ | 67.9%(DeepSeek-V4-Pro-Max)[ | 66.7 [ | GPT-5.5 [ |
| SWE-Bench Pro / SWE Pro | 58.6% [ | 未掲載 | 64.3% [ | 55.4%(DeepSeek-V4-Pro-Max)[ | 58.6 [ | Claude Opus 4.7 [ |
| BrowseComp | 84.4% [ | 90.1% [ | 79.3% [ | 83.4%(DeepSeek-V4-Pro-Max)[ | 未掲載 | GPT-5.5 Pro [ |
| MCP Atlas / MCPAtlas Public | 75.3% [ | 未掲載 | 79.1% [ | 73.6%(DeepSeek-V4-Pro-Max)[ | 未掲載 | Claude Opus 4.7 [ |
| SWE-Bench Verified | 未掲載 | 未掲載 | 87.6%(別比較)[ | 80.6%(DeepSeek V4-Pro。Pro-Maxではない)[ | 80.2 [ | 全モデル共通の行はなし [ |
「未掲載」は、該当ソースに数値が示されていないという意味です。モデルのスコアがゼロだった、という意味ではありません。
Reasoning:ツールなしはClaude、ツール込みはGPT-5.5 Pro
GPQA DiamondではClaude Opus 4.7が94.2%、GPT-5.5が93.6%、DeepSeek-V4-Pro-Maxが90.1%です。差は大きくありませんが、首位はClaude Opus 4.7です [6]。
Humanity’s Last Examのツールなしでも、Claude Opus 4.7が46.9%で先行します。GPT-5.5は41.4%、GPT-5.5 Proは43.1%、DeepSeek-V4-Pro-Maxは37.7%でした [6]。
一方、HLEでツール利用が許可されると並びが変わります。GPT-5.5 Proは57.2%で、Claude Opus 4.7の54.7%、GPT-5.5の52.2%、DeepSeek-V4-Pro-Maxの48.2%を上回ります [6]。したがって、素のreasoningではClaude、ツール拡張込みのreasoningではGPT-5.5 Pro、という見方がもっとも正確です [
6]。
Codingとagentic系:Terminal-BenchではGPT-5.5の差が大きい
この比較でGPT-5.5の強さが最もはっきり出るのはTerminal-Bench 2.0です。GPT-5.5は82.7%で、Claude Opus 4.7の69.4%、DeepSeek-V4-Pro-Maxの67.9%を大きく上回ります [6]。
Kimi K2.6については、モデルカードでTerminal-Bench 2.0が66.7と示されています。別のLLM StatsリーダーボードでもKimi K2.6は0.667、Claude Opus 4.7は0.694とされています [25][
33]。この範囲ではKimiはClaudeやDeepSeekに近い位置ですが、共通表のGPT-5.5とは明確な差があります [
6][
25][
33]。
SWE-Bench Pro / SWE Proでは構図が変わります。Claude Opus 4.7が64.3%で首位、GPT-5.5が58.6%、DeepSeek-V4-Pro-Maxが55.4%です [6]。Kimi K2.6もHugging FaceのモデルカードではSWE-Bench Pro 58.6とされていますが、これはGPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro-Maxと同じ一斉比較の行ではありません [
6][
25]。
SWE-Bench Verifiedについては、4モデルを単純な総合ランキングにしない方が安全です。Kimi K2.6にはモデルカードとevalファイルで80.2という値があります [25][
37]。別ソースではClaude Opus 4.7が87.6%、DeepSeek V4-Proが80.6%とされていますが、GPT-5.5を含む全モデル共通の行ではなく、DeepSeek側もV4-Pro-MaxではなくV4-Proです [
15]。
モデル別の見どころ
GPT-5.5 / GPT-5.5 Pro
GPT-5.5はTerminal-Bench 2.0で82.7%を示し、共通表のこの行ではもっとも強い結果です [6]。ターミナル上で複数ステップを進めるagenticな作業を重視するなら、最初に試す候補になりやすいモデルです。
GPT-5.5 Proはすべての行に数値があるわけではありません。ただし、掲載されている行では目立ちます。HLEツールありで57.2%、BrowseCompで90.1%を示し、いずれも首位です [6]。外部ツール、ブラウジング、複数アクションを前提にした推論では、GPT-5.5 Proを優先的に評価する価値があります [
6]。
Claude Opus 4.7
Claude Opus 4.7は、共通表の複数行で首位です。GPQA Diamondで94.2%、HLEツールなしで46.9%、SWE-Bench Pro / SWE Proで64.3%、MCP Atlas / MCPAtlas Publicで79.1%を示しています [6]。
一方で、Terminal-Bench 2.0ではGPT-5.5に、HLEツールありとBrowseCompではGPT-5.5 Proに譲ります [6]。ツールを使わない高度なreasoningや、SWE-Bench Proに近いcodingタスクでは有力候補ですが、すべての領域で一強というわけではありません [
6]。
Kimi K2.6
Kimi K2.6は、今回の4モデルを同じ条件で走らせた共通表には入っていません。そのため、GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro-Maxと厳密に横並びで順位づけするのは避けるべきです [6][
25][
37]。
それでもcoding系の候補としては見逃せません。Hugging Faceのモデルカードとevalファイルでは、SWE-Bench Verified 80.2、SWE-Bench Pro 58.6、SWE-Bench Multilingual 76.7、Terminal-Bench 2.0 66.7、OSWorld-Verified 73.1が示されています [25][
37]。
運用面では、重みがHugging Faceで利用可能で、vLLM、SGLang、KTransformersで実行できるとされている点も特徴です [7]。これはKimi K2.6を全体のベンチマーク勝者にするものではありませんが、自前環境での検証やself-hosted構成を考えるチームにとって、別枠で評価する理由になります [
7][
25]。
DeepSeek V4
共通表で使われているのはDeepSeek-V4-Pro-Maxです [6]。この表の範囲では、DeepSeek-V4-Pro-Maxは首位を取っていません。数値はGPQA Diamond 90.1%、HLEツールなし37.7%、HLEツールあり48.2%、Terminal-Bench 2.0 67.9%、SWE-Bench Pro / SWE Pro 55.4%、BrowseComp 83.4%、MCP Atlas / MCPAtlas Public 73.6%です [
6]。
ただし、DeepSeek V4の強みは「最高スコア」よりも価格面にあります。MashableとDataCampは、DeepSeek V4のAPI価格を100万inputトークンあたり1.74ドル、100万outputトークンあたり3.48ドルとし、GPT-5.5は5ドル/30ドル、Claude Opus 4.7は5ドル/25ドルとしています [14][
19]。大量処理や費用制約の強い用途では、DeepSeek V4を独自評価に入れる価値があります。ただし、この共通表だけでベンチマークリーダーと呼ぶのは正確ではありません [
6][
14][
19]。
比較するときの注意点
- 4モデルすべてを同一条件で測った完全な表ではありません。 共通表はGPT-5.5、GPT-5.5 Pro、Claude Opus 4.7、DeepSeek-V4-Pro-Maxを扱い、Kimi K2.6はHugging Faceのモデルカードとevalファイルから補っています [
6][
25][
37]。
- DeepSeek V4はバリアント名を確認する必要があります。 共通表はDeepSeek-V4-Pro-Max、別ソースのSWE-Bench VerifiedはDeepSeek V4-Proです [
6][
15]。
- GPT-5.5 Proは掲載されていない行があります。 Proの数値がないベンチマークでは、GPT-5.5 Proの順位を推測で埋めるべきではありません [
6]。
- Kimi K2.6は自分たちの評価セットで確認したいモデルです。 公開されているHugging Faceの数値は有用ですが、共通表と同じ直接比較ではありません [
6][
25][
37]。
結論
共通表だけを見ると、Claude Opus 4.7はGPQA Diamond、HLEツールなし、SWE-Bench Pro、MCP Atlasで強く、GPT-5.5はTerminal-Bench 2.0で大きく先行します。GPT-5.5 ProはHLEツールありとBrowseCompで首位です [6]。
Kimi K2.6は同じ直接比較には入っていないものの、coding系の数値と重みの利用可能性から、別枠で検証する価値があります [7][
25][
37]。DeepSeek V4はこの表ではベンチマーク首位ではありませんが、公開API価格の低さから、コスト重視のシナリオでは十分に評価対象になります [
6][
14][
19]。最終的には、ベンチマークの総合点ではなく、ツール利用の有無、coding比率、運用形態、トークン単価を合わせて選ぶのが現実的です。




