4モデルの比較で最初に分けるべきなのは、総合順位ではなく「どの仕事に使うか」です。公開ベンチマークは推論設定、評価時点、自己申告か第三者評価かがそろっていないため、1本のランキングにまとめると誤解しやすくなります。[4][
18]
本稿では、DeepSeekについては数値を確認できるDeepSeek V4 Pro(Reasoning, Max Effort)を中心に扱います。Artificial Analysisのオープンモデル表では、Kimi K2.6とDeepSeek V4 ProのIntelligence、文脈長、価格列、出力速度が並んでいます。[23]
まず結論:用途別の第一候補
| 用途 | 第一候補 | 根拠 |
|---|---|---|
| 総合性能・経済価値タスク | GPT-5.5 | GPT-5.5 highはArtificial Analysis Intelligence Indexで59、GPT-5.5 xhighはGDPval-AAでElo 1785と報告されています。[ |
| 深い推論、レビュー、専門タスク | Claude Opus 4.7 | LLM Statsは、GPT-5.5との共通10ベンチマークでClaude Opus 4.7が6勝、GPT-5.5が4勝と整理しています。[ |
| 端末操作、ブラウズ、長時間のツール利用 | GPT-5.5 | LLM Statsでは、Terminal-Bench 2.0、BrowseComp、OSWorld-Verified、CyberGymでGPT-5.5が強いと整理されています。[ |
| オープンウェイト系で速度と価格性能を重視 | Kimi K2.6 | Artificial Analysisのオープンモデル表では、Kimi K2.6がIntelligence 54、256k context、Price列$1.7、112 tokens/sです。[ |
| 長文脈と低API価格を重視 | DeepSeek V4 Pro / DeepSeek V4系 | Artificial AnalysisではDeepSeek V4 Proが1M context、MashableではDeepSeek V4のAPI価格がGPT-5.5やClaude Opus 4.7より低い水準として報告されています。[ |
4モデルの主要シグナル
| モデル | ベンチマークで見える強み | 価格・運用で見える特徴 |
|---|---|---|
| GPT-5.5 | GPT-5.5 highはArtificial Analysis Intelligence Indexで59。GPT-5.5 xhighはGDPval-AAでElo 1785とされ、Claude Opus 4.7 maxを約30ポイント上回ると報告されています。[ | MashableはAPI価格を100万入力トークンあたり$5、100万出力トークンあたり$30と報告しています。[ |
| Claude Opus 4.7 | LLM Statsの共通10ベンチマーク整理では6勝4敗。Mashableの表ではSWE-Bench Pro 64.3%、GPQA Diamond 94.2%、HLE with tools 54.7%が報告されています。[ | MashableはAPI価格を100万入力トークンあたり$5、100万出力トークンあたり$25と報告しています。[ |
| Kimi K2.6 | Artificial Analysisのオープンモデル表ではIntelligence 54。The DecoderはMoonshot AIの発表値として、HLE with Tools 54.0、SWE-Bench Pro 58.6、BrowseComp 83.2を報告しています。[ | Artificial Analysisの同表では256k context、Price列$1.7、112 tokens/sです。[ |
| DeepSeek V4 Pro | Artificial Analysisのオープンモデル表ではIntelligence 52。DataCampは、DeepSeek V4が純粋な能力ではGPT-5.5やClaude Opus 4.7を上回らないと整理しています。[ | Artificial Analysisの同表では1M context、Price列$2.2、36 tokens/s。MashableはDeepSeek V4のAPI価格を100万入力トークンあたり$1.74、100万出力トークンあたり$3.48と報告しています。[ |
GPT-5.5 vs Claude Opus 4.7:フロンティア同士はタスクで分かれる
GPT-5.5とClaude Opus 4.7は、ベンチマーク名ごとに勝者が入れ替わります。Mashableが報告した主な数値では、Claude Opus 4.7はSWE-Bench ProとGPQA Diamondで上回り、GPT-5.5はTerminal-Bench 2.0、Humanity's Last Exam、BrowseComp、ARC-AGI-1 Verifiedで上回っています。[9]
| ベンチマーク | GPT-5.5 | Claude Opus 4.7 | Mashable表でのリード |
|---|---|---|---|
| SWE-Bench Pro | 58.6% | 64.3% | Claude Opus 4.7 |
| Terminal-Bench 2.0 | 82.7% | 69.4% | GPT-5.5 |
| Humanity's Last Exam | 40.6% | 31.2% | GPT-5.5 |
| Humanity's Last Exam with tools | 52.2% | 54.7% | Claude Opus 4.7 |
| BrowseComp | 84.4% | 79.3% | GPT-5.5 |
| GPQA Diamond | 93.6% | 94.2% | Claude Opus 4.7 |
| ARC-AGI-1 Verified | 94.5% | 92.0% | GPT-5.5 |
一方、LLM Statsは共通10ベンチマークの整理として、Claude Opus 4.7が6つ、GPT-5.5が4つでリードするとしています。同サイトは、Opus 4.7が推論・レビュー系、GPT-5.5が長時間のツール利用系で強いと説明しています。[4]
ただし、ここは重要な注意点があります。LLM Statsは、これらのスコアが各プロバイダーの高推論ティアにおける自己申告値であり、「形としては比較できるが、方法論まで同一ではない」としています。[4] さらに、Humanity's Last Examのように、ソースによってリードの見え方が異なる項目もあります。[
4][
9]
Kimi K2.6 vs DeepSeek V4 Pro:オープンウェイト系は速度か文脈長か
Kimi K2.6とDeepSeek V4 Proは、クローズドなフロンティアモデルと同じ土俵で単純比較するより、オープンウェイト系の運用候補として見ると判断しやすくなります。
| 指標 | Kimi K2.6 | DeepSeek V4 Pro |
|---|---|---|
| Artificial Analysis Intelligence | 54 | 52 |
| Context window | 256k | 1.00M |
| Price列 | $1.7 | $2.2 |
| Output speed | 112 tokens/s | 36 tokens/s |
この表だけなら、Kimi K2.6はIntelligenceと出力速度で有利、DeepSeek V4 Proは1M contextで有利です。[23] The DecoderはMoonshot AIの発表値として、Kimi K2.6がHLE with Tools 54.0、SWE-Bench Pro 58.6、BrowseComp 83.2を記録したと報告しています。[
20]
ただし、Kimi K2.6の公開実験はGPT-5.5やClaude Opus 4.7との完全な同条件比較ではありません。Hugging Faceのモデルカードでは、Kimi K2.6はthinking mode、temperature 1.0、top-p 1.0、262,144トークン文脈長などの条件で評価され、比較対象も主にClaude Opus 4.6、GPT-5.4、Gemini 3.1 Proです。[18]
DeepSeek V4 Proは、絶対性能の王者というより、長文脈とコストで評価するモデルです。DataCampは、DeepSeek V4が純粋な能力ではGPT-5.5やClaude Opus 4.7を上回らない一方、near-frontier性能を低コストで狙う位置づけだと整理しています。[16]
価格比較では、数字の種類を混ぜない
価格を見るときは、少なくとも3種類の数字を分ける必要があります。
1つ目はAPIのトークン単価です。Mashableは、DeepSeek V4を100万入力トークンあたり$1.74、100万出力トークンあたり$3.48、GPT-5.5を$5/$30、Claude Opus 4.7を$5/$25と報告しています。[3]
2つ目はArtificial Analysisのモデル表にあるPrice列です。Kimi K2.6は$1.7、DeepSeek V4 Proは$2.2と示されていますが、MashableのAPI単価と同じ指標として扱うべきではありません。[23]
3つ目はベンチマーク実行コストです。Artificial Analysisの記事では、Intelligence Indexの実行コストとしてDeepSeek V4 Proが$1,071、Kimi K2.6が$948、Claude Opus 4.7が$4,811と報告されています。[2]
したがって、「DeepSeekが安い」「Kimiが安い」「Claudeが高い」といった結論は、API単価なのか、評価実行コストなのか、出力トークン量を含む実運用コストなのかを分けて判断する必要があります。[2][
3][
23]
安全性・信頼性はベンチマークとは別軸
Claude Opus 4.7については、MashableがAnthropicの主張として92%のhonesty rateと、より少ないsycophancyを報告しています。[15] Anthropicの発表でも、Claude Opus 4.7は内部research-agent benchmarkで6モジュール合計0.715のトップタイとなり、General FinanceではOpus 4.6の0.767から0.813に改善したとされています。[
17]
ただし、これらはSWE-Bench Pro、GPQA Diamond、BrowseCompのような能力ベンチマークとは別の評価軸です。実務で使う場合は、能力スコア、コスト、速度、幻覚リスク、監査しやすさを分けて見るべきです。[15][
17]
実運用では、1モデル固定よりルーティングが現実的
本番運用では、1つのモデルを全タスクに固定するより、用途別にルーティングする構成が現実的です。MindStudioのコード比較では、GPT-5.5は同じコーディングタスクでClaude Opus 4.7より72%少ない出力トークンを使ったとされる一方、複雑で推論負荷の高い大規模コードベースではOpus 4.7の丁寧さがコストを正当化し得るとされています。[28]
実務的には、標準的な生成・修正・端末系タスクはGPT-5.5、深いレビューや専門判断はClaude Opus 4.7、安価なオープンウェイト実験はKimi K2.6、長文脈・大量処理はDeepSeek V4 Proから試すのが自然です。[3][
4][
23][
28]
最終判断
現時点の公開情報からは、GPT-5.5、Claude Opus 4.7、DeepSeek V4 Pro、Kimi K2.6の単一勝者を決めるより、用途別に選ぶのが最も安全です。GPT-5.5は総合・経済価値タスク、Claude Opus 4.7は推論・レビュー、Kimi K2.6はオープンウェイト系の速度と価格性能、DeepSeek V4 Proは長文脈と低API価格が主な強みです。[3][
4][
23][
26][
27]
加えて、Artificial Analysis内でもGPT-5.5 highをIntelligence 59とするモデルページと、Claude Opus 4.7 Adaptive Reasoning, Max EffortをIntelligence 57で首位とする一覧ページがあり、ページの更新時点や推論設定によって見え方が変わります。[27][
30] ベンチマークは出発点として使い、最後は自社の実タスク、予算、レイテンシ、失敗許容度で小さく並走評価するのが最も堅実です。[
4][
18][
28]




