4モデルを完全同一条件で横比較した決定版ランキングとしては読まず、用途別に選ぶのが安全です。総合・経済タスクはGPT 5.5、推論・レビューはClaude Opus 4.7、オープンウェイトの速度はKimi K2.6、長文脈と低API価格はDeepSeek V4 Proが有力です。[4][23][26][27] GPT 5.5はArtificial AnalysisのモデルページでIntelligence 59、GDPval AAでElo 1785とされ、Claude Opus 4.7はLLM Statsの共通10ベンチマーク整理で6勝4敗とされています。[4][26][27] Kimi K2.6はArtificial Ana...

Create a landscape editorial hero image for this Studio Global article: GPT-5.5・Claude Opus 4.7・DeepSeek V4・Kimi K2.6比較:ベンチマークで見る用途別の勝者. Article summary: 4モデルを完全同一条件で横比較した公開表は確認できないため、単一の勝者ではなく用途別に選ぶのが安全です。総合候補はGPT 5.5(AA Intelligence 59、GDPval AA Elo 1785)とClaude Opus 4.7(共通10ベンチマークで6勝4敗)です。[4][26][27]. Topic tags: ai, llm benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). . [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). . [](
4モデルの比較で最初に分けるべきなのは、総合順位ではなく「どの仕事に使うか」です。公開ベンチマークは推論設定、評価時点、自己申告か第三者評価かがそろっていないため、1本のランキングにまとめると誤解しやすくなります。[4][
18]
本稿では、DeepSeekについては数値を確認できるDeepSeek V4 Pro(Reasoning, Max Effort)を中心に扱います。Artificial Analysisのオープンモデル表では、Kimi K2.6とDeepSeek V4 ProのIntelligence、文脈長、価格列、出力速度が並んでいます。[23]
| 用途 | 第一候補 | 根拠 |
|---|---|---|
| 総合性能・経済価値タスク | GPT-5.5 | GPT-5.5 highはArtificial Analysis Intelligence Indexで59、GPT-5.5 xhighはGDPval-AAでElo 1785と報告されています。[ |
| 深い推論、レビュー、専門タスク | Claude Opus 4.7 | LLM Statsは、GPT-5.5との共通10ベンチマークでClaude Opus 4.7が6勝、GPT-5.5が4勝と整理しています。[ |
Studio Global AI
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
4モデルを完全同一条件で横比較した決定版ランキングとしては読まず、用途別に選ぶのが安全です。総合・経済タスクはGPT 5.5、推論・レビューはClaude Opus 4.7、オープンウェイトの速度はKimi K2.6、長文脈と低API価格はDeepSeek V4 Proが有力です。[4][23][26][27]
4モデルを完全同一条件で横比較した決定版ランキングとしては読まず、用途別に選ぶのが安全です。総合・経済タスクはGPT 5.5、推論・レビューはClaude Opus 4.7、オープンウェイトの速度はKimi K2.6、長文脈と低API価格はDeepSeek V4 Proが有力です。[4][23][26][27] GPT 5.5はArtificial AnalysisのモデルページでIntelligence 59、GDPval AAでElo 1785とされ、Claude Opus 4.7はLLM Statsの共通10ベンチマーク整理で6勝4敗とされています。[4][26][27]
Kimi K2.6はArtificial Analysisのオープンモデル表でIntelligence 54・112 tokens/s、DeepSeek V4 ProはIntelligence 52・1M context。前者は速度、後者は文脈長とDeepSeek V4系の低API価格が目立ちます。[3][23]
別の角度からの引用や追加の引用については、「香港警察の試験対策:ICAC、警察権限、説明責任を一本の論旨で押さえる」に進みます。
Open related pageこの回答を「Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6比較:2026年ベンチマークの結論」と照合してください。
Open related pageLower cost than frontier models, but high token usage keeps costs above most open weights peers: DeepSeek V4 Pro costs $1,071 to run the Artificial Analysis Intelligence Index, more than 4x cheaper than Claude Opus 4.7 ($4,811) but above several open weight...
Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...
The Verdict On the 10 benchmarks both providers report, Opus 4.7 leads on 6 and GPT-5.5 leads on 4. The leads cluster by category, not by overall quality: Opus 4.7 is ahead on the reasoning-heavy and review-grade tests (GPQA Diamond, HLE with and without to...
Thanks for signing up! SWE-Bench Pro: GPT-5.5 scored 58.6; Opus 4.7 scored 64.3 percent Terminal-Bench 2.0: GPT-5.5 scored 82.7 percent; Opus 4.7 scored 69.4 percent Humanity's Last Exam: GPT-5.5 scored 40.6 percent; Opus 4.7 scored 31.2 percent\ Humanity's...
| 端末操作、ブラウズ、長時間のツール利用 | GPT-5.5 | LLM Statsでは、Terminal-Bench 2.0、BrowseComp、OSWorld-Verified、CyberGymでGPT-5.5が強いと整理されています。[ |
| オープンウェイト系で速度と価格性能を重視 | Kimi K2.6 | Artificial Analysisのオープンモデル表では、Kimi K2.6がIntelligence 54、256k context、Price列$1.7、112 tokens/sです。[ |
| 長文脈と低API価格を重視 | DeepSeek V4 Pro / DeepSeek V4系 | Artificial AnalysisではDeepSeek V4 Proが1M context、MashableではDeepSeek V4のAPI価格がGPT-5.5やClaude Opus 4.7より低い水準として報告されています。[ |
| モデル | ベンチマークで見える強み | 価格・運用で見える特徴 |
|---|---|---|
| GPT-5.5 | GPT-5.5 highはArtificial Analysis Intelligence Indexで59。GPT-5.5 xhighはGDPval-AAでElo 1785とされ、Claude Opus 4.7 maxを約30ポイント上回ると報告されています。[ | MashableはAPI価格を100万入力トークンあたり$5、100万出力トークンあたり$30と報告しています。[ |
| Claude Opus 4.7 | LLM Statsの共通10ベンチマーク整理では6勝4敗。Mashableの表ではSWE-Bench Pro 64.3%、GPQA Diamond 94.2%、HLE with tools 54.7%が報告されています。[ | MashableはAPI価格を100万入力トークンあたり$5、100万出力トークンあたり$25と報告しています。[ |
| Kimi K2.6 | Artificial Analysisのオープンモデル表ではIntelligence 54。The DecoderはMoonshot AIの発表値として、HLE with Tools 54.0、SWE-Bench Pro 58.6、BrowseComp 83.2を報告しています。[ | Artificial Analysisの同表では256k context、Price列$1.7、112 tokens/sです。[ |
| DeepSeek V4 Pro | Artificial Analysisのオープンモデル表ではIntelligence 52。DataCampは、DeepSeek V4が純粋な能力ではGPT-5.5やClaude Opus 4.7を上回らないと整理しています。[ | Artificial Analysisの同表では1M context、Price列$2.2、36 tokens/s。MashableはDeepSeek V4のAPI価格を100万入力トークンあたり$1.74、100万出力トークンあたり$3.48と報告しています。[ |
GPT-5.5とClaude Opus 4.7は、ベンチマーク名ごとに勝者が入れ替わります。Mashableが報告した主な数値では、Claude Opus 4.7はSWE-Bench ProとGPQA Diamondで上回り、GPT-5.5はTerminal-Bench 2.0、Humanity's Last Exam、BrowseComp、ARC-AGI-1 Verifiedで上回っています。[9]
| ベンチマーク | GPT-5.5 | Claude Opus 4.7 | Mashable表でのリード |
|---|---|---|---|
| SWE-Bench Pro | 58.6% | 64.3% | Claude Opus 4.7 |
| Terminal-Bench 2.0 | 82.7% | 69.4% | GPT-5.5 |
| Humanity's Last Exam | 40.6% | 31.2% | GPT-5.5 |
| Humanity's Last Exam with tools | 52.2% | 54.7% | Claude Opus 4.7 |
| BrowseComp | 84.4% | 79.3% | GPT-5.5 |
| GPQA Diamond | 93.6% | 94.2% | Claude Opus 4.7 |
| ARC-AGI-1 Verified | 94.5% | 92.0% | GPT-5.5 |
一方、LLM Statsは共通10ベンチマークの整理として、Claude Opus 4.7が6つ、GPT-5.5が4つでリードするとしています。同サイトは、Opus 4.7が推論・レビュー系、GPT-5.5が長時間のツール利用系で強いと説明しています。[4]
ただし、ここは重要な注意点があります。LLM Statsは、これらのスコアが各プロバイダーの高推論ティアにおける自己申告値であり、「形としては比較できるが、方法論まで同一ではない」としています。[4] さらに、Humanity's Last Examのように、ソースによってリードの見え方が異なる項目もあります。[
4][
9]
Kimi K2.6とDeepSeek V4 Proは、クローズドなフロンティアモデルと同じ土俵で単純比較するより、オープンウェイト系の運用候補として見ると判断しやすくなります。
| 指標 | Kimi K2.6 | DeepSeek V4 Pro |
|---|---|---|
| Artificial Analysis Intelligence | 54 | 52 |
| Context window | 256k | 1.00M |
| Price列 | $1.7 | $2.2 |
| Output speed | 112 tokens/s | 36 tokens/s |
この表だけなら、Kimi K2.6はIntelligenceと出力速度で有利、DeepSeek V4 Proは1M contextで有利です。[23] The DecoderはMoonshot AIの発表値として、Kimi K2.6がHLE with Tools 54.0、SWE-Bench Pro 58.6、BrowseComp 83.2を記録したと報告しています。[
20]
ただし、Kimi K2.6の公開実験はGPT-5.5やClaude Opus 4.7との完全な同条件比較ではありません。Hugging Faceのモデルカードでは、Kimi K2.6はthinking mode、temperature 1.0、top-p 1.0、262,144トークン文脈長などの条件で評価され、比較対象も主にClaude Opus 4.6、GPT-5.4、Gemini 3.1 Proです。[18]
DeepSeek V4 Proは、絶対性能の王者というより、長文脈とコストで評価するモデルです。DataCampは、DeepSeek V4が純粋な能力ではGPT-5.5やClaude Opus 4.7を上回らない一方、near-frontier性能を低コストで狙う位置づけだと整理しています。[16]
価格を見るときは、少なくとも3種類の数字を分ける必要があります。
1つ目はAPIのトークン単価です。Mashableは、DeepSeek V4を100万入力トークンあたり$1.74、100万出力トークンあたり$3.48、GPT-5.5を$5/$30、Claude Opus 4.7を$5/$25と報告しています。[3]
2つ目はArtificial Analysisのモデル表にあるPrice列です。Kimi K2.6は$1.7、DeepSeek V4 Proは$2.2と示されていますが、MashableのAPI単価と同じ指標として扱うべきではありません。[23]
3つ目はベンチマーク実行コストです。Artificial Analysisの記事では、Intelligence Indexの実行コストとしてDeepSeek V4 Proが$1,071、Kimi K2.6が$948、Claude Opus 4.7が$4,811と報告されています。[2]
したがって、「DeepSeekが安い」「Kimiが安い」「Claudeが高い」といった結論は、API単価なのか、評価実行コストなのか、出力トークン量を含む実運用コストなのかを分けて判断する必要があります。[2][
3][
23]
Claude Opus 4.7については、MashableがAnthropicの主張として92%のhonesty rateと、より少ないsycophancyを報告しています。[15] Anthropicの発表でも、Claude Opus 4.7は内部research-agent benchmarkで6モジュール合計0.715のトップタイとなり、General FinanceではOpus 4.6の0.767から0.813に改善したとされています。[
17]
ただし、これらはSWE-Bench Pro、GPQA Diamond、BrowseCompのような能力ベンチマークとは別の評価軸です。実務で使う場合は、能力スコア、コスト、速度、幻覚リスク、監査しやすさを分けて見るべきです。[15][
17]
本番運用では、1つのモデルを全タスクに固定するより、用途別にルーティングする構成が現実的です。MindStudioのコード比較では、GPT-5.5は同じコーディングタスクでClaude Opus 4.7より72%少ない出力トークンを使ったとされる一方、複雑で推論負荷の高い大規模コードベースではOpus 4.7の丁寧さがコストを正当化し得るとされています。[28]
実務的には、標準的な生成・修正・端末系タスクはGPT-5.5、深いレビューや専門判断はClaude Opus 4.7、安価なオープンウェイト実験はKimi K2.6、長文脈・大量処理はDeepSeek V4 Proから試すのが自然です。[3][
4][
23][
28]
現時点の公開情報からは、GPT-5.5、Claude Opus 4.7、DeepSeek V4 Pro、Kimi K2.6の単一勝者を決めるより、用途別に選ぶのが最も安全です。GPT-5.5は総合・経済価値タスク、Claude Opus 4.7は推論・レビュー、Kimi K2.6はオープンウェイト系の速度と価格性能、DeepSeek V4 Proは長文脈と低API価格が主な強みです。[3][
4][
23][
26][
27]
加えて、Artificial Analysis内でもGPT-5.5 highをIntelligence 59とするモデルページと、Claude Opus 4.7 Adaptive Reasoning, Max EffortをIntelligence 57で首位とする一覧ページがあり、ページの更新時点や推論設定によって見え方が変わります。[27][
30] ベンチマークは出発点として使い、最後は自社の実タスク、予算、レイテンシ、失敗許容度で小さく並走評価するのが最も堅実です。[
4][
18][
28]
Tim studied print journalism at the University of Southern California. He currently splits his time between Brooklyn, NY and Charleston, SC. He's currently working on his second novel, a science-fiction book. Recommended For You Anthropic says Claude Opus 4...
How large are the DeepSeek V4 models? DeepSeek uses a Mixture of Experts (MoE) architecture. The Pro model contains 1.6 trillion total parameters (49 billion active) and requires an 865GB download. The Flash model contains 284 billion parameters (13 billion...
Image 7: logo Based on our internal research-agent benchmark, Claude Opus 4.7 has the strongest efficiency baseline we’ve seen for multi-step work. It tied for the top overall score across our six modules at 0.715 and delivered the most consistent long-cont...
Footnotes 1. General Testing Details We report results for Kimi K2.6 and Kimi K2.5 with thinking mode enabled, Claude Opus 4.6 with max effort, GPT-5.4 with xhigh reasoning effort, and Gemini 3.1 Pro with a high thinking level. Unless otherwise specified, a...
The Decoder Open-weight Kimi K2.6 takes on GPT-5.4 and Claude Opus 4.6 with agent swarms Matthias Bastian Image description Moonshot AI has released Kimi K2.6 as an open-weight model. It's built to match GPT-5.4 and Claude Opus 4.6 on coding benchmarks, and...
Model Name Intelligence Parameters Context Window Price Output Speed (t/s) Weights Providers Provider Benchmarks --- --- --- --- Kimi logo Kimi K2.6 Kimi 54 1.0KB (32B active at inference time) 256k $1.7 112 🤗 Novita Kimi SiliconFlow +6 more View DeepSeek...
➤ Number one in GDPval-AA with an Elo of 1785: GPT-5.5 (xhigh) leads Claude Opus 4.7 (max) by 30 pts and Gemini 3.1 Pro Preview by 470 pts. GDPval-AA is Artificial Analysis' benchmark that leverages OpenAI's GDPval dataset to evaluate models on real-world e...
No, GPT-5.5 (high) is proprietary. The model weights are not publicly available. GPT-5.5 (high) is a proprietary model and OpenAI has not disclosed the model size or parameter count. GPT-5.5 (high) achieves a score of 59 on the Artificial Analysis Intellige...
GPT-5.5 uses 72% fewer output tokens than Claude Opus 4.7 on the same coding tasks — a structural difference, not a minor gap. On raw benchmark quality, both models are competitive. Neither dominates on every task type. For high-volume agentic coding pipeli...
Which is the most intelligent AI model? Claude Opus 4.7 (Adaptive Reasoning, Max Effort) currently leads the Artificial Analysis Intelligence Index with a score of 57, out of 347 models evaluated. What are the top AI models? The top AI models by Intelligenc...