レポート公開済み2026年4月28日Last edited 2026年5月6日14 ソース

GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6：Benchmark 點睇、點揀

唔好將四個模型當成完全同條件的總排名去讀；公開 benchmark 的推理設定、評估時間同是否自報都未必一致，按用途揀會穩陣得多。[4][18] GPT 5.5 high 在 Artificial Analysis Intelligence Index 為 59，GPT 5.5 xhigh 在 GDPval AA 為 Elo 1785；Claude Opus 4.7 則在 LLM Stats 共通 10 個 benchmark 整理中以 6 勝 4 負領先 GPT 5.5。[4][26][27] Kimi K2.6 在 Artificial Analysis 開放模型表為 Intelligence 54、112 tokens/...

Studio Global AIで検索して事実確認 Discover からさらに閲覧する

17K0

GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6のベンチマーク比較を示す抽象的なAIダッシュボード — GPT-5.5・Claude Opus 4.7・DeepSeek V4・Kimi K2.6比較：ベンチマークで見る用途別の勝者4つの主要AIモデルを、総合性能・推論・速度・文脈長・価格の観点で比較するイメージ。
AI プロンプト
Create a landscape editorial hero image for this Studio Global article: GPT-5.5・Claude Opus 4.7・DeepSeek V4・Kimi K2.6比較：ベンチマークで見る用途別の勝者. Article summary: 4モデルを完全同一条件で横比較した公開表は確認できないため、単一の勝者ではなく用途別に選ぶのが安全です。総合候補はGPT 5.5（AA Intelligence 59、GDPval AA Elo 1785）とClaude Opus 4.7（共通10ベンチマークで6勝4敗）です。[4][26][27]. Topic tags: ai, llm benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](
openai.com

如果你只問「邊個模型最勁」，答案其實唔夠用。GPT-5.5、Claude Opus 4.7、DeepSeek V4 Pro、Kimi K2.6 呢四個模型，公開 benchmark 的推論設定、評估時間、第三方整理或供應商自報方式都唔完全一樣；硬砌成一條總排名，好容易睇錯重點。^[4]^[18]

本文會將 DeepSeek 主要放在有明確公開數字的 DeepSeek V4 Pro（Reasoning, Max Effort）去比較。Artificial Analysis 的開放模型表同時列出 Kimi K2.6 同 DeepSeek V4 Pro 的 Intelligence、上下文長度、Price 欄同輸出速度，較適合做同類型參考。^[23]

一句講晒：按用途揀，唔好迷信總榜

用途	第一候選	點解
總合性能、具經濟價值任務	GPT-5.5	GPT-5.5 high 在 Artificial Analysis Intelligence Index 為 59；GPT-5.5 xhigh 在 GDPval-AA 為 Elo 1785。^[26]^[27]
深推理、審閱、專業判斷	Claude Opus 4.7	LLM Stats 整理共通 10 個 benchmark，Claude Opus 4.7 以 6 勝 4 負領先 GPT-5.5。^[4]
終端機操作、瀏覽、長時間工具使用	GPT-5.5	LLM Stats 指 GPT-5.5 在 Terminal-Bench 2.0、BrowseComp、OSWorld-Verified、CyberGym 等長時間工具使用測試較強。^[4]
開放權重取向，重視速度同性價比	Kimi K2.6	Artificial Analysis 開放模型表列 Kimi K2.6 為 Intelligence 54、256k context、Price 欄 $1.7、112 tokens/s。^[23]
長上下文、大量處理、低 API 價	DeepSeek V4 Pro／DeepSeek V4 系	Artificial Analysis 列 DeepSeek V4 Pro 為 1M context；Mashable 報道 DeepSeek V4 API 價格低於 GPT-5.5 同 Claude Opus 4.7。^[3]^[23]

四個模型的主要訊號

模型	Benchmark 上見到的強項	價格同運作上的特點
GPT-5.5	GPT-5.5 high 在 Artificial Analysis Intelligence Index 為 59；GPT-5.5 xhigh 在 GDPval-AA 為 Elo 1785，據報較 Claude Opus 4.7 max 高約 30 分。^[26]^[27]	Mashable 報道 API 價為每 100 萬 input tokens $5、每 100 萬 output tokens $30。^[3]
Claude Opus 4.7	LLM Stats 的共通 10 benchmark 整理為 6 勝 4 負；Mashable 表中 Claude Opus 4.7 在 SWE-Bench Pro 為 64.3%、GPQA Diamond 為 94.2%、HLE with tools 為 54.7%。^[4]^[9]	Mashable 報道 API 價為每 100 萬 input tokens $5、每 100 萬 output tokens $25。^[3]
Kimi K2.6	Artificial Analysis 開放模型表列 Intelligence 54；The Decoder 引述 Moonshot AI 發表值，指 Kimi K2.6 在 HLE with Tools 為 54.0、SWE-Bench Pro 為 58.6、BrowseComp 為 83.2。^[20]^[23]	Artificial Analysis 同一表列 256k context、Price 欄 $1.7、112 tokens/s。^[23]
DeepSeek V4 Pro	Artificial Analysis 開放模型表列 Intelligence 52；DataCamp 整理指 DeepSeek V4 在純能力上並未超越 GPT-5.5 或 Claude Opus 4.7。^[16]^[23]	Artificial Analysis 同一表列 1M context、Price 欄 $2.2、36 tokens/s；Mashable 報道 DeepSeek V4 API 價為每 100 萬 input tokens $1.74、每 100 萬 output tokens $3.48。^[3]^[23]

GPT-5.5 vs Claude Opus 4.7：前沿模型唔係一刀切

GPT-5.5 同 Claude Opus 4.7 的勝負，會隨 benchmark 類型轉。Mashable 報道的主要數字顯示，Claude Opus 4.7 在 SWE-Bench Pro 同 GPQA Diamond 較高；GPT-5.5 則在 Terminal-Bench 2.0、Humanity's Last Exam、BrowseComp、ARC-AGI-1 Verified 較高。^[9]

Benchmark	GPT-5.5	Claude Opus 4.7	Mashable 表中領先者
SWE-Bench Pro	58.6%	64.3%	Claude Opus 4.7
Terminal-Bench 2.0	82.7%	69.4%	GPT-5.5
Humanity's Last Exam	40.6%	31.2%	GPT-5.5
Humanity's Last Exam with tools	52.2%	54.7%	Claude Opus 4.7
BrowseComp	84.4%	79.3%	GPT-5.5
GPQA Diamond	93.6%	94.2%	Claude Opus 4.7
ARC-AGI-1 Verified	94.5%	92.0%	GPT-5.5

另一邊，LLM Stats 將兩者共通 10 個 benchmark 整理後，指 Claude Opus 4.7 領先 6 個、GPT-5.5 領先 4 個。它的解讀係：Opus 4.7 較強在推理同審閱類測試，GPT-5.5 較強在長時間工具使用類測試。^[4]

不過，呢度要留神。LLM Stats 亦提醒，相關分數來自各供應商高推理層級的自報結果，形式上可以比較，但方法論未必完全一致。^[4] 例如 Humanity's Last Exam 相關項目，在不同來源下睇到的領先方向亦可能有差異。^[4]^[9]

Kimi K2.6 vs DeepSeek V4 Pro：開放權重取向，要速度定上下文？

Kimi K2.6 同 DeepSeek V4 Pro，與其硬同封閉前沿模型鬥總分，不如當成開放權重取向的部署候選去睇。Artificial Analysis 開放模型表的主要操作數字如下。^[23]

指標	Kimi K2.6	DeepSeek V4 Pro
Artificial Analysis Intelligence	54	52
Context window	256k	1.00M
Price 欄	$1.7	$2.2
Output speed	112 tokens/s	36 tokens/s

單睇呢張表，Kimi K2.6 在 Intelligence 同輸出速度較着數；DeepSeek V4 Pro 則勝在 1M context。^[23] The Decoder 亦引述 Moonshot AI 發表值，指 Kimi K2.6 在 HLE with Tools 為 54.0、SWE-Bench Pro 為 58.6、BrowseComp 為 83.2。^[20]

但 Kimi K2.6 的公開實驗唔等於同 GPT-5.5、Claude Opus 4.7 做完全同條件對決。Hugging Face 模型卡列明，Kimi K2.6 以 thinking mode、temperature 1.0、top-p 1.0、262,144 tokens 上下文長度等條件評估；主要比較對象亦係 Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro。^[18]

DeepSeek V4 Pro 更似係用長上下文同成本去打市場，而唔係以絕對能力稱王。DataCamp 整理指，DeepSeek V4 在純能力上未能超越 GPT-5.5 或 Claude Opus 4.7，但定位係用較低成本提供 near-frontier 表現。^[16]

睇價錢：唔好將幾種數字撈埋一齊

比較價格時，最少要分清三種數字。

第一種係 API token 單價。Mashable 報道，DeepSeek V4 為每 100 萬 input tokens $1.74、每 100 萬 output tokens $3.48；GPT-5.5 為 $5／$30；Claude Opus 4.7 為 $5／$25。^[3]

第二種係 Artificial Analysis 模型表的 Price 欄。Kimi K2.6 顯示為 $1.7，DeepSeek V4 Pro 為 $2.2；但呢個欄位唔應該直接當成 Mashable 的 API token 單價去比較。^[23]

第三種係跑 benchmark 的實際成本。Artificial Analysis 文章指，跑 Intelligence Index 時 DeepSeek V4 Pro 成本為 $1,071，Kimi K2.6 為 $948，Claude Opus 4.7 為 $4,811。^[2]

所以，話「DeepSeek 平」、「Kimi 抵」、「Claude 貴」之前，要先講清楚你講緊 API 單價、benchmark 成本，定係實際產品入面連同輸出 token 量、重試次數同 latency 一齊計的總成本。^[2]^[3]^[23]

安全性同可信度：唔可以用能力分數完全代替

Claude Opus 4.7 方面，Mashable 報道 Anthropic 的說法，指其 honesty rate 為 92%，並且較少 sycophancy，即較少過度迎合用戶。^[15] Anthropic 自身發表亦指，Claude Opus 4.7 在內部 research-agent benchmark 六個模組合計 0.715，並列最高；在 General Finance 模組由 Opus 4.6 的 0.767 提升至 0.813。^[17]

但呢些同 SWE-Bench Pro、GPQA Diamond、BrowseComp 呢類能力 benchmark 唔係同一條軸。實際落地時，應該分開睇能力分數、成本、速度、幻覺風險、審計同追溯容易度。^[15]^[17]

真正上 production：多數唔係一個模型打晒

如果係真實產品或工程流程，與其固定一個模型處理所有任務，更現實係做 routing：簡單、標準、成本敏感的任務交畀一個模型；高風險、高推理負荷的任務交畀另一個模型。

MindStudio 的編程比較指，GPT-5.5 在相同 coding tasks 上比 Claude Opus 4.7 少用 72% output tokens；但對於大型 codebase 入面複雜、推理要求高的任務，Opus 4.7 的詳盡程度可能足以抵消較高成本。^[28]

實務上，一個合理起步方法係：標準生成、修正、終端機或工具型任務先試 GPT-5.5；深度 review、專業判斷或高風險推理先試 Claude Opus 4.7；想做開放權重試驗同高速 agent pipeline 先試 Kimi K2.6；長上下文、大量文件或成本敏感 API 工作則先試 DeepSeek V4 Pro／DeepSeek V4 系。^[3]^[4]^[23]^[28]

最終判斷

以現有公開資料睇，GPT-5.5、Claude Opus 4.7、DeepSeek V4 Pro、Kimi K2.6 無一個可以穩陣講成所有用途的單一勝者。GPT-5.5 強在總合同經濟價值任務，Claude Opus 4.7 強在推理同審閱，Kimi K2.6 強在開放權重取向的速度同性價比，DeepSeek V4 Pro 則強在長上下文同 DeepSeek V4 系低 API 價。^[3]^[4]^[23]^[26]^[27]

另外，就算同樣係 Artificial Analysis，亦有 GPT-5.5 high 模型頁顯示 Intelligence 59，而另一個模型列表頁則顯示 Claude Opus 4.7 Adaptive Reasoning, Max Effort 以 Intelligence 57 排首位；頁面更新時間、納入模型範圍同推理設定都會影響觀感。^[27]^[30]

最穩陣做法係：將 benchmark 當起點，而唔係終點。最後應該用自己團隊的真實任務、小批量流量、預算、latency 要求同失敗容忍度，並行測試幾個候選模型，再決定 routing 規則。^[4]^[18]^[28]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AIで検索して事実確認

重要なポイント

唔好將四個模型當成完全同條件的總排名去讀；公開 benchmark 的推理設定、評估時間同是否自報都未必一致，按用途揀會穩陣得多。[4][18]
GPT 5.5 high 在 Artificial Analysis Intelligence Index 為 59，GPT 5.5 xhigh 在 GDPval AA 為 Elo 1785；Claude Opus 4.7 則在 LLM Stats 共通 10 個 benchmark 整理中以 6 勝 4 負領先 GPT 5.5。[4][26][27]
Kimi K2.6 在 Artificial Analysis 開放模型表為 Intelligence 54、112 tokens/s；DeepSeek V4 Pro 為 Intelligence 52、1M context。前者較突出速度，後者較突出長上下文同 DeepSeek V4 系低 API 價。[3][23]

人々も尋ねます

「GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6：Benchmark 點睇、點揀」の短い答えは何ですか?

唔好將四個模型當成完全同條件的總排名去讀；公開 benchmark 的推理設定、評估時間同是否自報都未必一致，按用途揀會穩陣得多。[4][18]

最初に検証する重要なポイントは何ですか?

次の実践では何をすればいいでしょうか？

Kimi K2.6 在 Artificial Analysis 開放模型表為 Intelligence 54、112 tokens/s；DeepSeek V4 Pro 為 Intelligence 52、1M context。前者較突出速度，後者較突出長上下文同 DeepSeek V4 系低 API 價。[3][23]

次にどの関連トピックを検討すればよいでしょうか?

別の角度からの引用や追加の引用については、「Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6比較：2026年ベンチマークの結論」に進みます。

関連ページを開く

これを何と比較すればいいでしょうか？

この回答を「DeepSeek V4を技術面から読む：100万トークン、MoE、API移行の要点」と照合してください。

関連ページを開く

研究を続けてください

Comparativa de benchmarks 2026 entre Claude Opus 4.7, GPT-5.5, DeepSeek V4 y Kimi K2.6

Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6比較：2026年ベンチマークの結論

Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6：2026年ベンチマーク比較

DeepSeek V4 工程架构示意图，包含 1M 上下文、MoE 专家路由和 API 服务化元素

DeepSeek V4を技術面から読む：100万トークン、MoE、API移行の要点

Northwest Timber と Southeast Timber：なぜ答えは「larger; larger」なのか

Northwest Timber と Southeast Timber：代替性が高いと、なぜ「larger; larger」になるのか

抽象 AI 晶片與多個聊天機器人平台競爭的示意圖，象徵 DeepSeek 挑戰 OpenAI、Claude、Gemini 與 Grok

DeepSeekはOpenAI、Claude、Gemini、Grokに勝てるのか　本当の焦点はコストと信頼

DeepSeekはOpenAI、Claude、Gemini、Grokに勝てるのか

研究に関する会話

あなた2026年4月25日

リサーチクエスチョン

GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6のベンチマークを調査し、比較してください。

Studio Global AI2026年4月25日38 ソース

引用された回答

提供された証拠だけでは、GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6を同一ベンチマーク上で厳密に横比較するには不十分です。確認できる範囲では、GPT-5.5は「新たな首位モデル」とされる一方、Claude Opus 4.7もArtificial Analysis系の文脈で首位級と示唆されており、Kimi K2.6は一部の公開モデル比較指標のみ数値が確認できます。^[3]^[7]^[34]

Key findings

モデル	確認できたベンチマーク・性能情報	比較上の解釈
GPT-5.5	Artificial Analysis関連記事のスニペットでは、2026年4月24日時点で「新たな主要/首位AIモデル」とされている。^[3] LinkedInスニペットにも「OpenAIのGPT-5.5が新たな首位AIモデル」とある。^[34]	総合性能で非常に強い可能性はあるが、提供証拠には具体的なスコア、評価項目、競合平均との差がないため、定量順位は確定できない。^[3]^[34]
Claude Opus 4.7	Mashableスニペットでは、AnthropicがClaude Opus 4.7について「92%のhonesty rate」と「より少ないsycophancy」を主張している。^[4] SourceForgeスニペットでは、Claude Opus 4.7は高度なソフトウェアエンジニアリングと複雑な問題解決での改善を目的にしたAnthropicの最新モデルと説明されている。^[6]	安全性・誠実性系の指標では具体値があるが、GPT-5.5やKimi K2.6と同じ総合ベンチマークでの数値比較はできない。^[4]^[6]
DeepSeek V4	Artificial Analysisの公開モデル比較スニペットに「DeepSeek V4 Pro」の記載はあるが、スコアや速度、価格などの数値は提示されていない。^[7]	Insufficient evidence. 提供証拠だけではDeepSeek V4のベンチマーク順位・強み・弱みを判断できない。^[7]
Kimi K2.6	Artificial Analysisの公開モデル比較スニペットでは、Kimi K2.6のIntelligenceが54、コンテキスト長が256k、価格が$1.7、出力速度が112 tokens/sと示されている。^[7]	4モデル中で最も具体的な公開比較数値が確認できるが、GPT-5.5やClaude Opus 4.7と同一指標で直接比較できる証拠はない。^[7]

Evidence notes

Stanford HAIの2026年AI Indexでは、2026年2月時点のSWE-bench Verifiedで上位モデルが70%台前半〜中盤に密集し、Claude 4.5 Opus high reasoningが約76.8%で首位、KimiK2.5、GPT-5.2、Gemini 3 Flash high reasoningが70%〜76%の範囲に入っていたとされている。^[2]
ただし、このStanford HAIの記述はClaude Opus 4.7、GPT-5.5、Kimi K2.6、DeepSeek V4そのものではなく、直前世代または別モデルの状況を示す背景情報にとどまる。^[2]
SciCode Benchの提供スニペットにはClaude Sonnet 4 high、Gemini 2.5 Pro、GPT-5-1-codex、Grok 4などの記載があるが、比較対象であるGPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6の直接スコアは確認できない。^[1]
GPT-5.5については「新たな首位」とする記述がある一方、別スニペットではClaude Opus 4.7もArtificial Analysis Intelligence文脈で首位に位置するように読めるため、時点差、評価セット差、またはスニペットの文脈差による不整合がある可能性がある。^[3]^[34]

Limitations / uncertainty

Insufficient evidence. 4モデルすべてを同一ベンチマーク、同一日付、同一推論設定で比較した表やスコアは、提供証拠内にはありません。^[1]^[3]^[5]^[7]^[34]
DeepSeek V4は特に情報が不足しており、提供証拠では「DeepSeek V4 Pro」というモデル名の出現以上の定量情報を確認できません。^[7]
Claude Opus 4.7の「92% honesty rate」は安全性・誠実性に関する指標であり、コーディング、数学、エージェント性能、総合知能スコアと同列には扱えません。^[4]
Kimi K2.6のIntelligence 54、256k context、$1.7、112 tokens/sは有用な比較材料ですが、GPT-5.5やClaude Opus 4.7の同じ列の数値が提供されていないため、相対順位は出せません。^[7]

Summary

現時点の提供証拠で最も強い総合性能シグナルがあるのはGPT-5.5ですが、数値スコアはありません。^[3]^[34]
Claude Opus 4.7は安全性・誠実性で92%という具体値があり、ソフトウェアエンジニアリングや複雑問題解決の改善が主張されていますが、総合スコア比較はできません。^[4]^[6]
Kimi K2.6はIntelligence 54、256k context、$1.7、112 tokens/sという具体的な公開比較値がありますが、他3モデルとの同一指標比較は不足しています。^[7]
DeepSeek V4は提供証拠だけでは評価不能です。^[7]

情報源

[2] DeepSeek is back among the leading open weights models with V4 Pro ...artificialanalysis.ai
Lower cost than frontier models, but high token usage keeps costs above most open weights peers: DeepSeek V4 Pro costs $1,071 to run the Artificial Analysis Intelligence Index, more than 4x cheaper than Claude Opus 4.7 ($4,811) but above several open weight...
[3] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com
Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...
[4] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarksllm-stats.com
The Verdict On the 10 benchmarks both providers report, Opus 4.7 leads on 6 and GPT-5.5 leads on 4. The leads cluster by category, not by overall quality: Opus 4.7 is ahead on the reasoning-heavy and review-grade tests (GPQA Diamond, HLE with and without to...
[9] OpenAI’s GPT-5.5 vs Claude Opus 4.7: Which is better? | Mashablemashable.com
Thanks for signing up! SWE-Bench Pro: GPT-5.5 scored 58.6; Opus 4.7 scored 64.3 percent Terminal-Bench 2.0: GPT-5.5 scored 82.7 percent; Opus 4.7 scored 69.4 percent Humanity's Last Exam: GPT-5.5 scored 40.6 percent; Opus 4.7 scored 31.2 percent\ Humanity's...
[15] Anthropic releases Claude Opus 4.7: How to try it, benchmarks, safetymashable.com
Tim studied print journalism at the University of Southern California. He currently splits his time between Brooklyn, NY and Charleston, SC. He's currently working on his second novel, a science-fiction book. Recommended For You Anthropic says Claude Opus 4...
[16] DeepSeek V4: Features, Benchmarks, and Comparisons - DataCampdatacamp.com
How large are the DeepSeek V4 models? DeepSeek uses a Mixture of Experts (MoE) architecture. The Pro model contains 1.6 trillion total parameters (49 billion active) and requires an 865GB download. The Flash model contains 284 billion parameters (13 billion...
[17] Introducing Claude Opus 4.7anthropic.com
Image 7: logo Based on our internal research-agent benchmark, Claude Opus 4.7 has the strongest efficiency baseline we’ve seen for multi-step work. It tied for the top overall score across our six modules at 0.715 and delivered the most consistent long-cont...
[18] moonshotai/Kimi-K2.6 - Hugging Facehuggingface.co
Footnotes 1. General Testing Details We report results for Kimi K2.6 and Kimi K2.5 with thinking mode enabled, Claude Opus 4.6 with max effort, GPT-5.4 with xhigh reasoning effort, and Gemini 3.1 Pro with a high thinking level. Unless otherwise specified, a...
[20] Open-weight Kimi K2.6 takes on GPT-5.4 and Claude Opus 4.6 with agent swarmsthe-decoder.com
The Decoder Open-weight Kimi K2.6 takes on GPT-5.4 and Claude Opus 4.6 with agent swarms Matthias Bastian Image description Moonshot AI has released Kimi K2.6 as an open-weight model. It's built to match GPT-5.4 and Claude Opus 4.6 on coding benchmarks, and...
[23] Comparison of Open Source AI Models across Intelligence, Performance, Price, Context Window, and more | Artificial Analysisartificialanalysis.ai
Model Name Intelligence Parameters Context Window Price Output Speed (t/s) Weights Providers Provider Benchmarks --- --- --- --- Kimi logo Kimi K2.6 Kimi 54 1.0KB (32B active at inference time) 256k $1.7 112 🤗 Novita Kimi SiliconFlow +6 more View DeepSeek...
[26] OpenAI's GPT-5.5 is the new leading AI model - Artificial Analysisartificialanalysis.ai
➤ Number one in GDPval-AA with an Elo of 1785: GPT-5.5 (xhigh) leads Claude Opus 4.7 (max) by 30 pts and Gemini 3.1 Pro Preview by 470 pts. GDPval-AA is Artificial Analysis' benchmark that leverages OpenAI's GDPval dataset to evaluate models on real-world e...
[27] GPT-5.5 (high) - Intelligence, Performance & Price Analysisartificialanalysis.ai
No, GPT-5.5 (high) is proprietary. The model weights are not publicly available. GPT-5.5 (high) is a proprietary model and OpenAI has not disclosed the model size or parameter count. GPT-5.5 (high) achieves a score of 59 on the Artificial Analysis Intellige...
[28] GPT-5.5 vs Claude Opus 4.7: Real-World Coding Performance Comparedmindstudio.ai
GPT-5.5 uses 72% fewer output tokens than Claude Opus 4.7 on the same coding tasks — a structural difference, not a minor gap. On raw benchmark quality, both models are competitive. Neither dominates on every task type. For high-volume agentic coding pipeli...
[30] Comparison of AI Models across Intelligence, Performance, and Priceartificialanalysis.ai
Which is the most intelligent AI model? Claude Opus 4.7 (Adaptive Reasoning, Max Effort) currently leads the Artificial Analysis Intelligence Index with a score of 57, out of 347 models evaluated. What are the top AI models? The top AI models by Intelligenc...

トレンドを発見する

レポート公開済み2026年4月28日Last edited 2026年5月6日14 ソース

GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6：Benchmark 點睇、點揀

Studio Global AIで検索して事実確認 Discover からさらに閲覧する

17K0

一句講晒：按用途揀，唔好迷信總榜

用途	第一候選	點解
總合性能、具經濟價值任務	GPT-5.5	GPT-5.5 high 在 Artificial Analysis Intelligence Index 為 59；GPT-5.5 xhigh 在 GDPval-AA 為 Elo 1785。^[26]^[27]
深推理、審閱、專業判斷	Claude Opus 4.7	LLM Stats 整理共通 10 個 benchmark，Claude Opus 4.7 以 6 勝 4 負領先 GPT-5.5。^[4]
終端機操作、瀏覽、長時間工具使用	GPT-5.5	LLM Stats 指 GPT-5.5 在 Terminal-Bench 2.0、BrowseComp、OSWorld-Verified、CyberGym 等長時間工具使用測試較強。^[4]
開放權重取向，重視速度同性價比	Kimi K2.6	Artificial Analysis 開放模型表列 Kimi K2.6 為 Intelligence 54、256k context、Price 欄 $1.7、112 tokens/s。^[23]
長上下文、大量處理、低 API 價	DeepSeek V4 Pro／DeepSeek V4 系	Artificial Analysis 列 DeepSeek V4 Pro 為 1M context；Mashable 報道 DeepSeek V4 API 價格低於 GPT-5.5 同 Claude Opus 4.7。^[3]^[23]

四個模型的主要訊號

模型	Benchmark 上見到的強項	價格同運作上的特點
GPT-5.5	GPT-5.5 high 在 Artificial Analysis Intelligence Index 為 59；GPT-5.5 xhigh 在 GDPval-AA 為 Elo 1785，據報較 Claude Opus 4.7 max 高約 30 分。^[26]^[27]	Mashable 報道 API 價為每 100 萬 input tokens $5、每 100 萬 output tokens $30。^[3]
Claude Opus 4.7	LLM Stats 的共通 10 benchmark 整理為 6 勝 4 負；Mashable 表中 Claude Opus 4.7 在 SWE-Bench Pro 為 64.3%、GPQA Diamond 為 94.2%、HLE with tools 為 54.7%。^[4]^[9]	Mashable 報道 API 價為每 100 萬 input tokens $5、每 100 萬 output tokens $25。^[3]
Kimi K2.6	Artificial Analysis 開放模型表列 Intelligence 54；The Decoder 引述 Moonshot AI 發表值，指 Kimi K2.6 在 HLE with Tools 為 54.0、SWE-Bench Pro 為 58.6、BrowseComp 為 83.2。^[20]^[23]	Artificial Analysis 同一表列 256k context、Price 欄 $1.7、112 tokens/s。^[23]
DeepSeek V4 Pro	Artificial Analysis 開放模型表列 Intelligence 52；DataCamp 整理指 DeepSeek V4 在純能力上並未超越 GPT-5.5 或 Claude Opus 4.7。^[16]^[23]	Artificial Analysis 同一表列 1M context、Price 欄 $2.2、36 tokens/s；Mashable 報道 DeepSeek V4 API 價為每 100 萬 input tokens $1.74、每 100 萬 output tokens $3.48。^[3]^[23]

GPT-5.5 vs Claude Opus 4.7：前沿模型唔係一刀切

Benchmark	GPT-5.5	Claude Opus 4.7	Mashable 表中領先者
SWE-Bench Pro	58.6%	64.3%	Claude Opus 4.7
Terminal-Bench 2.0	82.7%	69.4%	GPT-5.5
Humanity's Last Exam	40.6%	31.2%	GPT-5.5
Humanity's Last Exam with tools	52.2%	54.7%	Claude Opus 4.7
BrowseComp	84.4%	79.3%	GPT-5.5
GPQA Diamond	93.6%	94.2%	Claude Opus 4.7
ARC-AGI-1 Verified	94.5%	92.0%	GPT-5.5

Kimi K2.6 vs DeepSeek V4 Pro：開放權重取向，要速度定上下文？

Kimi K2.6 同 DeepSeek V4 Pro，與其硬同封閉前沿模型鬥總分，不如當成開放權重取向的部署候選去睇。Artificial Analysis 開放模型表的主要操作數字如下。^[23]

指標	Kimi K2.6	DeepSeek V4 Pro
Artificial Analysis Intelligence	54	52
Context window	256k	1.00M
Price 欄	$1.7	$2.2
Output speed	112 tokens/s	36 tokens/s

睇價錢：唔好將幾種數字撈埋一齊

比較價格時，最少要分清三種數字。

第一種係 API token 單價。Mashable 報道，DeepSeek V4 為每 100 萬 input tokens $1.74、每 100 萬 output tokens $3.48；GPT-5.5 為 $5／$30；Claude Opus 4.7 為 $5／$25。^[3]

第二種係 Artificial Analysis 模型表的 Price 欄。Kimi K2.6 顯示為 $1.7，DeepSeek V4 Pro 為 $2.2；但呢個欄位唔應該直接當成 Mashable 的 API token 單價去比較。^[23]

第三種係跑 benchmark 的實際成本。Artificial Analysis 文章指，跑 Intelligence Index 時 DeepSeek V4 Pro 成本為 $1,071，Kimi K2.6 為 $948，Claude Opus 4.7 為 $4,811。^[2]

安全性同可信度：唔可以用能力分數完全代替

真正上 production：多數唔係一個模型打晒

最終判斷

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AIで検索して事実確認

重要なポイント

唔好將四個模型當成完全同條件的總排名去讀；公開 benchmark 的推理設定、評估時間同是否自報都未必一致，按用途揀會穩陣得多。[4][18]
GPT 5.5 high 在 Artificial Analysis Intelligence Index 為 59，GPT 5.5 xhigh 在 GDPval AA 為 Elo 1785；Claude Opus 4.7 則在 LLM Stats 共通 10 個 benchmark 整理中以 6 勝 4 負領先 GPT 5.5。[4][26][27]
Kimi K2.6 在 Artificial Analysis 開放模型表為 Intelligence 54、112 tokens/s；DeepSeek V4 Pro 為 Intelligence 52、1M context。前者較突出速度，後者較突出長上下文同 DeepSeek V4 系低 API 價。[3][23]

人々も尋ねます

「GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6：Benchmark 點睇、點揀」の短い答えは何ですか?

唔好將四個模型當成完全同條件的總排名去讀；公開 benchmark 的推理設定、評估時間同是否自報都未必一致，按用途揀會穩陣得多。[4][18]

最初に検証する重要なポイントは何ですか?

次の実践では何をすればいいでしょうか？

次にどの関連トピックを検討すればよいでしょうか?

別の角度からの引用や追加の引用については、「Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6比較：2026年ベンチマークの結論」に進みます。

関連ページを開く

これを何と比較すればいいでしょうか？

この回答を「DeepSeek V4を技術面から読む：100万トークン、MoE、API移行の要点」と照合してください。

関連ページを開く

研究を続けてください

Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6比較：2026年ベンチマークの結論

Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6：2026年ベンチマーク比較

DeepSeek V4を技術面から読む：100万トークン、MoE、API移行の要点

Northwest Timber と Southeast Timber：なぜ答えは「larger; larger」なのか

Northwest Timber と Southeast Timber：代替性が高いと、なぜ「larger; larger」になるのか

DeepSeekはOpenAI、Claude、Gemini、Grokに勝てるのか　本当の焦点はコストと信頼

DeepSeekはOpenAI、Claude、Gemini、Grokに勝てるのか

研究に関する会話

あなた2026年4月25日

リサーチクエスチョン

GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6のベンチマークを調査し、比較してください。

Studio Global AI2026年4月25日38 ソース

引用された回答

Key findings

モデル	確認できたベンチマーク・性能情報	比較上の解釈
GPT-5.5	Artificial Analysis関連記事のスニペットでは、2026年4月24日時点で「新たな主要/首位AIモデル」とされている。^[3] LinkedInスニペットにも「OpenAIのGPT-5.5が新たな首位AIモデル」とある。^[34]	総合性能で非常に強い可能性はあるが、提供証拠には具体的なスコア、評価項目、競合平均との差がないため、定量順位は確定できない。^[3]^[34]
Claude Opus 4.7	Mashableスニペットでは、AnthropicがClaude Opus 4.7について「92%のhonesty rate」と「より少ないsycophancy」を主張している。^[4] SourceForgeスニペットでは、Claude Opus 4.7は高度なソフトウェアエンジニアリングと複雑な問題解決での改善を目的にしたAnthropicの最新モデルと説明されている。^[6]	安全性・誠実性系の指標では具体値があるが、GPT-5.5やKimi K2.6と同じ総合ベンチマークでの数値比較はできない。^[4]^[6]
DeepSeek V4	Artificial Analysisの公開モデル比較スニペットに「DeepSeek V4 Pro」の記載はあるが、スコアや速度、価格などの数値は提示されていない。^[7]	Insufficient evidence. 提供証拠だけではDeepSeek V4のベンチマーク順位・強み・弱みを判断できない。^[7]
Kimi K2.6	Artificial Analysisの公開モデル比較スニペットでは、Kimi K2.6のIntelligenceが54、コンテキスト長が256k、価格が$1.7、出力速度が112 tokens/sと示されている。^[7]	4モデル中で最も具体的な公開比較数値が確認できるが、GPT-5.5やClaude Opus 4.7と同一指標で直接比較できる証拠はない。^[7]

Evidence notes

Stanford HAIの2026年AI Indexでは、2026年2月時点のSWE-bench Verifiedで上位モデルが70%台前半〜中盤に密集し、Claude 4.5 Opus high reasoningが約76.8%で首位、KimiK2.5、GPT-5.2、Gemini 3 Flash high reasoningが70%〜76%の範囲に入っていたとされている。^[2]
ただし、このStanford HAIの記述はClaude Opus 4.7、GPT-5.5、Kimi K2.6、DeepSeek V4そのものではなく、直前世代または別モデルの状況を示す背景情報にとどまる。^[2]
SciCode Benchの提供スニペットにはClaude Sonnet 4 high、Gemini 2.5 Pro、GPT-5-1-codex、Grok 4などの記載があるが、比較対象であるGPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6の直接スコアは確認できない。^[1]
GPT-5.5については「新たな首位」とする記述がある一方、別スニペットではClaude Opus 4.7もArtificial Analysis Intelligence文脈で首位に位置するように読めるため、時点差、評価セット差、またはスニペットの文脈差による不整合がある可能性がある。^[3]^[34]

Limitations / uncertainty

Insufficient evidence. 4モデルすべてを同一ベンチマーク、同一日付、同一推論設定で比較した表やスコアは、提供証拠内にはありません。^[1]^[3]^[5]^[7]^[34]
DeepSeek V4は特に情報が不足しており、提供証拠では「DeepSeek V4 Pro」というモデル名の出現以上の定量情報を確認できません。^[7]
Claude Opus 4.7の「92% honesty rate」は安全性・誠実性に関する指標であり、コーディング、数学、エージェント性能、総合知能スコアと同列には扱えません。^[4]
Kimi K2.6のIntelligence 54、256k context、$1.7、112 tokens/sは有用な比較材料ですが、GPT-5.5やClaude Opus 4.7の同じ列の数値が提供されていないため、相対順位は出せません。^[7]

Summary

現時点の提供証拠で最も強い総合性能シグナルがあるのはGPT-5.5ですが、数値スコアはありません。^[3]^[34]
Claude Opus 4.7は安全性・誠実性で92%という具体値があり、ソフトウェアエンジニアリングや複雑問題解決の改善が主張されていますが、総合スコア比較はできません。^[4]^[6]
Kimi K2.6はIntelligence 54、256k context、$1.7、112 tokens/sという具体的な公開比較値がありますが、他3モデルとの同一指標比較は不足しています。^[7]
DeepSeek V4は提供証拠だけでは評価不能です。^[7]

情報源

[2] DeepSeek is back among the leading open weights models with V4 Pro ...artificialanalysis.ai
Lower cost than frontier models, but high token usage keeps costs above most open weights peers: DeepSeek V4 Pro costs $1,071 to run the Artificial Analysis Intelligence Index, more than 4x cheaper than Claude Opus 4.7 ($4,811) but above several open weight...
[3] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com
Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...
[4] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarksllm-stats.com
The Verdict On the 10 benchmarks both providers report, Opus 4.7 leads on 6 and GPT-5.5 leads on 4. The leads cluster by category, not by overall quality: Opus 4.7 is ahead on the reasoning-heavy and review-grade tests (GPQA Diamond, HLE with and without to...
[9] OpenAI’s GPT-5.5 vs Claude Opus 4.7: Which is better? | Mashablemashable.com
Thanks for signing up! SWE-Bench Pro: GPT-5.5 scored 58.6; Opus 4.7 scored 64.3 percent Terminal-Bench 2.0: GPT-5.5 scored 82.7 percent; Opus 4.7 scored 69.4 percent Humanity's Last Exam: GPT-5.5 scored 40.6 percent; Opus 4.7 scored 31.2 percent\ Humanity's...
[15] Anthropic releases Claude Opus 4.7: How to try it, benchmarks, safetymashable.com
Tim studied print journalism at the University of Southern California. He currently splits his time between Brooklyn, NY and Charleston, SC. He's currently working on his second novel, a science-fiction book. Recommended For You Anthropic says Claude Opus 4...
[16] DeepSeek V4: Features, Benchmarks, and Comparisons - DataCampdatacamp.com
How large are the DeepSeek V4 models? DeepSeek uses a Mixture of Experts (MoE) architecture. The Pro model contains 1.6 trillion total parameters (49 billion active) and requires an 865GB download. The Flash model contains 284 billion parameters (13 billion...
[17] Introducing Claude Opus 4.7anthropic.com
Image 7: logo Based on our internal research-agent benchmark, Claude Opus 4.7 has the strongest efficiency baseline we’ve seen for multi-step work. It tied for the top overall score across our six modules at 0.715 and delivered the most consistent long-cont...
[18] moonshotai/Kimi-K2.6 - Hugging Facehuggingface.co
Footnotes 1. General Testing Details We report results for Kimi K2.6 and Kimi K2.5 with thinking mode enabled, Claude Opus 4.6 with max effort, GPT-5.4 with xhigh reasoning effort, and Gemini 3.1 Pro with a high thinking level. Unless otherwise specified, a...
[20] Open-weight Kimi K2.6 takes on GPT-5.4 and Claude Opus 4.6 with agent swarmsthe-decoder.com
The Decoder Open-weight Kimi K2.6 takes on GPT-5.4 and Claude Opus 4.6 with agent swarms Matthias Bastian Image description Moonshot AI has released Kimi K2.6 as an open-weight model. It's built to match GPT-5.4 and Claude Opus 4.6 on coding benchmarks, and...
[23] Comparison of Open Source AI Models across Intelligence, Performance, Price, Context Window, and more | Artificial Analysisartificialanalysis.ai
Model Name Intelligence Parameters Context Window Price Output Speed (t/s) Weights Providers Provider Benchmarks --- --- --- --- Kimi logo Kimi K2.6 Kimi 54 1.0KB (32B active at inference time) 256k $1.7 112 🤗 Novita Kimi SiliconFlow +6 more View DeepSeek...
[26] OpenAI's GPT-5.5 is the new leading AI model - Artificial Analysisartificialanalysis.ai
➤ Number one in GDPval-AA with an Elo of 1785: GPT-5.5 (xhigh) leads Claude Opus 4.7 (max) by 30 pts and Gemini 3.1 Pro Preview by 470 pts. GDPval-AA is Artificial Analysis' benchmark that leverages OpenAI's GDPval dataset to evaluate models on real-world e...
[27] GPT-5.5 (high) - Intelligence, Performance & Price Analysisartificialanalysis.ai
No, GPT-5.5 (high) is proprietary. The model weights are not publicly available. GPT-5.5 (high) is a proprietary model and OpenAI has not disclosed the model size or parameter count. GPT-5.5 (high) achieves a score of 59 on the Artificial Analysis Intellige...
[28] GPT-5.5 vs Claude Opus 4.7: Real-World Coding Performance Comparedmindstudio.ai
GPT-5.5 uses 72% fewer output tokens than Claude Opus 4.7 on the same coding tasks — a structural difference, not a minor gap. On raw benchmark quality, both models are competitive. Neither dominates on every task type. For high-volume agentic coding pipeli...
[30] Comparison of AI Models across Intelligence, Performance, and Priceartificialanalysis.ai
Which is the most intelligent AI model? Claude Opus 4.7 (Adaptive Reasoning, Max Effort) currently leads the Artificial Analysis Intelligence Index with a score of 57, out of 347 models evaluated. What are the top AI models? The top AI models by Intelligenc...

トレンドを発見する

レポート公開済み2026年4月28日Last edited 2026年5月6日14 ソース

GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6：Benchmark 點睇、點揀

Studio Global AIで検索して事実確認 Discover からさらに閲覧する

17K0

一句講晒：按用途揀，唔好迷信總榜

用途	第一候選	點解
總合性能、具經濟價值任務	GPT-5.5	GPT-5.5 high 在 Artificial Analysis Intelligence Index 為 59；GPT-5.5 xhigh 在 GDPval-AA 為 Elo 1785。^[26]^[27]
深推理、審閱、專業判斷	Claude Opus 4.7	LLM Stats 整理共通 10 個 benchmark，Claude Opus 4.7 以 6 勝 4 負領先 GPT-5.5。^[4]
終端機操作、瀏覽、長時間工具使用	GPT-5.5	LLM Stats 指 GPT-5.5 在 Terminal-Bench 2.0、BrowseComp、OSWorld-Verified、CyberGym 等長時間工具使用測試較強。^[4]
開放權重取向，重視速度同性價比	Kimi K2.6	Artificial Analysis 開放模型表列 Kimi K2.6 為 Intelligence 54、256k context、Price 欄 $1.7、112 tokens/s。^[23]
長上下文、大量處理、低 API 價	DeepSeek V4 Pro／DeepSeek V4 系	Artificial Analysis 列 DeepSeek V4 Pro 為 1M context；Mashable 報道 DeepSeek V4 API 價格低於 GPT-5.5 同 Claude Opus 4.7。^[3]^[23]

四個模型的主要訊號

模型	Benchmark 上見到的強項	價格同運作上的特點
GPT-5.5	GPT-5.5 high 在 Artificial Analysis Intelligence Index 為 59；GPT-5.5 xhigh 在 GDPval-AA 為 Elo 1785，據報較 Claude Opus 4.7 max 高約 30 分。^[26]^[27]	Mashable 報道 API 價為每 100 萬 input tokens $5、每 100 萬 output tokens $30。^[3]
Claude Opus 4.7	LLM Stats 的共通 10 benchmark 整理為 6 勝 4 負；Mashable 表中 Claude Opus 4.7 在 SWE-Bench Pro 為 64.3%、GPQA Diamond 為 94.2%、HLE with tools 為 54.7%。^[4]^[9]	Mashable 報道 API 價為每 100 萬 input tokens $5、每 100 萬 output tokens $25。^[3]
Kimi K2.6	Artificial Analysis 開放模型表列 Intelligence 54；The Decoder 引述 Moonshot AI 發表值，指 Kimi K2.6 在 HLE with Tools 為 54.0、SWE-Bench Pro 為 58.6、BrowseComp 為 83.2。^[20]^[23]	Artificial Analysis 同一表列 256k context、Price 欄 $1.7、112 tokens/s。^[23]
DeepSeek V4 Pro	Artificial Analysis 開放模型表列 Intelligence 52；DataCamp 整理指 DeepSeek V4 在純能力上並未超越 GPT-5.5 或 Claude Opus 4.7。^[16]^[23]	Artificial Analysis 同一表列 1M context、Price 欄 $2.2、36 tokens/s；Mashable 報道 DeepSeek V4 API 價為每 100 萬 input tokens $1.74、每 100 萬 output tokens $3.48。^[3]^[23]

GPT-5.5 vs Claude Opus 4.7：前沿模型唔係一刀切

Benchmark	GPT-5.5	Claude Opus 4.7	Mashable 表中領先者
SWE-Bench Pro	58.6%	64.3%	Claude Opus 4.7
Terminal-Bench 2.0	82.7%	69.4%	GPT-5.5
Humanity's Last Exam	40.6%	31.2%	GPT-5.5
Humanity's Last Exam with tools	52.2%	54.7%	Claude Opus 4.7
BrowseComp	84.4%	79.3%	GPT-5.5
GPQA Diamond	93.6%	94.2%	Claude Opus 4.7
ARC-AGI-1 Verified	94.5%	92.0%	GPT-5.5

Kimi K2.6 vs DeepSeek V4 Pro：開放權重取向，要速度定上下文？

Kimi K2.6 同 DeepSeek V4 Pro，與其硬同封閉前沿模型鬥總分，不如當成開放權重取向的部署候選去睇。Artificial Analysis 開放模型表的主要操作數字如下。^[23]

指標	Kimi K2.6	DeepSeek V4 Pro
Artificial Analysis Intelligence	54	52
Context window	256k	1.00M
Price 欄	$1.7	$2.2
Output speed	112 tokens/s	36 tokens/s

睇價錢：唔好將幾種數字撈埋一齊

比較價格時，最少要分清三種數字。

第一種係 API token 單價。Mashable 報道，DeepSeek V4 為每 100 萬 input tokens $1.74、每 100 萬 output tokens $3.48；GPT-5.5 為 $5／$30；Claude Opus 4.7 為 $5／$25。^[3]

第二種係 Artificial Analysis 模型表的 Price 欄。Kimi K2.6 顯示為 $1.7，DeepSeek V4 Pro 為 $2.2；但呢個欄位唔應該直接當成 Mashable 的 API token 單價去比較。^[23]

第三種係跑 benchmark 的實際成本。Artificial Analysis 文章指，跑 Intelligence Index 時 DeepSeek V4 Pro 成本為 $1,071，Kimi K2.6 為 $948，Claude Opus 4.7 為 $4,811。^[2]

安全性同可信度：唔可以用能力分數完全代替

真正上 production：多數唔係一個模型打晒

最終判斷

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AIで検索して事実確認

重要なポイント

唔好將四個模型當成完全同條件的總排名去讀；公開 benchmark 的推理設定、評估時間同是否自報都未必一致，按用途揀會穩陣得多。[4][18]
GPT 5.5 high 在 Artificial Analysis Intelligence Index 為 59，GPT 5.5 xhigh 在 GDPval AA 為 Elo 1785；Claude Opus 4.7 則在 LLM Stats 共通 10 個 benchmark 整理中以 6 勝 4 負領先 GPT 5.5。[4][26][27]
Kimi K2.6 在 Artificial Analysis 開放模型表為 Intelligence 54、112 tokens/s；DeepSeek V4 Pro 為 Intelligence 52、1M context。前者較突出速度，後者較突出長上下文同 DeepSeek V4 系低 API 價。[3][23]

人々も尋ねます

「GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6：Benchmark 點睇、點揀」の短い答えは何ですか?

唔好將四個模型當成完全同條件的總排名去讀；公開 benchmark 的推理設定、評估時間同是否自報都未必一致，按用途揀會穩陣得多。[4][18]

最初に検証する重要なポイントは何ですか?

次の実践では何をすればいいでしょうか？

次にどの関連トピックを検討すればよいでしょうか?

別の角度からの引用や追加の引用については、「Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6比較：2026年ベンチマークの結論」に進みます。

関連ページを開く

これを何と比較すればいいでしょうか？

この回答を「DeepSeek V4を技術面から読む：100万トークン、MoE、API移行の要点」と照合してください。

関連ページを開く

研究を続けてください

研究に関する会話

あなた2026年4月25日

リサーチクエスチョン

GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6のベンチマークを調査し、比較してください。

Studio Global AI2026年4月25日38 ソース

引用された回答

Key findings

モデル	確認できたベンチマーク・性能情報	比較上の解釈
GPT-5.5	Artificial Analysis関連記事のスニペットでは、2026年4月24日時点で「新たな主要/首位AIモデル」とされている。^[3] LinkedInスニペットにも「OpenAIのGPT-5.5が新たな首位AIモデル」とある。^[34]	総合性能で非常に強い可能性はあるが、提供証拠には具体的なスコア、評価項目、競合平均との差がないため、定量順位は確定できない。^[3]^[34]
Claude Opus 4.7	Mashableスニペットでは、AnthropicがClaude Opus 4.7について「92%のhonesty rate」と「より少ないsycophancy」を主張している。^[4] SourceForgeスニペットでは、Claude Opus 4.7は高度なソフトウェアエンジニアリングと複雑な問題解決での改善を目的にしたAnthropicの最新モデルと説明されている。^[6]	安全性・誠実性系の指標では具体値があるが、GPT-5.5やKimi K2.6と同じ総合ベンチマークでの数値比較はできない。^[4]^[6]
DeepSeek V4	Artificial Analysisの公開モデル比較スニペットに「DeepSeek V4 Pro」の記載はあるが、スコアや速度、価格などの数値は提示されていない。^[7]	Insufficient evidence. 提供証拠だけではDeepSeek V4のベンチマーク順位・強み・弱みを判断できない。^[7]
Kimi K2.6	Artificial Analysisの公開モデル比較スニペットでは、Kimi K2.6のIntelligenceが54、コンテキスト長が256k、価格が$1.7、出力速度が112 tokens/sと示されている。^[7]	4モデル中で最も具体的な公開比較数値が確認できるが、GPT-5.5やClaude Opus 4.7と同一指標で直接比較できる証拠はない。^[7]

Evidence notes

Stanford HAIの2026年AI Indexでは、2026年2月時点のSWE-bench Verifiedで上位モデルが70%台前半〜中盤に密集し、Claude 4.5 Opus high reasoningが約76.8%で首位、KimiK2.5、GPT-5.2、Gemini 3 Flash high reasoningが70%〜76%の範囲に入っていたとされている。^[2]
ただし、このStanford HAIの記述はClaude Opus 4.7、GPT-5.5、Kimi K2.6、DeepSeek V4そのものではなく、直前世代または別モデルの状況を示す背景情報にとどまる。^[2]
SciCode Benchの提供スニペットにはClaude Sonnet 4 high、Gemini 2.5 Pro、GPT-5-1-codex、Grok 4などの記載があるが、比較対象であるGPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6の直接スコアは確認できない。^[1]
GPT-5.5については「新たな首位」とする記述がある一方、別スニペットではClaude Opus 4.7もArtificial Analysis Intelligence文脈で首位に位置するように読めるため、時点差、評価セット差、またはスニペットの文脈差による不整合がある可能性がある。^[3]^[34]

Limitations / uncertainty

Insufficient evidence. 4モデルすべてを同一ベンチマーク、同一日付、同一推論設定で比較した表やスコアは、提供証拠内にはありません。^[1]^[3]^[5]^[7]^[34]
DeepSeek V4は特に情報が不足しており、提供証拠では「DeepSeek V4 Pro」というモデル名の出現以上の定量情報を確認できません。^[7]
Claude Opus 4.7の「92% honesty rate」は安全性・誠実性に関する指標であり、コーディング、数学、エージェント性能、総合知能スコアと同列には扱えません。^[4]
Kimi K2.6のIntelligence 54、256k context、$1.7、112 tokens/sは有用な比較材料ですが、GPT-5.5やClaude Opus 4.7の同じ列の数値が提供されていないため、相対順位は出せません。^[7]

Summary

現時点の提供証拠で最も強い総合性能シグナルがあるのはGPT-5.5ですが、数値スコアはありません。^[3]^[34]
Claude Opus 4.7は安全性・誠実性で92%という具体値があり、ソフトウェアエンジニアリングや複雑問題解決の改善が主張されていますが、総合スコア比較はできません。^[4]^[6]
Kimi K2.6はIntelligence 54、256k context、$1.7、112 tokens/sという具体的な公開比較値がありますが、他3モデルとの同一指標比較は不足しています。^[7]
DeepSeek V4は提供証拠だけでは評価不能です。^[7]

情報源

[2] DeepSeek is back among the leading open weights models with V4 Pro ...artificialanalysis.ai
Lower cost than frontier models, but high token usage keeps costs above most open weights peers: DeepSeek V4 Pro costs $1,071 to run the Artificial Analysis Intelligence Index, more than 4x cheaper than Claude Opus 4.7 ($4,811) but above several open weight...
[3] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com
Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...
[4] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarksllm-stats.com
The Verdict On the 10 benchmarks both providers report, Opus 4.7 leads on 6 and GPT-5.5 leads on 4. The leads cluster by category, not by overall quality: Opus 4.7 is ahead on the reasoning-heavy and review-grade tests (GPQA Diamond, HLE with and without to...
[9] OpenAI’s GPT-5.5 vs Claude Opus 4.7: Which is better? | Mashablemashable.com
Thanks for signing up! SWE-Bench Pro: GPT-5.5 scored 58.6; Opus 4.7 scored 64.3 percent Terminal-Bench 2.0: GPT-5.5 scored 82.7 percent; Opus 4.7 scored 69.4 percent Humanity's Last Exam: GPT-5.5 scored 40.6 percent; Opus 4.7 scored 31.2 percent\ Humanity's...
[15] Anthropic releases Claude Opus 4.7: How to try it, benchmarks, safetymashable.com
Tim studied print journalism at the University of Southern California. He currently splits his time between Brooklyn, NY and Charleston, SC. He's currently working on his second novel, a science-fiction book. Recommended For You Anthropic says Claude Opus 4...
[16] DeepSeek V4: Features, Benchmarks, and Comparisons - DataCampdatacamp.com
How large are the DeepSeek V4 models? DeepSeek uses a Mixture of Experts (MoE) architecture. The Pro model contains 1.6 trillion total parameters (49 billion active) and requires an 865GB download. The Flash model contains 284 billion parameters (13 billion...
[17] Introducing Claude Opus 4.7anthropic.com
Image 7: logo Based on our internal research-agent benchmark, Claude Opus 4.7 has the strongest efficiency baseline we’ve seen for multi-step work. It tied for the top overall score across our six modules at 0.715 and delivered the most consistent long-cont...
[18] moonshotai/Kimi-K2.6 - Hugging Facehuggingface.co
Footnotes 1. General Testing Details We report results for Kimi K2.6 and Kimi K2.5 with thinking mode enabled, Claude Opus 4.6 with max effort, GPT-5.4 with xhigh reasoning effort, and Gemini 3.1 Pro with a high thinking level. Unless otherwise specified, a...
[20] Open-weight Kimi K2.6 takes on GPT-5.4 and Claude Opus 4.6 with agent swarmsthe-decoder.com
The Decoder Open-weight Kimi K2.6 takes on GPT-5.4 and Claude Opus 4.6 with agent swarms Matthias Bastian Image description Moonshot AI has released Kimi K2.6 as an open-weight model. It's built to match GPT-5.4 and Claude Opus 4.6 on coding benchmarks, and...
[23] Comparison of Open Source AI Models across Intelligence, Performance, Price, Context Window, and more | Artificial Analysisartificialanalysis.ai
Model Name Intelligence Parameters Context Window Price Output Speed (t/s) Weights Providers Provider Benchmarks --- --- --- --- Kimi logo Kimi K2.6 Kimi 54 1.0KB (32B active at inference time) 256k $1.7 112 🤗 Novita Kimi SiliconFlow +6 more View DeepSeek...
[26] OpenAI's GPT-5.5 is the new leading AI model - Artificial Analysisartificialanalysis.ai
➤ Number one in GDPval-AA with an Elo of 1785: GPT-5.5 (xhigh) leads Claude Opus 4.7 (max) by 30 pts and Gemini 3.1 Pro Preview by 470 pts. GDPval-AA is Artificial Analysis' benchmark that leverages OpenAI's GDPval dataset to evaluate models on real-world e...
[27] GPT-5.5 (high) - Intelligence, Performance & Price Analysisartificialanalysis.ai
No, GPT-5.5 (high) is proprietary. The model weights are not publicly available. GPT-5.5 (high) is a proprietary model and OpenAI has not disclosed the model size or parameter count. GPT-5.5 (high) achieves a score of 59 on the Artificial Analysis Intellige...
[28] GPT-5.5 vs Claude Opus 4.7: Real-World Coding Performance Comparedmindstudio.ai
GPT-5.5 uses 72% fewer output tokens than Claude Opus 4.7 on the same coding tasks — a structural difference, not a minor gap. On raw benchmark quality, both models are competitive. Neither dominates on every task type. For high-volume agentic coding pipeli...
[30] Comparison of AI Models across Intelligence, Performance, and Priceartificialanalysis.ai
Which is the most intelligent AI model? Claude Opus 4.7 (Adaptive Reasoning, Max Effort) currently leads the Artificial Analysis Intelligence Index with a score of 57, out of 347 models evaluated. What are the top AI models? The top AI models by Intelligenc...

一句講晒：按用途揀，唔好迷信總榜

四個模型的主要訊號

GPT-5.5 vs Claude Opus 4.7：前沿模型唔係一刀切

Kimi K2.6 vs DeepSeek V4 Pro：開放權重取向，要速度定上下文？

睇價錢：唔好將幾種數字撈埋一齊

安全性同可信度：唔可以用能力分數完全代替

真正上 production：多數唔係一個模型打晒

最終判斷

Search, cite, and publish your own answer

重要なポイント

人々も尋ねます

「GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6：Benchmark 點睇、點揀」の短い答えは何ですか?

最初に検証する重要なポイントは何ですか?

次の実践では何をすればいいでしょうか？

次にどの関連トピックを検討すればよいでしょうか?

これを何と比較すればいいでしょうか？

研究を続けてください

Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6比較：2026年ベンチマークの結論

DeepSeek V4を技術面から読む：100万トークン、MoE、API移行の要点

Northwest Timber と Southeast Timber：なぜ答えは「larger; larger」なのか

DeepSeekはOpenAI、Claude、Gemini、Grokに勝てるのか 本当の焦点はコストと信頼

研究に関する会話

リサーチクエスチョン

引用された回答

Key findings

Evidence notes

Limitations / uncertainty

Summary

情報源

一句講晒：按用途揀，唔好迷信總榜

四個模型的主要訊號

GPT-5.5 vs Claude Opus 4.7：前沿模型唔係一刀切

Kimi K2.6 vs DeepSeek V4 Pro：開放權重取向，要速度定上下文？

睇價錢：唔好將幾種數字撈埋一齊

安全性同可信度：唔可以用能力分數完全代替

真正上 production：多數唔係一個模型打晒

最終判斷

Search, cite, and publish your own answer

重要なポイント

人々も尋ねます

「GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6：Benchmark 點睇、點揀」の短い答えは何ですか?

最初に検証する重要なポイントは何ですか?

次の実践では何をすればいいでしょうか？

次にどの関連トピックを検討すればよいでしょうか?

これを何と比較すればいいでしょうか？

研究を続けてください

Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6比較：2026年ベンチマークの結論

DeepSeek V4を技術面から読む：100万トークン、MoE、API移行の要点

Northwest Timber と Southeast Timber：なぜ答えは「larger; larger」なのか

DeepSeekはOpenAI、Claude、Gemini、Grokに勝てるのか 本当の焦点はコストと信頼

研究に関する会話

リサーチクエスチョン

引用された回答

Key findings

Evidence notes

Limitations / uncertainty

Summary

情報源

一句講晒：按用途揀，唔好迷信總榜

四個模型的主要訊號

GPT-5.5 vs Claude Opus 4.7：前沿模型唔係一刀切

Kimi K2.6 vs DeepSeek V4 Pro：開放權重取向，要速度定上下文？

睇價錢：唔好將幾種數字撈埋一齊

安全性同可信度：唔可以用能力分數完全代替

真正上 production：多數唔係一個模型打晒

最終判斷

Search, cite, and publish your own answer

重要なポイント

人々も尋ねます

「GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6：Benchmark 點睇、點揀」の短い答えは何ですか?

最初に検証する重要なポイントは何ですか?

次の実践では何をすればいいでしょうか？

次にどの関連トピックを検討すればよいでしょうか?

これを何と比較すればいいでしょうか？

研究を続けてください

Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6比較：2026年ベンチマークの結論

DeepSeek V4を技術面から読む：100万トークン、MoE、API移行の要点

Northwest Timber と Southeast Timber：なぜ答えは「larger; larger」なのか

DeepSeekはOpenAI、Claude、Gemini、Grokに勝てるのか 本当の焦点はコストと信頼

研究に関する会話

DeepSeekはOpenAI、Claude、Gemini、Grokに勝てるのか　本当の焦点はコストと信頼

DeepSeekはOpenAI、Claude、Gemini、Grokに勝てるのか　本当の焦点はコストと信頼

DeepSeekはOpenAI、Claude、Gemini、Grokに勝てるのか　本当の焦点はコストと信頼