レポート公開済み2026年4月28日Last edited 2026年5月6日14 ソース

GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 基準測試比較

不要把四個模型硬排成單一排行榜；公開基準的推理設定、更新時間、自報或第三方評測方式並不一致，較安全的做法是按任務選模型。[4][18] GPT 5.5 high 在 Artificial Analysis Intelligence Index 得分 59，GPT 5.5 xhigh 在 GDPval AA 報告 Elo 1785；Claude Opus 4.7 則在 LLM Stats 共同 10 項基準整理中以 6 勝 4 負領先 GPT 5.5。[4][26][27] Kimi K2.6 在 Artificial Analysis 開放模型表中為 Intelligence 54、112 tokens/s；DeepSeek...

Studio Global AIで検索して事実確認 Discover からさらに閲覧する

17K0

GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6のベンチマーク比較を示す抽象的なAIダッシュボード — GPT-5.5・Claude Opus 4.7・DeepSeek V4・Kimi K2.6比較：ベンチマークで見る用途別の勝者4つの主要AIモデルを、総合性能・推論・速度・文脈長・価格の観点で比較するイメージ。
AI プロンプト
Create a landscape editorial hero image for this Studio Global article: GPT-5.5・Claude Opus 4.7・DeepSeek V4・Kimi K2.6比較：ベンチマークで見る用途別の勝者. Article summary: 4モデルを完全同一条件で横比較した公開表は確認できないため、単一の勝者ではなく用途別に選ぶのが安全です。総合候補はGPT 5.5（AA Intelligence 59、GDPval AA Elo 1785）とClaude Opus 4.7（共通10ベンチマークで6勝4敗）です。[4][26][27]. Topic tags: ai, llm benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](
openai.com

比較 GPT-5.5、Claude Opus 4.7、DeepSeek V4 Pro 與 Kimi K2.6，最容易犯的錯不是看錯數字，而是把不同來源、不同推理設定、不同時間點的數字硬塞進同一張總榜。公開基準常混有廠商自報與第三方整理，方法論也不一定完全一致；因此，這四個模型更適合用用途來分流，而不是只問誰第一。^[4]^[18]

本文以可查到明確數值的 DeepSeek V4 Pro（Reasoning, Max Effort）作為 DeepSeek 代表。Artificial Analysis 的開放模型表同列 Kimi K2.6 與 DeepSeek V4 Pro 的 Intelligence、上下文長度、Price 欄位與輸出速度，是目前較適合拿來看開放權重模型取捨的資料。^[23]

先講結論：不同工作，第一候選不同

用途	優先考慮	為什麼
綜合能力、具經濟價值的任務	GPT-5.5	GPT-5.5 high 在 Artificial Analysis Intelligence Index 得分 59；GPT-5.5 xhigh 在 GDPval-AA 報告 Elo 1785，領先 Claude Opus 4.7 max 約 30 點。^[26]^[27]
深度推理、審稿、專業判斷	Claude Opus 4.7	LLM Stats 整理共同 10 項基準時，Claude Opus 4.7 領先 6 項，GPT-5.5 領先 4 項；優勢集中在推理與審查型任務。^[4]
終端機操作、瀏覽、長時間工具使用	GPT-5.5	LLM Stats 指出 GPT-5.5 在 Terminal-Bench 2.0、BrowseComp、OSWorld-Verified、CyberGym 等長時間工具使用測試較強。^[4]
開放權重路線，重視速度與價格性能	Kimi K2.6	Artificial Analysis 開放模型表列出 Kimi K2.6：Intelligence 54、256k context、Price 欄位 $1.7、112 tokens/s。^[23]
長上下文、大量處理、低 API 單價	DeepSeek V4 Pro／DeepSeek V4 系列	Artificial Analysis 顯示 DeepSeek V4 Pro 有 1M context；Mashable 報告 DeepSeek V4 的 API 單價低於 GPT-5.5 與 Claude Opus 4.7。^[3]^[23]

四個模型的主要訊號

模型	基準測試看到的強項	價格與部署訊號
GPT-5.5	GPT-5.5 high 在 Artificial Analysis Intelligence Index 為 59；GPT-5.5 xhigh 在 GDPval-AA 為 Elo 1785，據報較 Claude Opus 4.7 max 高約 30 點。^[26]^[27]	Mashable 報告 API 價格為每 100 萬輸入 token $5、每 100 萬輸出 token $30。^[3]
Claude Opus 4.7	LLM Stats 的共同 10 項基準整理為 6 勝 4 負；Mashable 表中 SWE-Bench Pro 為 64.3%、GPQA Diamond 為 94.2%、HLE with tools 為 54.7%。^[4]^[9]	Mashable 報告 API 價格為每 100 萬輸入 token $5、每 100 萬輸出 token $25。^[3]
Kimi K2.6	Artificial Analysis 開放模型表中 Intelligence 為 54；The Decoder 轉述 Moonshot AI 發表值：HLE with Tools 54.0、SWE-Bench Pro 58.6、BrowseComp 83.2。^[20]^[23]	Artificial Analysis 同表列出 256k context、Price 欄位 $1.7、112 tokens/s。^[23]
DeepSeek V4 Pro	Artificial Analysis 開放模型表中 Intelligence 為 52；DataCamp 整理稱 DeepSeek V4 在純能力上沒有超過 GPT-5.5 與 Claude Opus 4.7。^[16]^[23]	Artificial Analysis 同表列出 1M context、Price 欄位 $2.2、36 tokens/s；Mashable 報告 DeepSeek V4 API 價格為每 100 萬輸入 token $1.74、每 100 萬輸出 token $3.48。^[3]^[23]

GPT-5.5 對 Claude Opus 4.7：不是誰碾壓誰，而是題型不同

GPT-5.5 與 Claude Opus 4.7 都是前沿閉源模型，但勝負會隨基準測試而變。以 Mashable 報告的數字看，Claude Opus 4.7 在 SWE-Bench Pro 與 GPQA Diamond 領先；GPT-5.5 則在 Terminal-Bench 2.0、Humanity's Last Exam、BrowseComp、ARC-AGI-1 Verified 領先。^[9]

基準測試	GPT-5.5	Claude Opus 4.7	Mashable 表中領先者
SWE-Bench Pro	58.6%	64.3%	Claude Opus 4.7
Terminal-Bench 2.0	82.7%	69.4%	GPT-5.5
Humanity's Last Exam	40.6%	31.2%	GPT-5.5
Humanity's Last Exam with tools	52.2%	54.7%	Claude Opus 4.7
BrowseComp	84.4%	79.3%	GPT-5.5
GPQA Diamond	93.6%	94.2%	Claude Opus 4.7
ARC-AGI-1 Verified	94.5%	92.0%	GPT-5.5

LLM Stats 的歸納則是：在雙方都有回報的 10 項基準中，Claude Opus 4.7 領先 6 項，GPT-5.5 領先 4 項；Opus 4.7 偏強於推理、審查與專業任務，GPT-5.5 偏強於長時間工具使用。^[4]

但這裡要特別小心。LLM Stats 也提醒，這些分數多來自各供應商高推理層級的自報結果，形式上可以對照，方法論卻未必完全相同。^[4] 甚至像 Humanity's Last Exam 這類項目，不同來源呈現出的領先方向也可能不同。^[4]^[9]

Kimi K2.6 對 DeepSeek V4 Pro：開放權重要看速度還是上下文

Kimi K2.6 與 DeepSeek V4 Pro 不宜直接拿來和 GPT-5.5、Claude Opus 4.7 做單一總分競賽；更實際的角度，是把它們視為開放權重部署或實驗的候選。

指標	Kimi K2.6	DeepSeek V4 Pro
Artificial Analysis Intelligence	54	52
Context window	256k	1.00M
Price 欄位	$1.7	$2.2
Output speed	112 tokens/s	36 tokens/s

只看這張表，Kimi K2.6 在 Intelligence 與輸出速度上較有利；DeepSeek V4 Pro 的明顯優勢則是 1M context。^[23] The Decoder 也轉述 Moonshot AI 發表值，稱 Kimi K2.6 在 HLE with Tools 為 54.0、SWE-Bench Pro 為 58.6、BrowseComp 為 83.2。^[20]

不過，Kimi K2.6 的公開實驗並不是與 GPT-5.5、Claude Opus 4.7 完全同條件對打。Hugging Face 模型卡說明，Kimi K2.6 以 thinking mode、temperature 1.0、top-p 1.0、262,144 token 上下文長度等設定評估，主要比較對象也包括 Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro。^[18]

DeepSeek V4 Pro 則更像是用長上下文與成本換取接近前沿模型能力的方案，而不是純性能冠軍。DataCamp 整理指出，DeepSeek V4 在純能力上沒有超過 GPT-5.5 與 Claude Opus 4.7，但定位是以較低成本提供 near-frontier 性能。^[16]

價格比較：API 單價、表格 Price、評測成本不能混著看

看價格時，至少要分清三種數字。

第一是 API token 單價。Mashable 報告 DeepSeek V4 為每 100 萬輸入 token $1.74、每 100 萬輸出 token $3.48；GPT-5.5 為 $5／$30；Claude Opus 4.7 為 $5／$25。^[3]

第二是 Artificial Analysis 模型表中的 Price 欄位。該表列出 Kimi K2.6 為 $1.7、DeepSeek V4 Pro 為 $2.2，但這不應直接等同於 Mashable 報告的 API token 單價。^[23]

第三是跑完整個基準測試的成本。Artificial Analysis 文章指出，執行 Intelligence Index 的成本為 DeepSeek V4 Pro $1,071、Kimi K2.6 $948、Claude Opus 4.7 $4,811。^[2]

所以，說 DeepSeek 便宜、Kimi 便宜或 Claude 昂貴之前，必須先確認自己比較的是 API 單價、基準測試執行成本，還是真實業務中包含輸出長度、重試、工具呼叫與延遲的總成本。^[2]^[3]^[23]

安全性與可靠性是另一條軸線

Claude Opus 4.7 的安全與可靠性訊號值得另外看。Mashable 轉述 Anthropic 說法，稱 Claude Opus 4.7 有 92% honesty rate，且 sycophancy 較少。^[15] Anthropic 自家發布也表示，Claude Opus 4.7 在內部 research-agent benchmark 的 6 個模組總分並列第一，達 0.715；在 General Finance 模組中，分數由 Opus 4.6 的 0.767 提升到 0.813。^[17]

但這些並不是 SWE-Bench Pro、GPQA Diamond、BrowseComp 那類能力基準。真正上線時，應把能力、成本、速度、幻覺風險、可稽核性分開評估。^[15]^[17]

實務建議：比起固定一個模型，路由更像正解

如果是生產環境，硬把所有任務交給同一個模型，通常不是最穩的做法。MindStudio 的程式任務比較指出，GPT-5.5 在相同 coding task 中比 Claude Opus 4.7 少用 72% 輸出 token；但對複雜、推理負荷高的大型程式碼庫，Opus 4.7 的細緻程度可能足以支撐較高成本。^[28]

較務實的配置是：標準生成、修改、終端機與工具型任務先試 GPT-5.5；深度審查、專業判斷與高風險推理交給 Claude Opus 4.7；開放權重與低成本實驗測 Kimi K2.6；長上下文、大量文件或低 API 單價需求則測 DeepSeek V4 Pro。^[3]^[4]^[23]^[28]

最終判斷

目前公開資料更支持用途分流，而不是宣布單一總冠軍。GPT-5.5 的亮點在綜合能力與經濟價值任務；Claude Opus 4.7 適合推理、審稿與專業判斷；Kimi K2.6 是開放權重路線中速度與價格性能突出的選項；DeepSeek V4 Pro 則以長上下文與 DeepSeek V4 系列較低 API 單價吸引人。^[3]^[4]^[23]^[26]^[27]

還要注意，Artificial Analysis 內部不同頁面也會因更新時間與推理設定而呈現不同畫面：GPT-5.5 high 模型頁列出 Intelligence 59；另一個模型列表頁則顯示 Claude Opus 4.7 Adaptive Reasoning, Max Effort 以 Intelligence 57 位居第一。^[27]^[30] 因此，基準測試適合作為篩選起點；最後仍應用自己的真實任務、預算、延遲要求與失敗容忍度，做小規模並行測試。^[4]^[18]^[28]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AIで検索して事実確認

重要なポイント

不要把四個模型硬排成單一排行榜；公開基準的推理設定、更新時間、自報或第三方評測方式並不一致，較安全的做法是按任務選模型。[4][18]
GPT 5.5 high 在 Artificial Analysis Intelligence Index 得分 59，GPT 5.5 xhigh 在 GDPval AA 報告 Elo 1785；Claude Opus 4.7 則在 LLM Stats 共同 10 項基準整理中以 6 勝 4 負領先 GPT 5.5。[4][26][27]
Kimi K2.6 在 Artificial Analysis 開放模型表中為 Intelligence 54、112 tokens/s；DeepSeek V4 Pro 為 Intelligence 52、1M context。前者偏速度與價格性能，後者偏長上下文與 DeepSeek V4 系列較低 API 單價。[3][23]

人々も尋ねます

「GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 基準測試比較」の短い答えは何ですか?

不要把四個模型硬排成單一排行榜；公開基準的推理設定、更新時間、自報或第三方評測方式並不一致，較安全的做法是按任務選模型。[4][18]

最初に検証する重要なポイントは何ですか?

次の実践では何をすればいいでしょうか？

Kimi K2.6 在 Artificial Analysis 開放模型表中為 Intelligence 54、112 tokens/s；DeepSeek V4 Pro 為 Intelligence 52、1M context。前者偏速度與價格性能，後者偏長上下文與 DeepSeek V4 系列較低 API 單價。[3][23]

次にどの関連トピックを検討すればよいでしょうか?

別の角度からの引用や追加の引用については、「Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6比較：2026年ベンチマークの結論」に進みます。

関連ページを開く

これを何と比較すればいいでしょうか？

この回答を「DeepSeek V4を技術面から読む：100万トークン、MoE、API移行の要点」と照合してください。

関連ページを開く

研究を続けてください

Comparativa de benchmarks 2026 entre Claude Opus 4.7, GPT-5.5, DeepSeek V4 y Kimi K2.6

Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6比較：2026年ベンチマークの結論

Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6：2026年ベンチマーク比較

DeepSeek V4 工程架构示意图，包含 1M 上下文、MoE 专家路由和 API 服务化元素

DeepSeek V4を技術面から読む：100万トークン、MoE、API移行の要点

Northwest Timber と Southeast Timber：なぜ答えは「larger; larger」なのか

Northwest Timber と Southeast Timber：代替性が高いと、なぜ「larger; larger」になるのか

抽象 AI 晶片與多個聊天機器人平台競爭的示意圖，象徵 DeepSeek 挑戰 OpenAI、Claude、Gemini 與 Grok

DeepSeekはOpenAI、Claude、Gemini、Grokに勝てるのか　本当の焦点はコストと信頼

DeepSeekはOpenAI、Claude、Gemini、Grokに勝てるのか

研究に関する会話

あなた2026年4月25日

リサーチクエスチョン

GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6のベンチマークを調査し、比較してください。

Studio Global AI2026年4月25日38 ソース

引用された回答

提供された証拠だけでは、GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6を同一ベンチマーク上で厳密に横比較するには不十分です。確認できる範囲では、GPT-5.5は「新たな首位モデル」とされる一方、Claude Opus 4.7もArtificial Analysis系の文脈で首位級と示唆されており、Kimi K2.6は一部の公開モデル比較指標のみ数値が確認できます。^[3]^[7]^[34]

Key findings

モデル	確認できたベンチマーク・性能情報	比較上の解釈
GPT-5.5	Artificial Analysis関連記事のスニペットでは、2026年4月24日時点で「新たな主要/首位AIモデル」とされている。^[3] LinkedInスニペットにも「OpenAIのGPT-5.5が新たな首位AIモデル」とある。^[34]	総合性能で非常に強い可能性はあるが、提供証拠には具体的なスコア、評価項目、競合平均との差がないため、定量順位は確定できない。^[3]^[34]
Claude Opus 4.7	Mashableスニペットでは、AnthropicがClaude Opus 4.7について「92%のhonesty rate」と「より少ないsycophancy」を主張している。^[4] SourceForgeスニペットでは、Claude Opus 4.7は高度なソフトウェアエンジニアリングと複雑な問題解決での改善を目的にしたAnthropicの最新モデルと説明されている。^[6]	安全性・誠実性系の指標では具体値があるが、GPT-5.5やKimi K2.6と同じ総合ベンチマークでの数値比較はできない。^[4]^[6]
DeepSeek V4	Artificial Analysisの公開モデル比較スニペットに「DeepSeek V4 Pro」の記載はあるが、スコアや速度、価格などの数値は提示されていない。^[7]	Insufficient evidence. 提供証拠だけではDeepSeek V4のベンチマーク順位・強み・弱みを判断できない。^[7]
Kimi K2.6	Artificial Analysisの公開モデル比較スニペットでは、Kimi K2.6のIntelligenceが54、コンテキスト長が256k、価格が$1.7、出力速度が112 tokens/sと示されている。^[7]	4モデル中で最も具体的な公開比較数値が確認できるが、GPT-5.5やClaude Opus 4.7と同一指標で直接比較できる証拠はない。^[7]

Evidence notes

Stanford HAIの2026年AI Indexでは、2026年2月時点のSWE-bench Verifiedで上位モデルが70%台前半〜中盤に密集し、Claude 4.5 Opus high reasoningが約76.8%で首位、KimiK2.5、GPT-5.2、Gemini 3 Flash high reasoningが70%〜76%の範囲に入っていたとされている。^[2]
ただし、このStanford HAIの記述はClaude Opus 4.7、GPT-5.5、Kimi K2.6、DeepSeek V4そのものではなく、直前世代または別モデルの状況を示す背景情報にとどまる。^[2]
SciCode Benchの提供スニペットにはClaude Sonnet 4 high、Gemini 2.5 Pro、GPT-5-1-codex、Grok 4などの記載があるが、比較対象であるGPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6の直接スコアは確認できない。^[1]
GPT-5.5については「新たな首位」とする記述がある一方、別スニペットではClaude Opus 4.7もArtificial Analysis Intelligence文脈で首位に位置するように読めるため、時点差、評価セット差、またはスニペットの文脈差による不整合がある可能性がある。^[3]^[34]

Limitations / uncertainty

Insufficient evidence. 4モデルすべてを同一ベンチマーク、同一日付、同一推論設定で比較した表やスコアは、提供証拠内にはありません。^[1]^[3]^[5]^[7]^[34]
DeepSeek V4は特に情報が不足しており、提供証拠では「DeepSeek V4 Pro」というモデル名の出現以上の定量情報を確認できません。^[7]
Claude Opus 4.7の「92% honesty rate」は安全性・誠実性に関する指標であり、コーディング、数学、エージェント性能、総合知能スコアと同列には扱えません。^[4]
Kimi K2.6のIntelligence 54、256k context、$1.7、112 tokens/sは有用な比較材料ですが、GPT-5.5やClaude Opus 4.7の同じ列の数値が提供されていないため、相対順位は出せません。^[7]

Summary

現時点の提供証拠で最も強い総合性能シグナルがあるのはGPT-5.5ですが、数値スコアはありません。^[3]^[34]
Claude Opus 4.7は安全性・誠実性で92%という具体値があり、ソフトウェアエンジニアリングや複雑問題解決の改善が主張されていますが、総合スコア比較はできません。^[4]^[6]
Kimi K2.6はIntelligence 54、256k context、$1.7、112 tokens/sという具体的な公開比較値がありますが、他3モデルとの同一指標比較は不足しています。^[7]
DeepSeek V4は提供証拠だけでは評価不能です。^[7]

情報源

[2] DeepSeek is back among the leading open weights models with V4 Pro ...artificialanalysis.ai
Lower cost than frontier models, but high token usage keeps costs above most open weights peers: DeepSeek V4 Pro costs $1,071 to run the Artificial Analysis Intelligence Index, more than 4x cheaper than Claude Opus 4.7 ($4,811) but above several open weight...
[3] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com
Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...
[4] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarksllm-stats.com
The Verdict On the 10 benchmarks both providers report, Opus 4.7 leads on 6 and GPT-5.5 leads on 4. The leads cluster by category, not by overall quality: Opus 4.7 is ahead on the reasoning-heavy and review-grade tests (GPQA Diamond, HLE with and without to...
[9] OpenAI’s GPT-5.5 vs Claude Opus 4.7: Which is better? | Mashablemashable.com
Thanks for signing up! SWE-Bench Pro: GPT-5.5 scored 58.6; Opus 4.7 scored 64.3 percent Terminal-Bench 2.0: GPT-5.5 scored 82.7 percent; Opus 4.7 scored 69.4 percent Humanity's Last Exam: GPT-5.5 scored 40.6 percent; Opus 4.7 scored 31.2 percent\ Humanity's...
[15] Anthropic releases Claude Opus 4.7: How to try it, benchmarks, safetymashable.com
Tim studied print journalism at the University of Southern California. He currently splits his time between Brooklyn, NY and Charleston, SC. He's currently working on his second novel, a science-fiction book. Recommended For You Anthropic says Claude Opus 4...
[16] DeepSeek V4: Features, Benchmarks, and Comparisons - DataCampdatacamp.com
How large are the DeepSeek V4 models? DeepSeek uses a Mixture of Experts (MoE) architecture. The Pro model contains 1.6 trillion total parameters (49 billion active) and requires an 865GB download. The Flash model contains 284 billion parameters (13 billion...
[17] Introducing Claude Opus 4.7anthropic.com
Image 7: logo Based on our internal research-agent benchmark, Claude Opus 4.7 has the strongest efficiency baseline we’ve seen for multi-step work. It tied for the top overall score across our six modules at 0.715 and delivered the most consistent long-cont...
[18] moonshotai/Kimi-K2.6 - Hugging Facehuggingface.co
Footnotes 1. General Testing Details We report results for Kimi K2.6 and Kimi K2.5 with thinking mode enabled, Claude Opus 4.6 with max effort, GPT-5.4 with xhigh reasoning effort, and Gemini 3.1 Pro with a high thinking level. Unless otherwise specified, a...
[20] Open-weight Kimi K2.6 takes on GPT-5.4 and Claude Opus 4.6 with agent swarmsthe-decoder.com
The Decoder Open-weight Kimi K2.6 takes on GPT-5.4 and Claude Opus 4.6 with agent swarms Matthias Bastian Image description Moonshot AI has released Kimi K2.6 as an open-weight model. It's built to match GPT-5.4 and Claude Opus 4.6 on coding benchmarks, and...
[23] Comparison of Open Source AI Models across Intelligence, Performance, Price, Context Window, and more | Artificial Analysisartificialanalysis.ai
Model Name Intelligence Parameters Context Window Price Output Speed (t/s) Weights Providers Provider Benchmarks --- --- --- --- Kimi logo Kimi K2.6 Kimi 54 1.0KB (32B active at inference time) 256k $1.7 112 🤗 Novita Kimi SiliconFlow +6 more View DeepSeek...
[26] OpenAI's GPT-5.5 is the new leading AI model - Artificial Analysisartificialanalysis.ai
➤ Number one in GDPval-AA with an Elo of 1785: GPT-5.5 (xhigh) leads Claude Opus 4.7 (max) by 30 pts and Gemini 3.1 Pro Preview by 470 pts. GDPval-AA is Artificial Analysis' benchmark that leverages OpenAI's GDPval dataset to evaluate models on real-world e...
[27] GPT-5.5 (high) - Intelligence, Performance & Price Analysisartificialanalysis.ai
No, GPT-5.5 (high) is proprietary. The model weights are not publicly available. GPT-5.5 (high) is a proprietary model and OpenAI has not disclosed the model size or parameter count. GPT-5.5 (high) achieves a score of 59 on the Artificial Analysis Intellige...
[28] GPT-5.5 vs Claude Opus 4.7: Real-World Coding Performance Comparedmindstudio.ai
GPT-5.5 uses 72% fewer output tokens than Claude Opus 4.7 on the same coding tasks — a structural difference, not a minor gap. On raw benchmark quality, both models are competitive. Neither dominates on every task type. For high-volume agentic coding pipeli...
[30] Comparison of AI Models across Intelligence, Performance, and Priceartificialanalysis.ai
Which is the most intelligent AI model? Claude Opus 4.7 (Adaptive Reasoning, Max Effort) currently leads the Artificial Analysis Intelligence Index with a score of 57, out of 347 models evaluated. What are the top AI models? The top AI models by Intelligenc...

トレンドを発見する

レポート公開済み2026年4月28日Last edited 2026年5月6日14 ソース

GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 基準測試比較

Studio Global AIで検索して事実確認 Discover からさらに閲覧する

17K0

先講結論：不同工作，第一候選不同

用途	優先考慮	為什麼
綜合能力、具經濟價值的任務	GPT-5.5	GPT-5.5 high 在 Artificial Analysis Intelligence Index 得分 59；GPT-5.5 xhigh 在 GDPval-AA 報告 Elo 1785，領先 Claude Opus 4.7 max 約 30 點。^[26]^[27]
深度推理、審稿、專業判斷	Claude Opus 4.7	LLM Stats 整理共同 10 項基準時，Claude Opus 4.7 領先 6 項，GPT-5.5 領先 4 項；優勢集中在推理與審查型任務。^[4]
終端機操作、瀏覽、長時間工具使用	GPT-5.5	LLM Stats 指出 GPT-5.5 在 Terminal-Bench 2.0、BrowseComp、OSWorld-Verified、CyberGym 等長時間工具使用測試較強。^[4]
開放權重路線，重視速度與價格性能	Kimi K2.6	Artificial Analysis 開放模型表列出 Kimi K2.6：Intelligence 54、256k context、Price 欄位 $1.7、112 tokens/s。^[23]
長上下文、大量處理、低 API 單價	DeepSeek V4 Pro／DeepSeek V4 系列	Artificial Analysis 顯示 DeepSeek V4 Pro 有 1M context；Mashable 報告 DeepSeek V4 的 API 單價低於 GPT-5.5 與 Claude Opus 4.7。^[3]^[23]

四個模型的主要訊號

模型	基準測試看到的強項	價格與部署訊號
GPT-5.5	GPT-5.5 high 在 Artificial Analysis Intelligence Index 為 59；GPT-5.5 xhigh 在 GDPval-AA 為 Elo 1785，據報較 Claude Opus 4.7 max 高約 30 點。^[26]^[27]	Mashable 報告 API 價格為每 100 萬輸入 token $5、每 100 萬輸出 token $30。^[3]
Claude Opus 4.7	LLM Stats 的共同 10 項基準整理為 6 勝 4 負；Mashable 表中 SWE-Bench Pro 為 64.3%、GPQA Diamond 為 94.2%、HLE with tools 為 54.7%。^[4]^[9]	Mashable 報告 API 價格為每 100 萬輸入 token $5、每 100 萬輸出 token $25。^[3]
Kimi K2.6	Artificial Analysis 開放模型表中 Intelligence 為 54；The Decoder 轉述 Moonshot AI 發表值：HLE with Tools 54.0、SWE-Bench Pro 58.6、BrowseComp 83.2。^[20]^[23]	Artificial Analysis 同表列出 256k context、Price 欄位 $1.7、112 tokens/s。^[23]
DeepSeek V4 Pro	Artificial Analysis 開放模型表中 Intelligence 為 52；DataCamp 整理稱 DeepSeek V4 在純能力上沒有超過 GPT-5.5 與 Claude Opus 4.7。^[16]^[23]	Artificial Analysis 同表列出 1M context、Price 欄位 $2.2、36 tokens/s；Mashable 報告 DeepSeek V4 API 價格為每 100 萬輸入 token $1.74、每 100 萬輸出 token $3.48。^[3]^[23]

GPT-5.5 對 Claude Opus 4.7：不是誰碾壓誰，而是題型不同

基準測試	GPT-5.5	Claude Opus 4.7	Mashable 表中領先者
SWE-Bench Pro	58.6%	64.3%	Claude Opus 4.7
Terminal-Bench 2.0	82.7%	69.4%	GPT-5.5
Humanity's Last Exam	40.6%	31.2%	GPT-5.5
Humanity's Last Exam with tools	52.2%	54.7%	Claude Opus 4.7
BrowseComp	84.4%	79.3%	GPT-5.5
GPQA Diamond	93.6%	94.2%	Claude Opus 4.7
ARC-AGI-1 Verified	94.5%	92.0%	GPT-5.5

Kimi K2.6 對 DeepSeek V4 Pro：開放權重要看速度還是上下文

Kimi K2.6 與 DeepSeek V4 Pro 不宜直接拿來和 GPT-5.5、Claude Opus 4.7 做單一總分競賽；更實際的角度，是把它們視為開放權重部署或實驗的候選。

指標	Kimi K2.6	DeepSeek V4 Pro
Artificial Analysis Intelligence	54	52
Context window	256k	1.00M
Price 欄位	$1.7	$2.2
Output speed	112 tokens/s	36 tokens/s

價格比較：API 單價、表格 Price、評測成本不能混著看

看價格時，至少要分清三種數字。

第一是 API token 單價。Mashable 報告 DeepSeek V4 為每 100 萬輸入 token $1.74、每 100 萬輸出 token $3.48；GPT-5.5 為 $5／$30；Claude Opus 4.7 為 $5／$25。^[3]

第二是 Artificial Analysis 模型表中的 Price 欄位。該表列出 Kimi K2.6 為 $1.7、DeepSeek V4 Pro 為 $2.2，但這不應直接等同於 Mashable 報告的 API token 單價。^[23]

第三是跑完整個基準測試的成本。Artificial Analysis 文章指出，執行 Intelligence Index 的成本為 DeepSeek V4 Pro $1,071、Kimi K2.6 $948、Claude Opus 4.7 $4,811。^[2]

安全性與可靠性是另一條軸線

但這些並不是 SWE-Bench Pro、GPQA Diamond、BrowseComp 那類能力基準。真正上線時，應把能力、成本、速度、幻覺風險、可稽核性分開評估。^[15]^[17]

實務建議：比起固定一個模型，路由更像正解

最終判斷

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AIで検索して事実確認

重要なポイント

不要把四個模型硬排成單一排行榜；公開基準的推理設定、更新時間、自報或第三方評測方式並不一致，較安全的做法是按任務選模型。[4][18]
GPT 5.5 high 在 Artificial Analysis Intelligence Index 得分 59，GPT 5.5 xhigh 在 GDPval AA 報告 Elo 1785；Claude Opus 4.7 則在 LLM Stats 共同 10 項基準整理中以 6 勝 4 負領先 GPT 5.5。[4][26][27]
Kimi K2.6 在 Artificial Analysis 開放模型表中為 Intelligence 54、112 tokens/s；DeepSeek V4 Pro 為 Intelligence 52、1M context。前者偏速度與價格性能，後者偏長上下文與 DeepSeek V4 系列較低 API 單價。[3][23]

人々も尋ねます

「GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 基準測試比較」の短い答えは何ですか?

不要把四個模型硬排成單一排行榜；公開基準的推理設定、更新時間、自報或第三方評測方式並不一致，較安全的做法是按任務選模型。[4][18]

最初に検証する重要なポイントは何ですか?

次の実践では何をすればいいでしょうか？

次にどの関連トピックを検討すればよいでしょうか?

別の角度からの引用や追加の引用については、「Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6比較：2026年ベンチマークの結論」に進みます。

関連ページを開く

これを何と比較すればいいでしょうか？

この回答を「DeepSeek V4を技術面から読む：100万トークン、MoE、API移行の要点」と照合してください。

関連ページを開く

研究を続けてください

Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6比較：2026年ベンチマークの結論

Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6：2026年ベンチマーク比較

DeepSeek V4を技術面から読む：100万トークン、MoE、API移行の要点

Northwest Timber と Southeast Timber：なぜ答えは「larger; larger」なのか

Northwest Timber と Southeast Timber：代替性が高いと、なぜ「larger; larger」になるのか

DeepSeekはOpenAI、Claude、Gemini、Grokに勝てるのか　本当の焦点はコストと信頼

DeepSeekはOpenAI、Claude、Gemini、Grokに勝てるのか

研究に関する会話

あなた2026年4月25日

リサーチクエスチョン

GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6のベンチマークを調査し、比較してください。

Studio Global AI2026年4月25日38 ソース

引用された回答

Key findings

モデル	確認できたベンチマーク・性能情報	比較上の解釈
GPT-5.5	Artificial Analysis関連記事のスニペットでは、2026年4月24日時点で「新たな主要/首位AIモデル」とされている。^[3] LinkedInスニペットにも「OpenAIのGPT-5.5が新たな首位AIモデル」とある。^[34]	総合性能で非常に強い可能性はあるが、提供証拠には具体的なスコア、評価項目、競合平均との差がないため、定量順位は確定できない。^[3]^[34]
Claude Opus 4.7	Mashableスニペットでは、AnthropicがClaude Opus 4.7について「92%のhonesty rate」と「より少ないsycophancy」を主張している。^[4] SourceForgeスニペットでは、Claude Opus 4.7は高度なソフトウェアエンジニアリングと複雑な問題解決での改善を目的にしたAnthropicの最新モデルと説明されている。^[6]	安全性・誠実性系の指標では具体値があるが、GPT-5.5やKimi K2.6と同じ総合ベンチマークでの数値比較はできない。^[4]^[6]
DeepSeek V4	Artificial Analysisの公開モデル比較スニペットに「DeepSeek V4 Pro」の記載はあるが、スコアや速度、価格などの数値は提示されていない。^[7]	Insufficient evidence. 提供証拠だけではDeepSeek V4のベンチマーク順位・強み・弱みを判断できない。^[7]
Kimi K2.6	Artificial Analysisの公開モデル比較スニペットでは、Kimi K2.6のIntelligenceが54、コンテキスト長が256k、価格が$1.7、出力速度が112 tokens/sと示されている。^[7]	4モデル中で最も具体的な公開比較数値が確認できるが、GPT-5.5やClaude Opus 4.7と同一指標で直接比較できる証拠はない。^[7]

Evidence notes

Stanford HAIの2026年AI Indexでは、2026年2月時点のSWE-bench Verifiedで上位モデルが70%台前半〜中盤に密集し、Claude 4.5 Opus high reasoningが約76.8%で首位、KimiK2.5、GPT-5.2、Gemini 3 Flash high reasoningが70%〜76%の範囲に入っていたとされている。^[2]
ただし、このStanford HAIの記述はClaude Opus 4.7、GPT-5.5、Kimi K2.6、DeepSeek V4そのものではなく、直前世代または別モデルの状況を示す背景情報にとどまる。^[2]
SciCode Benchの提供スニペットにはClaude Sonnet 4 high、Gemini 2.5 Pro、GPT-5-1-codex、Grok 4などの記載があるが、比較対象であるGPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6の直接スコアは確認できない。^[1]
GPT-5.5については「新たな首位」とする記述がある一方、別スニペットではClaude Opus 4.7もArtificial Analysis Intelligence文脈で首位に位置するように読めるため、時点差、評価セット差、またはスニペットの文脈差による不整合がある可能性がある。^[3]^[34]

Limitations / uncertainty

Insufficient evidence. 4モデルすべてを同一ベンチマーク、同一日付、同一推論設定で比較した表やスコアは、提供証拠内にはありません。^[1]^[3]^[5]^[7]^[34]
DeepSeek V4は特に情報が不足しており、提供証拠では「DeepSeek V4 Pro」というモデル名の出現以上の定量情報を確認できません。^[7]
Claude Opus 4.7の「92% honesty rate」は安全性・誠実性に関する指標であり、コーディング、数学、エージェント性能、総合知能スコアと同列には扱えません。^[4]
Kimi K2.6のIntelligence 54、256k context、$1.7、112 tokens/sは有用な比較材料ですが、GPT-5.5やClaude Opus 4.7の同じ列の数値が提供されていないため、相対順位は出せません。^[7]

Summary

現時点の提供証拠で最も強い総合性能シグナルがあるのはGPT-5.5ですが、数値スコアはありません。^[3]^[34]
Claude Opus 4.7は安全性・誠実性で92%という具体値があり、ソフトウェアエンジニアリングや複雑問題解決の改善が主張されていますが、総合スコア比較はできません。^[4]^[6]
Kimi K2.6はIntelligence 54、256k context、$1.7、112 tokens/sという具体的な公開比較値がありますが、他3モデルとの同一指標比較は不足しています。^[7]
DeepSeek V4は提供証拠だけでは評価不能です。^[7]

情報源

[2] DeepSeek is back among the leading open weights models with V4 Pro ...artificialanalysis.ai
Lower cost than frontier models, but high token usage keeps costs above most open weights peers: DeepSeek V4 Pro costs $1,071 to run the Artificial Analysis Intelligence Index, more than 4x cheaper than Claude Opus 4.7 ($4,811) but above several open weight...
[3] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com
Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...
[4] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarksllm-stats.com
The Verdict On the 10 benchmarks both providers report, Opus 4.7 leads on 6 and GPT-5.5 leads on 4. The leads cluster by category, not by overall quality: Opus 4.7 is ahead on the reasoning-heavy and review-grade tests (GPQA Diamond, HLE with and without to...
[9] OpenAI’s GPT-5.5 vs Claude Opus 4.7: Which is better? | Mashablemashable.com
Thanks for signing up! SWE-Bench Pro: GPT-5.5 scored 58.6; Opus 4.7 scored 64.3 percent Terminal-Bench 2.0: GPT-5.5 scored 82.7 percent; Opus 4.7 scored 69.4 percent Humanity's Last Exam: GPT-5.5 scored 40.6 percent; Opus 4.7 scored 31.2 percent\ Humanity's...
[15] Anthropic releases Claude Opus 4.7: How to try it, benchmarks, safetymashable.com
Tim studied print journalism at the University of Southern California. He currently splits his time between Brooklyn, NY and Charleston, SC. He's currently working on his second novel, a science-fiction book. Recommended For You Anthropic says Claude Opus 4...
[16] DeepSeek V4: Features, Benchmarks, and Comparisons - DataCampdatacamp.com
How large are the DeepSeek V4 models? DeepSeek uses a Mixture of Experts (MoE) architecture. The Pro model contains 1.6 trillion total parameters (49 billion active) and requires an 865GB download. The Flash model contains 284 billion parameters (13 billion...
[17] Introducing Claude Opus 4.7anthropic.com
Image 7: logo Based on our internal research-agent benchmark, Claude Opus 4.7 has the strongest efficiency baseline we’ve seen for multi-step work. It tied for the top overall score across our six modules at 0.715 and delivered the most consistent long-cont...
[18] moonshotai/Kimi-K2.6 - Hugging Facehuggingface.co
Footnotes 1. General Testing Details We report results for Kimi K2.6 and Kimi K2.5 with thinking mode enabled, Claude Opus 4.6 with max effort, GPT-5.4 with xhigh reasoning effort, and Gemini 3.1 Pro with a high thinking level. Unless otherwise specified, a...
[20] Open-weight Kimi K2.6 takes on GPT-5.4 and Claude Opus 4.6 with agent swarmsthe-decoder.com
The Decoder Open-weight Kimi K2.6 takes on GPT-5.4 and Claude Opus 4.6 with agent swarms Matthias Bastian Image description Moonshot AI has released Kimi K2.6 as an open-weight model. It's built to match GPT-5.4 and Claude Opus 4.6 on coding benchmarks, and...
[23] Comparison of Open Source AI Models across Intelligence, Performance, Price, Context Window, and more | Artificial Analysisartificialanalysis.ai
Model Name Intelligence Parameters Context Window Price Output Speed (t/s) Weights Providers Provider Benchmarks --- --- --- --- Kimi logo Kimi K2.6 Kimi 54 1.0KB (32B active at inference time) 256k $1.7 112 🤗 Novita Kimi SiliconFlow +6 more View DeepSeek...
[26] OpenAI's GPT-5.5 is the new leading AI model - Artificial Analysisartificialanalysis.ai
➤ Number one in GDPval-AA with an Elo of 1785: GPT-5.5 (xhigh) leads Claude Opus 4.7 (max) by 30 pts and Gemini 3.1 Pro Preview by 470 pts. GDPval-AA is Artificial Analysis' benchmark that leverages OpenAI's GDPval dataset to evaluate models on real-world e...
[27] GPT-5.5 (high) - Intelligence, Performance & Price Analysisartificialanalysis.ai
No, GPT-5.5 (high) is proprietary. The model weights are not publicly available. GPT-5.5 (high) is a proprietary model and OpenAI has not disclosed the model size or parameter count. GPT-5.5 (high) achieves a score of 59 on the Artificial Analysis Intellige...
[28] GPT-5.5 vs Claude Opus 4.7: Real-World Coding Performance Comparedmindstudio.ai
GPT-5.5 uses 72% fewer output tokens than Claude Opus 4.7 on the same coding tasks — a structural difference, not a minor gap. On raw benchmark quality, both models are competitive. Neither dominates on every task type. For high-volume agentic coding pipeli...
[30] Comparison of AI Models across Intelligence, Performance, and Priceartificialanalysis.ai
Which is the most intelligent AI model? Claude Opus 4.7 (Adaptive Reasoning, Max Effort) currently leads the Artificial Analysis Intelligence Index with a score of 57, out of 347 models evaluated. What are the top AI models? The top AI models by Intelligenc...

トレンドを発見する

レポート公開済み2026年4月28日Last edited 2026年5月6日14 ソース

GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 基準測試比較

Studio Global AIで検索して事実確認 Discover からさらに閲覧する

17K0

先講結論：不同工作，第一候選不同

用途	優先考慮	為什麼
綜合能力、具經濟價值的任務	GPT-5.5	GPT-5.5 high 在 Artificial Analysis Intelligence Index 得分 59；GPT-5.5 xhigh 在 GDPval-AA 報告 Elo 1785，領先 Claude Opus 4.7 max 約 30 點。^[26]^[27]
深度推理、審稿、專業判斷	Claude Opus 4.7	LLM Stats 整理共同 10 項基準時，Claude Opus 4.7 領先 6 項，GPT-5.5 領先 4 項；優勢集中在推理與審查型任務。^[4]
終端機操作、瀏覽、長時間工具使用	GPT-5.5	LLM Stats 指出 GPT-5.5 在 Terminal-Bench 2.0、BrowseComp、OSWorld-Verified、CyberGym 等長時間工具使用測試較強。^[4]
開放權重路線，重視速度與價格性能	Kimi K2.6	Artificial Analysis 開放模型表列出 Kimi K2.6：Intelligence 54、256k context、Price 欄位 $1.7、112 tokens/s。^[23]
長上下文、大量處理、低 API 單價	DeepSeek V4 Pro／DeepSeek V4 系列	Artificial Analysis 顯示 DeepSeek V4 Pro 有 1M context；Mashable 報告 DeepSeek V4 的 API 單價低於 GPT-5.5 與 Claude Opus 4.7。^[3]^[23]

四個模型的主要訊號

模型	基準測試看到的強項	價格與部署訊號
GPT-5.5	GPT-5.5 high 在 Artificial Analysis Intelligence Index 為 59；GPT-5.5 xhigh 在 GDPval-AA 為 Elo 1785，據報較 Claude Opus 4.7 max 高約 30 點。^[26]^[27]	Mashable 報告 API 價格為每 100 萬輸入 token $5、每 100 萬輸出 token $30。^[3]
Claude Opus 4.7	LLM Stats 的共同 10 項基準整理為 6 勝 4 負；Mashable 表中 SWE-Bench Pro 為 64.3%、GPQA Diamond 為 94.2%、HLE with tools 為 54.7%。^[4]^[9]	Mashable 報告 API 價格為每 100 萬輸入 token $5、每 100 萬輸出 token $25。^[3]
Kimi K2.6	Artificial Analysis 開放模型表中 Intelligence 為 54；The Decoder 轉述 Moonshot AI 發表值：HLE with Tools 54.0、SWE-Bench Pro 58.6、BrowseComp 83.2。^[20]^[23]	Artificial Analysis 同表列出 256k context、Price 欄位 $1.7、112 tokens/s。^[23]
DeepSeek V4 Pro	Artificial Analysis 開放模型表中 Intelligence 為 52；DataCamp 整理稱 DeepSeek V4 在純能力上沒有超過 GPT-5.5 與 Claude Opus 4.7。^[16]^[23]	Artificial Analysis 同表列出 1M context、Price 欄位 $2.2、36 tokens/s；Mashable 報告 DeepSeek V4 API 價格為每 100 萬輸入 token $1.74、每 100 萬輸出 token $3.48。^[3]^[23]

GPT-5.5 對 Claude Opus 4.7：不是誰碾壓誰，而是題型不同

基準測試	GPT-5.5	Claude Opus 4.7	Mashable 表中領先者
SWE-Bench Pro	58.6%	64.3%	Claude Opus 4.7
Terminal-Bench 2.0	82.7%	69.4%	GPT-5.5
Humanity's Last Exam	40.6%	31.2%	GPT-5.5
Humanity's Last Exam with tools	52.2%	54.7%	Claude Opus 4.7
BrowseComp	84.4%	79.3%	GPT-5.5
GPQA Diamond	93.6%	94.2%	Claude Opus 4.7
ARC-AGI-1 Verified	94.5%	92.0%	GPT-5.5

Kimi K2.6 對 DeepSeek V4 Pro：開放權重要看速度還是上下文

Kimi K2.6 與 DeepSeek V4 Pro 不宜直接拿來和 GPT-5.5、Claude Opus 4.7 做單一總分競賽；更實際的角度，是把它們視為開放權重部署或實驗的候選。

指標	Kimi K2.6	DeepSeek V4 Pro
Artificial Analysis Intelligence	54	52
Context window	256k	1.00M
Price 欄位	$1.7	$2.2
Output speed	112 tokens/s	36 tokens/s

價格比較：API 單價、表格 Price、評測成本不能混著看

看價格時，至少要分清三種數字。

第一是 API token 單價。Mashable 報告 DeepSeek V4 為每 100 萬輸入 token $1.74、每 100 萬輸出 token $3.48；GPT-5.5 為 $5／$30；Claude Opus 4.7 為 $5／$25。^[3]

第二是 Artificial Analysis 模型表中的 Price 欄位。該表列出 Kimi K2.6 為 $1.7、DeepSeek V4 Pro 為 $2.2，但這不應直接等同於 Mashable 報告的 API token 單價。^[23]

第三是跑完整個基準測試的成本。Artificial Analysis 文章指出，執行 Intelligence Index 的成本為 DeepSeek V4 Pro $1,071、Kimi K2.6 $948、Claude Opus 4.7 $4,811。^[2]

安全性與可靠性是另一條軸線

但這些並不是 SWE-Bench Pro、GPQA Diamond、BrowseComp 那類能力基準。真正上線時，應把能力、成本、速度、幻覺風險、可稽核性分開評估。^[15]^[17]

實務建議：比起固定一個模型，路由更像正解

最終判斷

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AIで検索して事実確認

重要なポイント

不要把四個模型硬排成單一排行榜；公開基準的推理設定、更新時間、自報或第三方評測方式並不一致，較安全的做法是按任務選模型。[4][18]
GPT 5.5 high 在 Artificial Analysis Intelligence Index 得分 59，GPT 5.5 xhigh 在 GDPval AA 報告 Elo 1785；Claude Opus 4.7 則在 LLM Stats 共同 10 項基準整理中以 6 勝 4 負領先 GPT 5.5。[4][26][27]
Kimi K2.6 在 Artificial Analysis 開放模型表中為 Intelligence 54、112 tokens/s；DeepSeek V4 Pro 為 Intelligence 52、1M context。前者偏速度與價格性能，後者偏長上下文與 DeepSeek V4 系列較低 API 單價。[3][23]

人々も尋ねます

「GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 基準測試比較」の短い答えは何ですか?

不要把四個模型硬排成單一排行榜；公開基準的推理設定、更新時間、自報或第三方評測方式並不一致，較安全的做法是按任務選模型。[4][18]

最初に検証する重要なポイントは何ですか?

次の実践では何をすればいいでしょうか？

次にどの関連トピックを検討すればよいでしょうか?

別の角度からの引用や追加の引用については、「Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6比較：2026年ベンチマークの結論」に進みます。

関連ページを開く

これを何と比較すればいいでしょうか？

この回答を「DeepSeek V4を技術面から読む：100万トークン、MoE、API移行の要点」と照合してください。

関連ページを開く

研究を続けてください

研究に関する会話

あなた2026年4月25日

リサーチクエスチョン

GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6のベンチマークを調査し、比較してください。

Studio Global AI2026年4月25日38 ソース

引用された回答

Key findings

モデル	確認できたベンチマーク・性能情報	比較上の解釈
GPT-5.5	Artificial Analysis関連記事のスニペットでは、2026年4月24日時点で「新たな主要/首位AIモデル」とされている。^[3] LinkedInスニペットにも「OpenAIのGPT-5.5が新たな首位AIモデル」とある。^[34]	総合性能で非常に強い可能性はあるが、提供証拠には具体的なスコア、評価項目、競合平均との差がないため、定量順位は確定できない。^[3]^[34]
Claude Opus 4.7	Mashableスニペットでは、AnthropicがClaude Opus 4.7について「92%のhonesty rate」と「より少ないsycophancy」を主張している。^[4] SourceForgeスニペットでは、Claude Opus 4.7は高度なソフトウェアエンジニアリングと複雑な問題解決での改善を目的にしたAnthropicの最新モデルと説明されている。^[6]	安全性・誠実性系の指標では具体値があるが、GPT-5.5やKimi K2.6と同じ総合ベンチマークでの数値比較はできない。^[4]^[6]
DeepSeek V4	Artificial Analysisの公開モデル比較スニペットに「DeepSeek V4 Pro」の記載はあるが、スコアや速度、価格などの数値は提示されていない。^[7]	Insufficient evidence. 提供証拠だけではDeepSeek V4のベンチマーク順位・強み・弱みを判断できない。^[7]
Kimi K2.6	Artificial Analysisの公開モデル比較スニペットでは、Kimi K2.6のIntelligenceが54、コンテキスト長が256k、価格が$1.7、出力速度が112 tokens/sと示されている。^[7]	4モデル中で最も具体的な公開比較数値が確認できるが、GPT-5.5やClaude Opus 4.7と同一指標で直接比較できる証拠はない。^[7]

Evidence notes

Stanford HAIの2026年AI Indexでは、2026年2月時点のSWE-bench Verifiedで上位モデルが70%台前半〜中盤に密集し、Claude 4.5 Opus high reasoningが約76.8%で首位、KimiK2.5、GPT-5.2、Gemini 3 Flash high reasoningが70%〜76%の範囲に入っていたとされている。^[2]
ただし、このStanford HAIの記述はClaude Opus 4.7、GPT-5.5、Kimi K2.6、DeepSeek V4そのものではなく、直前世代または別モデルの状況を示す背景情報にとどまる。^[2]
SciCode Benchの提供スニペットにはClaude Sonnet 4 high、Gemini 2.5 Pro、GPT-5-1-codex、Grok 4などの記載があるが、比較対象であるGPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6の直接スコアは確認できない。^[1]
GPT-5.5については「新たな首位」とする記述がある一方、別スニペットではClaude Opus 4.7もArtificial Analysis Intelligence文脈で首位に位置するように読めるため、時点差、評価セット差、またはスニペットの文脈差による不整合がある可能性がある。^[3]^[34]

Limitations / uncertainty

Insufficient evidence. 4モデルすべてを同一ベンチマーク、同一日付、同一推論設定で比較した表やスコアは、提供証拠内にはありません。^[1]^[3]^[5]^[7]^[34]
DeepSeek V4は特に情報が不足しており、提供証拠では「DeepSeek V4 Pro」というモデル名の出現以上の定量情報を確認できません。^[7]
Claude Opus 4.7の「92% honesty rate」は安全性・誠実性に関する指標であり、コーディング、数学、エージェント性能、総合知能スコアと同列には扱えません。^[4]
Kimi K2.6のIntelligence 54、256k context、$1.7、112 tokens/sは有用な比較材料ですが、GPT-5.5やClaude Opus 4.7の同じ列の数値が提供されていないため、相対順位は出せません。^[7]

Summary

現時点の提供証拠で最も強い総合性能シグナルがあるのはGPT-5.5ですが、数値スコアはありません。^[3]^[34]
Claude Opus 4.7は安全性・誠実性で92%という具体値があり、ソフトウェアエンジニアリングや複雑問題解決の改善が主張されていますが、総合スコア比較はできません。^[4]^[6]
Kimi K2.6はIntelligence 54、256k context、$1.7、112 tokens/sという具体的な公開比較値がありますが、他3モデルとの同一指標比較は不足しています。^[7]
DeepSeek V4は提供証拠だけでは評価不能です。^[7]

情報源

[2] DeepSeek is back among the leading open weights models with V4 Pro ...artificialanalysis.ai
Lower cost than frontier models, but high token usage keeps costs above most open weights peers: DeepSeek V4 Pro costs $1,071 to run the Artificial Analysis Intelligence Index, more than 4x cheaper than Claude Opus 4.7 ($4,811) but above several open weight...
[3] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com
Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...
[4] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarksllm-stats.com
The Verdict On the 10 benchmarks both providers report, Opus 4.7 leads on 6 and GPT-5.5 leads on 4. The leads cluster by category, not by overall quality: Opus 4.7 is ahead on the reasoning-heavy and review-grade tests (GPQA Diamond, HLE with and without to...
[9] OpenAI’s GPT-5.5 vs Claude Opus 4.7: Which is better? | Mashablemashable.com
Thanks for signing up! SWE-Bench Pro: GPT-5.5 scored 58.6; Opus 4.7 scored 64.3 percent Terminal-Bench 2.0: GPT-5.5 scored 82.7 percent; Opus 4.7 scored 69.4 percent Humanity's Last Exam: GPT-5.5 scored 40.6 percent; Opus 4.7 scored 31.2 percent\ Humanity's...
[15] Anthropic releases Claude Opus 4.7: How to try it, benchmarks, safetymashable.com
Tim studied print journalism at the University of Southern California. He currently splits his time between Brooklyn, NY and Charleston, SC. He's currently working on his second novel, a science-fiction book. Recommended For You Anthropic says Claude Opus 4...
[16] DeepSeek V4: Features, Benchmarks, and Comparisons - DataCampdatacamp.com
How large are the DeepSeek V4 models? DeepSeek uses a Mixture of Experts (MoE) architecture. The Pro model contains 1.6 trillion total parameters (49 billion active) and requires an 865GB download. The Flash model contains 284 billion parameters (13 billion...
[17] Introducing Claude Opus 4.7anthropic.com
Image 7: logo Based on our internal research-agent benchmark, Claude Opus 4.7 has the strongest efficiency baseline we’ve seen for multi-step work. It tied for the top overall score across our six modules at 0.715 and delivered the most consistent long-cont...
[18] moonshotai/Kimi-K2.6 - Hugging Facehuggingface.co
Footnotes 1. General Testing Details We report results for Kimi K2.6 and Kimi K2.5 with thinking mode enabled, Claude Opus 4.6 with max effort, GPT-5.4 with xhigh reasoning effort, and Gemini 3.1 Pro with a high thinking level. Unless otherwise specified, a...
[20] Open-weight Kimi K2.6 takes on GPT-5.4 and Claude Opus 4.6 with agent swarmsthe-decoder.com
The Decoder Open-weight Kimi K2.6 takes on GPT-5.4 and Claude Opus 4.6 with agent swarms Matthias Bastian Image description Moonshot AI has released Kimi K2.6 as an open-weight model. It's built to match GPT-5.4 and Claude Opus 4.6 on coding benchmarks, and...
[23] Comparison of Open Source AI Models across Intelligence, Performance, Price, Context Window, and more | Artificial Analysisartificialanalysis.ai
Model Name Intelligence Parameters Context Window Price Output Speed (t/s) Weights Providers Provider Benchmarks --- --- --- --- Kimi logo Kimi K2.6 Kimi 54 1.0KB (32B active at inference time) 256k $1.7 112 🤗 Novita Kimi SiliconFlow +6 more View DeepSeek...
[26] OpenAI's GPT-5.5 is the new leading AI model - Artificial Analysisartificialanalysis.ai
➤ Number one in GDPval-AA with an Elo of 1785: GPT-5.5 (xhigh) leads Claude Opus 4.7 (max) by 30 pts and Gemini 3.1 Pro Preview by 470 pts. GDPval-AA is Artificial Analysis' benchmark that leverages OpenAI's GDPval dataset to evaluate models on real-world e...
[27] GPT-5.5 (high) - Intelligence, Performance & Price Analysisartificialanalysis.ai
No, GPT-5.5 (high) is proprietary. The model weights are not publicly available. GPT-5.5 (high) is a proprietary model and OpenAI has not disclosed the model size or parameter count. GPT-5.5 (high) achieves a score of 59 on the Artificial Analysis Intellige...
[28] GPT-5.5 vs Claude Opus 4.7: Real-World Coding Performance Comparedmindstudio.ai
GPT-5.5 uses 72% fewer output tokens than Claude Opus 4.7 on the same coding tasks — a structural difference, not a minor gap. On raw benchmark quality, both models are competitive. Neither dominates on every task type. For high-volume agentic coding pipeli...
[30] Comparison of AI Models across Intelligence, Performance, and Priceartificialanalysis.ai
Which is the most intelligent AI model? Claude Opus 4.7 (Adaptive Reasoning, Max Effort) currently leads the Artificial Analysis Intelligence Index with a score of 57, out of 347 models evaluated. What are the top AI models? The top AI models by Intelligenc...

先講結論：不同工作，第一候選不同

四個模型的主要訊號

GPT-5.5 對 Claude Opus 4.7：不是誰碾壓誰，而是題型不同

Kimi K2.6 對 DeepSeek V4 Pro：開放權重要看速度還是上下文

價格比較：API 單價、表格 Price、評測成本不能混著看

安全性與可靠性是另一條軸線

實務建議：比起固定一個模型，路由更像正解

最終判斷

Search, cite, and publish your own answer

重要なポイント

人々も尋ねます

「GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 基準測試比較」の短い答えは何ですか?

最初に検証する重要なポイントは何ですか?

次の実践では何をすればいいでしょうか？

次にどの関連トピックを検討すればよいでしょうか?

これを何と比較すればいいでしょうか？

研究を続けてください

Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6比較：2026年ベンチマークの結論

DeepSeek V4を技術面から読む：100万トークン、MoE、API移行の要点

Northwest Timber と Southeast Timber：なぜ答えは「larger; larger」なのか

DeepSeekはOpenAI、Claude、Gemini、Grokに勝てるのか 本当の焦点はコストと信頼

研究に関する会話

リサーチクエスチョン

引用された回答

Key findings

Evidence notes

Limitations / uncertainty

Summary

情報源

先講結論：不同工作，第一候選不同

四個模型的主要訊號

GPT-5.5 對 Claude Opus 4.7：不是誰碾壓誰，而是題型不同

Kimi K2.6 對 DeepSeek V4 Pro：開放權重要看速度還是上下文

價格比較：API 單價、表格 Price、評測成本不能混著看

安全性與可靠性是另一條軸線

實務建議：比起固定一個模型，路由更像正解

最終判斷

Search, cite, and publish your own answer

重要なポイント

人々も尋ねます

「GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 基準測試比較」の短い答えは何ですか?

最初に検証する重要なポイントは何ですか?

次の実践では何をすればいいでしょうか？

次にどの関連トピックを検討すればよいでしょうか?

これを何と比較すればいいでしょうか？

研究を続けてください

Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6比較：2026年ベンチマークの結論

DeepSeek V4を技術面から読む：100万トークン、MoE、API移行の要点

Northwest Timber と Southeast Timber：なぜ答えは「larger; larger」なのか

DeepSeekはOpenAI、Claude、Gemini、Grokに勝てるのか 本当の焦点はコストと信頼

研究に関する会話

リサーチクエスチョン

引用された回答

Key findings

Evidence notes

Limitations / uncertainty

Summary

情報源

先講結論：不同工作，第一候選不同

四個模型的主要訊號

GPT-5.5 對 Claude Opus 4.7：不是誰碾壓誰，而是題型不同

Kimi K2.6 對 DeepSeek V4 Pro：開放權重要看速度還是上下文

價格比較：API 單價、表格 Price、評測成本不能混著看

安全性與可靠性是另一條軸線

實務建議：比起固定一個模型，路由更像正解

最終判斷

Search, cite, and publish your own answer

重要なポイント

人々も尋ねます

「GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 基準測試比較」の短い答えは何ですか?

最初に検証する重要なポイントは何ですか?

次の実践では何をすればいいでしょうか？

次にどの関連トピックを検討すればよいでしょうか?

これを何と比較すればいいでしょうか？

研究を続けてください

Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6比較：2026年ベンチマークの結論

DeepSeek V4を技術面から読む：100万トークン、MoE、API移行の要点

Northwest Timber と Southeast Timber：なぜ答えは「larger; larger」なのか

DeepSeekはOpenAI、Claude、Gemini、Grokに勝てるのか 本当の焦点はコストと信頼

研究に関する会話

DeepSeekはOpenAI、Claude、Gemini、Grokに勝てるのか　本当の焦点はコストと信頼

DeepSeekはOpenAI、Claude、Gemini、Grokに勝てるのか　本当の焦点はコストと信頼

DeepSeekはOpenAI、Claude、Gemini、Grokに勝てるのか　本当の焦点はコストと信頼