studioglobal
トレンドを発見する
レポート公開済み14 ソース

GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 基準測試比較

不要把四個模型硬排成單一排行榜;公開基準的推理設定、更新時間、自報或第三方評測方式並不一致,較安全的做法是按任務選模型。[4][18] GPT 5.5 high 在 Artificial Analysis Intelligence Index 得分 59,GPT 5.5 xhigh 在 GDPval AA 報告 Elo 1785;Claude Opus 4.7 則在 LLM Stats 共同 10 項基準整理中以 6 勝 4 負領先 GPT 5.5。[4][26][27] Kimi K2.6 在 Artificial Analysis 開放模型表中為 Intelligence 54、112 tokens/s;DeepSeek...

17K0
GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6のベンチマーク比較を示す抽象的なAIダッシュボード
GPT-5.5・Claude Opus 4.7・DeepSeek V4・Kimi K2.6比較:ベンチマークで見る用途別の勝者4つの主要AIモデルを、総合性能・推論・速度・文脈長・価格の観点で比較するイメージ。
AI プロンプト

Create a landscape editorial hero image for this Studio Global article: GPT-5.5・Claude Opus 4.7・DeepSeek V4・Kimi K2.6比較:ベンチマークで見る用途別の勝者. Article summary: 4モデルを完全同一条件で横比較した公開表は確認できないため、単一の勝者ではなく用途別に選ぶのが安全です。総合候補はGPT 5.5(AA Intelligence 59、GDPval AA Elo 1785)とClaude Opus 4.7(共通10ベンチマークで6勝4敗)です。[4][26][27]. Topic tags: ai, llm benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](

openai.com

比較 GPT-5.5、Claude Opus 4.7、DeepSeek V4 Pro 與 Kimi K2.6,最容易犯的錯不是看錯數字,而是把不同來源、不同推理設定、不同時間點的數字硬塞進同一張總榜。公開基準常混有廠商自報與第三方整理,方法論也不一定完全一致;因此,這四個模型更適合用用途來分流,而不是只問誰第一。[4][18]

本文以可查到明確數值的 DeepSeek V4 Pro(Reasoning, Max Effort)作為 DeepSeek 代表。Artificial Analysis 的開放模型表同列 Kimi K2.6 與 DeepSeek V4 Pro 的 Intelligence、上下文長度、Price 欄位與輸出速度,是目前較適合拿來看開放權重模型取捨的資料。[23]

先講結論:不同工作,第一候選不同

用途優先考慮為什麼
綜合能力、具經濟價值的任務GPT-5.5GPT-5.5 high 在 Artificial Analysis Intelligence Index 得分 59;GPT-5.5 xhigh 在 GDPval-AA 報告 Elo 1785,領先 Claude Opus 4.7 max 約 30 點。[26][27]
深度推理、審稿、專業判斷Claude Opus 4.7LLM Stats 整理共同 10 項基準時,Claude Opus 4.7 領先 6 項,GPT-5.5 領先 4 項;優勢集中在推理與審查型任務。[4]
終端機操作、瀏覽、長時間工具使用GPT-5.5LLM Stats 指出 GPT-5.5 在 Terminal-Bench 2.0、BrowseComp、OSWorld-Verified、CyberGym 等長時間工具使用測試較強。[4]
開放權重路線,重視速度與價格性能Kimi K2.6Artificial Analysis 開放模型表列出 Kimi K2.6:Intelligence 54、256k context、Price 欄位 $1.7、112 tokens/s。[23]
長上下文、大量處理、低 API 單價DeepSeek V4 Pro/DeepSeek V4 系列Artificial Analysis 顯示 DeepSeek V4 Pro 有 1M context;Mashable 報告 DeepSeek V4 的 API 單價低於 GPT-5.5 與 Claude Opus 4.7。[3][23]

四個模型的主要訊號

模型基準測試看到的強項價格與部署訊號
GPT-5.5GPT-5.5 high 在 Artificial Analysis Intelligence Index 為 59;GPT-5.5 xhigh 在 GDPval-AA 為 Elo 1785,據報較 Claude Opus 4.7 max 高約 30 點。[26][27]Mashable 報告 API 價格為每 100 萬輸入 token $5、每 100 萬輸出 token $30。[3]
Claude Opus 4.7LLM Stats 的共同 10 項基準整理為 6 勝 4 負;Mashable 表中 SWE-Bench Pro 為 64.3%、GPQA Diamond 為 94.2%、HLE with tools 為 54.7%。[4][9]Mashable 報告 API 價格為每 100 萬輸入 token $5、每 100 萬輸出 token $25。[3]
Kimi K2.6Artificial Analysis 開放模型表中 Intelligence 為 54;The Decoder 轉述 Moonshot AI 發表值:HLE with Tools 54.0、SWE-Bench Pro 58.6、BrowseComp 83.2。[20][23]Artificial Analysis 同表列出 256k context、Price 欄位 $1.7、112 tokens/s。[23]
DeepSeek V4 ProArtificial Analysis 開放模型表中 Intelligence 為 52;DataCamp 整理稱 DeepSeek V4 在純能力上沒有超過 GPT-5.5 與 Claude Opus 4.7。[16][23]Artificial Analysis 同表列出 1M context、Price 欄位 $2.2、36 tokens/s;Mashable 報告 DeepSeek V4 API 價格為每 100 萬輸入 token $1.74、每 100 萬輸出 token $3.48。[3][23]

GPT-5.5 對 Claude Opus 4.7:不是誰碾壓誰,而是題型不同

GPT-5.5 與 Claude Opus 4.7 都是前沿閉源模型,但勝負會隨基準測試而變。以 Mashable 報告的數字看,Claude Opus 4.7 在 SWE-Bench Pro 與 GPQA Diamond 領先;GPT-5.5 則在 Terminal-Bench 2.0、Humanity's Last Exam、BrowseComp、ARC-AGI-1 Verified 領先。[9]

基準測試GPT-5.5Claude Opus 4.7Mashable 表中領先者
SWE-Bench Pro58.6%64.3%Claude Opus 4.7
Terminal-Bench 2.082.7%69.4%GPT-5.5
Humanity's Last Exam40.6%31.2%GPT-5.5
Humanity's Last Exam with tools52.2%54.7%Claude Opus 4.7
BrowseComp84.4%79.3%GPT-5.5
GPQA Diamond93.6%94.2%Claude Opus 4.7
ARC-AGI-1 Verified94.5%92.0%GPT-5.5

LLM Stats 的歸納則是:在雙方都有回報的 10 項基準中,Claude Opus 4.7 領先 6 項,GPT-5.5 領先 4 項;Opus 4.7 偏強於推理、審查與專業任務,GPT-5.5 偏強於長時間工具使用。[4]

但這裡要特別小心。LLM Stats 也提醒,這些分數多來自各供應商高推理層級的自報結果,形式上可以對照,方法論卻未必完全相同。[4] 甚至像 Humanity's Last Exam 這類項目,不同來源呈現出的領先方向也可能不同。[4][9]

Kimi K2.6 對 DeepSeek V4 Pro:開放權重要看速度還是上下文

Kimi K2.6 與 DeepSeek V4 Pro 不宜直接拿來和 GPT-5.5、Claude Opus 4.7 做單一總分競賽;更實際的角度,是把它們視為開放權重部署或實驗的候選。

指標Kimi K2.6DeepSeek V4 Pro
Artificial Analysis Intelligence5452
Context window256k1.00M
Price 欄位$1.7$2.2
Output speed112 tokens/s36 tokens/s

只看這張表,Kimi K2.6 在 Intelligence 與輸出速度上較有利;DeepSeek V4 Pro 的明顯優勢則是 1M context。[23] The Decoder 也轉述 Moonshot AI 發表值,稱 Kimi K2.6 在 HLE with Tools 為 54.0、SWE-Bench Pro 為 58.6、BrowseComp 為 83.2。[20]

不過,Kimi K2.6 的公開實驗並不是與 GPT-5.5、Claude Opus 4.7 完全同條件對打。Hugging Face 模型卡說明,Kimi K2.6 以 thinking mode、temperature 1.0、top-p 1.0、262,144 token 上下文長度等設定評估,主要比較對象也包括 Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro。[18]

DeepSeek V4 Pro 則更像是用長上下文與成本換取接近前沿模型能力的方案,而不是純性能冠軍。DataCamp 整理指出,DeepSeek V4 在純能力上沒有超過 GPT-5.5 與 Claude Opus 4.7,但定位是以較低成本提供 near-frontier 性能。[16]

價格比較:API 單價、表格 Price、評測成本不能混著看

看價格時,至少要分清三種數字。

第一是 API token 單價。Mashable 報告 DeepSeek V4 為每 100 萬輸入 token $1.74、每 100 萬輸出 token $3.48;GPT-5.5 為 $5/$30;Claude Opus 4.7 為 $5/$25。[3]

第二是 Artificial Analysis 模型表中的 Price 欄位。該表列出 Kimi K2.6 為 $1.7、DeepSeek V4 Pro 為 $2.2,但這不應直接等同於 Mashable 報告的 API token 單價。[23]

第三是跑完整個基準測試的成本。Artificial Analysis 文章指出,執行 Intelligence Index 的成本為 DeepSeek V4 Pro $1,071、Kimi K2.6 $948、Claude Opus 4.7 $4,811。[2]

所以,說 DeepSeek 便宜、Kimi 便宜或 Claude 昂貴之前,必須先確認自己比較的是 API 單價、基準測試執行成本,還是真實業務中包含輸出長度、重試、工具呼叫與延遲的總成本。[2][3][23]

安全性與可靠性是另一條軸線

Claude Opus 4.7 的安全與可靠性訊號值得另外看。Mashable 轉述 Anthropic 說法,稱 Claude Opus 4.7 有 92% honesty rate,且 sycophancy 較少。[15] Anthropic 自家發布也表示,Claude Opus 4.7 在內部 research-agent benchmark 的 6 個模組總分並列第一,達 0.715;在 General Finance 模組中,分數由 Opus 4.6 的 0.767 提升到 0.813。[17]

但這些並不是 SWE-Bench Pro、GPQA Diamond、BrowseComp 那類能力基準。真正上線時,應把能力、成本、速度、幻覺風險、可稽核性分開評估。[15][17]

實務建議:比起固定一個模型,路由更像正解

如果是生產環境,硬把所有任務交給同一個模型,通常不是最穩的做法。MindStudio 的程式任務比較指出,GPT-5.5 在相同 coding task 中比 Claude Opus 4.7 少用 72% 輸出 token;但對複雜、推理負荷高的大型程式碼庫,Opus 4.7 的細緻程度可能足以支撐較高成本。[28]

較務實的配置是:標準生成、修改、終端機與工具型任務先試 GPT-5.5;深度審查、專業判斷與高風險推理交給 Claude Opus 4.7;開放權重與低成本實驗測 Kimi K2.6;長上下文、大量文件或低 API 單價需求則測 DeepSeek V4 Pro。[3][4][23][28]

最終判斷

目前公開資料更支持用途分流,而不是宣布單一總冠軍。GPT-5.5 的亮點在綜合能力與經濟價值任務;Claude Opus 4.7 適合推理、審稿與專業判斷;Kimi K2.6 是開放權重路線中速度與價格性能突出的選項;DeepSeek V4 Pro 則以長上下文與 DeepSeek V4 系列較低 API 單價吸引人。[3][4][23][26][27]

還要注意,Artificial Analysis 內部不同頁面也會因更新時間與推理設定而呈現不同畫面:GPT-5.5 high 模型頁列出 Intelligence 59;另一個模型列表頁則顯示 Claude Opus 4.7 Adaptive Reasoning, Max Effort 以 Intelligence 57 位居第一。[27][30] 因此,基準測試適合作為篩選起點;最後仍應用自己的真實任務、預算、延遲要求與失敗容忍度,做小規模並行測試。[4][18][28]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AIで検索して事実確認

重要なポイント

  • 不要把四個模型硬排成單一排行榜;公開基準的推理設定、更新時間、自報或第三方評測方式並不一致,較安全的做法是按任務選模型。[4][18]
  • GPT 5.5 high 在 Artificial Analysis Intelligence Index 得分 59,GPT 5.5 xhigh 在 GDPval AA 報告 Elo 1785;Claude Opus 4.7 則在 LLM Stats 共同 10 項基準整理中以 6 勝 4 負領先 GPT 5.5。[4][26][27]
  • Kimi K2.6 在 Artificial Analysis 開放模型表中為 Intelligence 54、112 tokens/s;DeepSeek V4 Pro 為 Intelligence 52、1M context。前者偏速度與價格性能,後者偏長上下文與 DeepSeek V4 系列較低 API 單價。[3][23]

人々も尋ねます

「GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 基準測試比較」の短い答えは何ですか?

不要把四個模型硬排成單一排行榜;公開基準的推理設定、更新時間、自報或第三方評測方式並不一致,較安全的做法是按任務選模型。[4][18]

最初に検証する重要なポイントは何ですか?

不要把四個模型硬排成單一排行榜;公開基準的推理設定、更新時間、自報或第三方評測方式並不一致,較安全的做法是按任務選模型。[4][18] GPT 5.5 high 在 Artificial Analysis Intelligence Index 得分 59,GPT 5.5 xhigh 在 GDPval AA 報告 Elo 1785;Claude Opus 4.7 則在 LLM Stats 共同 10 項基準整理中以 6 勝 4 負領先 GPT 5.5。[4][26][27]

次の実践では何をすればいいでしょうか?

Kimi K2.6 在 Artificial Analysis 開放模型表中為 Intelligence 54、112 tokens/s;DeepSeek V4 Pro 為 Intelligence 52、1M context。前者偏速度與價格性能,後者偏長上下文與 DeepSeek V4 系列較低 API 單價。[3][23]

次にどの関連トピックを検討すればよいでしょうか?

別の角度からの引用や追加の引用については、「Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6比較:2026年ベンチマークの結論」に進みます。

関連ページを開く

これを何と比較すればいいでしょうか?

この回答を「DeepSeek V4を技術面から読む:100万トークン、MoE、API移行の要点」と照合してください。

関連ページを開く

研究を続けてください

研究に関する会話

あなた

リサーチクエスチョン

GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6のベンチマークを調査し、比較してください。

Studio Global AI38 ソース

引用された回答

提供された証拠だけでは、GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6を同一ベンチマーク上で厳密に横比較するには不十分です。確認できる範囲では、GPT-5.5は「新たな首位モデル」とされる一方、Claude Opus 4.7もArtificial Analysis系の文脈で首位級と示唆されており、Kimi K2.6は一部の公開モデル比較指標のみ数値が確認できます。[3][7][34]

Key findings

モデル確認できたベンチマーク・性能情報比較上の解釈
GPT-5.5Artificial Analysis関連記事のスニペットでは、2026年4月24日時点で「新たな主要/首位AIモデル」とされている。[3] LinkedInスニペットにも「OpenAIのGPT-5.5が新たな首位AIモデル」とある。[34]総合性能で非常に強い可能性はあるが、提供証拠には具体的なスコア、評価項目、競合平均との差がないため、定量順位は確定できない。[3][34]
Claude Opus 4.7Mashableスニペットでは、AnthropicがClaude Opus 4.7について「92%のhonesty rate」と「より少ないsycophancy」を主張している。[4] SourceForgeスニペットでは、Claude Opus 4.7は高度なソフトウェアエンジニアリングと複雑な問題解決での改善を目的にしたAnthropicの最新モデルと説明されている。[6]安全性・誠実性系の指標では具体値があるが、GPT-5.5やKimi K2.6と同じ総合ベンチマークでの数値比較はできない。[4][6]
DeepSeek V4Artificial Analysisの公開モデル比較スニペットに「DeepSeek V4 Pro」の記載はあるが、スコアや速度、価格などの数値は提示されていない。[7]Insufficient evidence. 提供証拠だけではDeepSeek V4のベンチマーク順位・強み・弱みを判断できない。[7]
Kimi K2.6Artificial Analysisの公開モデル比較スニペットでは、Kimi K2.6のIntelligenceが54、コンテキスト長が256k、価格が$1.7、出力速度が112 tokens/sと示されている。[7]4モデル中で最も具体的な公開比較数値が確認できるが、GPT-5.5やClaude Opus 4.7と同一指標で直接比較できる証拠はない。[7]

Evidence notes

  • Stanford HAIの2026年AI Indexでは、2026年2月時点のSWE-bench Verifiedで上位モデルが70%台前半〜中盤に密集し、Claude 4.5 Opus high reasoningが約76.8%で首位、KimiK2.5、GPT-5.2、Gemini 3 Flash high reasoningが70%〜76%の範囲に入っていたとされている。[2]

  • ただし、このStanford HAIの記述はClaude Opus 4.7、GPT-5.5、Kimi K2.6、DeepSeek V4そのものではなく、直前世代または別モデルの状況を示す背景情報にとどまる。[2]

  • SciCode Benchの提供スニペットにはClaude Sonnet 4 high、Gemini 2.5 Pro、GPT-5-1-codex、Grok 4などの記載があるが、比較対象であるGPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6の直接スコアは確認できない。[1]

  • GPT-5.5については「新たな首位」とする記述がある一方、別スニペットではClaude Opus 4.7もArtificial Analysis Intelligence文脈で首位に位置するように読めるため、時点差、評価セット差、またはスニペットの文脈差による不整合がある可能性がある。[3][34]

Limitations / uncertainty

  • Insufficient evidence. 4モデルすべてを同一ベンチマーク、同一日付、同一推論設定で比較した表やスコアは、提供証拠内にはありません。[1][3][5][7][34]

  • DeepSeek V4は特に情報が不足しており、提供証拠では「DeepSeek V4 Pro」というモデル名の出現以上の定量情報を確認できません。[7]

  • Claude Opus 4.7の「92% honesty rate」は安全性・誠実性に関する指標であり、コーディング、数学、エージェント性能、総合知能スコアと同列には扱えません。[4]

  • Kimi K2.6のIntelligence 54、256k context、$1.7、112 tokens/sは有用な比較材料ですが、GPT-5.5やClaude Opus 4.7の同じ列の数値が提供されていないため、相対順位は出せません。[7]

Summary

  • 現時点の提供証拠で最も強い総合性能シグナルがあるのはGPT-5.5ですが、数値スコアはありません。[3][34]

  • Claude Opus 4.7は安全性・誠実性で92%という具体値があり、ソフトウェアエンジニアリングや複雑問題解決の改善が主張されていますが、総合スコア比較はできません。[4][6]

  • Kimi K2.6はIntelligence 54、256k context、$1.7、112 tokens/sという具体的な公開比較値がありますが、他3モデルとの同一指標比較は不足しています。[7]

  • DeepSeek V4は提供証拠だけでは評価不能です。[7]

情報源