studioglobal
トレンドを発見する
レポート公開済み14 ソース

GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6:Benchmark 點睇、點揀

唔好將四個模型當成完全同條件的總排名去讀;公開 benchmark 的推理設定、評估時間同是否自報都未必一致,按用途揀會穩陣得多。[4][18] GPT 5.5 high 在 Artificial Analysis Intelligence Index 為 59,GPT 5.5 xhigh 在 GDPval AA 為 Elo 1785;Claude Opus 4.7 則在 LLM Stats 共通 10 個 benchmark 整理中以 6 勝 4 負領先 GPT 5.5。[4][26][27] Kimi K2.6 在 Artificial Analysis 開放模型表為 Intelligence 54、112 tokens/...

17K0
GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6のベンチマーク比較を示す抽象的なAIダッシュボード
GPT-5.5・Claude Opus 4.7・DeepSeek V4・Kimi K2.6比較:ベンチマークで見る用途別の勝者4つの主要AIモデルを、総合性能・推論・速度・文脈長・価格の観点で比較するイメージ。
AI プロンプト

Create a landscape editorial hero image for this Studio Global article: GPT-5.5・Claude Opus 4.7・DeepSeek V4・Kimi K2.6比較:ベンチマークで見る用途別の勝者. Article summary: 4モデルを完全同一条件で横比較した公開表は確認できないため、単一の勝者ではなく用途別に選ぶのが安全です。総合候補はGPT 5.5(AA Intelligence 59、GDPval AA Elo 1785)とClaude Opus 4.7(共通10ベンチマークで6勝4敗)です。[4][26][27]. Topic tags: ai, llm benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](

openai.com

如果你只問「邊個模型最勁」,答案其實唔夠用。GPT-5.5、Claude Opus 4.7、DeepSeek V4 Pro、Kimi K2.6 呢四個模型,公開 benchmark 的推論設定、評估時間、第三方整理或供應商自報方式都唔完全一樣;硬砌成一條總排名,好容易睇錯重點。[4][18]

本文會將 DeepSeek 主要放在有明確公開數字的 DeepSeek V4 Pro(Reasoning, Max Effort)去比較。Artificial Analysis 的開放模型表同時列出 Kimi K2.6 同 DeepSeek V4 Pro 的 Intelligence、上下文長度、Price 欄同輸出速度,較適合做同類型參考。[23]

一句講晒:按用途揀,唔好迷信總榜

用途第一候選點解
總合性能、具經濟價值任務GPT-5.5GPT-5.5 high 在 Artificial Analysis Intelligence Index 為 59;GPT-5.5 xhigh 在 GDPval-AA 為 Elo 1785。[26][27]
深推理、審閱、專業判斷Claude Opus 4.7LLM Stats 整理共通 10 個 benchmark,Claude Opus 4.7 以 6 勝 4 負領先 GPT-5.5。[4]
終端機操作、瀏覽、長時間工具使用GPT-5.5LLM Stats 指 GPT-5.5 在 Terminal-Bench 2.0、BrowseComp、OSWorld-Verified、CyberGym 等長時間工具使用測試較強。[4]
開放權重取向,重視速度同性價比Kimi K2.6Artificial Analysis 開放模型表列 Kimi K2.6 為 Intelligence 54、256k context、Price 欄 $1.7、112 tokens/s。[23]
長上下文、大量處理、低 API 價DeepSeek V4 Pro/DeepSeek V4 系Artificial Analysis 列 DeepSeek V4 Pro 為 1M context;Mashable 報道 DeepSeek V4 API 價格低於 GPT-5.5 同 Claude Opus 4.7。[3][23]

四個模型的主要訊號

模型Benchmark 上見到的強項價格同運作上的特點
GPT-5.5GPT-5.5 high 在 Artificial Analysis Intelligence Index 為 59;GPT-5.5 xhigh 在 GDPval-AA 為 Elo 1785,據報較 Claude Opus 4.7 max 高約 30 分。[26][27]Mashable 報道 API 價為每 100 萬 input tokens $5、每 100 萬 output tokens $30。[3]
Claude Opus 4.7LLM Stats 的共通 10 benchmark 整理為 6 勝 4 負;Mashable 表中 Claude Opus 4.7 在 SWE-Bench Pro 為 64.3%、GPQA Diamond 為 94.2%、HLE with tools 為 54.7%。[4][9]Mashable 報道 API 價為每 100 萬 input tokens $5、每 100 萬 output tokens $25。[3]
Kimi K2.6Artificial Analysis 開放模型表列 Intelligence 54;The Decoder 引述 Moonshot AI 發表值,指 Kimi K2.6 在 HLE with Tools 為 54.0、SWE-Bench Pro 為 58.6、BrowseComp 為 83.2。[20][23]Artificial Analysis 同一表列 256k context、Price 欄 $1.7、112 tokens/s。[23]
DeepSeek V4 ProArtificial Analysis 開放模型表列 Intelligence 52;DataCamp 整理指 DeepSeek V4 在純能力上並未超越 GPT-5.5 或 Claude Opus 4.7。[16][23]Artificial Analysis 同一表列 1M context、Price 欄 $2.2、36 tokens/s;Mashable 報道 DeepSeek V4 API 價為每 100 萬 input tokens $1.74、每 100 萬 output tokens $3.48。[3][23]

GPT-5.5 vs Claude Opus 4.7:前沿模型唔係一刀切

GPT-5.5 同 Claude Opus 4.7 的勝負,會隨 benchmark 類型轉。Mashable 報道的主要數字顯示,Claude Opus 4.7 在 SWE-Bench Pro 同 GPQA Diamond 較高;GPT-5.5 則在 Terminal-Bench 2.0、Humanity's Last Exam、BrowseComp、ARC-AGI-1 Verified 較高。[9]

BenchmarkGPT-5.5Claude Opus 4.7Mashable 表中領先者
SWE-Bench Pro58.6%64.3%Claude Opus 4.7
Terminal-Bench 2.082.7%69.4%GPT-5.5
Humanity's Last Exam40.6%31.2%GPT-5.5
Humanity's Last Exam with tools52.2%54.7%Claude Opus 4.7
BrowseComp84.4%79.3%GPT-5.5
GPQA Diamond93.6%94.2%Claude Opus 4.7
ARC-AGI-1 Verified94.5%92.0%GPT-5.5

另一邊,LLM Stats 將兩者共通 10 個 benchmark 整理後,指 Claude Opus 4.7 領先 6 個、GPT-5.5 領先 4 個。它的解讀係:Opus 4.7 較強在推理同審閱類測試,GPT-5.5 較強在長時間工具使用類測試。[4]

不過,呢度要留神。LLM Stats 亦提醒,相關分數來自各供應商高推理層級的自報結果,形式上可以比較,但方法論未必完全一致。[4] 例如 Humanity's Last Exam 相關項目,在不同來源下睇到的領先方向亦可能有差異。[4][9]

Kimi K2.6 vs DeepSeek V4 Pro:開放權重取向,要速度定上下文?

Kimi K2.6 同 DeepSeek V4 Pro,與其硬同封閉前沿模型鬥總分,不如當成開放權重取向的部署候選去睇。Artificial Analysis 開放模型表的主要操作數字如下。[23]

指標Kimi K2.6DeepSeek V4 Pro
Artificial Analysis Intelligence5452
Context window256k1.00M
Price 欄$1.7$2.2
Output speed112 tokens/s36 tokens/s

單睇呢張表,Kimi K2.6 在 Intelligence 同輸出速度較着數;DeepSeek V4 Pro 則勝在 1M context。[23] The Decoder 亦引述 Moonshot AI 發表值,指 Kimi K2.6 在 HLE with Tools 為 54.0、SWE-Bench Pro 為 58.6、BrowseComp 為 83.2。[20]

但 Kimi K2.6 的公開實驗唔等於同 GPT-5.5、Claude Opus 4.7 做完全同條件對決。Hugging Face 模型卡列明,Kimi K2.6 以 thinking mode、temperature 1.0、top-p 1.0、262,144 tokens 上下文長度等條件評估;主要比較對象亦係 Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro。[18]

DeepSeek V4 Pro 更似係用長上下文同成本去打市場,而唔係以絕對能力稱王。DataCamp 整理指,DeepSeek V4 在純能力上未能超越 GPT-5.5 或 Claude Opus 4.7,但定位係用較低成本提供 near-frontier 表現。[16]

睇價錢:唔好將幾種數字撈埋一齊

比較價格時,最少要分清三種數字。

第一種係 API token 單價。Mashable 報道,DeepSeek V4 為每 100 萬 input tokens $1.74、每 100 萬 output tokens $3.48;GPT-5.5 為 $5/$30;Claude Opus 4.7 為 $5/$25。[3]

第二種係 Artificial Analysis 模型表的 Price 欄。Kimi K2.6 顯示為 $1.7,DeepSeek V4 Pro 為 $2.2;但呢個欄位唔應該直接當成 Mashable 的 API token 單價去比較。[23]

第三種係跑 benchmark 的實際成本。Artificial Analysis 文章指,跑 Intelligence Index 時 DeepSeek V4 Pro 成本為 $1,071,Kimi K2.6 為 $948,Claude Opus 4.7 為 $4,811。[2]

所以,話「DeepSeek 平」、「Kimi 抵」、「Claude 貴」之前,要先講清楚你講緊 API 單價、benchmark 成本,定係實際產品入面連同輸出 token 量、重試次數同 latency 一齊計的總成本。[2][3][23]

安全性同可信度:唔可以用能力分數完全代替

Claude Opus 4.7 方面,Mashable 報道 Anthropic 的說法,指其 honesty rate 為 92%,並且較少 sycophancy,即較少過度迎合用戶。[15] Anthropic 自身發表亦指,Claude Opus 4.7 在內部 research-agent benchmark 六個模組合計 0.715,並列最高;在 General Finance 模組由 Opus 4.6 的 0.767 提升至 0.813。[17]

但呢些同 SWE-Bench Pro、GPQA Diamond、BrowseComp 呢類能力 benchmark 唔係同一條軸。實際落地時,應該分開睇能力分數、成本、速度、幻覺風險、審計同追溯容易度。[15][17]

真正上 production:多數唔係一個模型打晒

如果係真實產品或工程流程,與其固定一個模型處理所有任務,更現實係做 routing:簡單、標準、成本敏感的任務交畀一個模型;高風險、高推理負荷的任務交畀另一個模型。

MindStudio 的編程比較指,GPT-5.5 在相同 coding tasks 上比 Claude Opus 4.7 少用 72% output tokens;但對於大型 codebase 入面複雜、推理要求高的任務,Opus 4.7 的詳盡程度可能足以抵消較高成本。[28]

實務上,一個合理起步方法係:標準生成、修正、終端機或工具型任務先試 GPT-5.5;深度 review、專業判斷或高風險推理先試 Claude Opus 4.7;想做開放權重試驗同高速 agent pipeline 先試 Kimi K2.6;長上下文、大量文件或成本敏感 API 工作則先試 DeepSeek V4 Pro/DeepSeek V4 系。[3][4][23][28]

最終判斷

以現有公開資料睇,GPT-5.5、Claude Opus 4.7、DeepSeek V4 Pro、Kimi K2.6 無一個可以穩陣講成所有用途的單一勝者。GPT-5.5 強在總合同經濟價值任務,Claude Opus 4.7 強在推理同審閱,Kimi K2.6 強在開放權重取向的速度同性價比,DeepSeek V4 Pro 則強在長上下文同 DeepSeek V4 系低 API 價。[3][4][23][26][27]

另外,就算同樣係 Artificial Analysis,亦有 GPT-5.5 high 模型頁顯示 Intelligence 59,而另一個模型列表頁則顯示 Claude Opus 4.7 Adaptive Reasoning, Max Effort 以 Intelligence 57 排首位;頁面更新時間、納入模型範圍同推理設定都會影響觀感。[27][30]

最穩陣做法係:將 benchmark 當起點,而唔係終點。最後應該用自己團隊的真實任務、小批量流量、預算、latency 要求同失敗容忍度,並行測試幾個候選模型,再決定 routing 規則。[4][18][28]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AIで検索して事実確認

重要なポイント

  • 唔好將四個模型當成完全同條件的總排名去讀;公開 benchmark 的推理設定、評估時間同是否自報都未必一致,按用途揀會穩陣得多。[4][18]
  • GPT 5.5 high 在 Artificial Analysis Intelligence Index 為 59,GPT 5.5 xhigh 在 GDPval AA 為 Elo 1785;Claude Opus 4.7 則在 LLM Stats 共通 10 個 benchmark 整理中以 6 勝 4 負領先 GPT 5.5。[4][26][27]
  • Kimi K2.6 在 Artificial Analysis 開放模型表為 Intelligence 54、112 tokens/s;DeepSeek V4 Pro 為 Intelligence 52、1M context。前者較突出速度,後者較突出長上下文同 DeepSeek V4 系低 API 價。[3][23]

人々も尋ねます

「GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6:Benchmark 點睇、點揀」の短い答えは何ですか?

唔好將四個模型當成完全同條件的總排名去讀;公開 benchmark 的推理設定、評估時間同是否自報都未必一致,按用途揀會穩陣得多。[4][18]

最初に検証する重要なポイントは何ですか?

唔好將四個模型當成完全同條件的總排名去讀;公開 benchmark 的推理設定、評估時間同是否自報都未必一致,按用途揀會穩陣得多。[4][18] GPT 5.5 high 在 Artificial Analysis Intelligence Index 為 59,GPT 5.5 xhigh 在 GDPval AA 為 Elo 1785;Claude Opus 4.7 則在 LLM Stats 共通 10 個 benchmark 整理中以 6 勝 4 負領先 GPT 5.5。[4][26][27]

次の実践では何をすればいいでしょうか?

Kimi K2.6 在 Artificial Analysis 開放模型表為 Intelligence 54、112 tokens/s;DeepSeek V4 Pro 為 Intelligence 52、1M context。前者較突出速度,後者較突出長上下文同 DeepSeek V4 系低 API 價。[3][23]

次にどの関連トピックを検討すればよいでしょうか?

別の角度からの引用や追加の引用については、「Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6比較:2026年ベンチマークの結論」に進みます。

関連ページを開く

これを何と比較すればいいでしょうか?

この回答を「DeepSeek V4を技術面から読む:100万トークン、MoE、API移行の要点」と照合してください。

関連ページを開く

研究を続けてください

研究に関する会話

あなた

リサーチクエスチョン

GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6のベンチマークを調査し、比較してください。

Studio Global AI38 ソース

引用された回答

提供された証拠だけでは、GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6を同一ベンチマーク上で厳密に横比較するには不十分です。確認できる範囲では、GPT-5.5は「新たな首位モデル」とされる一方、Claude Opus 4.7もArtificial Analysis系の文脈で首位級と示唆されており、Kimi K2.6は一部の公開モデル比較指標のみ数値が確認できます。[3][7][34]

Key findings

モデル確認できたベンチマーク・性能情報比較上の解釈
GPT-5.5Artificial Analysis関連記事のスニペットでは、2026年4月24日時点で「新たな主要/首位AIモデル」とされている。[3] LinkedInスニペットにも「OpenAIのGPT-5.5が新たな首位AIモデル」とある。[34]総合性能で非常に強い可能性はあるが、提供証拠には具体的なスコア、評価項目、競合平均との差がないため、定量順位は確定できない。[3][34]
Claude Opus 4.7Mashableスニペットでは、AnthropicがClaude Opus 4.7について「92%のhonesty rate」と「より少ないsycophancy」を主張している。[4] SourceForgeスニペットでは、Claude Opus 4.7は高度なソフトウェアエンジニアリングと複雑な問題解決での改善を目的にしたAnthropicの最新モデルと説明されている。[6]安全性・誠実性系の指標では具体値があるが、GPT-5.5やKimi K2.6と同じ総合ベンチマークでの数値比較はできない。[4][6]
DeepSeek V4Artificial Analysisの公開モデル比較スニペットに「DeepSeek V4 Pro」の記載はあるが、スコアや速度、価格などの数値は提示されていない。[7]Insufficient evidence. 提供証拠だけではDeepSeek V4のベンチマーク順位・強み・弱みを判断できない。[7]
Kimi K2.6Artificial Analysisの公開モデル比較スニペットでは、Kimi K2.6のIntelligenceが54、コンテキスト長が256k、価格が$1.7、出力速度が112 tokens/sと示されている。[7]4モデル中で最も具体的な公開比較数値が確認できるが、GPT-5.5やClaude Opus 4.7と同一指標で直接比較できる証拠はない。[7]

Evidence notes

  • Stanford HAIの2026年AI Indexでは、2026年2月時点のSWE-bench Verifiedで上位モデルが70%台前半〜中盤に密集し、Claude 4.5 Opus high reasoningが約76.8%で首位、KimiK2.5、GPT-5.2、Gemini 3 Flash high reasoningが70%〜76%の範囲に入っていたとされている。[2]

  • ただし、このStanford HAIの記述はClaude Opus 4.7、GPT-5.5、Kimi K2.6、DeepSeek V4そのものではなく、直前世代または別モデルの状況を示す背景情報にとどまる。[2]

  • SciCode Benchの提供スニペットにはClaude Sonnet 4 high、Gemini 2.5 Pro、GPT-5-1-codex、Grok 4などの記載があるが、比較対象であるGPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6の直接スコアは確認できない。[1]

  • GPT-5.5については「新たな首位」とする記述がある一方、別スニペットではClaude Opus 4.7もArtificial Analysis Intelligence文脈で首位に位置するように読めるため、時点差、評価セット差、またはスニペットの文脈差による不整合がある可能性がある。[3][34]

Limitations / uncertainty

  • Insufficient evidence. 4モデルすべてを同一ベンチマーク、同一日付、同一推論設定で比較した表やスコアは、提供証拠内にはありません。[1][3][5][7][34]

  • DeepSeek V4は特に情報が不足しており、提供証拠では「DeepSeek V4 Pro」というモデル名の出現以上の定量情報を確認できません。[7]

  • Claude Opus 4.7の「92% honesty rate」は安全性・誠実性に関する指標であり、コーディング、数学、エージェント性能、総合知能スコアと同列には扱えません。[4]

  • Kimi K2.6のIntelligence 54、256k context、$1.7、112 tokens/sは有用な比較材料ですが、GPT-5.5やClaude Opus 4.7の同じ列の数値が提供されていないため、相対順位は出せません。[7]

Summary

  • 現時点の提供証拠で最も強い総合性能シグナルがあるのはGPT-5.5ですが、数値スコアはありません。[3][34]

  • Claude Opus 4.7は安全性・誠実性で92%という具体値があり、ソフトウェアエンジニアリングや複雑問題解決の改善が主張されていますが、総合スコア比較はできません。[4][6]

  • Kimi K2.6はIntelligence 54、256k context、$1.7、112 tokens/sという具体的な公開比較値がありますが、他3モデルとの同一指標比較は不足しています。[7]

  • DeepSeek V4は提供証拠だけでは評価不能です。[7]

情報源