studioglobal
トレンドを発見する
レポート公開済み13 ソース

GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4-Proをどう選ぶか

現時点の公開情報だけで、4モデルを公平な単一ランキングにするのは難しい。引用可能な数値ではGPT 5.5がTerminal Bench 2.0で82.7%、Claude Opus 4.7がSWE Bench Proで64.3%だが、後者はAWSを引用した二次整理の数値であり、出所や条件の違いに注意が必要だ。[27][4] スクリーンショット、文書理解、computer useのような視覚・UI操作では、Claude Opus 4.7の公式証拠が最も直接的。Anthropicはvision heavy workflowの改善、1:1のピクセル座標、XBOWの視覚ベンチマーク98.5%を示している。[1][5] DeepSeek...

17K0
四款 AI 模型的基準測試比較示意圖,包含 GPT-5.5、Claude Opus 4.7、Kimi K2.6 與 DeepSeek V4
GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4 基準測試比較AI 生成示意圖:本文比較 GPT-5.5、Claude Opus 4.7、Kimi K2.6 與 DeepSeek V4-Pro 在公開基準測試中的表現。
AI プロンプト

Create a landscape editorial hero image for this Studio Global article: GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4 基準測試比較. Article summary: 目前不能公平選出單一總冠軍;四款模型缺少同一評測 harness、同一工具設定下的完整共同分數。可引用資料中,GPT 5.5 以 82.7% 領先 Terminal Bench 2.0,Claude Opus 4.7 以 64.3% 暫居 SWE Bench Pro 第一,但 Claude 數字來自次級整理引用 AWS。[27][4]. Topic tags: ai, llm, benchmarks, openai, anthropic. Reference image context from search candidates: Reference image 1: visual subject "OpenAI’s GPT-5.5, Anthropic’s Claude Opus 4.7, and DeepSeek V4 arrived close enough together to look like a clean three-way race. **GPT-5.5 is OpenAI’s bet on execution-heavy profe" source context "GPT-5.5, Claude Opus 4.7, and DeepSeek V4 reveal three different ..." Reference image 2: visual subject "GPT-5.5, Claude Opus 4.7, and DeepSeek V4 reveal three different futures for AI" source context "GPT-5.5, Claude Opus 4.7, and DeepSeek V4 reveal thr

openai.com

GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4-Proを比較するとき、最初に避けたいのは、出所も実行条件も違う数字をそのまま一つの順位表にしてしまうことです。公開情報を実務寄りに読むなら、コマンドラインやCLIエージェントはGPT-5.5、SWE-Bench系と視覚・computer-use系はClaude Opus 4.7、知識・数学やオープンモデル路線はDeepSeek V4-Pro、Cloudflare Workers AI上のマルチモーダルなエージェント処理はKimi K2.6を候補に入れる、という見方が現実的です。[27][4][1][5][64][36]

まずは公開スコアの早見表

下の表は、今回のソースから引用できる数値だけを整理したものです。ダッシュは今回の資料に同じ項目の引用可能な数値がないという意味で、能力がないという意味ではありません。また、すべてが同じ公式ハーネス、同じツール権限、同じreasoning effortで測られたわけではないため、絶対的な総合ランキングではなく、初期選定の材料として見るべきです。

評価・タスクGPT-5.5Claude Opus 4.7Kimi K2.6DeepSeek V4-Pro実務での読み方
Terminal-Bench 2.082.7% [27]69.4% [4]66.7 [84]67.9 [64]引用可能な範囲では、GPT-5.5がコマンドライン系ワークフローで最も強い。
SWE-Bench Pro58.6% [27]64.3% [4]58.6 [84]55.4 [64]Claude Opus 4.7が首位。ただしClaudeの数値はAWSを引用した二次整理に基づく。
SWE-Bench Verified / Resolved87.6% [4]80.2 [45]80.6 [64]Claudeが高いが、GPT-5.5の同列比較値がなく、名称も完全にはそろっていない。
Graphwalks 256k:BFS / parents73.7 / 90.1 [21]76.9 / 93.6 [21]OpenAIの長文コンテキスト表では、256kの2項目でClaude Opus 4.7がGPT-5.5を上回る。
Graphwalks 1M:BFS / parents45.4 / 58.5 [21]GPT-5.5の100万トークン級コンテキスト性能を見る材料。同表の1M比較欄はOpus 4.6表記のため、Opus 4.7の判定には使いにくい。
知識・数学GPQA Diamond 90.1、GSM8K 92.6、MMLU-Pro 87.5、HLE 37.7 [64]DeepSeek V4-Proは、今回の資料で知識・数学系スコアが最もまとまっている。
視覚、スクリーンショット、computer usevision-heavy workloadの改善、1:1ピクセル座標、XBOW視覚ベンチマーク98.5% [1][5]Cloudflareはnative multimodal agentic modelと説明。ただし同一視覚ベンチマークの数値はない [36]視覚・UI操作の根拠はClaude Opus 4.7が最も直接的。

なぜ単純な総合順位にしないのか

理由は大きく3つあります。

第一に、数値の出所がそろっていません。GPT-5.5のTerminal-Bench 2.0とSWE-Bench Proは、OpenAI提供のベンチマーク結果をメディアが伝えたものです。Claude Opus 4.7のSWE-Bench Pro、SWE-Bench Verified、Terminal-Bench 2.0は、AWSを引用した二次整理に基づいています。Kimi K2.6とDeepSeek V4-Proの一部スコアはHugging Faceのmodel cardに載っています。[27][4][84][64]

第二に、ツール利用の有無で順位が変わり得ます。Mashableが報じたHLEの数値では、ツールなしではClaude Opus 4.7が46.9%、GPT-5.4 Proが42.7%でした。一方、ツールありではGPT-5.4 Proが58.7%、Claude Opus 4.7が54.7%です。これはGPT-5.5のスコアではありませんが、with toolsとwithout toolsを同じ表で混ぜる危うさをよく示しています。[6]

第三に、バージョンやeffort設定、コスト設定も効きます。DeepSeek V4にはV4-ProとV4-Flashがあり、Yahoo FinanceはV4-Flashをより効率的で経済的な選択肢だと報じています。この記事で詳細な数値を使っているのは主にDeepSeek-V4-Proです。[57][64] またArtificial AnalysisはGPT-5.5を複数のeffort variantに分けており、GPT-5.5 xhighは同社Indexの実行コストが前世代より約20%高く、Claude Opus 4.7 maxより約30%低いとしています。[24]

GPT-5.5:CLIと長文コンテキストが目立つ

GPT-5.5の強みとして最もはっきり見えるのは、Terminal-Bench 2.0です。Yahoo Finance / Investing.comは、OpenAI提供のベンチマーク結果として、GPT-5.5がコマンドラインワークフローを測るTerminal-Bench 2.0で82.7%、GitHub issue resolutionを評価するSWE-Bench Proで58.6%を記録したと報じています。[27]

長文コンテキストでは、OpenAIの表がより細かい数字を出しています。GPT-5.5はGraphwalks BFSで256kが73.7、1Mが45.4、Graphwalks parentsで256kが90.1、1Mが58.5です。同じ表では、GPT-5.4のGraphwalks BFS 1Mが9.4であるのに対し、GPT-5.5は45.4でした。[21]

第三者評価では、Artificial AnalysisがGPT-5.5を新しいleading AI modelと位置づけ、OpenAIが同社の5つのheadline evaluationで首位、3項目でGemini 3.1 Pro Previewに次ぐ2位だったとしています。同記事は、GPT-5.5 xhighが同社Indexを実行する際、前世代より約40%少ないoutput tokensを使ったとも述べています。[24]

優先して試したい用途: CLI automation、terminal agent、長文コンテキスト検索、output tokenコストを抑えたいagentic coding workflow。[27][21][24]

Claude Opus 4.7:SWE-Bench系と視覚・UI操作の根拠が強い

Claude Opus 4.7は、公式情報で視覚とUI操作への言及が最も具体的です。AnthropicのAPIドキュメントは、この変更によりvision-heavy workloadsで性能向上が見込め、特にcomputer use、screenshot、artifact、document understandingのワークフローで重要だと説明しています。さらに、座標が実ピクセルと1:1で対応するため、画像への座標マッピングでscale factor計算が不要になるとも述べています。[1]

Anthropicのローンチページでは、XBOWの視覚ベンチマークとしてClaude Opus 4.7が98.5%、Opus 4.6が54.5%だったという結果も紹介されています。[5] そのため、スクリーンショット理解、文書レイアウト解析、デスクトップUI操作、computer-use agentでは、4モデルの中でもClaude Opus 4.7の根拠が最も直接的です。[1][5]

コーディング系では、ある整理記事がAWSの引用として、Claude Opus 4.7のSWE-Bench Proを64.3%、SWE-Bench Verifiedを87.6%、Terminal-Bench 2.0を69.4%としています。[4] 引用可能なSWE-Bench ProとVerified / Resolvedの対照ではClaudeが上位に見えますが、これは直接の公式ベンチマーク表より一段弱いソースです。本番採用前には、自社リポジトリや自社の失敗事例で再評価するべきです。

運用面の注意もあります。Anthropicは、高解像度画像はより多くのtokensを使うため、追加の画像精度が不要ならClaudeに送る前にダウンサンプリングしてtoken usageの増加を避けるべきだと説明しています。[1]

優先して試したい用途: GitHub issue修正、coding agent、スクリーンショットや文書の理解、computer-use agent、ピクセル単位のUI操作。[1][4][5]

Kimi K2.6:Workers AI上のagentic multimodal候補

Kimi K2.6は、Cloudflare上で使う場合に特に候補に入ります。Cloudflareのchangelogによると、Moonshot AI Kimi K2.6は2026年4月20日にWorkers AIで利用可能になり、model IDは@cf/moonshotai/kimi-k2.6です。Cloudflareは、Moonshot AIとの提携によるDay 0 supportだと説明しています。[36]

同じ情報源は、Kimi K2.6をnative multimodal agentic modelと呼び、long-horizon coding、coding-driven design、proactive autonomous execution、swarm-based task orchestrationを重視したモデルだと説明しています。アーキテクチャはMixture-of-Expertsで、総パラメータは1T、各tokenでactiveなパラメータは32Bとされています。[36]

公開スコアでは、Kimi K2.6のHugging Face model cardにTerminal-Bench 2.0が66.7、SWE-Bench Proが58.6、SWE-Bench Multilingualが76.7とあります。[84] MarkTechPostは、Kimi K2.6のSWE-Bench Verifiedを80.2と報じています。[45]

優先して試したい用途: すでにCloudflare Workers AIを使っているチーム、long-horizon coding、coding-driven design、マルチモーダルエージェント、多エージェントのオーケストレーション。[36][84]

DeepSeek V4-Pro:知識・数学スコアとオープンモデル路線が見やすい

DeepSeek V4は、今回の資料ではV4-ProとV4-Flashに分かれます。Yahoo Financeは、DeepSeekの説明として、V4-Proがworld knowledge benchmarksで他のopen-source modelsを大きく上回り、トップ級のクローズドモデルであるGemini-Pro-3.1にはわずかに及ばないと報じています。同じ記事では、V4-Flashはより効率的で経済的な選択肢だとされています。[57]

DeepSeek-V4-ProのHugging Face model cardには、今回の記事で最もまとまった知識・数学・コーディング・ターミナル系の評価値が掲載されています。具体的には、GPQA Diamond 90.1、GSM8K 92.6、HLE 37.7、MMLU-Pro 87.5、SWE-Bench Pro 55.4、SWE-Bench Verified / Resolved 80.6、TerminalBench 2.0 67.9です。[64]

CNBCは、DeepSeekがV4をClaude CodeやOpenClawなどのエージェントツール向けに最適化したと報じています。またCounterpointのprincipal AI analystであるWei Sunは、V4のbenchmark profileは、かなり低いコストで優れたagent capabilityを提供し得ることを示していると見ています。[58]

優先して試したい用途: オープンモデル路線を重視する評価、知識・数学ベンチマーク、agent toolingの費用対効果、ローカルまたは自社管理環境でのモデル評価。[58][64]

用途別のショートリスト

  • Terminal automation / command-line agent:まずGPT-5.5。 引用可能な資料では、GPT-5.5のTerminal-Bench 2.0は82.7%で、Claude Opus 4.7の69.4%、DeepSeek V4-Proの67.9、Kimi K2.6の66.7を上回ります。[27][4][64][84]
  • Software engineering repair / SWE-Bench Pro系:まずClaude Opus 4.7。ただし自社リポジトリで再評価。 引用可能なスコアではClaude Opus 4.7が64.3%、GPT-5.5とKimi K2.6が58.6、DeepSeek V4-Proが55.4です。ただしClaudeの数値は二次整理に基づきます。[4][27][84][64]
  • スクリーンショット、文書理解、computer use:Claude Opus 4.7を優先。 Anthropicのドキュメントはvision-heavy workflows、computer use、1:1 pixel coordinatesに直接言及しており、ローンチページもXBOWの98.5%という視覚ベンチマーク結果を紹介しています。[1][5]
  • 知識・数学、オープンモデル評価:DeepSeek V4-Proを候補に入れる。 Hugging Face model cardがGPQA Diamond、GSM8K、HLE、MMLU-Pro、SWE-Bench、TerminalBench 2.0などをまとめて示しています。[64]
  • Workers AI上のmultimodal agentic workflow:Kimi K2.6を試す価値がある。 CloudflareはKimi K2.6をWorkers AIでDay 0 supportとして提供し、long-horizon codingやswarm-based task orchestration向けのnative multimodal agentic modelと位置づけています。[36]

採用前にそろえるべき評価条件

社内で説明可能な結論を出すには、同じモデルバージョンまたはAPI model ID、同じコンテキスト長、同じツール権限、同じreasoning effort、同じtemperature、同じtoken budget、同じscoring harnessで再実行する必要があります。特にツール権限は混ぜるべきではありません。HLEの報道が示すように、with toolsとwithout toolsでは相対結果が変わり得ます。[6]

コストも能力と同時に測るべきです。Artificial Analysisは、GPT-5.5 xhighのIndex実行コストが前世代より約20%高く、Claude Opus 4.7 maxより約30%低く、output tokensは前世代より約40%少ないと報じています。[24] 一方でAnthropicは、高解像度画像はより多くのtokensを使うと注意しています。[1] 本番のエージェント運用では、単一ベンチマークの点数だけでなく、速度、token使用量、ツール呼び出し成功率、エラー修復率も同じくらい重要です。

結論:総合優勝ではなく、用途で選ぶ

現時点で最も信頼しやすい比較は、単一の総合ランキングではありません。Terminal-Benchを見るならGPT-5.5、SWE-Benchと視覚・computer-useを見るならClaude Opus 4.7、知識・数学の公開model cardを見るならDeepSeek V4-Pro、Workers AI上のマルチモーダルなagentic codingではKimi K2.6を候補に入れる、という用途別の整理が妥当です。[27][4][1][5][64][36]

4モデルが同じハーネス、同じツール設定、同じバージョン条件で一通り評価されるまでは、きれいな総合順位表よりも、自社タスクでの再現テストを重視したほうがよいでしょう。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AIで検索して事実確認

重要なポイント

  • 現時点の公開情報だけで、4モデルを公平な単一ランキングにするのは難しい。引用可能な数値ではGPT 5.5がTerminal Bench 2.0で82.7%、Claude Opus 4.7がSWE Bench Proで64.3%だが、後者はAWSを引用した二次整理の数値であり、出所や条件の違いに注意が必要だ。[27][4]
  • スクリーンショット、文書理解、computer useのような視覚・UI操作では、Claude Opus 4.7の公式証拠が最も直接的。Anthropicはvision heavy workflowの改善、1:1のピクセル座標、XBOWの視覚ベンチマーク98.5%を示している。[1][5]
  • DeepSeek V4 ProはHugging Face model cardでGPQA、GSM8K、MMLU Pro、HLEなどの知識・数学系スコアがまとまっている。Kimi K2.6はCloudflare Workers AIでの提供と、agentic multimodal workflow向けの位置づけが目立つ。[64][36]

人々も尋ねます

「GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4-Proをどう選ぶか」の短い答えは何ですか?

現時点の公開情報だけで、4モデルを公平な単一ランキングにするのは難しい。引用可能な数値ではGPT 5.5がTerminal Bench 2.0で82.7%、Claude Opus 4.7がSWE Bench Proで64.3%だが、後者はAWSを引用した二次整理の数値であり、出所や条件の違いに注意が必要だ。[27][4]

最初に検証する重要なポイントは何ですか?

現時点の公開情報だけで、4モデルを公平な単一ランキングにするのは難しい。引用可能な数値ではGPT 5.5がTerminal Bench 2.0で82.7%、Claude Opus 4.7がSWE Bench Proで64.3%だが、後者はAWSを引用した二次整理の数値であり、出所や条件の違いに注意が必要だ。[27][4] スクリーンショット、文書理解、computer useのような視覚・UI操作では、Claude Opus 4.7の公式証拠が最も直接的。Anthropicはvision heavy workflowの改善、1:1のピクセル座標、XBOWの視覚ベンチマーク98.5%を示している。[1][5]

次の実践では何をすればいいでしょうか?

DeepSeek V4 ProはHugging Face model cardでGPQA、GSM8K、MMLU Pro、HLEなどの知識・数学系スコアがまとまっている。Kimi K2.6はCloudflare Workers AIでの提供と、agentic multimodal workflow向けの位置づけが目立つ。[64][36]

次にどの関連トピックを検討すればよいでしょうか?

別の角度からの引用や追加の引用については、「Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6比較:2026年ベンチマークの結論」に進みます。

関連ページを開く

これを何と比較すればいいでしょうか?

この回答を「DeepSeek V4を技術面から読む:100万トークン、MoE、API移行の要点」と照合してください。

関連ページを開く

研究を続けてください

研究に関する会話

あなた

リサーチクエスチョン

研究 GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4 的基準測試表現,並根據這些基準測試對它們進行比較。

Studio Global AI40 ソース

引用された回答

僅依據你提供的證據,現在還不能對 GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4 做出嚴格而公平的基準測試總排名,因為這些材料沒有提供同一套 benchmark、同一版本設定下的完整分數,而且完全沒有 GPT-5.5 的 benchmark 資料。較能成立的結論是:Claude Opus 4.7 有最明確的官方證據顯示其在視覺與 computer-use 類工作流上提升明顯,[2] 且有次級報導稱其狹義重回 generally available LLM 的領先位置。[5] DeepSeek V4-Pro 則有公司說法經媒體轉述,稱其在 world knowledge benchmarks 上明顯領先其他開源模型,[6] 而 Kimi K2.6 在現有證據中只有產品定位與上線資訊,缺少可直接比較的 benchmark 成績。[1]

Key findings

  • 無法產生可信的四模型總排名:你提供的材料沒有共享 benchmark 分數,且缺少 GPT-5.5 的任何 benchmark 證據。

  • Claude Opus 4.7 的強項證據最集中在視覺與 computer-use 工作流。Anthropic 官方文件說明它對 vision-heavy workloads 有 performance gains,特別影響 computer use、screenshot、artifact 與 document understanding workflows,且將座標映射到影像也更簡單。[2] VentureBeat 另稱其解析度提升到前代的 3 倍,並在標題中將其描述為狹義重回 generally available LLM 領先。[5]

  • DeepSeek V4-Pro 的 benchmark 相關競爭性敘述最明確,但主要來自公司說法經媒體轉述。報導稱它在 world knowledge benchmarks 上明顯領先其他開源模型,且只略遜於頂級閉源模型;另有分析師根據其 benchmark profile 認為它可能以更低成本提供很強的 agent 能力。[6][7]

  • Kimi K2.6 目前只能確認是 Moonshot AI 的原生多模態 agentic model,並於 2026-04-20 在 Workers AI 上得到 Day 0 支援;你提供的證據沒有其可比 benchmark 分數。[1]

Confirmed facts

  • Kimi K2.6 已於 2026-04-20 在 Workers AI 上可用,Cloudflare 表示這是與 Moonshot AI 合作的 Day 0 支援;該模型被描述為 native multimodal agentic model。[1]

  • Anthropic 官方文件表示 Claude Opus 4.7 的變更會帶來 vision-heavy workloads 的 performance gains,且特別有助於 computer use、screenshot、artifact、document understanding workflows;將座標映射到影像也變得更簡單。[2]

  • VentureBeat 報導稱 Claude Opus 4.7 帶來相較前代 3 倍的解析度提升,並在標題中將其描述為狹義重回「most powerful generally available LLM」。[5]

  • 媒體報導稱 DeepSeek 提供 DeepSeek V4-Pro 與 DeepSeek V4-Flash 兩個版本;其中 V4-Pro 被描述為在 world knowledge benchmarks 上明顯領先其他開源模型,且僅略遜於頂級閉源模型。[6]

  • CNBC 報導稱 DeepSeek V4 已針對 Claude Code 與 OpenClaw 之類 agent 工具做最佳化;Counterpoint 的 Wei Sun 則認為其 benchmark profile 顯示它可能以更低成本提供優秀 agent 能力。[7]

  • Hugging Face 上存在一則要求補充 DeepSeek-V4-Pro 在 GPQA、GSM8K、HLE、MMLU-Pro、SWE-Bench Pro、SWE-Bench Verified、Terminal-Bench 2.0 等項目社群評測結果的討論。[4]

What remains inference

  • 把 Claude Opus 4.7 判定為四者整體第一,仍屬推論;現有證據沒有同一組 benchmark 的分數表可直接支持這個結論。[2][5]

  • 把 DeepSeek V4-Pro 判定為所有開源任務全面第一,也仍屬推論;目前可見的是媒體轉述的公司說法,缺少你提供證據中的原始分數表。[6]

  • 把 Kimi K2.6 放在任何明確名次,幾乎純屬猜測;目前只知道它的產品定位,沒有硬 benchmark 成績。[1]

  • 對 GPT-5.5 作任何 benchmark 結論都沒有證據基礎,因為提供材料裡沒有它的 benchmark 資料。

What the evidence suggests

  • 若只看視覺與 computer-use 類任務,Claude Opus 4.7 的證據最強,因為這是唯一在官方文件中明確聲稱該類工作流有性能提升的模型,且次級報導補充了解析度提升細節。[2][5]

  • 若只看現有材料中最明確的 benchmark 競爭描述,DeepSeek V4-Pro 在 world knowledge benchmarks 的定位最突出,因為它是唯一被直接描述為明顯領先其他開源模型的模型。[6]

  • 若看 agent tooling 與成本效益敘事,DeepSeek V4 也有較清楚的外部分析支持,因為報導提到它針對 Claude Code、OpenClaw 做了最佳化,且分析師從其 benchmark profile 推論出較強的 agent 能力/成本比。[7]

  • Kimi K2.6 看起來是以多模態與 agentic 能力為賣點,但在這組證據裡沒有足夠 benchmark 資料把它與 Claude 或 DeepSeek 做定量比較。[1]

  • 整體四模型排序:Insufficient evidence。

Conflicting evidence or uncertainty

  • 最大的不確定性不是「誰贏」,而是「有沒有可比數據」:目前沒有看到四個模型在同一 benchmark、同一版本、同一提示或工具設定下的分數。

  • Claude 的「領先」敘事主要來自次級報導的綜述與標題,而不是你提供證據中的原始官方 benchmark 表。[5]

  • DeepSeek 的最強 benchmark 主張來自公司說法經媒體轉述,因此可信度低於官方技術報告或第三方獨立評測。[6]

  • Kimi K2.6 的 benchmark 能力在這組證據裡幾乎空白,所以不能因產品描述或上線速度而推斷其分數。[1]

  • Reddit 上有人提醒 SWE-bench leaderboard 可能混用了不同版本與不同 benchmark 任務,這提示跨榜單比較可能失真;但這只是低權威來源,最多當弱提醒使用。[65]

Open questions

  • GPT-5.5 在 MMLU-Pro、GPQA、HLE、SWE-Bench Verified/Pro、Terminal-Bench 2.0、以及多模態 benchmark 上的成績是什麼?

  • Claude Opus 4.7、Kimi K2.6、DeepSeek V4 是否有同一版本 benchmark 表,且使用一致的工具權限、上下文長度、溫度與評分規則?

  • DeepSeek V4-Pro 所謂的 world knowledge benchmarks,具體是哪些測試、原始分數是多少、對照模型又是哪些?[6]

  • Kimi K2.6 是否已有第三方獨立 benchmark,而不只是上線與產品定位資訊?[1]

Sources worth trusting most

  • [2] 是 Anthropic 官方文件,對 Claude Opus 4.7 的產品級能力變更與適用工作流最可信。[2]

  • [1] 是 Cloudflare 官方 changelog,對 Kimi K2.6 的上線時間、可用性與產品定位最可信。[1]

  • [6][7] 是較可靠的媒體報導,適合用來了解 DeepSeek 的對外 benchmark 敘事與外部分析,但仍屬次級來源。[6][7]

  • [5] 可作為 Claude Opus 4.7 外界競爭定位的參考,但對硬 benchmark 來說仍弱於官方技術文件。[5]

  • [4] 只能證明社群正在補充 DeepSeek-V4-Pro 的評測結果,不能當成最終 benchmark 證據。[4]

  • [65] 權威性最低,只適合拿來提醒跨榜單比較可能有方法學問題。[65]

Recommended next step

  • 如果你要一個真正可 defend 的比較,下一步應該只蒐集四模型在共享 benchmark 上的原始分數表,優先看 MMLU-Pro、GPQA、HLE、SWE-Bench Verified/Pro、Terminal-Bench 2.0,以及多模態評測,並要求每個結果都標明是否允許 tools、browsing、test-time compute 與不同解碼設定。

  • 在目前這組證據下,最安全的暫時結論是:Claude Opus 4.7 在視覺/computer-use 能力的證據最強,[2][5] DeepSeek V4-Pro 在開源對比的 world knowledge benchmark 敘事最強,[6] Kimi K2.6 與 GPT-5.5 都不足以納入公平排名。[1]

Summary

基於目前證據,不能對 GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4 做可靠的總體 benchmark 排名。較可靠的局部結論是:Claude Opus 4.7 在 vision/computer-use 類場景的正向證據最強,[2][5] DeepSeek V4-Pro 有最明確的開源 benchmark 領先聲稱,[6][7] Kimi K2.6 缺 benchmark 數據,[1] GPT-5.5 則完全沒有可用資料。若要嚴格比較,現階段最誠實的答案就是:Insufficient evidence。

情報源

  • [1] What's new in Claude Opus 4.7 - Claude API Docsplatform.claude.com

    What's new in Claude Opus 4.7 - Claude API Docs Loading... . This change should unlock performance gains on vision-heavy workloads, and is particularly important for computer use and screenshot/artifact/document understanding workflows. Additionally, operat...

  • [4] Claude Opus 4.7: Pricing, Benchmarks & Context Windowalmcorp.com

    For coding, the official materials point to several standout numbers. Anthropic says Opus 4.7 improved resolution by 13% over Opus 4.6 on a 93-task coding benchmark. AWS cites 64.3% on SWE-bench Pro, 87.6% on SWE-bench Verified, and 69.4% on Terminal-Bench...

  • [5] Introducing Claude Opus 4.7anthropic.com

    Image 22: logo Claude Opus 4.7 feels like a real step up in intelligence. Code quality is noticeably improved, it’s cutting out the meaningless wrapper functions and fallback scaffolding that used to pile up, and fixes its own code as it goes. It’s the clea...

  • [6] Anthropic releases Claude Opus 4.7: How to try it, benchmarks, safetymashable.com

    Claude Mythos scored 56.8 percent on HLE Claude Opus 4.7 scored 46.9 percent Gemini 3.1 Pro scored 44.4 percent GPT-5-4 Pro scored 42.7 percent Claude Opus 4.6 scored 40.0 percent With tools, GPT-5-4-Pro scored 58.7 percent compared to Opus 4.7’s 54.7 perce...

  • [21] Introducing GPT-5.5openai.com

    Long context EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaudeOpus 4.7Gemini 3.1 Pro Graphwalks BFS 256k f1 73.7%62.5%--76.9%- Graphwalks BFS 1mil f1 45.4%9.4%--41.2% (Opus 4.6)- Graphwalks parents 256k f1 90.1%82.8%--93.6%- Graphwalks parents 1mil f1 58.5%44....

  • [24] OpenAI's GPT-5.5 is the new leading AI model - Artificial Analysisartificialanalysis.ai

    Image 2 OpenAI leads five of our headline evaluations and places second to Gemini 3.1 Pro Preview on three. Image 3 Effort variants provide a clear ladder to balance intelligence and cost. GPT-5.5 (xhigh) is 20% more expensive to run our Index than its pred...

  • [27] OpenAI releases GPT-5.5 with improved coding and research capabilitiesca.finance.yahoo.com

    © 2026 All rights reserved. About our ads Advertising Jobs Yahoo Finance Yahoo Finance Mail Sign in Investing.com OpenAI releases GPT-5.5 with improved coding and research capabilities Louis Juricic 1 min read Investing.com -- OpenAI announced Thursday the...

  • [36] Moonshot AI Kimi K2.6 now available on Workers AIdevelopers.cloudflare.com

    Image 2: hero image ← Back to all posts Moonshot AI Kimi K2.6 now available on Workers AI Apr 20, 2026 Workers AI @cf/moonshotai/kimi-k2.6 is now available on Workers AI, in partnership with Moonshot AI for Day 0 support. Kimi K2.6 is a native multimodal ag...

  • [45] Moonshot AI Releases Kimi K2.6 with Long-Horizon Coding, Agent ...marktechpost.com

    The Long-Horizon Coding Headline Numbers The metric that will likely get the most attention from dev teams is SWE-Bench Pro — a benchmark testing whether a model can resolve real-world GitHub issues in professional software repositories. Kimi K2.6 scores 58...

  • [57] China’s DeepSeek releases new AI model it claims beats all open-source competitorsau.finance.yahoo.com

    The model is available as DeepSeek V4-Pro and DeepSeek V4-Flash. The latter version, the company says, is a “more efficient and economical choice". “In world knowledge benchmarks, DeepSeek V4-Pro significantly leads other open-source models and is only slig...

  • [58] China's DeepSeek releases preview of long-awaited V4 model as AI ...cnbc.com

    DeepSeek also said that V4 has been optimized for use with popular agent tools such as Anthropic’s Claude Code and OpenClaw. According to Counterpoint’s principal AI analyst, Wei Sun, V4′s benchmark profile suggests it could offer “excellent agent capabilit...

  • [64] deepseek-ai/DeepSeek-V4-Pro - Hugging Facehuggingface.co

    Evaluation results []( Diamond on Idavidrein/gpqaView evaluation resultsleaderboard 90.1 Gsm8k on openai/gsm8kView evaluation resultsleaderboard 92.6 Hle on cais/hleView evaluation results 37.7 Mmlu Pro on TIGER-Lab/MMLU-ProView evaluation results 87.5 SWE...

  • [84] moonshotai/Kimi-K2.6 - Hugging Facehuggingface.co

    3. Evaluation Results ; Terminal-Bench 2.0 (Terminus-2), 66.7, 65.4 ; SWE-Bench Pro, 58.6, 57.7 ; SWE-Bench Multilingual, 76.7, - ; SWE-Bench ... 5 days ago