レポート公開済み3 か月前Last edited 2 か月前16 ソース

GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4：公平に比べられる数字はどれか

同じOpenAI評価表で直接比較しやすいのはGPT 5.5とClaude Opus 4.7。SWE Bench ProはClaude Opus 4.7が64.3%でGPT 5.5の58.6%を上回り、Terminal Bench 2.0はGPT 5.5が82.7%でClaude Opus 4.7の69.4%を上回ります。[21] Kimi K2.6はHugging Faceでopen source、native multimodal agentic modelと説明され、第三者記事ではSWE Bench Pro 58.6%、SWE Bench Verified 80.2%とされていますが、GPT 5.5やClaude Opus...

Studio Global AIで検索して事実確認さらにトレンドページを見る

四個 AI 模型基準測試比較的抽象儀表板插圖 — GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4：基準測試比較表與證據等級AI 生成示意圖；本文聚焦可核驗 benchmark 分數與來源等級。
AI プロンプト
Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4：基準測試比較表與證據等級. Article summary: 目前不能公平排出四模型總冠軍：同表可比數據顯示 Claude Opus 4.7 在 SWE Bench Pro 64.3% vs GPT 5.5 58.6% 領先，但 GPT 5.5 在 Terminal Bench 2.0 82.7% vs 69.4% 領先；Kimi K2.6 與 DeepSeek V4 缺少同等級交叉驗證。[21]. Topic tags: ai, llm benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "OpenAI’s GPT-5.5, Anthropic’s Claude Opus 4.7, and DeepSeek V4 arrived close enough together to look like a clean three-way race. **GPT-5.5 is OpenAI’s bet on execution-heavy profe" source context "GPT-5.5, Claude Opus 4.7, and DeepSeek V4 reveal three different ..." Reference image 2: visual subject "# DeepSeek V4 Pro vs Claude Opus 4.7 vs GPT-5.5: The Frontier in April 2026. DeepSeek V4 Pro undercuts GPT-5.5 by ~9x on outpu
openai.com

LLMのベンチマーク比較でいちばん危ないのは、出どころも測定条件も違う数字を横一列に並べて、単純な総合順位を作ってしまうことです。GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4を比べるなら、まず見るべきは「どの数字が同じ土俵で比べられるのか」です。

本稿では、ベンチマークの点数そのものと、点数の証拠レベルを分けて整理します。現時点で最も比較しやすいのは、OpenAIのGPT-5.5発表ページに同じ表で掲載されているGPT-5.5とClaude Opus 4.7のSWE-Bench Pro、Terminal-Bench 2.0です。 Kimi K2.6はHugging Faceのモデルページと第三者記事の数値が参考になりますが、同じ表での交差検証は限定的です。 DeepSeek V4は、本稿で扱える資料の範囲では十分に検証可能なベンチマーク値が見当たらないため、数値ランキングには入れません。

比較表：点数より先に「証拠レベル」を見る

表中の「—」は、本稿で利用できる資料に引用可能な数値がないことを示します。モデルがそのタスクをできない、という意味ではありません。

モデル	SWE-Bench Pro	SWE-Bench Verified	Terminal-Bench 2.0	その他の確認できる情報	証拠レベルと読み方
GPT-5.5	58.6%	—	82.7%	Expert-SWE（Internal）73.1%。OpenAIはこのevalについて、他ラボがmemorization evidenceを指摘していると注記しています。	A-：SWE-Bench ProとTerminal-Bench 2.0はOpenAIの同一比較表にあり、Claude Opus 4.7と直接見比べやすい指標です。Expert-SWEはinternal evalなので慎重に扱うべきです。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AIで検索して事実確認

人々も尋ねます