← Back to Trending

レポート公開済み3 か月前Last edited 2 か月前19 ソース

GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4のベンチマーク比較

単独首位はありません。GPT 5.5はARC AGI 2で85%、Terminal Bench 2.0で82.7%と強く、Claude Opus 4.7はHLEとSWE Bench Proで上回ります。[1][3][9] Kimi K2.6はcoding/agenticの有力候補です。Artificial Analysisでは54、AkitaOnRailsのcodingベンチマークでは87ですが、4モデル横並びの比較は限られます。[13][8] DeepSeek V4は最高スコア争いでは劣る場面が多い一方、API価格は100万入力トークンあたり$1.74、100万出力トークンあたり$3.48と安く、価格性能で検討価値があります...

Studio Global AIで検索して事実確認さらにトレンドページを見る

Сравнение четырёх AI-моделей GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 на фоне графиков бенчмарков — GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмаркахСравнение бенчмарков показывает не одного абсолютного лидера, а разные сильные стороны моделей.
AI プロンプト
Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмарках. Article summary: Единого победителя нет: GPT 5.5 ведёт в ARC AGI 2 с 85% против 75,8% у Claude и в Terminal Bench 2.0 с 82,7%, а Claude Opus 4.7 сильнее в HLE и SWE Bench Pro; вывод ограничен тем, что источники сравнивают разные режим.... Topic tags: ai, llm benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.
openai.com

GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4を「総合1位」だけで語ると、かなり雑になります。公開データは、ベンチマークの種類、推論モード、Codex/Pro/Flashといった実行条件がそろっていません。実務で見るなら、GPT-5.5はARC系とターミナル操作型のエージェント作業、Claude Opus 4.7はHLEやSWE-Bench Pro、Kimi K2.6はcoding/agentic用途のopen-weight候補、DeepSeek V4は最高スコアよりAPI価格の安さが目立ちます。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AIで検索して事実確認

人々も尋ねます

「GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4のベンチマーク比較」の短い答えは何ですか?

単独首位はありません。GPT 5.5はARC AGI 2で85%、Terminal Bench 2.0で82.7%と強く、Claude Opus 4.7はHLEとSWE Bench Proで上回ります。[1][3][9]

最初に検証する重要なポイントは何ですか?

単独首位はありません。GPT 5.5はARC AGI 2で85%、Terminal Bench 2.0で82.7%と強く、Claude Opus 4.7はHLEとSWE Bench Proで上回ります。[1][3][9] Kimi K2.6はcoding/agenticの有力候補です。Artificial Analysisでは54、AkitaOnRailsのcodingベンチマークでは87ですが、4モデル横並びの比較は限られます。[13][8]

次の実践では何をすればいいでしょうか？

DeepSeek V4は最高スコア争いでは劣る場面が多い一方、API価格は100万入力トークンあたり$1.74、100万出力トークンあたり$3.48と安く、価格性能で検討価値があります。[2][3][9]

情報源

ベンチマーク / 出典	GPT-5.5	Claude Opus 4.7	Kimi K2.6	DeepSeek V4	読み方
ARC-AGI-2 / DocsBot	85%	75.8%	—	—	GPT-5.5がClaudeを9.2ポイント上回る。
ARC-AGI-1 / DocsBot	95%	93.5%	—	—	GPT-5.5が僅差で上回る。
Artificial Analysis leaderboard	57、GPT-5.5 medium	52、Claude Opus 4.7 non-reasoning high	54	—	この切り口ではGPT-5.5がKimiと対象モードのClaudeを上回る。
Humanity’s Last Exam、ツールなし / VentureBeat	41.4%	46.9%	—	37.7%	表示された基本行ではClaudeが首位。
Humanity’s Last Exam、ツールあり / VentureBeat	52.2%；GPT-5.5 Proは57.2%	54.7%	—	48.2%	Claudeは基本GPT-5.5を上回るが、別行のGPT-5.5 ProはClaudeを上回る。
Terminal-Bench 2.0 / VentureBeat	82.7%	69.4%	—	67.9%	この表ではGPT-5.5の優位が最も明確。
SWE-Bench Pro / DataCamp	58.6%	64.3%	—	55.4%、DeepSeek V4 Pro	ClaudeがGPT-5.5とDeepSeek V4 Proを上回る。
SWE-Bench Verified / Verdent	—	87.6%	80.2%	—	このcoding評価ではClaudeがKimiを上回る。
Coding benchmark / AkitaOnRails	96、GPT-5.5 xHigh/Codex	97	87	78、V4 Flash；69、V4 Pro	ClaudeとGPT-5.5は僅差。KimiはDeepSeek V4の2行を上回る。