公開ベンチマークを並べると、Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6の勝者はひとつに決まりません。Vals AIの一覧では、DeepSeek V4とGPT-5.5が2026年4月23日、Kimi K2.6が4月20日、Claude Opus 4.7が4月16日の項目として表示されていますが、提供されている公開資料は、4モデルを同じベンチマーク、同じ設定、同じ費用条件で一斉に比較したものではありません [19]。
そのため、この比較で見るべきなのは「総合1位はどれか」ではなく、「自分の用途に近い指標で、どのモデルの強みが確認できるか」です。
まず前提:AIベンチマークは“総合点”だけで読めない
2026年時点のAIベンチマークは、ひとつの試験というより、複数の能力テストの集合です。Kili Technologyは、MMLU、MMLU-Pro、GPQA Diamond、SWE-Bench、Terminal-Bench、GAIA、WebArena、GDPval、安全性評価などが、それぞれ異なる能力を測るものだと説明しています [8]。Stanford HAIのAI Indexも、MMLU、MATH、GPQA Diamond、MMMU、OSWorld、AIME、SWE-bench Verifiedなどを別々の技術性能軸として扱っています [
13]。
とくにMMLUのような一般知識系の評価は、上位モデル間の差を見分けにくくなっています。Nanonetsは、MMLUが5-shot方式で計算されること、そして2026年には上位モデルが88%以上の帯域に集まり、差がつきにくくなったと指摘しています [22]。つまり、モデル選びでは「総合スコアが高いか」だけでなく、コーディング、専門文書、科学推論、コンピューター操作、費用といった実際の利用シーンを先に決める必要があります [
8][
22]。
公開データで見る4モデルの概況
| モデル | 公開資料で確認できる主な数値 | 強みとして読める領域 | 注意点 |
|---|---|---|---|
| Claude Opus 4.7 | BenchLM 97/100、provisional 2位/110モデル。SWE-bench Verified 82.4%、FinanceBench 82.7%、MathVistaは9.5ポイント上昇 [ | コーディング、総合リーダーボード、金融文書分析、視覚的な数学推論 | Anthropicのresearch-agent benchmark 0.715は内部評価であり、GPT-5.5のGDPvalなどと直接比較しにくいです [ |
| GPT-5.5 | BenchLM 89/100、provisional 5位/112モデル。GDPval 84.9%、OSWorld-Verified 78.7%、Tau2-bench Telecom 98.0%、Vals Accuracy 67.76% ± 1.79 [ | 知識労働、コンピューター操作、顧客対応ワークフロー、エージェント型タスク | OpenAI公式発表、BenchLM、Vals Indexは評価体系が異なります [ |
| DeepSeek V4 / V4-Pro-Max | Vals AI一覧では2026年4月23日の項目。V4-Pro-MaxでMMLU-Pro 87.5%、GPQA Diamond 90.1%、GSM8K 92.6% [ | 科学QA、数学、高難度推論の候補 | DataCampはDeepSeek内部結果に基づく数値として紹介しており、独立評価と同列には扱いにくいです [ |
| Kimi K2.6 | BenchLM 85/100、provisional 12位/115モデル。Vals Accuracy 63.94% ± 1.97、Latency 373.57s、Cost/Test $0.21。Artificial Analysis Intelligence Index 54、全体4位 [ | オープンウェイト系モデル、費用、レイテンシー、運用効率 | Kimi 2.6、Kimi K2.6、K2.6 Thinkingなど表記が混在しており、同じ設定か確認が必要です [ |
総合リーダーボード:BenchLMではClaude Opus 4.7が上位
BenchLMに公開されている3モデルだけを見ると、Claude Opus 4.7のスコアが最も高く表示されています。BenchLMはClaude Opus 4.7を、provisional leaderboardで110モデル中2位、overall score 97/100とし、verified leaderboardでも14モデル中2位と説明しています [3]。
GPT-5.5はBenchLMで、provisional leaderboardの112モデル中5位、overall score 89/100、verified leaderboardでは16モデル中2位とされています [28]。Kimi 2.6はBenchLMのprovisional leaderboardで115モデル中12位、overall score 85/100で、27件の公開ベンチマークスコアが表示されていると説明されています [
37]。
ただし、これはあくまでBenchLMという枠内での参考値です。各ページの比較対象数は110、112、115と異なり、今回確認できる資料だけではDeepSeek V4の同等のBenchLMスコアを並べられません [3][
28][
37]。
コーディング:最もはっきりした数値はClaude Opus 4.7
コーディング系では、Claude Opus 4.7の公開数値が最も直接的です。MindStudioは、Claude Opus 4.7がSWE-bench Verifiedで82.4%を記録し、Opus 4.6から約11ポイント上昇したと説明しています [2]。同じ資料では、FinanceBenchが82.7%、視覚関連の改善としてMathVistaが9.5ポイント上昇したことも示されています [
2]。
GPT-5.5については、提供資料のOpenAI公式紹介で前面に出ている指標はSWE-benchではなく、GDPval、OSWorld-Verified、Tau2-bench Telecomです [29]。Kimi K2.6については、GMI Cloud資料がSWE-Bench Proで上位だと述べていますが、提供されたスニペットだけでは正確な点数や4モデル同条件での比較は確認できません [
35]。DeepSeek V4は、今回の資料群ではコーディングよりも、推論・数学関連の数値のほうが具体的に確認できます [
15][
16]。
業務エージェント:GPT-5.5は公式指標が具体的
知識労働やエージェント型ワークフローでは、GPT-5.5の公式数値が具体的です。OpenAIは、GPT-5.5がGDPvalで84.9%を記録したとしています。GDPvalは、44職種にわたる仕様化された知識労働の成果物作成能力をテストする評価です [29]。
OpenAIはさらに、実際のコンピューター環境を操作できるかを測るOSWorld-Verifiedで78.7%、複雑な顧客対応ワークフローをテストするTau2-bench Telecomで98.0%を記録したとしています [29]。
Claude Opus 4.7にもエージェント型タスクの資料があります。Anthropicは、内部のresearch-agent benchmarkでClaude Opus 4.7が6モジュール全体のスコア0.715で同率トップとなり、General FinanceモジュールではOpus 4.6の0.767を上回る0.813を記録したと説明しています [7]。
ただし、GPT-5.5のGDPval・OSWorld-Verified・Tau2-benchと、Claude Opus 4.7のAnthropic内部research-agent benchmarkは、評価設計そのものが異なります [7][
29]。GPT-5.5の84.9%とClaudeの0.715を、同じ物差しの数字として直接比較するのは避けるべきです [
7][
29]。
推論・知識:DeepSeek V4-Pro-MaxとKimi K2.6 Thinkingは一部で同表比較あり
DeepSeek V4の具体的な公開数値は、V4-Pro-Max設定で確認できます。DataCampは、DeepSeek内部結果によれば、DeepSeek V4-Pro-MaxがMMLU-Pro 87.5%、GPQA Diamond 90.1%、GSM8K 92.6%を記録したと説明しています [15]。有用な参考値ではありますが、内部結果ベースであるため、独立リーダーボードのスコアと同じ重みで読むべきではありません [
15]。
Hugging FaceのDeepSeek-V4-Pro資料では、DeepSeek V4-Pro-MaxとKimi K2.6 Thinkingが同じ表に一部並んでいます [16]。
| ベンチマーク | DeepSeek V4-Pro-Max | Kimi K2.6 Thinking | 表上の優位 |
|---|---|---|---|
| MMLU-Pro | 87.5 | 87.1 | DeepSeek V4-Pro-Max |
| SimpleQA-Verified | 57.9 | 36.9 | DeepSeek V4-Pro-Max |
| Chinese-SimpleQA | 84.4 | 75.9 | DeepSeek V4-Pro-Max |
| GPQA Diamond | 90.1 | 90.5 | Kimi K2.6 Thinking |
| HLE | 37.7 | 36.4 | DeepSeek V4-Pro-Max |
この表だけを見ると、DeepSeek V4-Pro-MaxはMMLU-Pro、SimpleQA-Verified、Chinese-SimpleQA、HLEでKimi K2.6 Thinkingを上回り、Kimi K2.6 ThinkingはGPQA Diamondでわずかに上回っています [16]。
ただし、この表で一緒に比較されているのはClaude Opus 4.7やGPT-5.5ではなく、Opus-4.6 Max、GPT-5.4 xHighなど別モデルです。そのため、この表から4モデル全体の順位を決めることはできません [16]。
費用・レイテンシー:Kimi K2.6は運用指標で目立つ
Vals AIの資料では、GPT-5.5はAccuracy 67.76% ± 1.79、Latency 409.09s、Context Window 1Mと表示されています [31]。一方、Kimi K2.6はAccuracy 63.94% ± 1.97、Latency 373.57s、Cost/Test $0.21と表示されています [
39]。
この2つのVals項目だけを比べると、Accuracyの表示値はGPT-5.5が高く、Latencyの表示値はKimi K2.6のほうが低くなっています [31][
39]。ただし、GPT-5.5側のCost/Test値は今回のスニペットでは確認できないため、費用面での全面比較はできません。
Kimi K2.6は、オープンウェイト系モデルを重視する利用者にとっても意味があります。Artificial Analysisは、MoonshotのKimi K2.6をleading open weights modelとして紹介し、Artificial Analysis Intelligence Index 54、全体4位という順位を示しています [36]。ただし、Artificial Analysis、Vals、BenchLMはそれぞれ別の評価体系です。Kimiの54点、Vals Accuracy 63.94%、BenchLM 85/100を、ひとつの総合点のように足し合わせることはできません [
36][
37][
39]。
用途別に選ぶなら
- コード修正やソフトウェアエンジニアリングが中心なら、Claude Opus 4.7から検討する価値があります。公開根拠では、SWE-bench Verified 82.4%とBenchLM 97/100という数値が明確です [
2][
3]。
- 知識労働の成果物作成、コンピューター操作、顧客対応ワークフローが重要なら、GPT-5.5のGDPval 84.9%、OSWorld-Verified 78.7%、Tau2-bench Telecom 98.0%が直接的な公式指標になります [
29]。
- 科学QA、数学、高難度推論を見たい場合は、DeepSeek V4-Pro-MaxとKimi K2.6 ThinkingのMMLU-Pro、GPQA Diamond、HLEなどを並べた表が参考になります [
15][
16]。
- オープンウェイトや運用コストを重視するなら、Kimi K2.6のArtificial Analysisにおけるopen weights評価と、Valsの$0.21/test、373.57sという指標が手がかりになります [
36][
39]。
- MMLUだけで判断しないことも重要です。2026年には上位モデルがMMLUの高得点帯に集まり、差が見えにくくなっているとの指摘があります [
22]。
結論:ランキング表ではなく、仕事に近い評価で見る
公開根拠だけに絞ると、Claude Opus 4.7はコーディングとBenchLM総合リーダーボード、GPT-5.5は業務エージェントとコンピューター操作、DeepSeek V4-Pro-Maxは推論・数学系の公開数値、Kimi K2.6はオープンウェイトと費用・レイテンシーの指標で、それぞれ強みが確認できます [2][
3][
15][
16][
28][
29][
36][
37][
39]。
一方で、4モデルを完全に1位から4位まで順位づけするには、公開資料の粒度がまだそろっていません。実際に導入するなら、このベンチマーク比較を出発点にしつつ、コーディング、金融文書分析、ブラウザーやコンピューター操作、顧客対応、長時間エージェント実行など、自社・自分の作業に近い条件で小さく検証するのが最も安全です [8][
22]。




