Claude Opus 4.7・GPT-5.5・DeepSeek V4・Kimi K2.6：2026年ベンチマーク比較

4モデルを同一ベンチマーク・同一設定・同一コストで横並び評価した公開資料は確認できず、単純な1位から4位の順位づけは危険です [19]。 Claude Opus 4.7はBenchLM 97/100とSWE bench Verified 82.4%、GPT 5.5はGDPval 84.9%・OSWorld Verified 78.7%など、強みが見える評価軸が異なります [2][3][29]。

Studio Global AI로 검색 및 팩트체크 Discover에서 더 많은 것을 찾아보세요

16K0

네 개의 최신 AI 모델을 벤치마크 차트와 비교하는 추상적 에디토리얼 이미지 — Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: 2026 벤치마크 비교Claude Opus 4.7, GPT-5.5, DeepSeek V4, Kimi K2.6의 2026 벤치마크 비교를 표현한 AI 생성 이미지.
AI 프롬프트
Create a landscape editorial hero image for this Studio Global article: Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: 2026 벤치마크 비교. Article summary: 네 모델의 ‘절대 1위’를 확정하기는 어렵습니다. 공개 자료 기준 Claude Opus 4.7은 BenchLM 97/100·SWE bench Verified 82.4%가 가장 뚜렷하고, GPT 5.5는 GDPval 84.9% 등 업무형 공식 수치가 강하지만 평가 체계가 달라 직접 합산할 수 없습니다 [2][3][29].. Topic tags: ai, ai benchmarks, llm, openai, anthropic. Reference image context from search candidates: Reference image 1: visual subject "# Kimi K2.6 vs Claude Opus 4.7: Which Model Wins in 2026? Kimi K2.6 ties Opus 4.7 on multilingual SWE-bench but trails by 7 points on Verified — at 1/5th the cost. Two weeks after" source context "Kimi K2.6 vs Claude Opus 4.7 (2026): Benchmarks, Cost, When Each Wins" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www
openai.com

公開ベンチマークを並べると、Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6の勝者はひとつに決まりません。Vals AIの一覧では、DeepSeek V4とGPT-5.5が2026年4月23日、Kimi K2.6が4月20日、Claude Opus 4.7が4月16日の項目として表示されていますが、提供されている公開資料は、4モデルを同じベンチマーク、同じ設定、同じ費用条件で一斉に比較したものではありません ^[19]。

そのため、この比較で見るべきなのは「総合1位はどれか」ではなく、「自分の用途に近い指標で、どのモデルの強みが確認できるか」です。

まず前提：AIベンチマークは“総合点”だけで読めない

2026年時点のAIベンチマークは、ひとつの試験というより、複数の能力テストの集合です。Kili Technologyは、MMLU、MMLU-Pro、GPQA Diamond、SWE-Bench、Terminal-Bench、GAIA、WebArena、GDPval、安全性評価などが、それぞれ異なる能力を測るものだと説明しています ^[8]。Stanford HAIのAI Indexも、MMLU、MATH、GPQA Diamond、MMMU、OSWorld、AIME、SWE-bench Verifiedなどを別々の技術性能軸として扱っています ^[13]。

とくにMMLUのような一般知識系の評価は、上位モデル間の差を見分けにくくなっています。Nanonetsは、MMLUが5-shot方式で計算されること、そして2026年には上位モデルが88%以上の帯域に集まり、差がつきにくくなったと指摘しています ^[22]。つまり、モデル選びでは「総合スコアが高いか」だけでなく、コーディング、専門文書、科学推論、コンピューター操作、費用といった実際の利用シーンを先に決める必要があります ^[8]^[22]。

公開データで見る4モデルの概況

モデル	公開資料で確認できる主な数値	強みとして読める領域	注意点
Claude Opus 4.7	BenchLM 97/100、provisional 2位/110モデル。SWE-bench Verified 82.4%、FinanceBench 82.7%、MathVistaは9.5ポイント上昇 ^[2]^[3]	コーディング、総合リーダーボード、金融文書分析、視覚的な数学推論	Anthropicのresearch-agent benchmark 0.715は内部評価であり、GPT-5.5のGDPvalなどと直接比較しにくいです ^[7]^[29]。
GPT-5.5	BenchLM 89/100、provisional 5位/112モデル。GDPval 84.9%、OSWorld-Verified 78.7%、Tau2-bench Telecom 98.0%、Vals Accuracy 67.76% ± 1.79 ^[28]^[29]^[31]	知識労働、コンピューター操作、顧客対応ワークフロー、エージェント型タスク	OpenAI公式発表、BenchLM、Vals Indexは評価体系が異なります ^[28]^[29]^[31]。
DeepSeek V4 / V4-Pro-Max	Vals AI一覧では2026年4月23日の項目。V4-Pro-MaxでMMLU-Pro 87.5%、GPQA Diamond 90.1%、GSM8K 92.6% ^[15]^[19]	科学QA、数学、高難度推論の候補	DataCampはDeepSeek内部結果に基づく数値として紹介しており、独立評価と同列には扱いにくいです ^[15]。
Kimi K2.6	BenchLM 85/100、provisional 12位/115モデル。Vals Accuracy 63.94% ± 1.97、Latency 373.57s、Cost/Test $0.21。Artificial Analysis Intelligence Index 54、全体4位 ^[36]^[37]^[39]	オープンウェイト系モデル、費用、レイテンシー、運用効率	Kimi 2.6、Kimi K2.6、K2.6 Thinkingなど表記が混在しており、同じ設定か確認が必要です ^[37]^[39]。

総合リーダーボード：BenchLMではClaude Opus 4.7が上位

BenchLMに公開されている3モデルだけを見ると、Claude Opus 4.7のスコアが最も高く表示されています。BenchLMはClaude Opus 4.7を、provisional leaderboardで110モデル中2位、overall score 97/100とし、verified leaderboardでも14モデル中2位と説明しています ^[3]。

GPT-5.5はBenchLMで、provisional leaderboardの112モデル中5位、overall score 89/100、verified leaderboardでは16モデル中2位とされています ^[28]。Kimi 2.6はBenchLMのprovisional leaderboardで115モデル中12位、overall score 85/100で、27件の公開ベンチマークスコアが表示されていると説明されています ^[37]。

ただし、これはあくまでBenchLMという枠内での参考値です。各ページの比較対象数は110、112、115と異なり、今回確認できる資料だけではDeepSeek V4の同等のBenchLMスコアを並べられません ^[3]^[28]^[37]。

コーディング：最もはっきりした数値はClaude Opus 4.7

コーディング系では、Claude Opus 4.7の公開数値が最も直接的です。MindStudioは、Claude Opus 4.7がSWE-bench Verifiedで82.4%を記録し、Opus 4.6から約11ポイント上昇したと説明しています ^[2]。同じ資料では、FinanceBenchが82.7%、視覚関連の改善としてMathVistaが9.5ポイント上昇したことも示されています ^[2]。

GPT-5.5については、提供資料のOpenAI公式紹介で前面に出ている指標はSWE-benchではなく、GDPval、OSWorld-Verified、Tau2-bench Telecomです ^[29]。Kimi K2.6については、GMI Cloud資料がSWE-Bench Proで上位だと述べていますが、提供されたスニペットだけでは正確な点数や4モデル同条件での比較は確認できません ^[35]。DeepSeek V4は、今回の資料群ではコーディングよりも、推論・数学関連の数値のほうが具体的に確認できます ^[15]^[16]。

業務エージェント：GPT-5.5は公式指標が具体的

知識労働やエージェント型ワークフローでは、GPT-5.5の公式数値が具体的です。OpenAIは、GPT-5.5がGDPvalで84.9%を記録したとしています。GDPvalは、44職種にわたる仕様化された知識労働の成果物作成能力をテストする評価です ^[29]。

OpenAIはさらに、実際のコンピューター環境を操作できるかを測るOSWorld-Verifiedで78.7%、複雑な顧客対応ワークフローをテストするTau2-bench Telecomで98.0%を記録したとしています ^[29]。

Claude Opus 4.7にもエージェント型タスクの資料があります。Anthropicは、内部のresearch-agent benchmarkでClaude Opus 4.7が6モジュール全体のスコア0.715で同率トップとなり、General FinanceモジュールではOpus 4.6の0.767を上回る0.813を記録したと説明しています ^[7]。

ただし、GPT-5.5のGDPval・OSWorld-Verified・Tau2-benchと、Claude Opus 4.7のAnthropic内部research-agent benchmarkは、評価設計そのものが異なります ^[7]^[29]。GPT-5.5の84.9%とClaudeの0.715を、同じ物差しの数字として直接比較するのは避けるべきです ^[7]^[29]。

推論・知識：DeepSeek V4-Pro-MaxとKimi K2.6 Thinkingは一部で同表比較あり

DeepSeek V4の具体的な公開数値は、V4-Pro-Max設定で確認できます。DataCampは、DeepSeek内部結果によれば、DeepSeek V4-Pro-MaxがMMLU-Pro 87.5%、GPQA Diamond 90.1%、GSM8K 92.6%を記録したと説明しています ^[15]。有用な参考値ではありますが、内部結果ベースであるため、独立リーダーボードのスコアと同じ重みで読むべきではありません ^[15]。

Hugging FaceのDeepSeek-V4-Pro資料では、DeepSeek V4-Pro-MaxとKimi K2.6 Thinkingが同じ表に一部並んでいます ^[16]。

ベンチマーク	DeepSeek V4-Pro-Max	Kimi K2.6 Thinking	表上の優位
MMLU-Pro	87.5	87.1	DeepSeek V4-Pro-Max
SimpleQA-Verified	57.9	36.9	DeepSeek V4-Pro-Max
Chinese-SimpleQA	84.4	75.9	DeepSeek V4-Pro-Max
GPQA Diamond	90.1	90.5	Kimi K2.6 Thinking
HLE	37.7	36.4	DeepSeek V4-Pro-Max

この表だけを見ると、DeepSeek V4-Pro-MaxはMMLU-Pro、SimpleQA-Verified、Chinese-SimpleQA、HLEでKimi K2.6 Thinkingを上回り、Kimi K2.6 ThinkingはGPQA Diamondでわずかに上回っています ^[16]。

ただし、この表で一緒に比較されているのはClaude Opus 4.7やGPT-5.5ではなく、Opus-4.6 Max、GPT-5.4 xHighなど別モデルです。そのため、この表から4モデル全体の順位を決めることはできません ^[16]。

費用・レイテンシー：Kimi K2.6は運用指標で目立つ

Vals AIの資料では、GPT-5.5はAccuracy 67.76% ± 1.79、Latency 409.09s、Context Window 1Mと表示されています ^[31]。一方、Kimi K2.6はAccuracy 63.94% ± 1.97、Latency 373.57s、Cost/Test $0.21と表示されています ^[39]。

この2つのVals項目だけを比べると、Accuracyの表示値はGPT-5.5が高く、Latencyの表示値はKimi K2.6のほうが低くなっています ^[31]^[39]。ただし、GPT-5.5側のCost/Test値は今回のスニペットでは確認できないため、費用面での全面比較はできません。

Kimi K2.6は、オープンウェイト系モデルを重視する利用者にとっても意味があります。Artificial Analysisは、MoonshotのKimi K2.6をleading open weights modelとして紹介し、Artificial Analysis Intelligence Index 54、全体4位という順位を示しています ^[36]。ただし、Artificial Analysis、Vals、BenchLMはそれぞれ別の評価体系です。Kimiの54点、Vals Accuracy 63.94%、BenchLM 85/100を、ひとつの総合点のように足し合わせることはできません ^[36]^[37]^[39]。

用途別に選ぶなら

コード修正やソフトウェアエンジニアリングが中心なら、Claude Opus 4.7から検討する価値があります。公開根拠では、SWE-bench Verified 82.4%とBenchLM 97/100という数値が明確です ^[2]^[3]。
知識労働の成果物作成、コンピューター操作、顧客対応ワークフローが重要なら、GPT-5.5のGDPval 84.9%、OSWorld-Verified 78.7%、Tau2-bench Telecom 98.0%が直接的な公式指標になります ^[29]。
科学QA、数学、高難度推論を見たい場合は、DeepSeek V4-Pro-MaxとKimi K2.6 ThinkingのMMLU-Pro、GPQA Diamond、HLEなどを並べた表が参考になります ^[15]^[16]。
オープンウェイトや運用コストを重視するなら、Kimi K2.6のArtificial Analysisにおけるopen weights評価と、Valsの$0.21/test、373.57sという指標が手がかりになります ^[36]^[39]。
MMLUだけで判断しないことも重要です。2026年には上位モデルがMMLUの高得点帯に集まり、差が見えにくくなっているとの指摘があります ^[22]。

結論：ランキング表ではなく、仕事に近い評価で見る

公開根拠だけに絞ると、Claude Opus 4.7はコーディングとBenchLM総合リーダーボード、GPT-5.5は業務エージェントとコンピューター操作、DeepSeek V4-Pro-Maxは推論・数学系の公開数値、Kimi K2.6はオープンウェイトと費用・レイテンシーの指標で、それぞれ強みが確認できます ^[2]^[3]^[15]^[16]^[28]^[29]^[36]^[37]^[39]。

一方で、4モデルを完全に1位から4位まで順位づけするには、公開資料の粒度がまだそろっていません。実際に導入するなら、このベンチマーク比較を出発点にしつつ、コーディング、金融文書分析、ブラウザーやコンピューター操作、顧客対応、長時間エージェント実行など、自社・自分の作業に近い条件で小さく検証するのが最も安全です ^[8]^[22]。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

주요 시사점

4モデルを同一ベンチマーク・同一設定・同一コストで横並び評価した公開資料は確認できず、単純な1位から4位の順位づけは危険です [19]。
Claude Opus 4.7はBenchLM 97/100とSWE bench Verified 82.4%、GPT 5.5はGDPval 84.9%・OSWorld Verified 78.7%など、強みが見える評価軸が異なります [2][3][29]。
DeepSeek V4 Pro MaxはMMLU Pro 87.5%・GPQA Diamond 90.1%、Kimi K2.6はBenchLM 85/100やValsの$0.21/testなどが確認できますが、出典と評価条件の違いを分けて読む必要があります [15][37][39]。

사람들은 또한 묻습니다.

"Claude Opus 4.7・GPT-5.5・DeepSeek V4・Kimi K2.6：2026年ベンチマーク比較"에 대한 짧은 대답은 무엇입니까?

4モデルを同一ベンチマーク・同一設定・同一コストで横並び評価した公開資料は確認できず、単純な1位から4位の順位づけは危険です [19]。

먼저 검증할 핵심 포인트는 무엇인가요?

실무에서는 다음으로 무엇을 해야 합니까?

DeepSeek V4 Pro MaxはMMLU Pro 87.5%・GPQA Diamond 90.1%、Kimi K2.6はBenchLM 85/100やValsの$0.21/testなどが確認できますが、出典と評価条件の違いを分けて読む必要があります [15][37][39]。

다음에는 어떤 관련 주제를 탐구해야 할까요?

다른 각도와 추가 인용을 보려면 "Claude Opus 4.7·GPT-5.5·DeepSeek V4·Kimi K2.6 벤치마크 비교: 2026년 판정"으로 계속하세요.

관련 페이지 열기

이것을 무엇과 비교해야 합니까?

"DeepSeek V4 엔지니어링 해설: 100만 토큰, MoE, API 이전 체크포인트"에 대해 이 답변을 대조 확인하세요.

관련 페이지 열기

연구를 계속하세요

Comparativa de benchmarks 2026 entre Claude Opus 4.7, GPT-5.5, DeepSeek V4 y Kimi K2.6

Claude Opus 4.7·GPT-5.5·DeepSeek V4·Kimi K2.6 벤치마크 비교: 2026년 판정

Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: 2026 벤치마크 비교

DeepSeek V4 工程架构示意图，包含 1M 上下文、MoE 专家路由和 API 服务化元素

DeepSeek V4 엔지니어링 해설: 100만 토큰, MoE, API 이전 체크포인트

Northwest vs. Southeast Timber 탄력성 풀이: 왜 답은 larger; larger일까

Northwest vs. Southeast Timber: 대체성이 높을수록 왜 larger; larger인가

抽象 AI 晶片與多個聊天機器人平台競爭的示意圖，象徵 DeepSeek 挑戰 OpenAI、Claude、Gemini 與 Grok

DeepSeek가 OpenAI·Claude·Gemini·Grok을 이길까: 답은 비용과 신뢰에 있다

DeepSeek가 OpenAI·Claude·Gemini·Grok을 이길까

연구 대화

당신2026년 4월 26일

연구문제

Claude Opus 4.7, GPT-5.5, DeepSeek V4, Kimi K2.6의 벤치마크를 조사하고 가능한 한 종합적으로 비교해 주세요.

Studio Global AI2026년 4월 26일40 소스

인용 답변

제공된 근거만으로는 네 모델을 동등한 수준으로 “종합 벤치마크 비교”하기에는 자료가 크게 부족합니다. 확인 가능한 정량 벤치마크는 사실상 Claude Opus 4.7에 집중되어 있고, GPT-5.5·DeepSeek V4·Kimi K2.6은 제공 근거 안에서 직접 비교 가능한 공식 점수나 일관된 벤치마크 결과가 없습니다. 따라서 아래 비교는 “확인 가능한 것”과 “증거 부족”을 명확히 나누어 정리합니다.

Key findings

Claude Opus 4.7은 제공된 자료 중 유일하게 구체적인 벤치마크 수치가 확인되는 모델입니다. SWE-bench Verified에서 82.4%를 기록했고, 이는 Opus 4.6 대비 약 11점 상승한 것으로 제시됩니다 ^[6].
Claude Opus 4.7은 BenchLM 기준 provisional leaderboard에서 110개 모델 중 2위, overall score 97/100으로 제시되며, verified leaderboard에서도 14개 모델 중 2위로 언급됩니다 ^[7].
Claude Opus 4.7은 비전 관련 개선 폭이 컸고, MathVista가 9.5점 상승했다는 자료가 있습니다 ^[6].
Kimi K2.6은 Vals AI의 모델 목록에서 Moonshot AI 모델로 확인되며, 제공된 스니펫에는 2026년 4월 20일 항목으로 표시됩니다 ^[5]. 다만 이 근거에는 Kimi K2.6의 실제 벤치마크 점수가 포함되어 있지 않습니다 ^[5].
Claude Opus 4.7 역시 Vals AI 목록에서 Anthropic 모델로 확인되며, 제공된 스니펫에는 2026년 4월 16일 항목으로 표시됩니다 ^[5].
GPT-5.5에 대해서는 제공된 근거 안에 직접적인 벤치마크 점수, 공식 발표, 리더보드 결과가 없습니다. Insufficient evidence.
DeepSeek V4에 대해서는 제공된 근거 중 Reddit 스니펫이 있으나, 해당 스니펫은 로컬 호스팅과 운영상 조언에 가까우며 비교 가능한 벤치마크 수치를 제공하지 않습니다 ^[40]. Insufficient evidence.

비교 표

모델	확인 가능한 벤치마크 / 순위	강점으로 볼 수 있는 영역	증거 수준
Claude Opus 4.7	SWE-bench Verified 82.4% ^[6]; BenchLM provisional 2/110, 97/100 ^[7]; verified 2/14 ^[7]	코딩, 비전 수학 추론, 종합 리더보드 성능 ^[6]^[7]	상대적으로 높음
GPT-5.5	제공 근거 내 직접 점수 없음	판단 불가	Insufficient evidence
DeepSeek V4	제공 근거 내 직접 점수 없음	판단 불가	Insufficient evidence
Kimi K2.6	모델 목록 및 날짜 항목은 확인되나 점수 없음 ^[5]	판단 불가	낮음

벤치마크별 해석

SWE-bench Verified 기준으로는 Claude Opus 4.7만 비교 가능한 수치가 있습니다. Claude Opus 4.7의 82.4%는 제공 자료상 Opus 4.6 대비 약 11점 개선된 결과로 제시됩니다 ^[6].
종합 리더보드 기준으로도 Claude Opus 4.7만 명확한 순위가 있습니다. BenchLM은 Claude Opus 4.7을 provisional leaderboard 110개 모델 중 2위, overall score 97/100으로 제시합니다 ^[7].
비전·수학 영역에서는 Claude Opus 4.7의 MathVista 점수가 9.5점 상승했다는 자료가 있으나, GPT-5.5·DeepSeek V4·Kimi K2.6의 동등 지표가 제공되지 않아 상대 비교는 불가능합니다 ^[6].
일반 지식·추론 벤치마크는 2026년 기준 MMLU, MMLU-Pro, GPQA Diamond, SWE-bench, Arena Elo 등이 주요 평가로 언급됩니다 ^[2]. 다만 MMLU는 상위 모델들이 이미 88% 이상을 기록해 2026년에는 변별력이 약하다는 지적이 있습니다 ^[3].

Evidence notes

Stanford HAI의 2026 AI Index 기술 성능 자료는 ImageNet, VQA, SuperGLUE, SQuAD 2.0 등 여러 벤치마크에서 AI 성능이 인간 성능과 비교되는 장기 추세를 다룹니다 ^[1]. 이는 개별 네 모델의 직접 비교 자료라기보다는 벤치마크 해석의 배경 자료에 가깝습니다 ^[1].
Kili Technology 자료는 2026년 주요 벤치마크로 MMLU, MMLU-Pro, GPQA Diamond, SWE-bench, Arena Elo 등을 언급하면서 벤치마크만으로 모델 성능을 충분히 설명하기 어렵다고 설명합니다 ^[2].
Nanonets 자료는 MMLU가 5-shot 방식으로 계산된다는 점과, 상위 모델들이 88% 이상을 기록하면서 2026년에는 변별력이 낮아졌다는 점을 지적합니다 ^[3].
DeepSeek V4 관련 제공 근거는 Reddit 스니펫뿐이며, 신뢰도 높은 공식·학술·독립 리더보드 근거가 아닙니다 ^[40].

Limitations / uncertainty

GPT-5.5, DeepSeek V4, Kimi K2.6에 대해 제공된 근거만으로는 SWE-bench, GPQA, MMLU-Pro, AIME, MathVista, Arena Elo 같은 동일 벤치마크 축에서 점수를 비교할 수 없습니다. Insufficient evidence.
Claude Opus 4.7의 수치도 출처별로 평가 방법과 리더보드 산식이 다를 수 있으므로, BenchLM의 97/100 및 순위와 SWE-bench Verified 82.4%는 서로 다른 평가 체계의 결과로 해석해야 합니다 ^[6]^[7].
Kimi K2.6은 모델 존재와 날짜 항목은 확인되지만, 제공 근거 안에는 성능 점수가 없습니다 ^[5]. Insufficient evidence.
DeepSeek V4는 제공 근거 안에서 벤치마크 수치가 확인되지 않습니다 ^[40]. Insufficient evidence.

Summary

현재 제공된 증거만 놓고 보면 Claude Opus 4.7이 네 모델 중 유일하게 구체적이고 비교 가능한 성능 자료를 갖고 있습니다. Claude Opus 4.7은 SWE-bench Verified 82.4%, BenchLM provisional 2위/110개 모델, overall score 97/100으로 제시되어 코딩과 종합 평가에서 매우 강한 모델로 볼 수 있습니다 ^[6]^[7].

반면 GPT-5.5, DeepSeek V4, Kimi K2.6은 제공 근거 안에서 직접 벤치마크 점수가 없으므로 Claude Opus 4.7보다 높다거나 낮다고 결론낼 수 없습니다. Insufficient evidence.

출처

[2] Claude Opus 4.7 Benchmark Breakdown: Vision, Coding, ...mindstudio.ai
Claude Opus 4.7 posted 82.4% on SWE-bench Verified, up roughly 11 points from Opus 4.6 — the most meaningful coding benchmark available. Vision improvements were the largest percentage gains: MathVista jumped 9.5 points, enabling reliable visual math reason...
[3] Claude Opus 4.7 Benchmarks 2026: Scores, Rankings & Performancebenchlm.ai
Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools Claude Opus 4.7 According to BenchLM.ai, Claude Opus 4.7 ranks 2 out of 110 models on the provisional leaderboard with an overall score of 97/100. It also ranks 2 out of 14 on t...
[7] Introducing Claude Opus 4.7 - Anthropicanthropic.com
Image 7: logo Based on our internal research-agent benchmark, Claude Opus 4.7 has the strongest efficiency baseline we’ve seen for multi-step work. It tied for the top overall score across our six modules at 0.715 and delivered the most consistent long-cont...
[8] AI Benchmarks 2026: Top Evaluations and Their Limitskili-technology.com
Image 2: Kili Technology.png) Kili Technology · Apr 13, 2026 Image 3: AI Benchmarks Guide: The Top Evaluations in 2026 and Why They're Not Enough Table of contents Introduction What Are the Most Important AI Benchmarks in 2026? General knowledge and reasoni...
[13] [PDF] Technical Performance - Stanford HAIhai.stanford.edu
Technical Performance Benchmarks vs. Human Performance 76 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024 2025 0% 20% 40% 60% 80% 100% 120% Image classiǇcation (ImageNet Top-5) Visual reasoning (VQA) English language understanding (SuperGLU...
[15] DeepSeek V4: Features, Benchmarks, and Comparisonsdatacamp.com
DeepSeek V4 Benchmarks According to DeepSeek’s internal results, DeepSeek V4 demonstrates impressive performance, particularly when pushed to its maximum reasoning limits (DeepSeek-V4-Pro-Max). According to the official release notes, here is how the model...
[16] deepseek-ai/DeepSeek-V4-Pro - Hugging Facehuggingface.co
Opus-4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High K2.6 Thinking GLM-5.1 Thinking DS-V4-Pro Max :---: :---: :---: Knowledge & Reasoning MMLU-Pro (EM) 89.1 87.5 91.0 87.1 86.0 87.5 SimpleQA-Verified (Pass@1) 46.2 45.3 75.6 36.9 38.1 57.9 Chinese-SimpleQA (Pass@1...
[19] DeepSeek V4 - Vals AIvals.ai
Benchmarks Models Comparison Model Guide App Reports News About Benchmarks Models Comparison Model Guide App Reports About Release date Models 4/23/2026 DeepSeek DeepSeek V4 4/23/2026 OpenAI GPT 5.5 4/20/2026 Moonshot AI Kimi K2.6 4/16/2026 Anthropic Claude...
[22] AI Benchmarks Explained: GPQA, SWE-bench & Arena Elonanonets.com
How the score is calculated: Before each question, the model is shown 5 example questions with correct answers, this is called 5-shot prompting. Then comes the real question. Score = correct answers ÷ total questions, expressed as a percentage. Why it's nea...
[28] GPT-5.5 Benchmarks 2026: Scores, Rankings & Performancebenchlm.ai
Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools GPT-5.5 According to BenchLM.ai, GPT-5.5 ranks 5 out of 112 models on the provisional leaderboard with an overall score of 89/100. It also ranks 2 out of 16 on the verified lead...
[29] Introducing GPT-5.5 - OpenAIopenai.com
GPT‑5.5 reaches state-of-the-art performance across multiple benchmarks that reflect this kind of work. OnGDPval⁠⁠, which tests agents’ abilities to produce well-specified knowledge work across 44 occupations, GPT‑5.5 scores 84.9%. On OSWorld-Verified, whic...
[31] GPT 5.5 - Vals AIvals.ai
2/17/2026 Anthropic Claude Sonnet 4.6 2/16/2026 Alibaba Qwen 3.5 Plus 2/12/2026 MiniMax MiniMax-M2.5 2/12/2026 MiniMax MiniMax-M2.5 2/11/2026 zAI GLM 5 2/5/2026 Anthropic Claude Opus 4.6 (Nonthinking) 2/5/2026 Anthropic Claude Opus 4.6 (Thinking) 1/26/2026...
[35] Kimi K2.6 on GMI Cloud: Architecture, Benchmarks & API Accessgmicloud.ai
Kimi K2.6 tops SWE-Bench Pro and runs 300 parallel sub-agents on 4x H100S. Learn the full architecture, benchmark results, and how to run it ... 3 days ago
[36] Kimi K2.6: The new leading open weights model - Artificial Analysisartificialanalysis.ai
Moonshot's Kimi K2.6 is the new leading open weights model. Kimi K2.6 lands at 4 on the Artificial Analysis Intelligence Index (54) behind ... 5 days ago
[37] Kimi 2.6 Benchmarks 2026: Scores, Rankings & Performancebenchlm.ai
Kimi 2.6 by Moonshot AI scores 85/100 on BenchLM's provisional leaderboard ( 12 of 115) with 27 published benchmark scores currently shown ... 6 days ago
[39] Kimi K2.6 - Vals AIvals.ai
Kimi K2.6. Release Date: 4/20/2026. Vals Index. Accuracy (Vals Index). 63.94% ± 1.97. Latency (Vals Index). 373.57s. Cost/Test (Vals Index). $0.21.

Claude Opus 4.7・GPT-5.5・DeepSeek V4・Kimi K2.6：2026年ベンチマーク比較

Studio Global AI로 검색 및 팩트체크 Discover에서 더 많은 것을 찾아보세요

16K0

そのため、この比較で見るべきなのは「総合1位はどれか」ではなく、「自分の用途に近い指標で、どのモデルの強みが確認できるか」です。

まず前提：AIベンチマークは“総合点”だけで読めない

公開データで見る4モデルの概況

モデル	公開資料で確認できる主な数値	強みとして読める領域	注意点
Claude Opus 4.7	BenchLM 97/100、provisional 2位/110モデル。SWE-bench Verified 82.4%、FinanceBench 82.7%、MathVistaは9.5ポイント上昇 ^[2]^[3]	コーディング、総合リーダーボード、金融文書分析、視覚的な数学推論	Anthropicのresearch-agent benchmark 0.715は内部評価であり、GPT-5.5のGDPvalなどと直接比較しにくいです ^[7]^[29]。
GPT-5.5	BenchLM 89/100、provisional 5位/112モデル。GDPval 84.9%、OSWorld-Verified 78.7%、Tau2-bench Telecom 98.0%、Vals Accuracy 67.76% ± 1.79 ^[28]^[29]^[31]	知識労働、コンピューター操作、顧客対応ワークフロー、エージェント型タスク	OpenAI公式発表、BenchLM、Vals Indexは評価体系が異なります ^[28]^[29]^[31]。
DeepSeek V4 / V4-Pro-Max	Vals AI一覧では2026年4月23日の項目。V4-Pro-MaxでMMLU-Pro 87.5%、GPQA Diamond 90.1%、GSM8K 92.6% ^[15]^[19]	科学QA、数学、高難度推論の候補	DataCampはDeepSeek内部結果に基づく数値として紹介しており、独立評価と同列には扱いにくいです ^[15]。
Kimi K2.6	BenchLM 85/100、provisional 12位/115モデル。Vals Accuracy 63.94% ± 1.97、Latency 373.57s、Cost/Test $0.21。Artificial Analysis Intelligence Index 54、全体4位 ^[36]^[37]^[39]	オープンウェイト系モデル、費用、レイテンシー、運用効率	Kimi 2.6、Kimi K2.6、K2.6 Thinkingなど表記が混在しており、同じ設定か確認が必要です ^[37]^[39]。

総合リーダーボード：BenchLMではClaude Opus 4.7が上位

コーディング：最もはっきりした数値はClaude Opus 4.7

業務エージェント：GPT-5.5は公式指標が具体的

推論・知識：DeepSeek V4-Pro-MaxとKimi K2.6 Thinkingは一部で同表比較あり

Hugging FaceのDeepSeek-V4-Pro資料では、DeepSeek V4-Pro-MaxとKimi K2.6 Thinkingが同じ表に一部並んでいます ^[16]。

ベンチマーク	DeepSeek V4-Pro-Max	Kimi K2.6 Thinking	表上の優位
MMLU-Pro	87.5	87.1	DeepSeek V4-Pro-Max
SimpleQA-Verified	57.9	36.9	DeepSeek V4-Pro-Max
Chinese-SimpleQA	84.4	75.9	DeepSeek V4-Pro-Max
GPQA Diamond	90.1	90.5	Kimi K2.6 Thinking
HLE	37.7	36.4	DeepSeek V4-Pro-Max

費用・レイテンシー：Kimi K2.6は運用指標で目立つ

用途別に選ぶなら

コード修正やソフトウェアエンジニアリングが中心なら、Claude Opus 4.7から検討する価値があります。公開根拠では、SWE-bench Verified 82.4%とBenchLM 97/100という数値が明確です ^[2]^[3]。
知識労働の成果物作成、コンピューター操作、顧客対応ワークフローが重要なら、GPT-5.5のGDPval 84.9%、OSWorld-Verified 78.7%、Tau2-bench Telecom 98.0%が直接的な公式指標になります ^[29]。
科学QA、数学、高難度推論を見たい場合は、DeepSeek V4-Pro-MaxとKimi K2.6 ThinkingのMMLU-Pro、GPQA Diamond、HLEなどを並べた表が参考になります ^[15]^[16]。
オープンウェイトや運用コストを重視するなら、Kimi K2.6のArtificial Analysisにおけるopen weights評価と、Valsの$0.21/test、373.57sという指標が手がかりになります ^[36]^[39]。
MMLUだけで判断しないことも重要です。2026年には上位モデルがMMLUの高得点帯に集まり、差が見えにくくなっているとの指摘があります ^[22]。

結論：ランキング表ではなく、仕事に近い評価で見る

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

주요 시사점

4モデルを同一ベンチマーク・同一設定・同一コストで横並び評価した公開資料は確認できず、単純な1位から4位の順位づけは危険です [19]。
Claude Opus 4.7はBenchLM 97/100とSWE bench Verified 82.4%、GPT 5.5はGDPval 84.9%・OSWorld Verified 78.7%など、強みが見える評価軸が異なります [2][3][29]。
DeepSeek V4 Pro MaxはMMLU Pro 87.5%・GPQA Diamond 90.1%、Kimi K2.6はBenchLM 85/100やValsの$0.21/testなどが確認できますが、出典と評価条件の違いを分けて読む必要があります [15][37][39]。

사람들은 또한 묻습니다.

"Claude Opus 4.7・GPT-5.5・DeepSeek V4・Kimi K2.6：2026年ベンチマーク比較"에 대한 짧은 대답은 무엇입니까?

4モデルを同一ベンチマーク・同一設定・同一コストで横並び評価した公開資料は確認できず、単純な1位から4位の順位づけは危険です [19]。

먼저 검증할 핵심 포인트는 무엇인가요?

실무에서는 다음으로 무엇을 해야 합니까?

다음에는 어떤 관련 주제를 탐구해야 할까요?

다른 각도와 추가 인용을 보려면 "Claude Opus 4.7·GPT-5.5·DeepSeek V4·Kimi K2.6 벤치마크 비교: 2026년 판정"으로 계속하세요.

관련 페이지 열기

이것을 무엇과 비교해야 합니까?

"DeepSeek V4 엔지니어링 해설: 100만 토큰, MoE, API 이전 체크포인트"에 대해 이 답변을 대조 확인하세요.

관련 페이지 열기

연구를 계속하세요

연구 대화

당신2026년 4월 26일

연구문제

Claude Opus 4.7, GPT-5.5, DeepSeek V4, Kimi K2.6의 벤치마크를 조사하고 가능한 한 종합적으로 비교해 주세요.

Studio Global AI2026년 4월 26일40 소스

인용 답변

Key findings

Claude Opus 4.7은 제공된 자료 중 유일하게 구체적인 벤치마크 수치가 확인되는 모델입니다. SWE-bench Verified에서 82.4%를 기록했고, 이는 Opus 4.6 대비 약 11점 상승한 것으로 제시됩니다 ^[6].
Claude Opus 4.7은 BenchLM 기준 provisional leaderboard에서 110개 모델 중 2위, overall score 97/100으로 제시되며, verified leaderboard에서도 14개 모델 중 2위로 언급됩니다 ^[7].
Claude Opus 4.7은 비전 관련 개선 폭이 컸고, MathVista가 9.5점 상승했다는 자료가 있습니다 ^[6].
Kimi K2.6은 Vals AI의 모델 목록에서 Moonshot AI 모델로 확인되며, 제공된 스니펫에는 2026년 4월 20일 항목으로 표시됩니다 ^[5]. 다만 이 근거에는 Kimi K2.6의 실제 벤치마크 점수가 포함되어 있지 않습니다 ^[5].
Claude Opus 4.7 역시 Vals AI 목록에서 Anthropic 모델로 확인되며, 제공된 스니펫에는 2026년 4월 16일 항목으로 표시됩니다 ^[5].
GPT-5.5에 대해서는 제공된 근거 안에 직접적인 벤치마크 점수, 공식 발표, 리더보드 결과가 없습니다. Insufficient evidence.
DeepSeek V4에 대해서는 제공된 근거 중 Reddit 스니펫이 있으나, 해당 스니펫은 로컬 호스팅과 운영상 조언에 가까우며 비교 가능한 벤치마크 수치를 제공하지 않습니다 ^[40]. Insufficient evidence.

비교 표

모델	확인 가능한 벤치마크 / 순위	강점으로 볼 수 있는 영역	증거 수준
Claude Opus 4.7	SWE-bench Verified 82.4% ^[6]; BenchLM provisional 2/110, 97/100 ^[7]; verified 2/14 ^[7]	코딩, 비전 수학 추론, 종합 리더보드 성능 ^[6]^[7]	상대적으로 높음
GPT-5.5	제공 근거 내 직접 점수 없음	판단 불가	Insufficient evidence
DeepSeek V4	제공 근거 내 직접 점수 없음	판단 불가	Insufficient evidence
Kimi K2.6	모델 목록 및 날짜 항목은 확인되나 점수 없음 ^[5]	판단 불가	낮음

벤치마크별 해석

SWE-bench Verified 기준으로는 Claude Opus 4.7만 비교 가능한 수치가 있습니다. Claude Opus 4.7의 82.4%는 제공 자료상 Opus 4.6 대비 약 11점 개선된 결과로 제시됩니다 ^[6].
종합 리더보드 기준으로도 Claude Opus 4.7만 명확한 순위가 있습니다. BenchLM은 Claude Opus 4.7을 provisional leaderboard 110개 모델 중 2위, overall score 97/100으로 제시합니다 ^[7].
비전·수학 영역에서는 Claude Opus 4.7의 MathVista 점수가 9.5점 상승했다는 자료가 있으나, GPT-5.5·DeepSeek V4·Kimi K2.6의 동등 지표가 제공되지 않아 상대 비교는 불가능합니다 ^[6].
일반 지식·추론 벤치마크는 2026년 기준 MMLU, MMLU-Pro, GPQA Diamond, SWE-bench, Arena Elo 등이 주요 평가로 언급됩니다 ^[2]. 다만 MMLU는 상위 모델들이 이미 88% 이상을 기록해 2026년에는 변별력이 약하다는 지적이 있습니다 ^[3].

Evidence notes

Stanford HAI의 2026 AI Index 기술 성능 자료는 ImageNet, VQA, SuperGLUE, SQuAD 2.0 등 여러 벤치마크에서 AI 성능이 인간 성능과 비교되는 장기 추세를 다룹니다 ^[1]. 이는 개별 네 모델의 직접 비교 자료라기보다는 벤치마크 해석의 배경 자료에 가깝습니다 ^[1].
Kili Technology 자료는 2026년 주요 벤치마크로 MMLU, MMLU-Pro, GPQA Diamond, SWE-bench, Arena Elo 등을 언급하면서 벤치마크만으로 모델 성능을 충분히 설명하기 어렵다고 설명합니다 ^[2].
Nanonets 자료는 MMLU가 5-shot 방식으로 계산된다는 점과, 상위 모델들이 88% 이상을 기록하면서 2026년에는 변별력이 낮아졌다는 점을 지적합니다 ^[3].
DeepSeek V4 관련 제공 근거는 Reddit 스니펫뿐이며, 신뢰도 높은 공식·학술·독립 리더보드 근거가 아닙니다 ^[40].

Limitations / uncertainty

GPT-5.5, DeepSeek V4, Kimi K2.6에 대해 제공된 근거만으로는 SWE-bench, GPQA, MMLU-Pro, AIME, MathVista, Arena Elo 같은 동일 벤치마크 축에서 점수를 비교할 수 없습니다. Insufficient evidence.
Claude Opus 4.7의 수치도 출처별로 평가 방법과 리더보드 산식이 다를 수 있으므로, BenchLM의 97/100 및 순위와 SWE-bench Verified 82.4%는 서로 다른 평가 체계의 결과로 해석해야 합니다 ^[6]^[7].
Kimi K2.6은 모델 존재와 날짜 항목은 확인되지만, 제공 근거 안에는 성능 점수가 없습니다 ^[5]. Insufficient evidence.
DeepSeek V4는 제공 근거 안에서 벤치마크 수치가 확인되지 않습니다 ^[40]. Insufficient evidence.

Summary

출처

[2] Claude Opus 4.7 Benchmark Breakdown: Vision, Coding, ...mindstudio.ai
Claude Opus 4.7 posted 82.4% on SWE-bench Verified, up roughly 11 points from Opus 4.6 — the most meaningful coding benchmark available. Vision improvements were the largest percentage gains: MathVista jumped 9.5 points, enabling reliable visual math reason...
[3] Claude Opus 4.7 Benchmarks 2026: Scores, Rankings & Performancebenchlm.ai
Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools Claude Opus 4.7 According to BenchLM.ai, Claude Opus 4.7 ranks 2 out of 110 models on the provisional leaderboard with an overall score of 97/100. It also ranks 2 out of 14 on t...
[7] Introducing Claude Opus 4.7 - Anthropicanthropic.com
Image 7: logo Based on our internal research-agent benchmark, Claude Opus 4.7 has the strongest efficiency baseline we’ve seen for multi-step work. It tied for the top overall score across our six modules at 0.715 and delivered the most consistent long-cont...
[8] AI Benchmarks 2026: Top Evaluations and Their Limitskili-technology.com
Image 2: Kili Technology.png) Kili Technology · Apr 13, 2026 Image 3: AI Benchmarks Guide: The Top Evaluations in 2026 and Why They're Not Enough Table of contents Introduction What Are the Most Important AI Benchmarks in 2026? General knowledge and reasoni...
[13] [PDF] Technical Performance - Stanford HAIhai.stanford.edu
Technical Performance Benchmarks vs. Human Performance 76 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024 2025 0% 20% 40% 60% 80% 100% 120% Image classiǇcation (ImageNet Top-5) Visual reasoning (VQA) English language understanding (SuperGLU...
[15] DeepSeek V4: Features, Benchmarks, and Comparisonsdatacamp.com
DeepSeek V4 Benchmarks According to DeepSeek’s internal results, DeepSeek V4 demonstrates impressive performance, particularly when pushed to its maximum reasoning limits (DeepSeek-V4-Pro-Max). According to the official release notes, here is how the model...
[16] deepseek-ai/DeepSeek-V4-Pro - Hugging Facehuggingface.co
Opus-4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High K2.6 Thinking GLM-5.1 Thinking DS-V4-Pro Max :---: :---: :---: Knowledge & Reasoning MMLU-Pro (EM) 89.1 87.5 91.0 87.1 86.0 87.5 SimpleQA-Verified (Pass@1) 46.2 45.3 75.6 36.9 38.1 57.9 Chinese-SimpleQA (Pass@1...
[19] DeepSeek V4 - Vals AIvals.ai
Benchmarks Models Comparison Model Guide App Reports News About Benchmarks Models Comparison Model Guide App Reports About Release date Models 4/23/2026 DeepSeek DeepSeek V4 4/23/2026 OpenAI GPT 5.5 4/20/2026 Moonshot AI Kimi K2.6 4/16/2026 Anthropic Claude...
[22] AI Benchmarks Explained: GPQA, SWE-bench & Arena Elonanonets.com
How the score is calculated: Before each question, the model is shown 5 example questions with correct answers, this is called 5-shot prompting. Then comes the real question. Score = correct answers ÷ total questions, expressed as a percentage. Why it's nea...
[28] GPT-5.5 Benchmarks 2026: Scores, Rankings & Performancebenchlm.ai
Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools GPT-5.5 According to BenchLM.ai, GPT-5.5 ranks 5 out of 112 models on the provisional leaderboard with an overall score of 89/100. It also ranks 2 out of 16 on the verified lead...
[29] Introducing GPT-5.5 - OpenAIopenai.com
GPT‑5.5 reaches state-of-the-art performance across multiple benchmarks that reflect this kind of work. OnGDPval⁠⁠, which tests agents’ abilities to produce well-specified knowledge work across 44 occupations, GPT‑5.5 scores 84.9%. On OSWorld-Verified, whic...
[31] GPT 5.5 - Vals AIvals.ai
2/17/2026 Anthropic Claude Sonnet 4.6 2/16/2026 Alibaba Qwen 3.5 Plus 2/12/2026 MiniMax MiniMax-M2.5 2/12/2026 MiniMax MiniMax-M2.5 2/11/2026 zAI GLM 5 2/5/2026 Anthropic Claude Opus 4.6 (Nonthinking) 2/5/2026 Anthropic Claude Opus 4.6 (Thinking) 1/26/2026...
[35] Kimi K2.6 on GMI Cloud: Architecture, Benchmarks & API Accessgmicloud.ai
Kimi K2.6 tops SWE-Bench Pro and runs 300 parallel sub-agents on 4x H100S. Learn the full architecture, benchmark results, and how to run it ... 3 days ago
[36] Kimi K2.6: The new leading open weights model - Artificial Analysisartificialanalysis.ai
Moonshot's Kimi K2.6 is the new leading open weights model. Kimi K2.6 lands at 4 on the Artificial Analysis Intelligence Index (54) behind ... 5 days ago
[37] Kimi 2.6 Benchmarks 2026: Scores, Rankings & Performancebenchlm.ai
Kimi 2.6 by Moonshot AI scores 85/100 on BenchLM's provisional leaderboard ( 12 of 115) with 27 published benchmark scores currently shown ... 6 days ago
[39] Kimi K2.6 - Vals AIvals.ai
Kimi K2.6. Release Date: 4/20/2026. Vals Index. Accuracy (Vals Index). 63.94% ± 1.97. Latency (Vals Index). 373.57s. Cost/Test (Vals Index). $0.21.

Claude Opus 4.7・GPT-5.5・DeepSeek V4・Kimi K2.6：2026年ベンチマーク比較

Studio Global AI로 검색 및 팩트체크 Discover에서 더 많은 것을 찾아보세요

16K0

そのため、この比較で見るべきなのは「総合1位はどれか」ではなく、「自分の用途に近い指標で、どのモデルの強みが確認できるか」です。

まず前提：AIベンチマークは“総合点”だけで読めない

公開データで見る4モデルの概況

モデル	公開資料で確認できる主な数値	強みとして読める領域	注意点
Claude Opus 4.7	BenchLM 97/100、provisional 2位/110モデル。SWE-bench Verified 82.4%、FinanceBench 82.7%、MathVistaは9.5ポイント上昇 ^[2]^[3]	コーディング、総合リーダーボード、金融文書分析、視覚的な数学推論	Anthropicのresearch-agent benchmark 0.715は内部評価であり、GPT-5.5のGDPvalなどと直接比較しにくいです ^[7]^[29]。
GPT-5.5	BenchLM 89/100、provisional 5位/112モデル。GDPval 84.9%、OSWorld-Verified 78.7%、Tau2-bench Telecom 98.0%、Vals Accuracy 67.76% ± 1.79 ^[28]^[29]^[31]	知識労働、コンピューター操作、顧客対応ワークフロー、エージェント型タスク	OpenAI公式発表、BenchLM、Vals Indexは評価体系が異なります ^[28]^[29]^[31]。
DeepSeek V4 / V4-Pro-Max	Vals AI一覧では2026年4月23日の項目。V4-Pro-MaxでMMLU-Pro 87.5%、GPQA Diamond 90.1%、GSM8K 92.6% ^[15]^[19]	科学QA、数学、高難度推論の候補	DataCampはDeepSeek内部結果に基づく数値として紹介しており、独立評価と同列には扱いにくいです ^[15]。
Kimi K2.6	BenchLM 85/100、provisional 12位/115モデル。Vals Accuracy 63.94% ± 1.97、Latency 373.57s、Cost/Test $0.21。Artificial Analysis Intelligence Index 54、全体4位 ^[36]^[37]^[39]	オープンウェイト系モデル、費用、レイテンシー、運用効率	Kimi 2.6、Kimi K2.6、K2.6 Thinkingなど表記が混在しており、同じ設定か確認が必要です ^[37]^[39]。

総合リーダーボード：BenchLMではClaude Opus 4.7が上位

コーディング：最もはっきりした数値はClaude Opus 4.7

業務エージェント：GPT-5.5は公式指標が具体的

推論・知識：DeepSeek V4-Pro-MaxとKimi K2.6 Thinkingは一部で同表比較あり

Hugging FaceのDeepSeek-V4-Pro資料では、DeepSeek V4-Pro-MaxとKimi K2.6 Thinkingが同じ表に一部並んでいます ^[16]。

ベンチマーク	DeepSeek V4-Pro-Max	Kimi K2.6 Thinking	表上の優位
MMLU-Pro	87.5	87.1	DeepSeek V4-Pro-Max
SimpleQA-Verified	57.9	36.9	DeepSeek V4-Pro-Max
Chinese-SimpleQA	84.4	75.9	DeepSeek V4-Pro-Max
GPQA Diamond	90.1	90.5	Kimi K2.6 Thinking
HLE	37.7	36.4	DeepSeek V4-Pro-Max

費用・レイテンシー：Kimi K2.6は運用指標で目立つ

用途別に選ぶなら

コード修正やソフトウェアエンジニアリングが中心なら、Claude Opus 4.7から検討する価値があります。公開根拠では、SWE-bench Verified 82.4%とBenchLM 97/100という数値が明確です ^[2]^[3]。
知識労働の成果物作成、コンピューター操作、顧客対応ワークフローが重要なら、GPT-5.5のGDPval 84.9%、OSWorld-Verified 78.7%、Tau2-bench Telecom 98.0%が直接的な公式指標になります ^[29]。
科学QA、数学、高難度推論を見たい場合は、DeepSeek V4-Pro-MaxとKimi K2.6 ThinkingのMMLU-Pro、GPQA Diamond、HLEなどを並べた表が参考になります ^[15]^[16]。
オープンウェイトや運用コストを重視するなら、Kimi K2.6のArtificial Analysisにおけるopen weights評価と、Valsの$0.21/test、373.57sという指標が手がかりになります ^[36]^[39]。
MMLUだけで判断しないことも重要です。2026年には上位モデルがMMLUの高得点帯に集まり、差が見えにくくなっているとの指摘があります ^[22]。

結論：ランキング表ではなく、仕事に近い評価で見る

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

주요 시사점

4モデルを同一ベンチマーク・同一設定・同一コストで横並び評価した公開資料は確認できず、単純な1位から4位の順位づけは危険です [19]。
Claude Opus 4.7はBenchLM 97/100とSWE bench Verified 82.4%、GPT 5.5はGDPval 84.9%・OSWorld Verified 78.7%など、強みが見える評価軸が異なります [2][3][29]。
DeepSeek V4 Pro MaxはMMLU Pro 87.5%・GPQA Diamond 90.1%、Kimi K2.6はBenchLM 85/100やValsの$0.21/testなどが確認できますが、出典と評価条件の違いを分けて読む必要があります [15][37][39]。

사람들은 또한 묻습니다.

"Claude Opus 4.7・GPT-5.5・DeepSeek V4・Kimi K2.6：2026年ベンチマーク比較"에 대한 짧은 대답은 무엇입니까?

4モデルを同一ベンチマーク・同一設定・同一コストで横並び評価した公開資料は確認できず、単純な1位から4位の順位づけは危険です [19]。

먼저 검증할 핵심 포인트는 무엇인가요?

실무에서는 다음으로 무엇을 해야 합니까?

다음에는 어떤 관련 주제를 탐구해야 할까요?

다른 각도와 추가 인용을 보려면 "Claude Opus 4.7·GPT-5.5·DeepSeek V4·Kimi K2.6 벤치마크 비교: 2026년 판정"으로 계속하세요.

관련 페이지 열기

이것을 무엇과 비교해야 합니까?

"DeepSeek V4 엔지니어링 해설: 100만 토큰, MoE, API 이전 체크포인트"에 대해 이 답변을 대조 확인하세요.

관련 페이지 열기

연구를 계속하세요

연구 대화

당신2026년 4월 26일

연구문제

Claude Opus 4.7, GPT-5.5, DeepSeek V4, Kimi K2.6의 벤치마크를 조사하고 가능한 한 종합적으로 비교해 주세요.

Studio Global AI2026년 4월 26일40 소스

인용 답변

Key findings

Claude Opus 4.7은 제공된 자료 중 유일하게 구체적인 벤치마크 수치가 확인되는 모델입니다. SWE-bench Verified에서 82.4%를 기록했고, 이는 Opus 4.6 대비 약 11점 상승한 것으로 제시됩니다 ^[6].
Claude Opus 4.7은 BenchLM 기준 provisional leaderboard에서 110개 모델 중 2위, overall score 97/100으로 제시되며, verified leaderboard에서도 14개 모델 중 2위로 언급됩니다 ^[7].
Claude Opus 4.7은 비전 관련 개선 폭이 컸고, MathVista가 9.5점 상승했다는 자료가 있습니다 ^[6].
Kimi K2.6은 Vals AI의 모델 목록에서 Moonshot AI 모델로 확인되며, 제공된 스니펫에는 2026년 4월 20일 항목으로 표시됩니다 ^[5]. 다만 이 근거에는 Kimi K2.6의 실제 벤치마크 점수가 포함되어 있지 않습니다 ^[5].
Claude Opus 4.7 역시 Vals AI 목록에서 Anthropic 모델로 확인되며, 제공된 스니펫에는 2026년 4월 16일 항목으로 표시됩니다 ^[5].
GPT-5.5에 대해서는 제공된 근거 안에 직접적인 벤치마크 점수, 공식 발표, 리더보드 결과가 없습니다. Insufficient evidence.
DeepSeek V4에 대해서는 제공된 근거 중 Reddit 스니펫이 있으나, 해당 스니펫은 로컬 호스팅과 운영상 조언에 가까우며 비교 가능한 벤치마크 수치를 제공하지 않습니다 ^[40]. Insufficient evidence.

비교 표

모델	확인 가능한 벤치마크 / 순위	강점으로 볼 수 있는 영역	증거 수준
Claude Opus 4.7	SWE-bench Verified 82.4% ^[6]; BenchLM provisional 2/110, 97/100 ^[7]; verified 2/14 ^[7]	코딩, 비전 수학 추론, 종합 리더보드 성능 ^[6]^[7]	상대적으로 높음
GPT-5.5	제공 근거 내 직접 점수 없음	판단 불가	Insufficient evidence
DeepSeek V4	제공 근거 내 직접 점수 없음	판단 불가	Insufficient evidence
Kimi K2.6	모델 목록 및 날짜 항목은 확인되나 점수 없음 ^[5]	판단 불가	낮음

벤치마크별 해석

SWE-bench Verified 기준으로는 Claude Opus 4.7만 비교 가능한 수치가 있습니다. Claude Opus 4.7의 82.4%는 제공 자료상 Opus 4.6 대비 약 11점 개선된 결과로 제시됩니다 ^[6].
종합 리더보드 기준으로도 Claude Opus 4.7만 명확한 순위가 있습니다. BenchLM은 Claude Opus 4.7을 provisional leaderboard 110개 모델 중 2위, overall score 97/100으로 제시합니다 ^[7].
비전·수학 영역에서는 Claude Opus 4.7의 MathVista 점수가 9.5점 상승했다는 자료가 있으나, GPT-5.5·DeepSeek V4·Kimi K2.6의 동등 지표가 제공되지 않아 상대 비교는 불가능합니다 ^[6].
일반 지식·추론 벤치마크는 2026년 기준 MMLU, MMLU-Pro, GPQA Diamond, SWE-bench, Arena Elo 등이 주요 평가로 언급됩니다 ^[2]. 다만 MMLU는 상위 모델들이 이미 88% 이상을 기록해 2026년에는 변별력이 약하다는 지적이 있습니다 ^[3].

Evidence notes

Stanford HAI의 2026 AI Index 기술 성능 자료는 ImageNet, VQA, SuperGLUE, SQuAD 2.0 등 여러 벤치마크에서 AI 성능이 인간 성능과 비교되는 장기 추세를 다룹니다 ^[1]. 이는 개별 네 모델의 직접 비교 자료라기보다는 벤치마크 해석의 배경 자료에 가깝습니다 ^[1].
Kili Technology 자료는 2026년 주요 벤치마크로 MMLU, MMLU-Pro, GPQA Diamond, SWE-bench, Arena Elo 등을 언급하면서 벤치마크만으로 모델 성능을 충분히 설명하기 어렵다고 설명합니다 ^[2].
Nanonets 자료는 MMLU가 5-shot 방식으로 계산된다는 점과, 상위 모델들이 88% 이상을 기록하면서 2026년에는 변별력이 낮아졌다는 점을 지적합니다 ^[3].
DeepSeek V4 관련 제공 근거는 Reddit 스니펫뿐이며, 신뢰도 높은 공식·학술·독립 리더보드 근거가 아닙니다 ^[40].

Limitations / uncertainty

GPT-5.5, DeepSeek V4, Kimi K2.6에 대해 제공된 근거만으로는 SWE-bench, GPQA, MMLU-Pro, AIME, MathVista, Arena Elo 같은 동일 벤치마크 축에서 점수를 비교할 수 없습니다. Insufficient evidence.
Claude Opus 4.7의 수치도 출처별로 평가 방법과 리더보드 산식이 다를 수 있으므로, BenchLM의 97/100 및 순위와 SWE-bench Verified 82.4%는 서로 다른 평가 체계의 결과로 해석해야 합니다 ^[6]^[7].
Kimi K2.6은 모델 존재와 날짜 항목은 확인되지만, 제공 근거 안에는 성능 점수가 없습니다 ^[5]. Insufficient evidence.
DeepSeek V4는 제공 근거 안에서 벤치마크 수치가 확인되지 않습니다 ^[40]. Insufficient evidence.

Summary

출처

[2] Claude Opus 4.7 Benchmark Breakdown: Vision, Coding, ...mindstudio.ai
Claude Opus 4.7 posted 82.4% on SWE-bench Verified, up roughly 11 points from Opus 4.6 — the most meaningful coding benchmark available. Vision improvements were the largest percentage gains: MathVista jumped 9.5 points, enabling reliable visual math reason...
[3] Claude Opus 4.7 Benchmarks 2026: Scores, Rankings & Performancebenchlm.ai
Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools Claude Opus 4.7 According to BenchLM.ai, Claude Opus 4.7 ranks 2 out of 110 models on the provisional leaderboard with an overall score of 97/100. It also ranks 2 out of 14 on t...
[7] Introducing Claude Opus 4.7 - Anthropicanthropic.com
Image 7: logo Based on our internal research-agent benchmark, Claude Opus 4.7 has the strongest efficiency baseline we’ve seen for multi-step work. It tied for the top overall score across our six modules at 0.715 and delivered the most consistent long-cont...
[8] AI Benchmarks 2026: Top Evaluations and Their Limitskili-technology.com
Image 2: Kili Technology.png) Kili Technology · Apr 13, 2026 Image 3: AI Benchmarks Guide: The Top Evaluations in 2026 and Why They're Not Enough Table of contents Introduction What Are the Most Important AI Benchmarks in 2026? General knowledge and reasoni...
[13] [PDF] Technical Performance - Stanford HAIhai.stanford.edu
Technical Performance Benchmarks vs. Human Performance 76 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024 2025 0% 20% 40% 60% 80% 100% 120% Image classiǇcation (ImageNet Top-5) Visual reasoning (VQA) English language understanding (SuperGLU...
[15] DeepSeek V4: Features, Benchmarks, and Comparisonsdatacamp.com
DeepSeek V4 Benchmarks According to DeepSeek’s internal results, DeepSeek V4 demonstrates impressive performance, particularly when pushed to its maximum reasoning limits (DeepSeek-V4-Pro-Max). According to the official release notes, here is how the model...
[16] deepseek-ai/DeepSeek-V4-Pro - Hugging Facehuggingface.co
Opus-4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High K2.6 Thinking GLM-5.1 Thinking DS-V4-Pro Max :---: :---: :---: Knowledge & Reasoning MMLU-Pro (EM) 89.1 87.5 91.0 87.1 86.0 87.5 SimpleQA-Verified (Pass@1) 46.2 45.3 75.6 36.9 38.1 57.9 Chinese-SimpleQA (Pass@1...
[19] DeepSeek V4 - Vals AIvals.ai
Benchmarks Models Comparison Model Guide App Reports News About Benchmarks Models Comparison Model Guide App Reports About Release date Models 4/23/2026 DeepSeek DeepSeek V4 4/23/2026 OpenAI GPT 5.5 4/20/2026 Moonshot AI Kimi K2.6 4/16/2026 Anthropic Claude...
[22] AI Benchmarks Explained: GPQA, SWE-bench & Arena Elonanonets.com
How the score is calculated: Before each question, the model is shown 5 example questions with correct answers, this is called 5-shot prompting. Then comes the real question. Score = correct answers ÷ total questions, expressed as a percentage. Why it's nea...
[28] GPT-5.5 Benchmarks 2026: Scores, Rankings & Performancebenchlm.ai
Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools GPT-5.5 According to BenchLM.ai, GPT-5.5 ranks 5 out of 112 models on the provisional leaderboard with an overall score of 89/100. It also ranks 2 out of 16 on the verified lead...
[29] Introducing GPT-5.5 - OpenAIopenai.com
GPT‑5.5 reaches state-of-the-art performance across multiple benchmarks that reflect this kind of work. OnGDPval⁠⁠, which tests agents’ abilities to produce well-specified knowledge work across 44 occupations, GPT‑5.5 scores 84.9%. On OSWorld-Verified, whic...
[31] GPT 5.5 - Vals AIvals.ai
2/17/2026 Anthropic Claude Sonnet 4.6 2/16/2026 Alibaba Qwen 3.5 Plus 2/12/2026 MiniMax MiniMax-M2.5 2/12/2026 MiniMax MiniMax-M2.5 2/11/2026 zAI GLM 5 2/5/2026 Anthropic Claude Opus 4.6 (Nonthinking) 2/5/2026 Anthropic Claude Opus 4.6 (Thinking) 1/26/2026...
[35] Kimi K2.6 on GMI Cloud: Architecture, Benchmarks & API Accessgmicloud.ai
Kimi K2.6 tops SWE-Bench Pro and runs 300 parallel sub-agents on 4x H100S. Learn the full architecture, benchmark results, and how to run it ... 3 days ago
[36] Kimi K2.6: The new leading open weights model - Artificial Analysisartificialanalysis.ai
Moonshot's Kimi K2.6 is the new leading open weights model. Kimi K2.6 lands at 4 on the Artificial Analysis Intelligence Index (54) behind ... 5 days ago
[37] Kimi 2.6 Benchmarks 2026: Scores, Rankings & Performancebenchlm.ai
Kimi 2.6 by Moonshot AI scores 85/100 on BenchLM's provisional leaderboard ( 12 of 115) with 27 published benchmark scores currently shown ... 6 days ago
[39] Kimi K2.6 - Vals AIvals.ai
Kimi K2.6. Release Date: 4/20/2026. Vals Index. Accuracy (Vals Index). 63.94% ± 1.97. Latency (Vals Index). 373.57s. Cost/Test (Vals Index). $0.21.