Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: 2026 벤치마크 비교

공개 자료만으로 네 모델의 절대 1 4위를 확정할 수는 없습니다. 확인 가능한 핵심 수치는 Claude Opus 4.7의 BenchLM 97/100·SWE bench Verified 82.4%, GPT 5.5의 GDPval 84.9%처럼 평가축이 달라 직접 합산하면 안 됩니다 [2][3][29].

Studio Global AI로 검색 및 팩트체크 Discover에서 더 많은 것을 찾아보세요

16K0

네 개의 최신 AI 모델을 벤치마크 차트와 비교하는 추상적 에디토리얼 이미지 — Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: 2026 벤치마크 비교Claude Opus 4.7, GPT-5.5, DeepSeek V4, Kimi K2.6의 2026 벤치마크 비교를 표현한 AI 생성 이미지.
AI 프롬프트
Create a landscape editorial hero image for this Studio Global article: Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: 2026 벤치마크 비교. Article summary: 네 모델의 ‘절대 1위’를 확정하기는 어렵습니다. 공개 자료 기준 Claude Opus 4.7은 BenchLM 97/100·SWE bench Verified 82.4%가 가장 뚜렷하고, GPT 5.5는 GDPval 84.9% 등 업무형 공식 수치가 강하지만 평가 체계가 달라 직접 합산할 수 없습니다 [2][3][29].. Topic tags: ai, ai benchmarks, llm, openai, anthropic. Reference image context from search candidates: Reference image 1: visual subject "# Kimi K2.6 vs Claude Opus 4.7: Which Model Wins in 2026? Kimi K2.6 ties Opus 4.7 on multilingual SWE-bench but trails by 7 points on Verified — at 1/5th the cost. Two weeks after" source context "Kimi K2.6 vs Claude Opus 4.7 (2026): Benchmarks, Cost, When Each Wins" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www
openai.com

공개 벤치마크를 모아보면 네 모델의 승자는 하나로 정리되지 않습니다. Vals AI 목록에는 DeepSeek V4와 GPT-5.5가 2026년 4월 23일, Kimi K2.6이 4월 20일, Claude Opus 4.7이 4월 16일 항목으로 표시되지만, 제공된 공개 자료는 네 모델을 동일 벤치마크·동일 설정·동일 비용 조건으로 나란히 평가하지 않습니다 ^[19]. 따라서 이 비교의 핵심은 절대 순위가 아니라, 어떤 지표에서 어떤 모델의 강점이 확인되는지를 구분하는 것입니다.

비교 전에: 왜 단일 순위가 어려운가

2026년 AI 벤치마크는 하나의 시험이 아니라 여러 능력의 묶음에 가깝습니다. Kili Technology는 MMLU, MMLU-Pro, GPQA Diamond, SWE-Bench, Terminal-Bench, GAIA, WebArena, GDPval, 안전성 평가가 서로 다른 능력을 측정한다고 설명합니다 ^[8]. Stanford HAI의 AI Index도 기술 성능을 MMLU, MATH, GPQA Diamond, MMMU, OSWorld, AIME, SWE-bench Verified 등 별도 축으로 나눠 다룹니다 ^[13].

특히 MMLU 같은 일반 지식 평가는 상위 모델 간 변별력이 약해졌다는 지적이 있습니다. Nanonets는 MMLU가 5-shot 방식으로 계산되며, 2026년에는 상위 모델들이 88% 이상 구간에 몰려 모델 간 차이를 가르기 어렵다고 설명합니다 ^[22]. 그래서 모델을 고를 때는 종합 점수 하나보다 코딩, 지식 업무, 과학 추론, 컴퓨터 사용, 비용 같은 실제 사용 목적을 먼저 정해야 합니다 ^[8]^[22].

한눈에 보는 공개 벤치마크 표

모델	공개 자료에서 확인되는 주요 수치	강점으로 읽을 수 있는 영역	비교 시 주의점
Claude Opus 4.7	BenchLM 97/100, provisional 2위/110; SWE-bench Verified 82.4%; FinanceBench 82.7%; MathVista 9.5점 상승 ^[2]^[3]	코딩, 종합 리더보드, 금융 문서 분석, 비전 수학 추론	Anthropic의 research-agent benchmark 0.715는 내부 평가라 GPT-5.5의 GDPval 등과 직접 비교하기 어렵습니다 ^[7]^[29].
GPT-5.5	BenchLM 89/100, provisional 5위/112; GDPval 84.9%; OSWorld-Verified 78.7%; Tau2-bench Telecom 98.0%; Vals Accuracy 67.76% ± 1.79 ^[28]^[29]^[31]	지식 업무, 컴퓨터 사용, 고객지원 워크플로, 에이전트형 작업	OpenAI 공식 발표, BenchLM, Vals Index는 서로 다른 평가 체계입니다 ^[28]^[29]^[31].
DeepSeek V4 / V4-Pro-Max	Vals AI 목록의 2026년 4월 23일 항목; V4-Pro-Max MMLU-Pro 87.5%, GPQA Diamond 90.1%, GSM8K 92.6% ^[15]^[19]	과학 QA, 수학, 고난도 추론 후보	DataCamp는 해당 수치를 DeepSeek 내부 결과 기반으로 소개하므로 독립 검증 점수와 구분해야 합니다 ^[15].
Kimi K2.6	BenchLM 85/100, provisional 12위/115; Vals Accuracy 63.94% ± 1.97, Latency 373.57s, Cost/Test $0.21; Artificial Analysis Intelligence Index 54, 전체 4위 ^[36]^[37]^[39]	오픈 웨이트 계열, 비용·지연시간, 운영 효율	출처에 따라 Kimi 2.6, Kimi K2.6, K2.6 Thinking 표기가 섞여 있어 같은 설정인지 확인해야 합니다 ^[37]^[39].

종합 리더보드: BenchLM 기준으로는 Claude가 앞선다

BenchLM에 공개된 세 모델만 놓고 보면 Claude Opus 4.7의 점수가 가장 높습니다. BenchLM은 Claude Opus 4.7을 provisional leaderboard 110개 모델 중 2위, overall score 97/100으로 표시하고, verified leaderboard에서도 14개 모델 중 2위라고 설명합니다 ^[3].

GPT-5.5는 BenchLM에서 provisional leaderboard 112개 모델 중 5위, overall score 89/100으로 제시되며, verified leaderboard에서는 16개 모델 중 2위로 표시됩니다 ^[28]. Kimi 2.6은 BenchLM provisional leaderboard에서 115개 모델 중 12위, overall score 85/100이며, 27개의 공개 벤치마크 점수가 표시된다고 설명됩니다 ^[37].

다만 이 순서는 BenchLM에 한정된 참고점입니다. 각 페이지의 비교 표본 수가 110, 112, 115처럼 다르고, 여기서 확인한 자료만으로는 DeepSeek V4의 동등한 BenchLM 점수를 함께 놓고 비교할 수 없습니다 ^[3]^[28]^[37].

코딩: Claude Opus 4.7의 SWE-bench Verified 수치가 가장 명확하다

코딩 벤치마크에서는 Claude Opus 4.7의 공개 수치가 가장 직접적입니다. MindStudio는 Claude Opus 4.7이 SWE-bench Verified에서 82.4%를 기록했고, Opus 4.6 대비 약 11점 상승했다고 설명합니다 ^[2]. 같은 자료는 Claude Opus 4.7의 FinanceBench 성능을 82.7%로 제시하고, 비전 관련 개선 중 MathVista가 9.5점 상승했다고 설명합니다 ^[2].

GPT-5.5의 경우, 제공된 OpenAI 소개 자료에서 전면에 제시된 수치는 SWE-bench가 아니라 GDPval, OSWorld-Verified, Tau2-bench Telecom입니다 ^[29]. Kimi K2.6에 대해서는 GMI Cloud 자료가 SWE-Bench Pro 상위 성과를 주장하지만, 제공된 스니펫만으로 정확한 점수와 네 모델 동일 조건 비교를 확정하기는 어렵습니다 ^[35]. DeepSeek V4는 이 자료 묶음에서 코딩보다 추론·수학 관련 수치가 더 구체적으로 확인됩니다 ^[15]^[16].

업무형 에이전트: GPT-5.5는 공식 지표가 구체적이다

업무형·에이전트형 평가에서는 GPT-5.5의 공식 수치가 가장 구체적으로 공개되어 있습니다. OpenAI는 GPT-5.5가 GDPval에서 84.9%를 기록했다고 밝혔고, GDPval은 44개 직업군의 명세화된 지식 업무 산출 능력을 테스트한다고 설명합니다 ^[29]. OpenAI는 또한 GPT-5.5가 실제 컴퓨터 환경 조작을 평가하는 OSWorld-Verified에서 78.7%, 복잡한 고객지원 워크플로를 테스트하는 Tau2-bench Telecom에서 98.0%를 기록했다고 제시합니다 ^[29].

Claude Opus 4.7에도 에이전트형 작업 자료가 있습니다. Anthropic은 내부 research-agent benchmark에서 Claude Opus 4.7이 6개 모듈 전체 점수 0.715로 공동 최고 점수를 기록했고, General Finance 모듈에서 Opus 4.6의 0.767보다 높은 0.813을 기록했다고 설명합니다 ^[7].

다만 GPT-5.5의 GDPval·OSWorld-Verified·Tau2-bench와 Claude Opus 4.7의 Anthropic 내부 research-agent benchmark는 평가 체계가 다릅니다 ^[7]^[29]. GPT-5.5의 84.9%와 Claude의 0.715를 같은 척도처럼 직접 비교해서는 안 됩니다 ^[7]^[29].

추론·지식: DeepSeek V4-Pro-Max와 Kimi K2.6 Thinking은 일부 표에서 비교된다

DeepSeek V4의 구체적인 공개 수치는 V4-Pro-Max 설정에서 확인됩니다. DataCamp는 DeepSeek 내부 결과에 따르면 DeepSeek V4-Pro-Max가 MMLU-Pro 87.5%, GPQA Diamond 90.1%, GSM8K 92.6%를 기록했다고 설명합니다 ^[15]. 이 수치는 유용한 참고점이지만, DataCamp가 내부 결과 기반이라고 밝힌 만큼 독립 리더보드와 같은 무게로 해석하기는 어렵습니다 ^[15].

Hugging Face의 DeepSeek-V4-Pro 자료에는 DeepSeek V4-Pro-Max와 K2.6 Thinking이 같은 표에 일부 함께 표시됩니다 ^[16]. 해당 표의 지식·추론 항목은 다음과 같습니다 ^[16].

벤치마크	DeepSeek V4-Pro-Max	Kimi K2.6 Thinking	표 기준 우위
MMLU-Pro	87.5	87.1	DeepSeek V4-Pro-Max
SimpleQA-Verified	57.9	36.9	DeepSeek V4-Pro-Max
Chinese-SimpleQA	84.4	75.9	DeepSeek V4-Pro-Max
GPQA Diamond	90.1	90.5	Kimi K2.6 Thinking
HLE	37.7	36.4	DeepSeek V4-Pro-Max

이 표만 보면 DeepSeek V4-Pro-Max는 MMLU-Pro, SimpleQA-Verified, Chinese-SimpleQA, HLE에서 Kimi K2.6 Thinking보다 높고, Kimi K2.6 Thinking은 GPQA Diamond에서 근소하게 높습니다 ^[16]. 그러나 같은 표의 비교 대상은 Claude Opus 4.7과 GPT-5.5가 아니라 Opus-4.6 Max, GPT-5.4 xHigh 등 다른 모델이므로, 네 모델 전체 순위를 결론내리기에는 부족합니다 ^[16].

비용·지연시간: Kimi K2.6은 운영 지표가 눈에 띈다

Vals AI 자료에서는 GPT-5.5가 Accuracy 67.76% ± 1.79, Latency 409.09s, Context Window 1M으로 표시됩니다 ^[31]. Kimi K2.6은 Accuracy 63.94% ± 1.97, Latency 373.57s, Cost/Test $0.21로 표시됩니다 ^[39]. 두 Vals 기록만 비교하면 정확도 표시값은 GPT-5.5가 높고, 지연시간 표시값은 Kimi K2.6이 더 낮습니다 ^[31]^[39].

Kimi K2.6은 오픈 웨이트 계열을 보는 사용자에게도 별도 의미가 있습니다. Artificial Analysis는 Moonshot의 Kimi K2.6을 leading open weights model로 소개하며, Artificial Analysis Intelligence Index 54와 전체 4위라는 순위를 제시합니다 ^[36]. 다만 Artificial Analysis, Vals, BenchLM은 서로 다른 평가 체계이므로, Kimi의 54점, Vals 정확도 63.94%, BenchLM 85/100을 하나의 점수처럼 합산하면 안 됩니다 ^[36]^[37]^[39].

실무 선택 가이드

코딩 자동 수정과 소프트웨어 엔지니어링이 핵심이라면 Claude Opus 4.7부터 검토할 만합니다. 현재 공개 근거에서는 SWE-bench Verified 82.4%와 BenchLM 97/100이라는 수치가 가장 선명합니다 ^[2]^[3].
지식 업무 산출, 컴퓨터 사용, 고객지원 워크플로가 중요하다면 GPT-5.5의 GDPval 84.9%, OSWorld-Verified 78.7%, Tau2-bench Telecom 98.0%가 가장 직접적인 공식 지표입니다 ^[29].
과학 QA, 수학, 고난도 추론 후보를 비교한다면 DeepSeek V4-Pro-Max와 Kimi K2.6 Thinking의 MMLU-Pro·GPQA Diamond·HLE 표를 함께 볼 수 있습니다 ^[15]^[16].
오픈 웨이트와 운영 비용을 중시한다면 Kimi K2.6의 Artificial Analysis open weights 평가와 Vals의 $0.21/test, 373.57s 지연시간 지표가 참고점입니다 ^[36]^[39].
상위 모델 비교에서는 MMLU 하나에 의존하지 않는 편이 좋습니다. 2026년에는 상위 모델들이 MMLU 고득점 구간에 몰려 변별력이 낮아졌다는 지적이 있습니다 ^[22].

최종 판단

공개 근거만 놓고 보면 Claude Opus 4.7은 코딩과 BenchLM 종합 리더보드, GPT-5.5는 업무형 에이전트와 컴퓨터 사용 평가, DeepSeek V4-Pro-Max는 추론·수학 관련 공개 수치, Kimi K2.6은 오픈 웨이트와 비용·지연시간 지표에서 각각 강점이 확인됩니다 ^[2]^[3]^[15]^[16]^[28]^[29]^[36]^[37]^[39].

하지만 네 모델의 완전한 1위부터 4위까지를 확정하기에는 공개 자료가 아직 고르지 않습니다. 실제 도입에서는 이 벤치마크 표를 출발점으로 삼되, 코딩, 금융 문서 분석, 브라우저·컴퓨터 제어, 고객지원, 장기 에이전트 실행처럼 자신의 업무와 같은 조건에서 별도 평가를 병행하는 것이 가장 안전합니다 ^[8]^[22].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

주요 시사점

공개 자료만으로 네 모델의 절대 1 4위를 확정할 수는 없습니다. 확인 가능한 핵심 수치는 Claude Opus 4.7의 BenchLM 97/100·SWE bench Verified 82.4%, GPT 5.5의 GDPval 84.9%처럼 평가축이 달라 직접 합산하면 안 됩니다 [2][3][29].
DeepSeek V4는 V4 Pro Max 설정에서 MMLU Pro 87.5%·GPQA Diamond 90.1%가 제시되지만 일부는 내부 결과 기반이고, Kimi K2.6은 BenchLM 85/100 및 Vals Accuracy 63.94%±1.97·$0.21/test가 확인됩니다 [15][37][39].
실무 선택은 단일 벤치마크보다 과제별로 나누는 편이 안전합니다. 코딩은 Claude, 지식 업무·컴퓨터 사용은 GPT 5.5, 추론 후보는 DeepSeek/Kimi, 비용·오픈 웨이트는 Kimi 지표를 우선 확인할 만합니다 [8][16][29][36].

사람들은 또한 묻습니다.

"Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: 2026 벤치마크 비교"에 대한 짧은 대답은 무엇입니까?

먼저 검증할 핵심 포인트는 무엇인가요?

공개 자료만으로 네 모델의 절대 1 4위를 확정할 수는 없습니다. 확인 가능한 핵심 수치는 Claude Opus 4.7의 BenchLM 97/100·SWE bench Verified 82.4%, GPT 5.5의 GDPval 84.9%처럼 평가축이 달라 직접 합산하면 안 됩니다 [2][3][29]. DeepSeek V4는 V4 Pro Max 설정에서 MMLU Pro 87.5%·GPQA Diamond 90.1%가 제시되지만 일부는 내부 결과 기반이고, Kimi K2.6은 BenchLM 85/100 및 Vals Accuracy 63.94%±1.97·$0.21/test가 확인됩니다 [15][37][39].

실무에서는 다음으로 무엇을 해야 합니까?

실무 선택은 단일 벤치마크보다 과제별로 나누는 편이 안전합니다. 코딩은 Claude, 지식 업무·컴퓨터 사용은 GPT 5.5, 추론 후보는 DeepSeek/Kimi, 비용·오픈 웨이트는 Kimi 지표를 우선 확인할 만합니다 [8][16][29][36].

다음에는 어떤 관련 주제를 탐구해야 할까요?

다른 각도와 추가 인용을 보려면 "Claude Opus 4.7·GPT-5.5·DeepSeek V4·Kimi K2.6 벤치마크 비교: 2026년 판정"으로 계속하세요.

관련 페이지 열기

이것을 무엇과 비교해야 합니까?

"DeepSeek V4 엔지니어링 해설: 100만 토큰, MoE, API 이전 체크포인트"에 대해 이 답변을 대조 확인하세요.

관련 페이지 열기

연구를 계속하세요

Comparativa de benchmarks 2026 entre Claude Opus 4.7, GPT-5.5, DeepSeek V4 y Kimi K2.6

Claude Opus 4.7·GPT-5.5·DeepSeek V4·Kimi K2.6 벤치마크 비교: 2026년 판정

Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: 2026 벤치마크 비교

DeepSeek V4 工程架构示意图，包含 1M 上下文、MoE 专家路由和 API 服务化元素

DeepSeek V4 엔지니어링 해설: 100만 토큰, MoE, API 이전 체크포인트

Northwest vs. Southeast Timber 탄력성 풀이: 왜 답은 larger; larger일까

Northwest vs. Southeast Timber: 대체성이 높을수록 왜 larger; larger인가

抽象 AI 晶片與多個聊天機器人平台競爭的示意圖，象徵 DeepSeek 挑戰 OpenAI、Claude、Gemini 與 Grok

DeepSeek가 OpenAI·Claude·Gemini·Grok을 이길까: 답은 비용과 신뢰에 있다

DeepSeek가 OpenAI·Claude·Gemini·Grok을 이길까

연구 대화

당신2026년 4월 26일

연구문제

Claude Opus 4.7, GPT-5.5, DeepSeek V4, Kimi K2.6의 벤치마크를 조사하고 가능한 한 종합적으로 비교해 주세요.

Studio Global AI2026년 4월 26일40 소스

인용 답변

제공된 근거만으로는 네 모델을 동등한 수준으로 “종합 벤치마크 비교”하기에는 자료가 크게 부족합니다. 확인 가능한 정량 벤치마크는 사실상 Claude Opus 4.7에 집중되어 있고, GPT-5.5·DeepSeek V4·Kimi K2.6은 제공 근거 안에서 직접 비교 가능한 공식 점수나 일관된 벤치마크 결과가 없습니다. 따라서 아래 비교는 “확인 가능한 것”과 “증거 부족”을 명확히 나누어 정리합니다.

Key findings

Claude Opus 4.7은 제공된 자료 중 유일하게 구체적인 벤치마크 수치가 확인되는 모델입니다. SWE-bench Verified에서 82.4%를 기록했고, 이는 Opus 4.6 대비 약 11점 상승한 것으로 제시됩니다 ^[6].
Claude Opus 4.7은 BenchLM 기준 provisional leaderboard에서 110개 모델 중 2위, overall score 97/100으로 제시되며, verified leaderboard에서도 14개 모델 중 2위로 언급됩니다 ^[7].
Claude Opus 4.7은 비전 관련 개선 폭이 컸고, MathVista가 9.5점 상승했다는 자료가 있습니다 ^[6].
Kimi K2.6은 Vals AI의 모델 목록에서 Moonshot AI 모델로 확인되며, 제공된 스니펫에는 2026년 4월 20일 항목으로 표시됩니다 ^[5]. 다만 이 근거에는 Kimi K2.6의 실제 벤치마크 점수가 포함되어 있지 않습니다 ^[5].
Claude Opus 4.7 역시 Vals AI 목록에서 Anthropic 모델로 확인되며, 제공된 스니펫에는 2026년 4월 16일 항목으로 표시됩니다 ^[5].
GPT-5.5에 대해서는 제공된 근거 안에 직접적인 벤치마크 점수, 공식 발표, 리더보드 결과가 없습니다. Insufficient evidence.
DeepSeek V4에 대해서는 제공된 근거 중 Reddit 스니펫이 있으나, 해당 스니펫은 로컬 호스팅과 운영상 조언에 가까우며 비교 가능한 벤치마크 수치를 제공하지 않습니다 ^[40]. Insufficient evidence.

비교 표

모델	확인 가능한 벤치마크 / 순위	강점으로 볼 수 있는 영역	증거 수준
Claude Opus 4.7	SWE-bench Verified 82.4% ^[6]; BenchLM provisional 2/110, 97/100 ^[7]; verified 2/14 ^[7]	코딩, 비전 수학 추론, 종합 리더보드 성능 ^[6]^[7]	상대적으로 높음
GPT-5.5	제공 근거 내 직접 점수 없음	판단 불가	Insufficient evidence
DeepSeek V4	제공 근거 내 직접 점수 없음	판단 불가	Insufficient evidence
Kimi K2.6	모델 목록 및 날짜 항목은 확인되나 점수 없음 ^[5]	판단 불가	낮음

벤치마크별 해석

SWE-bench Verified 기준으로는 Claude Opus 4.7만 비교 가능한 수치가 있습니다. Claude Opus 4.7의 82.4%는 제공 자료상 Opus 4.6 대비 약 11점 개선된 결과로 제시됩니다 ^[6].
종합 리더보드 기준으로도 Claude Opus 4.7만 명확한 순위가 있습니다. BenchLM은 Claude Opus 4.7을 provisional leaderboard 110개 모델 중 2위, overall score 97/100으로 제시합니다 ^[7].
비전·수학 영역에서는 Claude Opus 4.7의 MathVista 점수가 9.5점 상승했다는 자료가 있으나, GPT-5.5·DeepSeek V4·Kimi K2.6의 동등 지표가 제공되지 않아 상대 비교는 불가능합니다 ^[6].
일반 지식·추론 벤치마크는 2026년 기준 MMLU, MMLU-Pro, GPQA Diamond, SWE-bench, Arena Elo 등이 주요 평가로 언급됩니다 ^[2]. 다만 MMLU는 상위 모델들이 이미 88% 이상을 기록해 2026년에는 변별력이 약하다는 지적이 있습니다 ^[3].

Evidence notes

Stanford HAI의 2026 AI Index 기술 성능 자료는 ImageNet, VQA, SuperGLUE, SQuAD 2.0 등 여러 벤치마크에서 AI 성능이 인간 성능과 비교되는 장기 추세를 다룹니다 ^[1]. 이는 개별 네 모델의 직접 비교 자료라기보다는 벤치마크 해석의 배경 자료에 가깝습니다 ^[1].
Kili Technology 자료는 2026년 주요 벤치마크로 MMLU, MMLU-Pro, GPQA Diamond, SWE-bench, Arena Elo 등을 언급하면서 벤치마크만으로 모델 성능을 충분히 설명하기 어렵다고 설명합니다 ^[2].
Nanonets 자료는 MMLU가 5-shot 방식으로 계산된다는 점과, 상위 모델들이 88% 이상을 기록하면서 2026년에는 변별력이 낮아졌다는 점을 지적합니다 ^[3].
DeepSeek V4 관련 제공 근거는 Reddit 스니펫뿐이며, 신뢰도 높은 공식·학술·독립 리더보드 근거가 아닙니다 ^[40].

Limitations / uncertainty

GPT-5.5, DeepSeek V4, Kimi K2.6에 대해 제공된 근거만으로는 SWE-bench, GPQA, MMLU-Pro, AIME, MathVista, Arena Elo 같은 동일 벤치마크 축에서 점수를 비교할 수 없습니다. Insufficient evidence.
Claude Opus 4.7의 수치도 출처별로 평가 방법과 리더보드 산식이 다를 수 있으므로, BenchLM의 97/100 및 순위와 SWE-bench Verified 82.4%는 서로 다른 평가 체계의 결과로 해석해야 합니다 ^[6]^[7].
Kimi K2.6은 모델 존재와 날짜 항목은 확인되지만, 제공 근거 안에는 성능 점수가 없습니다 ^[5]. Insufficient evidence.
DeepSeek V4는 제공 근거 안에서 벤치마크 수치가 확인되지 않습니다 ^[40]. Insufficient evidence.

Summary

현재 제공된 증거만 놓고 보면 Claude Opus 4.7이 네 모델 중 유일하게 구체적이고 비교 가능한 성능 자료를 갖고 있습니다. Claude Opus 4.7은 SWE-bench Verified 82.4%, BenchLM provisional 2위/110개 모델, overall score 97/100으로 제시되어 코딩과 종합 평가에서 매우 강한 모델로 볼 수 있습니다 ^[6]^[7].

반면 GPT-5.5, DeepSeek V4, Kimi K2.6은 제공 근거 안에서 직접 벤치마크 점수가 없으므로 Claude Opus 4.7보다 높다거나 낮다고 결론낼 수 없습니다. Insufficient evidence.

출처

[2] Claude Opus 4.7 Benchmark Breakdown: Vision, Coding, ...mindstudio.ai
Claude Opus 4.7 posted 82.4% on SWE-bench Verified, up roughly 11 points from Opus 4.6 — the most meaningful coding benchmark available. Vision improvements were the largest percentage gains: MathVista jumped 9.5 points, enabling reliable visual math reason...
[3] Claude Opus 4.7 Benchmarks 2026: Scores, Rankings & Performancebenchlm.ai
Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools Claude Opus 4.7 According to BenchLM.ai, Claude Opus 4.7 ranks 2 out of 110 models on the provisional leaderboard with an overall score of 97/100. It also ranks 2 out of 14 on t...
[7] Introducing Claude Opus 4.7 - Anthropicanthropic.com
Image 7: logo Based on our internal research-agent benchmark, Claude Opus 4.7 has the strongest efficiency baseline we’ve seen for multi-step work. It tied for the top overall score across our six modules at 0.715 and delivered the most consistent long-cont...
[8] AI Benchmarks 2026: Top Evaluations and Their Limitskili-technology.com
Image 2: Kili Technology.png) Kili Technology · Apr 13, 2026 Image 3: AI Benchmarks Guide: The Top Evaluations in 2026 and Why They're Not Enough Table of contents Introduction What Are the Most Important AI Benchmarks in 2026? General knowledge and reasoni...
[13] [PDF] Technical Performance - Stanford HAIhai.stanford.edu
Technical Performance Benchmarks vs. Human Performance 76 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024 2025 0% 20% 40% 60% 80% 100% 120% Image classiǇcation (ImageNet Top-5) Visual reasoning (VQA) English language understanding (SuperGLU...
[15] DeepSeek V4: Features, Benchmarks, and Comparisonsdatacamp.com
DeepSeek V4 Benchmarks According to DeepSeek’s internal results, DeepSeek V4 demonstrates impressive performance, particularly when pushed to its maximum reasoning limits (DeepSeek-V4-Pro-Max). According to the official release notes, here is how the model...
[16] deepseek-ai/DeepSeek-V4-Pro - Hugging Facehuggingface.co
Opus-4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High K2.6 Thinking GLM-5.1 Thinking DS-V4-Pro Max :---: :---: :---: Knowledge & Reasoning MMLU-Pro (EM) 89.1 87.5 91.0 87.1 86.0 87.5 SimpleQA-Verified (Pass@1) 46.2 45.3 75.6 36.9 38.1 57.9 Chinese-SimpleQA (Pass@1...
[19] DeepSeek V4 - Vals AIvals.ai
Benchmarks Models Comparison Model Guide App Reports News About Benchmarks Models Comparison Model Guide App Reports About Release date Models 4/23/2026 DeepSeek DeepSeek V4 4/23/2026 OpenAI GPT 5.5 4/20/2026 Moonshot AI Kimi K2.6 4/16/2026 Anthropic Claude...
[22] AI Benchmarks Explained: GPQA, SWE-bench & Arena Elonanonets.com
How the score is calculated: Before each question, the model is shown 5 example questions with correct answers, this is called 5-shot prompting. Then comes the real question. Score = correct answers ÷ total questions, expressed as a percentage. Why it's nea...
[28] GPT-5.5 Benchmarks 2026: Scores, Rankings & Performancebenchlm.ai
Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools GPT-5.5 According to BenchLM.ai, GPT-5.5 ranks 5 out of 112 models on the provisional leaderboard with an overall score of 89/100. It also ranks 2 out of 16 on the verified lead...
[29] Introducing GPT-5.5 - OpenAIopenai.com
GPT‑5.5 reaches state-of-the-art performance across multiple benchmarks that reflect this kind of work. OnGDPval⁠⁠, which tests agents’ abilities to produce well-specified knowledge work across 44 occupations, GPT‑5.5 scores 84.9%. On OSWorld-Verified, whic...
[31] GPT 5.5 - Vals AIvals.ai
2/17/2026 Anthropic Claude Sonnet 4.6 2/16/2026 Alibaba Qwen 3.5 Plus 2/12/2026 MiniMax MiniMax-M2.5 2/12/2026 MiniMax MiniMax-M2.5 2/11/2026 zAI GLM 5 2/5/2026 Anthropic Claude Opus 4.6 (Nonthinking) 2/5/2026 Anthropic Claude Opus 4.6 (Thinking) 1/26/2026...
[35] Kimi K2.6 on GMI Cloud: Architecture, Benchmarks & API Accessgmicloud.ai
Kimi K2.6 tops SWE-Bench Pro and runs 300 parallel sub-agents on 4x H100S. Learn the full architecture, benchmark results, and how to run it ... 3 days ago
[36] Kimi K2.6: The new leading open weights model - Artificial Analysisartificialanalysis.ai
Moonshot's Kimi K2.6 is the new leading open weights model. Kimi K2.6 lands at 4 on the Artificial Analysis Intelligence Index (54) behind ... 5 days ago
[37] Kimi 2.6 Benchmarks 2026: Scores, Rankings & Performancebenchlm.ai
Kimi 2.6 by Moonshot AI scores 85/100 on BenchLM's provisional leaderboard ( 12 of 115) with 27 published benchmark scores currently shown ... 6 days ago
[39] Kimi K2.6 - Vals AIvals.ai
Kimi K2.6. Release Date: 4/20/2026. Vals Index. Accuracy (Vals Index). 63.94% ± 1.97. Latency (Vals Index). 373.57s. Cost/Test (Vals Index). $0.21.

Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: 2026 벤치마크 비교

Studio Global AI로 검색 및 팩트체크 Discover에서 더 많은 것을 찾아보세요

16K0

비교 전에: 왜 단일 순위가 어려운가

한눈에 보는 공개 벤치마크 표

모델	공개 자료에서 확인되는 주요 수치	강점으로 읽을 수 있는 영역	비교 시 주의점
Claude Opus 4.7	BenchLM 97/100, provisional 2위/110; SWE-bench Verified 82.4%; FinanceBench 82.7%; MathVista 9.5점 상승 ^[2]^[3]	코딩, 종합 리더보드, 금융 문서 분석, 비전 수학 추론	Anthropic의 research-agent benchmark 0.715는 내부 평가라 GPT-5.5의 GDPval 등과 직접 비교하기 어렵습니다 ^[7]^[29].
GPT-5.5	BenchLM 89/100, provisional 5위/112; GDPval 84.9%; OSWorld-Verified 78.7%; Tau2-bench Telecom 98.0%; Vals Accuracy 67.76% ± 1.79 ^[28]^[29]^[31]	지식 업무, 컴퓨터 사용, 고객지원 워크플로, 에이전트형 작업	OpenAI 공식 발표, BenchLM, Vals Index는 서로 다른 평가 체계입니다 ^[28]^[29]^[31].
DeepSeek V4 / V4-Pro-Max	Vals AI 목록의 2026년 4월 23일 항목; V4-Pro-Max MMLU-Pro 87.5%, GPQA Diamond 90.1%, GSM8K 92.6% ^[15]^[19]	과학 QA, 수학, 고난도 추론 후보	DataCamp는 해당 수치를 DeepSeek 내부 결과 기반으로 소개하므로 독립 검증 점수와 구분해야 합니다 ^[15].
Kimi K2.6	BenchLM 85/100, provisional 12위/115; Vals Accuracy 63.94% ± 1.97, Latency 373.57s, Cost/Test $0.21; Artificial Analysis Intelligence Index 54, 전체 4위 ^[36]^[37]^[39]	오픈 웨이트 계열, 비용·지연시간, 운영 효율	출처에 따라 Kimi 2.6, Kimi K2.6, K2.6 Thinking 표기가 섞여 있어 같은 설정인지 확인해야 합니다 ^[37]^[39].

종합 리더보드: BenchLM 기준으로는 Claude가 앞선다

코딩: Claude Opus 4.7의 SWE-bench Verified 수치가 가장 명확하다

업무형 에이전트: GPT-5.5는 공식 지표가 구체적이다

추론·지식: DeepSeek V4-Pro-Max와 Kimi K2.6 Thinking은 일부 표에서 비교된다

벤치마크	DeepSeek V4-Pro-Max	Kimi K2.6 Thinking	표 기준 우위
MMLU-Pro	87.5	87.1	DeepSeek V4-Pro-Max
SimpleQA-Verified	57.9	36.9	DeepSeek V4-Pro-Max
Chinese-SimpleQA	84.4	75.9	DeepSeek V4-Pro-Max
GPQA Diamond	90.1	90.5	Kimi K2.6 Thinking
HLE	37.7	36.4	DeepSeek V4-Pro-Max

비용·지연시간: Kimi K2.6은 운영 지표가 눈에 띈다

실무 선택 가이드

코딩 자동 수정과 소프트웨어 엔지니어링이 핵심이라면 Claude Opus 4.7부터 검토할 만합니다. 현재 공개 근거에서는 SWE-bench Verified 82.4%와 BenchLM 97/100이라는 수치가 가장 선명합니다 ^[2]^[3].
지식 업무 산출, 컴퓨터 사용, 고객지원 워크플로가 중요하다면 GPT-5.5의 GDPval 84.9%, OSWorld-Verified 78.7%, Tau2-bench Telecom 98.0%가 가장 직접적인 공식 지표입니다 ^[29].
과학 QA, 수학, 고난도 추론 후보를 비교한다면 DeepSeek V4-Pro-Max와 Kimi K2.6 Thinking의 MMLU-Pro·GPQA Diamond·HLE 표를 함께 볼 수 있습니다 ^[15]^[16].
오픈 웨이트와 운영 비용을 중시한다면 Kimi K2.6의 Artificial Analysis open weights 평가와 Vals의 $0.21/test, 373.57s 지연시간 지표가 참고점입니다 ^[36]^[39].
상위 모델 비교에서는 MMLU 하나에 의존하지 않는 편이 좋습니다. 2026년에는 상위 모델들이 MMLU 고득점 구간에 몰려 변별력이 낮아졌다는 지적이 있습니다 ^[22].

최종 판단

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

주요 시사점

공개 자료만으로 네 모델의 절대 1 4위를 확정할 수는 없습니다. 확인 가능한 핵심 수치는 Claude Opus 4.7의 BenchLM 97/100·SWE bench Verified 82.4%, GPT 5.5의 GDPval 84.9%처럼 평가축이 달라 직접 합산하면 안 됩니다 [2][3][29].
DeepSeek V4는 V4 Pro Max 설정에서 MMLU Pro 87.5%·GPQA Diamond 90.1%가 제시되지만 일부는 내부 결과 기반이고, Kimi K2.6은 BenchLM 85/100 및 Vals Accuracy 63.94%±1.97·$0.21/test가 확인됩니다 [15][37][39].
실무 선택은 단일 벤치마크보다 과제별로 나누는 편이 안전합니다. 코딩은 Claude, 지식 업무·컴퓨터 사용은 GPT 5.5, 추론 후보는 DeepSeek/Kimi, 비용·오픈 웨이트는 Kimi 지표를 우선 확인할 만합니다 [8][16][29][36].

사람들은 또한 묻습니다.

"Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: 2026 벤치마크 비교"에 대한 짧은 대답은 무엇입니까?

먼저 검증할 핵심 포인트는 무엇인가요?

실무에서는 다음으로 무엇을 해야 합니까?

다음에는 어떤 관련 주제를 탐구해야 할까요?

다른 각도와 추가 인용을 보려면 "Claude Opus 4.7·GPT-5.5·DeepSeek V4·Kimi K2.6 벤치마크 비교: 2026년 판정"으로 계속하세요.

관련 페이지 열기

이것을 무엇과 비교해야 합니까?

"DeepSeek V4 엔지니어링 해설: 100만 토큰, MoE, API 이전 체크포인트"에 대해 이 답변을 대조 확인하세요.

관련 페이지 열기

연구를 계속하세요

연구 대화

당신2026년 4월 26일

연구문제

Claude Opus 4.7, GPT-5.5, DeepSeek V4, Kimi K2.6의 벤치마크를 조사하고 가능한 한 종합적으로 비교해 주세요.

Studio Global AI2026년 4월 26일40 소스

인용 답변

Key findings

Claude Opus 4.7은 제공된 자료 중 유일하게 구체적인 벤치마크 수치가 확인되는 모델입니다. SWE-bench Verified에서 82.4%를 기록했고, 이는 Opus 4.6 대비 약 11점 상승한 것으로 제시됩니다 ^[6].
Claude Opus 4.7은 BenchLM 기준 provisional leaderboard에서 110개 모델 중 2위, overall score 97/100으로 제시되며, verified leaderboard에서도 14개 모델 중 2위로 언급됩니다 ^[7].
Claude Opus 4.7은 비전 관련 개선 폭이 컸고, MathVista가 9.5점 상승했다는 자료가 있습니다 ^[6].
Kimi K2.6은 Vals AI의 모델 목록에서 Moonshot AI 모델로 확인되며, 제공된 스니펫에는 2026년 4월 20일 항목으로 표시됩니다 ^[5]. 다만 이 근거에는 Kimi K2.6의 실제 벤치마크 점수가 포함되어 있지 않습니다 ^[5].
Claude Opus 4.7 역시 Vals AI 목록에서 Anthropic 모델로 확인되며, 제공된 스니펫에는 2026년 4월 16일 항목으로 표시됩니다 ^[5].
GPT-5.5에 대해서는 제공된 근거 안에 직접적인 벤치마크 점수, 공식 발표, 리더보드 결과가 없습니다. Insufficient evidence.
DeepSeek V4에 대해서는 제공된 근거 중 Reddit 스니펫이 있으나, 해당 스니펫은 로컬 호스팅과 운영상 조언에 가까우며 비교 가능한 벤치마크 수치를 제공하지 않습니다 ^[40]. Insufficient evidence.

비교 표

모델	확인 가능한 벤치마크 / 순위	강점으로 볼 수 있는 영역	증거 수준
Claude Opus 4.7	SWE-bench Verified 82.4% ^[6]; BenchLM provisional 2/110, 97/100 ^[7]; verified 2/14 ^[7]	코딩, 비전 수학 추론, 종합 리더보드 성능 ^[6]^[7]	상대적으로 높음
GPT-5.5	제공 근거 내 직접 점수 없음	판단 불가	Insufficient evidence
DeepSeek V4	제공 근거 내 직접 점수 없음	판단 불가	Insufficient evidence
Kimi K2.6	모델 목록 및 날짜 항목은 확인되나 점수 없음 ^[5]	판단 불가	낮음

벤치마크별 해석

SWE-bench Verified 기준으로는 Claude Opus 4.7만 비교 가능한 수치가 있습니다. Claude Opus 4.7의 82.4%는 제공 자료상 Opus 4.6 대비 약 11점 개선된 결과로 제시됩니다 ^[6].
종합 리더보드 기준으로도 Claude Opus 4.7만 명확한 순위가 있습니다. BenchLM은 Claude Opus 4.7을 provisional leaderboard 110개 모델 중 2위, overall score 97/100으로 제시합니다 ^[7].
비전·수학 영역에서는 Claude Opus 4.7의 MathVista 점수가 9.5점 상승했다는 자료가 있으나, GPT-5.5·DeepSeek V4·Kimi K2.6의 동등 지표가 제공되지 않아 상대 비교는 불가능합니다 ^[6].
일반 지식·추론 벤치마크는 2026년 기준 MMLU, MMLU-Pro, GPQA Diamond, SWE-bench, Arena Elo 등이 주요 평가로 언급됩니다 ^[2]. 다만 MMLU는 상위 모델들이 이미 88% 이상을 기록해 2026년에는 변별력이 약하다는 지적이 있습니다 ^[3].

Evidence notes

Stanford HAI의 2026 AI Index 기술 성능 자료는 ImageNet, VQA, SuperGLUE, SQuAD 2.0 등 여러 벤치마크에서 AI 성능이 인간 성능과 비교되는 장기 추세를 다룹니다 ^[1]. 이는 개별 네 모델의 직접 비교 자료라기보다는 벤치마크 해석의 배경 자료에 가깝습니다 ^[1].
Kili Technology 자료는 2026년 주요 벤치마크로 MMLU, MMLU-Pro, GPQA Diamond, SWE-bench, Arena Elo 등을 언급하면서 벤치마크만으로 모델 성능을 충분히 설명하기 어렵다고 설명합니다 ^[2].
Nanonets 자료는 MMLU가 5-shot 방식으로 계산된다는 점과, 상위 모델들이 88% 이상을 기록하면서 2026년에는 변별력이 낮아졌다는 점을 지적합니다 ^[3].
DeepSeek V4 관련 제공 근거는 Reddit 스니펫뿐이며, 신뢰도 높은 공식·학술·독립 리더보드 근거가 아닙니다 ^[40].

Limitations / uncertainty

GPT-5.5, DeepSeek V4, Kimi K2.6에 대해 제공된 근거만으로는 SWE-bench, GPQA, MMLU-Pro, AIME, MathVista, Arena Elo 같은 동일 벤치마크 축에서 점수를 비교할 수 없습니다. Insufficient evidence.
Claude Opus 4.7의 수치도 출처별로 평가 방법과 리더보드 산식이 다를 수 있으므로, BenchLM의 97/100 및 순위와 SWE-bench Verified 82.4%는 서로 다른 평가 체계의 결과로 해석해야 합니다 ^[6]^[7].
Kimi K2.6은 모델 존재와 날짜 항목은 확인되지만, 제공 근거 안에는 성능 점수가 없습니다 ^[5]. Insufficient evidence.
DeepSeek V4는 제공 근거 안에서 벤치마크 수치가 확인되지 않습니다 ^[40]. Insufficient evidence.

Summary

출처

[2] Claude Opus 4.7 Benchmark Breakdown: Vision, Coding, ...mindstudio.ai
Claude Opus 4.7 posted 82.4% on SWE-bench Verified, up roughly 11 points from Opus 4.6 — the most meaningful coding benchmark available. Vision improvements were the largest percentage gains: MathVista jumped 9.5 points, enabling reliable visual math reason...
[3] Claude Opus 4.7 Benchmarks 2026: Scores, Rankings & Performancebenchlm.ai
Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools Claude Opus 4.7 According to BenchLM.ai, Claude Opus 4.7 ranks 2 out of 110 models on the provisional leaderboard with an overall score of 97/100. It also ranks 2 out of 14 on t...
[7] Introducing Claude Opus 4.7 - Anthropicanthropic.com
Image 7: logo Based on our internal research-agent benchmark, Claude Opus 4.7 has the strongest efficiency baseline we’ve seen for multi-step work. It tied for the top overall score across our six modules at 0.715 and delivered the most consistent long-cont...
[8] AI Benchmarks 2026: Top Evaluations and Their Limitskili-technology.com
Image 2: Kili Technology.png) Kili Technology · Apr 13, 2026 Image 3: AI Benchmarks Guide: The Top Evaluations in 2026 and Why They're Not Enough Table of contents Introduction What Are the Most Important AI Benchmarks in 2026? General knowledge and reasoni...
[13] [PDF] Technical Performance - Stanford HAIhai.stanford.edu
Technical Performance Benchmarks vs. Human Performance 76 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024 2025 0% 20% 40% 60% 80% 100% 120% Image classiǇcation (ImageNet Top-5) Visual reasoning (VQA) English language understanding (SuperGLU...
[15] DeepSeek V4: Features, Benchmarks, and Comparisonsdatacamp.com
DeepSeek V4 Benchmarks According to DeepSeek’s internal results, DeepSeek V4 demonstrates impressive performance, particularly when pushed to its maximum reasoning limits (DeepSeek-V4-Pro-Max). According to the official release notes, here is how the model...
[16] deepseek-ai/DeepSeek-V4-Pro - Hugging Facehuggingface.co
Opus-4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High K2.6 Thinking GLM-5.1 Thinking DS-V4-Pro Max :---: :---: :---: Knowledge & Reasoning MMLU-Pro (EM) 89.1 87.5 91.0 87.1 86.0 87.5 SimpleQA-Verified (Pass@1) 46.2 45.3 75.6 36.9 38.1 57.9 Chinese-SimpleQA (Pass@1...
[19] DeepSeek V4 - Vals AIvals.ai
Benchmarks Models Comparison Model Guide App Reports News About Benchmarks Models Comparison Model Guide App Reports About Release date Models 4/23/2026 DeepSeek DeepSeek V4 4/23/2026 OpenAI GPT 5.5 4/20/2026 Moonshot AI Kimi K2.6 4/16/2026 Anthropic Claude...
[22] AI Benchmarks Explained: GPQA, SWE-bench & Arena Elonanonets.com
How the score is calculated: Before each question, the model is shown 5 example questions with correct answers, this is called 5-shot prompting. Then comes the real question. Score = correct answers ÷ total questions, expressed as a percentage. Why it's nea...
[28] GPT-5.5 Benchmarks 2026: Scores, Rankings & Performancebenchlm.ai
Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools GPT-5.5 According to BenchLM.ai, GPT-5.5 ranks 5 out of 112 models on the provisional leaderboard with an overall score of 89/100. It also ranks 2 out of 16 on the verified lead...
[29] Introducing GPT-5.5 - OpenAIopenai.com
GPT‑5.5 reaches state-of-the-art performance across multiple benchmarks that reflect this kind of work. OnGDPval⁠⁠, which tests agents’ abilities to produce well-specified knowledge work across 44 occupations, GPT‑5.5 scores 84.9%. On OSWorld-Verified, whic...
[31] GPT 5.5 - Vals AIvals.ai
2/17/2026 Anthropic Claude Sonnet 4.6 2/16/2026 Alibaba Qwen 3.5 Plus 2/12/2026 MiniMax MiniMax-M2.5 2/12/2026 MiniMax MiniMax-M2.5 2/11/2026 zAI GLM 5 2/5/2026 Anthropic Claude Opus 4.6 (Nonthinking) 2/5/2026 Anthropic Claude Opus 4.6 (Thinking) 1/26/2026...
[35] Kimi K2.6 on GMI Cloud: Architecture, Benchmarks & API Accessgmicloud.ai
Kimi K2.6 tops SWE-Bench Pro and runs 300 parallel sub-agents on 4x H100S. Learn the full architecture, benchmark results, and how to run it ... 3 days ago
[36] Kimi K2.6: The new leading open weights model - Artificial Analysisartificialanalysis.ai
Moonshot's Kimi K2.6 is the new leading open weights model. Kimi K2.6 lands at 4 on the Artificial Analysis Intelligence Index (54) behind ... 5 days ago
[37] Kimi 2.6 Benchmarks 2026: Scores, Rankings & Performancebenchlm.ai
Kimi 2.6 by Moonshot AI scores 85/100 on BenchLM's provisional leaderboard ( 12 of 115) with 27 published benchmark scores currently shown ... 6 days ago
[39] Kimi K2.6 - Vals AIvals.ai
Kimi K2.6. Release Date: 4/20/2026. Vals Index. Accuracy (Vals Index). 63.94% ± 1.97. Latency (Vals Index). 373.57s. Cost/Test (Vals Index). $0.21.

Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: 2026 벤치마크 비교

Studio Global AI로 검색 및 팩트체크 Discover에서 더 많은 것을 찾아보세요

16K0

비교 전에: 왜 단일 순위가 어려운가

한눈에 보는 공개 벤치마크 표

모델	공개 자료에서 확인되는 주요 수치	강점으로 읽을 수 있는 영역	비교 시 주의점
Claude Opus 4.7	BenchLM 97/100, provisional 2위/110; SWE-bench Verified 82.4%; FinanceBench 82.7%; MathVista 9.5점 상승 ^[2]^[3]	코딩, 종합 리더보드, 금융 문서 분석, 비전 수학 추론	Anthropic의 research-agent benchmark 0.715는 내부 평가라 GPT-5.5의 GDPval 등과 직접 비교하기 어렵습니다 ^[7]^[29].
GPT-5.5	BenchLM 89/100, provisional 5위/112; GDPval 84.9%; OSWorld-Verified 78.7%; Tau2-bench Telecom 98.0%; Vals Accuracy 67.76% ± 1.79 ^[28]^[29]^[31]	지식 업무, 컴퓨터 사용, 고객지원 워크플로, 에이전트형 작업	OpenAI 공식 발표, BenchLM, Vals Index는 서로 다른 평가 체계입니다 ^[28]^[29]^[31].
DeepSeek V4 / V4-Pro-Max	Vals AI 목록의 2026년 4월 23일 항목; V4-Pro-Max MMLU-Pro 87.5%, GPQA Diamond 90.1%, GSM8K 92.6% ^[15]^[19]	과학 QA, 수학, 고난도 추론 후보	DataCamp는 해당 수치를 DeepSeek 내부 결과 기반으로 소개하므로 독립 검증 점수와 구분해야 합니다 ^[15].
Kimi K2.6	BenchLM 85/100, provisional 12위/115; Vals Accuracy 63.94% ± 1.97, Latency 373.57s, Cost/Test $0.21; Artificial Analysis Intelligence Index 54, 전체 4위 ^[36]^[37]^[39]	오픈 웨이트 계열, 비용·지연시간, 운영 효율	출처에 따라 Kimi 2.6, Kimi K2.6, K2.6 Thinking 표기가 섞여 있어 같은 설정인지 확인해야 합니다 ^[37]^[39].

종합 리더보드: BenchLM 기준으로는 Claude가 앞선다

코딩: Claude Opus 4.7의 SWE-bench Verified 수치가 가장 명확하다

업무형 에이전트: GPT-5.5는 공식 지표가 구체적이다

추론·지식: DeepSeek V4-Pro-Max와 Kimi K2.6 Thinking은 일부 표에서 비교된다

벤치마크	DeepSeek V4-Pro-Max	Kimi K2.6 Thinking	표 기준 우위
MMLU-Pro	87.5	87.1	DeepSeek V4-Pro-Max
SimpleQA-Verified	57.9	36.9	DeepSeek V4-Pro-Max
Chinese-SimpleQA	84.4	75.9	DeepSeek V4-Pro-Max
GPQA Diamond	90.1	90.5	Kimi K2.6 Thinking
HLE	37.7	36.4	DeepSeek V4-Pro-Max

비용·지연시간: Kimi K2.6은 운영 지표가 눈에 띈다

실무 선택 가이드

코딩 자동 수정과 소프트웨어 엔지니어링이 핵심이라면 Claude Opus 4.7부터 검토할 만합니다. 현재 공개 근거에서는 SWE-bench Verified 82.4%와 BenchLM 97/100이라는 수치가 가장 선명합니다 ^[2]^[3].
지식 업무 산출, 컴퓨터 사용, 고객지원 워크플로가 중요하다면 GPT-5.5의 GDPval 84.9%, OSWorld-Verified 78.7%, Tau2-bench Telecom 98.0%가 가장 직접적인 공식 지표입니다 ^[29].
과학 QA, 수학, 고난도 추론 후보를 비교한다면 DeepSeek V4-Pro-Max와 Kimi K2.6 Thinking의 MMLU-Pro·GPQA Diamond·HLE 표를 함께 볼 수 있습니다 ^[15]^[16].
오픈 웨이트와 운영 비용을 중시한다면 Kimi K2.6의 Artificial Analysis open weights 평가와 Vals의 $0.21/test, 373.57s 지연시간 지표가 참고점입니다 ^[36]^[39].
상위 모델 비교에서는 MMLU 하나에 의존하지 않는 편이 좋습니다. 2026년에는 상위 모델들이 MMLU 고득점 구간에 몰려 변별력이 낮아졌다는 지적이 있습니다 ^[22].

최종 판단

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

주요 시사점

공개 자료만으로 네 모델의 절대 1 4위를 확정할 수는 없습니다. 확인 가능한 핵심 수치는 Claude Opus 4.7의 BenchLM 97/100·SWE bench Verified 82.4%, GPT 5.5의 GDPval 84.9%처럼 평가축이 달라 직접 합산하면 안 됩니다 [2][3][29].
DeepSeek V4는 V4 Pro Max 설정에서 MMLU Pro 87.5%·GPQA Diamond 90.1%가 제시되지만 일부는 내부 결과 기반이고, Kimi K2.6은 BenchLM 85/100 및 Vals Accuracy 63.94%±1.97·$0.21/test가 확인됩니다 [15][37][39].
실무 선택은 단일 벤치마크보다 과제별로 나누는 편이 안전합니다. 코딩은 Claude, 지식 업무·컴퓨터 사용은 GPT 5.5, 추론 후보는 DeepSeek/Kimi, 비용·오픈 웨이트는 Kimi 지표를 우선 확인할 만합니다 [8][16][29][36].

사람들은 또한 묻습니다.

"Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: 2026 벤치마크 비교"에 대한 짧은 대답은 무엇입니까?

먼저 검증할 핵심 포인트는 무엇인가요?

실무에서는 다음으로 무엇을 해야 합니까?

다음에는 어떤 관련 주제를 탐구해야 할까요?

다른 각도와 추가 인용을 보려면 "Claude Opus 4.7·GPT-5.5·DeepSeek V4·Kimi K2.6 벤치마크 비교: 2026년 판정"으로 계속하세요.

관련 페이지 열기

이것을 무엇과 비교해야 합니까?

"DeepSeek V4 엔지니어링 해설: 100만 토큰, MoE, API 이전 체크포인트"에 대해 이 답변을 대조 확인하세요.

관련 페이지 열기

연구를 계속하세요

연구 대화

당신2026년 4월 26일

연구문제

Claude Opus 4.7, GPT-5.5, DeepSeek V4, Kimi K2.6의 벤치마크를 조사하고 가능한 한 종합적으로 비교해 주세요.

Studio Global AI2026년 4월 26일40 소스

인용 답변

Key findings

Claude Opus 4.7은 제공된 자료 중 유일하게 구체적인 벤치마크 수치가 확인되는 모델입니다. SWE-bench Verified에서 82.4%를 기록했고, 이는 Opus 4.6 대비 약 11점 상승한 것으로 제시됩니다 ^[6].
Claude Opus 4.7은 BenchLM 기준 provisional leaderboard에서 110개 모델 중 2위, overall score 97/100으로 제시되며, verified leaderboard에서도 14개 모델 중 2위로 언급됩니다 ^[7].
Claude Opus 4.7은 비전 관련 개선 폭이 컸고, MathVista가 9.5점 상승했다는 자료가 있습니다 ^[6].
Kimi K2.6은 Vals AI의 모델 목록에서 Moonshot AI 모델로 확인되며, 제공된 스니펫에는 2026년 4월 20일 항목으로 표시됩니다 ^[5]. 다만 이 근거에는 Kimi K2.6의 실제 벤치마크 점수가 포함되어 있지 않습니다 ^[5].
Claude Opus 4.7 역시 Vals AI 목록에서 Anthropic 모델로 확인되며, 제공된 스니펫에는 2026년 4월 16일 항목으로 표시됩니다 ^[5].
GPT-5.5에 대해서는 제공된 근거 안에 직접적인 벤치마크 점수, 공식 발표, 리더보드 결과가 없습니다. Insufficient evidence.
DeepSeek V4에 대해서는 제공된 근거 중 Reddit 스니펫이 있으나, 해당 스니펫은 로컬 호스팅과 운영상 조언에 가까우며 비교 가능한 벤치마크 수치를 제공하지 않습니다 ^[40]. Insufficient evidence.

비교 표

모델	확인 가능한 벤치마크 / 순위	강점으로 볼 수 있는 영역	증거 수준
Claude Opus 4.7	SWE-bench Verified 82.4% ^[6]; BenchLM provisional 2/110, 97/100 ^[7]; verified 2/14 ^[7]	코딩, 비전 수학 추론, 종합 리더보드 성능 ^[6]^[7]	상대적으로 높음
GPT-5.5	제공 근거 내 직접 점수 없음	판단 불가	Insufficient evidence
DeepSeek V4	제공 근거 내 직접 점수 없음	판단 불가	Insufficient evidence
Kimi K2.6	모델 목록 및 날짜 항목은 확인되나 점수 없음 ^[5]	판단 불가	낮음

벤치마크별 해석

SWE-bench Verified 기준으로는 Claude Opus 4.7만 비교 가능한 수치가 있습니다. Claude Opus 4.7의 82.4%는 제공 자료상 Opus 4.6 대비 약 11점 개선된 결과로 제시됩니다 ^[6].
종합 리더보드 기준으로도 Claude Opus 4.7만 명확한 순위가 있습니다. BenchLM은 Claude Opus 4.7을 provisional leaderboard 110개 모델 중 2위, overall score 97/100으로 제시합니다 ^[7].
비전·수학 영역에서는 Claude Opus 4.7의 MathVista 점수가 9.5점 상승했다는 자료가 있으나, GPT-5.5·DeepSeek V4·Kimi K2.6의 동등 지표가 제공되지 않아 상대 비교는 불가능합니다 ^[6].
일반 지식·추론 벤치마크는 2026년 기준 MMLU, MMLU-Pro, GPQA Diamond, SWE-bench, Arena Elo 등이 주요 평가로 언급됩니다 ^[2]. 다만 MMLU는 상위 모델들이 이미 88% 이상을 기록해 2026년에는 변별력이 약하다는 지적이 있습니다 ^[3].

Evidence notes

Stanford HAI의 2026 AI Index 기술 성능 자료는 ImageNet, VQA, SuperGLUE, SQuAD 2.0 등 여러 벤치마크에서 AI 성능이 인간 성능과 비교되는 장기 추세를 다룹니다 ^[1]. 이는 개별 네 모델의 직접 비교 자료라기보다는 벤치마크 해석의 배경 자료에 가깝습니다 ^[1].
Kili Technology 자료는 2026년 주요 벤치마크로 MMLU, MMLU-Pro, GPQA Diamond, SWE-bench, Arena Elo 등을 언급하면서 벤치마크만으로 모델 성능을 충분히 설명하기 어렵다고 설명합니다 ^[2].
Nanonets 자료는 MMLU가 5-shot 방식으로 계산된다는 점과, 상위 모델들이 88% 이상을 기록하면서 2026년에는 변별력이 낮아졌다는 점을 지적합니다 ^[3].
DeepSeek V4 관련 제공 근거는 Reddit 스니펫뿐이며, 신뢰도 높은 공식·학술·독립 리더보드 근거가 아닙니다 ^[40].

Limitations / uncertainty

GPT-5.5, DeepSeek V4, Kimi K2.6에 대해 제공된 근거만으로는 SWE-bench, GPQA, MMLU-Pro, AIME, MathVista, Arena Elo 같은 동일 벤치마크 축에서 점수를 비교할 수 없습니다. Insufficient evidence.
Claude Opus 4.7의 수치도 출처별로 평가 방법과 리더보드 산식이 다를 수 있으므로, BenchLM의 97/100 및 순위와 SWE-bench Verified 82.4%는 서로 다른 평가 체계의 결과로 해석해야 합니다 ^[6]^[7].
Kimi K2.6은 모델 존재와 날짜 항목은 확인되지만, 제공 근거 안에는 성능 점수가 없습니다 ^[5]. Insufficient evidence.
DeepSeek V4는 제공 근거 안에서 벤치마크 수치가 확인되지 않습니다 ^[40]. Insufficient evidence.

Summary

출처

[2] Claude Opus 4.7 Benchmark Breakdown: Vision, Coding, ...mindstudio.ai
Claude Opus 4.7 posted 82.4% on SWE-bench Verified, up roughly 11 points from Opus 4.6 — the most meaningful coding benchmark available. Vision improvements were the largest percentage gains: MathVista jumped 9.5 points, enabling reliable visual math reason...
[3] Claude Opus 4.7 Benchmarks 2026: Scores, Rankings & Performancebenchlm.ai
Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools Claude Opus 4.7 According to BenchLM.ai, Claude Opus 4.7 ranks 2 out of 110 models on the provisional leaderboard with an overall score of 97/100. It also ranks 2 out of 14 on t...
[7] Introducing Claude Opus 4.7 - Anthropicanthropic.com
Image 7: logo Based on our internal research-agent benchmark, Claude Opus 4.7 has the strongest efficiency baseline we’ve seen for multi-step work. It tied for the top overall score across our six modules at 0.715 and delivered the most consistent long-cont...
[8] AI Benchmarks 2026: Top Evaluations and Their Limitskili-technology.com
Image 2: Kili Technology.png) Kili Technology · Apr 13, 2026 Image 3: AI Benchmarks Guide: The Top Evaluations in 2026 and Why They're Not Enough Table of contents Introduction What Are the Most Important AI Benchmarks in 2026? General knowledge and reasoni...
[13] [PDF] Technical Performance - Stanford HAIhai.stanford.edu
Technical Performance Benchmarks vs. Human Performance 76 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024 2025 0% 20% 40% 60% 80% 100% 120% Image classiǇcation (ImageNet Top-5) Visual reasoning (VQA) English language understanding (SuperGLU...
[15] DeepSeek V4: Features, Benchmarks, and Comparisonsdatacamp.com
DeepSeek V4 Benchmarks According to DeepSeek’s internal results, DeepSeek V4 demonstrates impressive performance, particularly when pushed to its maximum reasoning limits (DeepSeek-V4-Pro-Max). According to the official release notes, here is how the model...
[16] deepseek-ai/DeepSeek-V4-Pro - Hugging Facehuggingface.co
Opus-4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High K2.6 Thinking GLM-5.1 Thinking DS-V4-Pro Max :---: :---: :---: Knowledge & Reasoning MMLU-Pro (EM) 89.1 87.5 91.0 87.1 86.0 87.5 SimpleQA-Verified (Pass@1) 46.2 45.3 75.6 36.9 38.1 57.9 Chinese-SimpleQA (Pass@1...
[19] DeepSeek V4 - Vals AIvals.ai
Benchmarks Models Comparison Model Guide App Reports News About Benchmarks Models Comparison Model Guide App Reports About Release date Models 4/23/2026 DeepSeek DeepSeek V4 4/23/2026 OpenAI GPT 5.5 4/20/2026 Moonshot AI Kimi K2.6 4/16/2026 Anthropic Claude...
[22] AI Benchmarks Explained: GPQA, SWE-bench & Arena Elonanonets.com
How the score is calculated: Before each question, the model is shown 5 example questions with correct answers, this is called 5-shot prompting. Then comes the real question. Score = correct answers ÷ total questions, expressed as a percentage. Why it's nea...
[28] GPT-5.5 Benchmarks 2026: Scores, Rankings & Performancebenchlm.ai
Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools GPT-5.5 According to BenchLM.ai, GPT-5.5 ranks 5 out of 112 models on the provisional leaderboard with an overall score of 89/100. It also ranks 2 out of 16 on the verified lead...
[29] Introducing GPT-5.5 - OpenAIopenai.com
GPT‑5.5 reaches state-of-the-art performance across multiple benchmarks that reflect this kind of work. OnGDPval⁠⁠, which tests agents’ abilities to produce well-specified knowledge work across 44 occupations, GPT‑5.5 scores 84.9%. On OSWorld-Verified, whic...
[31] GPT 5.5 - Vals AIvals.ai
2/17/2026 Anthropic Claude Sonnet 4.6 2/16/2026 Alibaba Qwen 3.5 Plus 2/12/2026 MiniMax MiniMax-M2.5 2/12/2026 MiniMax MiniMax-M2.5 2/11/2026 zAI GLM 5 2/5/2026 Anthropic Claude Opus 4.6 (Nonthinking) 2/5/2026 Anthropic Claude Opus 4.6 (Thinking) 1/26/2026...
[35] Kimi K2.6 on GMI Cloud: Architecture, Benchmarks & API Accessgmicloud.ai
Kimi K2.6 tops SWE-Bench Pro and runs 300 parallel sub-agents on 4x H100S. Learn the full architecture, benchmark results, and how to run it ... 3 days ago
[36] Kimi K2.6: The new leading open weights model - Artificial Analysisartificialanalysis.ai
Moonshot's Kimi K2.6 is the new leading open weights model. Kimi K2.6 lands at 4 on the Artificial Analysis Intelligence Index (54) behind ... 5 days ago
[37] Kimi 2.6 Benchmarks 2026: Scores, Rankings & Performancebenchlm.ai
Kimi 2.6 by Moonshot AI scores 85/100 on BenchLM's provisional leaderboard ( 12 of 115) with 27 published benchmark scores currently shown ... 6 days ago
[39] Kimi K2.6 - Vals AIvals.ai
Kimi K2.6. Release Date: 4/20/2026. Vals Index. Accuracy (Vals Index). 63.94% ± 1.97. Latency (Vals Index). 373.57s. Cost/Test (Vals Index). $0.21.