공개 벤치마크를 모아보면 네 모델의 승자는 하나로 정리되지 않습니다. Vals AI 목록에는 DeepSeek V4와 GPT-5.5가 2026년 4월 23일, Kimi K2.6이 4월 20일, Claude Opus 4.7이 4월 16일 항목으로 표시되지만, 제공된 공개 자료는 네 모델을 동일 벤치마크·동일 설정·동일 비용 조건으로 나란히 평가하지 않습니다 [19]. 따라서 이 비교의 핵심은 절대 순위가 아니라, 어떤 지표에서 어떤 모델의 강점이 확인되는지를 구분하는 것입니다.
비교 전에: 왜 단일 순위가 어려운가
2026년 AI 벤치마크는 하나의 시험이 아니라 여러 능력의 묶음에 가깝습니다. Kili Technology는 MMLU, MMLU-Pro, GPQA Diamond, SWE-Bench, Terminal-Bench, GAIA, WebArena, GDPval, 안전성 평가가 서로 다른 능력을 측정한다고 설명합니다 [8]. Stanford HAI의 AI Index도 기술 성능을 MMLU, MATH, GPQA Diamond, MMMU, OSWorld, AIME, SWE-bench Verified 등 별도 축으로 나눠 다룹니다 [
13].
특히 MMLU 같은 일반 지식 평가는 상위 모델 간 변별력이 약해졌다는 지적이 있습니다. Nanonets는 MMLU가 5-shot 방식으로 계산되며, 2026년에는 상위 모델들이 88% 이상 구간에 몰려 모델 간 차이를 가르기 어렵다고 설명합니다 [22]. 그래서 모델을 고를 때는 종합 점수 하나보다 코딩, 지식 업무, 과학 추론, 컴퓨터 사용, 비용 같은 실제 사용 목적을 먼저 정해야 합니다 [
8][
22].
한눈에 보는 공개 벤치마크 표
| 모델 | 공개 자료에서 확인되는 주요 수치 | 강점으로 읽을 수 있는 영역 | 비교 시 주의점 |
|---|---|---|---|
| Claude Opus 4.7 | BenchLM 97/100, provisional 2위/110; SWE-bench Verified 82.4%; FinanceBench 82.7%; MathVista 9.5점 상승 [ | 코딩, 종합 리더보드, 금융 문서 분석, 비전 수학 추론 | Anthropic의 research-agent benchmark 0.715는 내부 평가라 GPT-5.5의 GDPval 등과 직접 비교하기 어렵습니다 [ |
| GPT-5.5 | BenchLM 89/100, provisional 5위/112; GDPval 84.9%; OSWorld-Verified 78.7%; Tau2-bench Telecom 98.0%; Vals Accuracy 67.76% ± 1.79 [ | 지식 업무, 컴퓨터 사용, 고객지원 워크플로, 에이전트형 작업 | OpenAI 공식 발표, BenchLM, Vals Index는 서로 다른 평가 체계입니다 [ |
| DeepSeek V4 / V4-Pro-Max | Vals AI 목록의 2026년 4월 23일 항목; V4-Pro-Max MMLU-Pro 87.5%, GPQA Diamond 90.1%, GSM8K 92.6% [ | 과학 QA, 수학, 고난도 추론 후보 | DataCamp는 해당 수치를 DeepSeek 내부 결과 기반으로 소개하므로 독립 검증 점수와 구분해야 합니다 [ |
| Kimi K2.6 | BenchLM 85/100, provisional 12위/115; Vals Accuracy 63.94% ± 1.97, Latency 373.57s, Cost/Test $0.21; Artificial Analysis Intelligence Index 54, 전체 4위 [ | 오픈 웨이트 계열, 비용·지연시간, 운영 효율 | 출처에 따라 Kimi 2.6, Kimi K2.6, K2.6 Thinking 표기가 섞여 있어 같은 설정인지 확인해야 합니다 [ |
종합 리더보드: BenchLM 기준으로는 Claude가 앞선다
BenchLM에 공개된 세 모델만 놓고 보면 Claude Opus 4.7의 점수가 가장 높습니다. BenchLM은 Claude Opus 4.7을 provisional leaderboard 110개 모델 중 2위, overall score 97/100으로 표시하고, verified leaderboard에서도 14개 모델 중 2위라고 설명합니다 [3].
GPT-5.5는 BenchLM에서 provisional leaderboard 112개 모델 중 5위, overall score 89/100으로 제시되며, verified leaderboard에서는 16개 모델 중 2위로 표시됩니다 [28]. Kimi 2.6은 BenchLM provisional leaderboard에서 115개 모델 중 12위, overall score 85/100이며, 27개의 공개 벤치마크 점수가 표시된다고 설명됩니다 [
37].
다만 이 순서는 BenchLM에 한정된 참고점입니다. 각 페이지의 비교 표본 수가 110, 112, 115처럼 다르고, 여기서 확인한 자료만으로는 DeepSeek V4의 동등한 BenchLM 점수를 함께 놓고 비교할 수 없습니다 [3][
28][
37].
코딩: Claude Opus 4.7의 SWE-bench Verified 수치가 가장 명확하다
코딩 벤치마크에서는 Claude Opus 4.7의 공개 수치가 가장 직접적입니다. MindStudio는 Claude Opus 4.7이 SWE-bench Verified에서 82.4%를 기록했고, Opus 4.6 대비 약 11점 상승했다고 설명합니다 [2]. 같은 자료는 Claude Opus 4.7의 FinanceBench 성능을 82.7%로 제시하고, 비전 관련 개선 중 MathVista가 9.5점 상승했다고 설명합니다 [
2].
GPT-5.5의 경우, 제공된 OpenAI 소개 자료에서 전면에 제시된 수치는 SWE-bench가 아니라 GDPval, OSWorld-Verified, Tau2-bench Telecom입니다 [29]. Kimi K2.6에 대해서는 GMI Cloud 자료가 SWE-Bench Pro 상위 성과를 주장하지만, 제공된 스니펫만으로 정확한 점수와 네 모델 동일 조건 비교를 확정하기는 어렵습니다 [
35]. DeepSeek V4는 이 자료 묶음에서 코딩보다 추론·수학 관련 수치가 더 구체적으로 확인됩니다 [
15][
16].
업무형 에이전트: GPT-5.5는 공식 지표가 구체적이다
업무형·에이전트형 평가에서는 GPT-5.5의 공식 수치가 가장 구체적으로 공개되어 있습니다. OpenAI는 GPT-5.5가 GDPval에서 84.9%를 기록했다고 밝혔고, GDPval은 44개 직업군의 명세화된 지식 업무 산출 능력을 테스트한다고 설명합니다 [29]. OpenAI는 또한 GPT-5.5가 실제 컴퓨터 환경 조작을 평가하는 OSWorld-Verified에서 78.7%, 복잡한 고객지원 워크플로를 테스트하는 Tau2-bench Telecom에서 98.0%를 기록했다고 제시합니다 [
29].
Claude Opus 4.7에도 에이전트형 작업 자료가 있습니다. Anthropic은 내부 research-agent benchmark에서 Claude Opus 4.7이 6개 모듈 전체 점수 0.715로 공동 최고 점수를 기록했고, General Finance 모듈에서 Opus 4.6의 0.767보다 높은 0.813을 기록했다고 설명합니다 [7].
다만 GPT-5.5의 GDPval·OSWorld-Verified·Tau2-bench와 Claude Opus 4.7의 Anthropic 내부 research-agent benchmark는 평가 체계가 다릅니다 [7][
29]. GPT-5.5의 84.9%와 Claude의 0.715를 같은 척도처럼 직접 비교해서는 안 됩니다 [
7][
29].
추론·지식: DeepSeek V4-Pro-Max와 Kimi K2.6 Thinking은 일부 표에서 비교된다
DeepSeek V4의 구체적인 공개 수치는 V4-Pro-Max 설정에서 확인됩니다. DataCamp는 DeepSeek 내부 결과에 따르면 DeepSeek V4-Pro-Max가 MMLU-Pro 87.5%, GPQA Diamond 90.1%, GSM8K 92.6%를 기록했다고 설명합니다 [15]. 이 수치는 유용한 참고점이지만, DataCamp가 내부 결과 기반이라고 밝힌 만큼 독립 리더보드와 같은 무게로 해석하기는 어렵습니다 [
15].
Hugging Face의 DeepSeek-V4-Pro 자료에는 DeepSeek V4-Pro-Max와 K2.6 Thinking이 같은 표에 일부 함께 표시됩니다 [16]. 해당 표의 지식·추론 항목은 다음과 같습니다 [
16].
| 벤치마크 | DeepSeek V4-Pro-Max | Kimi K2.6 Thinking | 표 기준 우위 |
|---|---|---|---|
| MMLU-Pro | 87.5 | 87.1 | DeepSeek V4-Pro-Max |
| SimpleQA-Verified | 57.9 | 36.9 | DeepSeek V4-Pro-Max |
| Chinese-SimpleQA | 84.4 | 75.9 | DeepSeek V4-Pro-Max |
| GPQA Diamond | 90.1 | 90.5 | Kimi K2.6 Thinking |
| HLE | 37.7 | 36.4 | DeepSeek V4-Pro-Max |
이 표만 보면 DeepSeek V4-Pro-Max는 MMLU-Pro, SimpleQA-Verified, Chinese-SimpleQA, HLE에서 Kimi K2.6 Thinking보다 높고, Kimi K2.6 Thinking은 GPQA Diamond에서 근소하게 높습니다 [16]. 그러나 같은 표의 비교 대상은 Claude Opus 4.7과 GPT-5.5가 아니라 Opus-4.6 Max, GPT-5.4 xHigh 등 다른 모델이므로, 네 모델 전체 순위를 결론내리기에는 부족합니다 [
16].
비용·지연시간: Kimi K2.6은 운영 지표가 눈에 띈다
Vals AI 자료에서는 GPT-5.5가 Accuracy 67.76% ± 1.79, Latency 409.09s, Context Window 1M으로 표시됩니다 [31]. Kimi K2.6은 Accuracy 63.94% ± 1.97, Latency 373.57s, Cost/Test $0.21로 표시됩니다 [
39]. 두 Vals 기록만 비교하면 정확도 표시값은 GPT-5.5가 높고, 지연시간 표시값은 Kimi K2.6이 더 낮습니다 [
31][
39].
Kimi K2.6은 오픈 웨이트 계열을 보는 사용자에게도 별도 의미가 있습니다. Artificial Analysis는 Moonshot의 Kimi K2.6을 leading open weights model로 소개하며, Artificial Analysis Intelligence Index 54와 전체 4위라는 순위를 제시합니다 [36]. 다만 Artificial Analysis, Vals, BenchLM은 서로 다른 평가 체계이므로, Kimi의 54점, Vals 정확도 63.94%, BenchLM 85/100을 하나의 점수처럼 합산하면 안 됩니다 [
36][
37][
39].
실무 선택 가이드
- 코딩 자동 수정과 소프트웨어 엔지니어링이 핵심이라면 Claude Opus 4.7부터 검토할 만합니다. 현재 공개 근거에서는 SWE-bench Verified 82.4%와 BenchLM 97/100이라는 수치가 가장 선명합니다 [
2][
3].
- 지식 업무 산출, 컴퓨터 사용, 고객지원 워크플로가 중요하다면 GPT-5.5의 GDPval 84.9%, OSWorld-Verified 78.7%, Tau2-bench Telecom 98.0%가 가장 직접적인 공식 지표입니다 [
29].
- 과학 QA, 수학, 고난도 추론 후보를 비교한다면 DeepSeek V4-Pro-Max와 Kimi K2.6 Thinking의 MMLU-Pro·GPQA Diamond·HLE 표를 함께 볼 수 있습니다 [
15][
16].
- 오픈 웨이트와 운영 비용을 중시한다면 Kimi K2.6의 Artificial Analysis open weights 평가와 Vals의 $0.21/test, 373.57s 지연시간 지표가 참고점입니다 [
36][
39].
- 상위 모델 비교에서는 MMLU 하나에 의존하지 않는 편이 좋습니다. 2026년에는 상위 모델들이 MMLU 고득점 구간에 몰려 변별력이 낮아졌다는 지적이 있습니다 [
22].
최종 판단
공개 근거만 놓고 보면 Claude Opus 4.7은 코딩과 BenchLM 종합 리더보드, GPT-5.5는 업무형 에이전트와 컴퓨터 사용 평가, DeepSeek V4-Pro-Max는 추론·수학 관련 공개 수치, Kimi K2.6은 오픈 웨이트와 비용·지연시간 지표에서 각각 강점이 확인됩니다 [2][
3][
15][
16][
28][
29][
36][
37][
39].
하지만 네 모델의 완전한 1위부터 4위까지를 확정하기에는 공개 자료가 아직 고르지 않습니다. 실제 도입에서는 이 벤치마크 표를 출발점으로 삼되, 코딩, 금융 문서 분석, 브라우저·컴퓨터 제어, 고객지원, 장기 에이전트 실행처럼 자신의 업무와 같은 조건에서 별도 평가를 병행하는 것이 가장 안전합니다 [8][
22].




