BenchLM에 공개된 세 모델만 놓고 보면 Claude Opus 4.7의 점수가 가장 높습니다. BenchLM은 Claude Opus 4.7을 provisional leaderboard 110개 모델 중 2위, overall score 97/100으로 표시하고, verified leaderboard에서도 14개 모델 중 2위라고 설명합니다 .
GPT-5.5는 BenchLM에서 provisional leaderboard 112개 모델 중 5위, overall score 89/100으로 제시되며, verified leaderboard에서는 16개 모델 중 2위로 표시됩니다 . Kimi 2.6은 BenchLM provisional leaderboard에서 115개 모델 중 12위, overall score 85/100이며, 27개의 공개 벤치마크 점수가 표시된다고 설명됩니다
.
다만 이 순서는 BenchLM에 한정된 참고점입니다. 각 페이지의 비교 표본 수가 110, 112, 115처럼 다르고, 여기서 확인한 자료만으로는 DeepSeek V4의 동등한 BenchLM 점수를 함께 놓고 비교할 수 없습니다 .
코딩 벤치마크에서는 Claude Opus 4.7의 공개 수치가 가장 직접적입니다. MindStudio는 Claude Opus 4.7이 SWE-bench Verified에서 82.4%를 기록했고, Opus 4.6 대비 약 11점 상승했다고 설명합니다 . 같은 자료는 Claude Opus 4.7의 FinanceBench 성능을 82.7%로 제시하고, 비전 관련 개선 중 MathVista가 9.5점 상승했다고 설명합니다
.
GPT-5.5의 경우, 제공된 OpenAI 소개 자료에서 전면에 제시된 수치는 SWE-bench가 아니라 GDPval, OSWorld-Verified, Tau2-bench Telecom입니다 . Kimi K2.6에 대해서는 GMI Cloud 자료가 SWE-Bench Pro 상위 성과를 주장하지만, 제공된 스니펫만으로 정확한 점수와 네 모델 동일 조건 비교를 확정하기는 어렵습니다
. DeepSeek V4는 이 자료 묶음에서 코딩보다 추론·수학 관련 수치가 더 구체적으로 확인됩니다
.
업무형·에이전트형 평가에서는 GPT-5.5의 공식 수치가 가장 구체적으로 공개되어 있습니다. OpenAI는 GPT-5.5가 GDPval에서 84.9%를 기록했다고 밝혔고, GDPval은 44개 직업군의 명세화된 지식 업무 산출 능력을 테스트한다고 설명합니다 . OpenAI는 또한 GPT-5.5가 실제 컴퓨터 환경 조작을 평가하는 OSWorld-Verified에서 78.7%, 복잡한 고객지원 워크플로를 테스트하는 Tau2-bench Telecom에서 98.0%를 기록했다고 제시합니다
.
Claude Opus 4.7에도 에이전트형 작업 자료가 있습니다. Anthropic은 내부 research-agent benchmark에서 Claude Opus 4.7이 6개 모듈 전체 점수 0.715로 공동 최고 점수를 기록했고, General Finance 모듈에서 Opus 4.6의 0.767보다 높은 0.813을 기록했다고 설명합니다 .
다만 GPT-5.5의 GDPval·OSWorld-Verified·Tau2-bench와 Claude Opus 4.7의 Anthropic 내부 research-agent benchmark는 평가 체계가 다릅니다 . GPT-5.5의 84.9%와 Claude의 0.715를 같은 척도처럼 직접 비교해서는 안 됩니다
.
DeepSeek V4의 구체적인 공개 수치는 V4-Pro-Max 설정에서 확인됩니다. DataCamp는 DeepSeek 내부 결과에 따르면 DeepSeek V4-Pro-Max가 MMLU-Pro 87.5%, GPQA Diamond 90.1%, GSM8K 92.6%를 기록했다고 설명합니다 . 이 수치는 유용한 참고점이지만, DataCamp가 내부 결과 기반이라고 밝힌 만큼 독립 리더보드와 같은 무게로 해석하기는 어렵습니다
.
Hugging Face의 DeepSeek-V4-Pro 자료에는 DeepSeek V4-Pro-Max와 K2.6 Thinking이 같은 표에 일부 함께 표시됩니다 . 해당 표의 지식·추론 항목은 다음과 같습니다
.
| 벤치마크 | DeepSeek V4-Pro-Max | Kimi K2.6 Thinking | 표 기준 우위 |
|---|---|---|---|
| MMLU-Pro | 87.5 | 87.1 | DeepSeek V4-Pro-Max |
| SimpleQA-Verified | 57.9 | 36.9 | DeepSeek V4-Pro-Max |
| Chinese-SimpleQA | 84.4 | 75.9 | DeepSeek V4-Pro-Max |
| GPQA Diamond | 90.1 | 90.5 | Kimi K2.6 Thinking |
| HLE | 37.7 | 36.4 | DeepSeek V4-Pro-Max |
이 표만 보면 DeepSeek V4-Pro-Max는 MMLU-Pro, SimpleQA-Verified, Chinese-SimpleQA, HLE에서 Kimi K2.6 Thinking보다 높고, Kimi K2.6 Thinking은 GPQA Diamond에서 근소하게 높습니다 . 그러나 같은 표의 비교 대상은 Claude Opus 4.7과 GPT-5.5가 아니라 Opus-4.6 Max, GPT-5.4 xHigh 등 다른 모델이므로, 네 모델 전체 순위를 결론내리기에는 부족합니다
.
Vals AI 자료에서는 GPT-5.5가 Accuracy 67.76% ± 1.79, Latency 409.09s, Context Window 1M으로 표시됩니다 . Kimi K2.6은 Accuracy 63.94% ± 1.97, Latency 373.57s, Cost/Test $0.21로 표시됩니다
. 두 Vals 기록만 비교하면 정확도 표시값은 GPT-5.5가 높고, 지연시간 표시값은 Kimi K2.6이 더 낮습니다
.
Kimi K2.6은 오픈 웨이트 계열을 보는 사용자에게도 별도 의미가 있습니다. Artificial Analysis는 Moonshot의 Kimi K2.6을 leading open weights model로 소개하며, Artificial Analysis Intelligence Index 54와 전체 4위라는 순위를 제시합니다 . 다만 Artificial Analysis, Vals, BenchLM은 서로 다른 평가 체계이므로, Kimi의 54점, Vals 정확도 63.94%, BenchLM 85/100을 하나의 점수처럼 합산하면 안 됩니다
.
공개 근거만 놓고 보면 Claude Opus 4.7은 코딩과 BenchLM 종합 리더보드, GPT-5.5는 업무형 에이전트와 컴퓨터 사용 평가, DeepSeek V4-Pro-Max는 추론·수학 관련 공개 수치, Kimi K2.6은 오픈 웨이트와 비용·지연시간 지표에서 각각 강점이 확인됩니다 .
하지만 네 모델의 완전한 1위부터 4위까지를 확정하기에는 공개 자료가 아직 고르지 않습니다. 실제 도입에서는 이 벤치마크 표를 출발점으로 삼되, 코딩, 금융 문서 분석, 브라우저·컴퓨터 제어, 고객지원, 장기 에이전트 실행처럼 자신의 업무와 같은 조건에서 별도 평가를 병행하는 것이 가장 안전합니다 .
Comments
0 comments