공개 자료만으로 네 모델의 절대 1 4위를 확정할 수는 없습니다. 확인 가능한 핵심 수치는 Claude Opus 4.7의 BenchLM 97/100·SWE bench Verified 82.4%, GPT 5.5의 GDPval 84.9%처럼 평가축이 달라 직접 합산하면 안 됩니다 [2][3][29].

Create a landscape editorial hero image for this Studio Global article: Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: 2026 벤치마크 비교. Article summary: 네 모델의 ‘절대 1위’를 확정하기는 어렵습니다. 공개 자료 기준 Claude Opus 4.7은 BenchLM 97/100·SWE bench Verified 82.4%가 가장 뚜렷하고, GPT 5.5는 GDPval 84.9% 등 업무형 공식 수치가 강하지만 평가 체계가 달라 직접 합산할 수 없습니다 [2][3][29].. Topic tags: ai, ai benchmarks, llm, openai, anthropic. Reference image context from search candidates: Reference image 1: visual subject "# Kimi K2.6 vs Claude Opus 4.7: Which Model Wins in 2026? Kimi K2.6 ties Opus 4.7 on multilingual SWE-bench but trails by 7 points on Verified — at 1/5th the cost. Two weeks after" source context "Kimi K2.6 vs Claude Opus 4.7 (2026): Benchmarks, Cost, When Each Wins" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI).  Kili Technology · Apr 13, 2026 Image 3: AI Benchmarks Guide: The Top Evaluations in 2026 and Why They're Not Enough Table of contents Introduction What Are the Most Important AI Benchmarks in 2026? General knowledge and reasoni...
| 모델 | 공개 자료에서 확인되는 주요 수치 | 강점으로 읽을 수 있는 영역 | 비교 시 주의점 |
|---|---|---|---|
| Claude Opus 4.7 | BenchLM 97/100, provisional 2위/110; SWE-bench Verified 82.4%; FinanceBench 82.7%; MathVista 9.5점 상승 [ | 코딩, 종합 리더보드, 금융 문서 분석, 비전 수학 추론 | Anthropic의 research-agent benchmark 0.715는 내부 평가라 GPT-5.5의 GDPval 등과 직접 비교하기 어렵습니다 [ |
| GPT-5.5 | BenchLM 89/100, provisional 5위/112; GDPval 84.9%; OSWorld-Verified 78.7%; Tau2-bench Telecom 98.0%; Vals Accuracy 67.76% ± 1.79 [ | 지식 업무, 컴퓨터 사용, 고객지원 워크플로, 에이전트형 작업 | OpenAI 공식 발표, BenchLM, Vals Index는 서로 다른 평가 체계입니다 [ |
| DeepSeek V4 / V4-Pro-Max | Vals AI 목록의 2026년 4월 23일 항목; V4-Pro-Max MMLU-Pro 87.5%, GPQA Diamond 90.1%, GSM8K 92.6% [ | 과학 QA, 수학, 고난도 추론 후보 | DataCamp는 해당 수치를 DeepSeek 내부 결과 기반으로 소개하므로 독립 검증 점수와 구분해야 합니다 [ |
| Kimi K2.6 | BenchLM 85/100, provisional 12위/115; Vals Accuracy 63.94% ± 1.97, Latency 373.57s, Cost/Test $0.21; Artificial Analysis Intelligence Index 54, 전체 4위 [ | 오픈 웨이트 계열, 비용·지연시간, 운영 효율 | 출처에 따라 Kimi 2.6, Kimi K2.6, K2.6 Thinking 표기가 섞여 있어 같은 설정인지 확인해야 합니다 [ |
BenchLM에 공개된 세 모델만 놓고 보면 Claude Opus 4.7의 점수가 가장 높습니다. BenchLM은 Claude Opus 4.7을 provisional leaderboard 110개 모델 중 2위, overall score 97/100으로 표시하고, verified leaderboard에서도 14개 모델 중 2위라고 설명합니다 [3].
GPT-5.5는 BenchLM에서 provisional leaderboard 112개 모델 중 5위, overall score 89/100으로 제시되며, verified leaderboard에서는 16개 모델 중 2위로 표시됩니다 [28]. Kimi 2.6은 BenchLM provisional leaderboard에서 115개 모델 중 12위, overall score 85/100이며, 27개의 공개 벤치마크 점수가 표시된다고 설명됩니다 [
37].
다만 이 순서는 BenchLM에 한정된 참고점입니다. 각 페이지의 비교 표본 수가 110, 112, 115처럼 다르고, 여기서 확인한 자료만으로는 DeepSeek V4의 동등한 BenchLM 점수를 함께 놓고 비교할 수 없습니다 [3][
28][
37].
코딩 벤치마크에서는 Claude Opus 4.7의 공개 수치가 가장 직접적입니다. MindStudio는 Claude Opus 4.7이 SWE-bench Verified에서 82.4%를 기록했고, Opus 4.6 대비 약 11점 상승했다고 설명합니다 [2]. 같은 자료는 Claude Opus 4.7의 FinanceBench 성능을 82.7%로 제시하고, 비전 관련 개선 중 MathVista가 9.5점 상승했다고 설명합니다 [
2].
GPT-5.5의 경우, 제공된 OpenAI 소개 자료에서 전면에 제시된 수치는 SWE-bench가 아니라 GDPval, OSWorld-Verified, Tau2-bench Telecom입니다 [29]. Kimi K2.6에 대해서는 GMI Cloud 자료가 SWE-Bench Pro 상위 성과를 주장하지만, 제공된 스니펫만으로 정확한 점수와 네 모델 동일 조건 비교를 확정하기는 어렵습니다 [
35]. DeepSeek V4는 이 자료 묶음에서 코딩보다 추론·수학 관련 수치가 더 구체적으로 확인됩니다 [
15][
16].
업무형·에이전트형 평가에서는 GPT-5.5의 공식 수치가 가장 구체적으로 공개되어 있습니다. OpenAI는 GPT-5.5가 GDPval에서 84.9%를 기록했다고 밝혔고, GDPval은 44개 직업군의 명세화된 지식 업무 산출 능력을 테스트한다고 설명합니다 [29]. OpenAI는 또한 GPT-5.5가 실제 컴퓨터 환경 조작을 평가하는 OSWorld-Verified에서 78.7%, 복잡한 고객지원 워크플로를 테스트하는 Tau2-bench Telecom에서 98.0%를 기록했다고 제시합니다 [
29].
Claude Opus 4.7에도 에이전트형 작업 자료가 있습니다. Anthropic은 내부 research-agent benchmark에서 Claude Opus 4.7이 6개 모듈 전체 점수 0.715로 공동 최고 점수를 기록했고, General Finance 모듈에서 Opus 4.6의 0.767보다 높은 0.813을 기록했다고 설명합니다 [7].
다만 GPT-5.5의 GDPval·OSWorld-Verified·Tau2-bench와 Claude Opus 4.7의 Anthropic 내부 research-agent benchmark는 평가 체계가 다릅니다 [7][
29]. GPT-5.5의 84.9%와 Claude의 0.715를 같은 척도처럼 직접 비교해서는 안 됩니다 [
7][
29].
DeepSeek V4의 구체적인 공개 수치는 V4-Pro-Max 설정에서 확인됩니다. DataCamp는 DeepSeek 내부 결과에 따르면 DeepSeek V4-Pro-Max가 MMLU-Pro 87.5%, GPQA Diamond 90.1%, GSM8K 92.6%를 기록했다고 설명합니다 [15]. 이 수치는 유용한 참고점이지만, DataCamp가 내부 결과 기반이라고 밝힌 만큼 독립 리더보드와 같은 무게로 해석하기는 어렵습니다 [
15].
Hugging Face의 DeepSeek-V4-Pro 자료에는 DeepSeek V4-Pro-Max와 K2.6 Thinking이 같은 표에 일부 함께 표시됩니다 [16]. 해당 표의 지식·추론 항목은 다음과 같습니다 [
16].
| 벤치마크 | DeepSeek V4-Pro-Max | Kimi K2.6 Thinking | 표 기준 우위 |
|---|---|---|---|
| MMLU-Pro | 87.5 | 87.1 | DeepSeek V4-Pro-Max |
| SimpleQA-Verified | 57.9 | 36.9 | DeepSeek V4-Pro-Max |
| Chinese-SimpleQA | 84.4 | 75.9 | DeepSeek V4-Pro-Max |
| GPQA Diamond | 90.1 | 90.5 | Kimi K2.6 Thinking |
| HLE | 37.7 | 36.4 | DeepSeek V4-Pro-Max |
이 표만 보면 DeepSeek V4-Pro-Max는 MMLU-Pro, SimpleQA-Verified, Chinese-SimpleQA, HLE에서 Kimi K2.6 Thinking보다 높고, Kimi K2.6 Thinking은 GPQA Diamond에서 근소하게 높습니다 [16]. 그러나 같은 표의 비교 대상은 Claude Opus 4.7과 GPT-5.5가 아니라 Opus-4.6 Max, GPT-5.4 xHigh 등 다른 모델이므로, 네 모델 전체 순위를 결론내리기에는 부족합니다 [
16].
Vals AI 자료에서는 GPT-5.5가 Accuracy 67.76% ± 1.79, Latency 409.09s, Context Window 1M으로 표시됩니다 [31]. Kimi K2.6은 Accuracy 63.94% ± 1.97, Latency 373.57s, Cost/Test $0.21로 표시됩니다 [
39]. 두 Vals 기록만 비교하면 정확도 표시값은 GPT-5.5가 높고, 지연시간 표시값은 Kimi K2.6이 더 낮습니다 [
31][
39].
Kimi K2.6은 오픈 웨이트 계열을 보는 사용자에게도 별도 의미가 있습니다. Artificial Analysis는 Moonshot의 Kimi K2.6을 leading open weights model로 소개하며, Artificial Analysis Intelligence Index 54와 전체 4위라는 순위를 제시합니다 [36]. 다만 Artificial Analysis, Vals, BenchLM은 서로 다른 평가 체계이므로, Kimi의 54점, Vals 정확도 63.94%, BenchLM 85/100을 하나의 점수처럼 합산하면 안 됩니다 [
36][
37][
39].
공개 근거만 놓고 보면 Claude Opus 4.7은 코딩과 BenchLM 종합 리더보드, GPT-5.5는 업무형 에이전트와 컴퓨터 사용 평가, DeepSeek V4-Pro-Max는 추론·수학 관련 공개 수치, Kimi K2.6은 오픈 웨이트와 비용·지연시간 지표에서 각각 강점이 확인됩니다 [2][
3][
15][
16][
28][
29][
36][
37][
39].
하지만 네 모델의 완전한 1위부터 4위까지를 확정하기에는 공개 자료가 아직 고르지 않습니다. 실제 도입에서는 이 벤치마크 표를 출발점으로 삼되, 코딩, 금융 문서 분석, 브라우저·컴퓨터 제어, 고객지원, 장기 에이전트 실행처럼 자신의 업무와 같은 조건에서 별도 평가를 병행하는 것이 가장 안전합니다 [8][
22].
Technical Performance Benchmarks vs. Human Performance 76 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024 2025 0% 20% 40% 60% 80% 100% 120% Image classiLJcation (ImageNet Top-5) Visual reasoning (VQA) English language understanding (SuperGLU...
DeepSeek V4 Benchmarks According to DeepSeek’s internal results, DeepSeek V4 demonstrates impressive performance, particularly when pushed to its maximum reasoning limits (DeepSeek-V4-Pro-Max). According to the official release notes, here is how the model...
Opus-4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High K2.6 Thinking GLM-5.1 Thinking DS-V4-Pro Max :---: :---: :---: Knowledge & Reasoning MMLU-Pro (EM) 89.1 87.5 91.0 87.1 86.0 87.5 SimpleQA-Verified (Pass@1) 46.2 45.3 75.6 36.9 38.1 57.9 Chinese-SimpleQA (Pass@1...
Benchmarks Models Comparison Model Guide App Reports News About Benchmarks Models Comparison Model Guide App Reports About Release date Models 4/23/2026 DeepSeek DeepSeek V4 4/23/2026 OpenAI GPT 5.5 4/20/2026 Moonshot AI Kimi K2.6 4/16/2026 Anthropic Claude...
How the score is calculated: Before each question, the model is shown 5 example questions with correct answers, this is called 5-shot prompting. Then comes the real question. Score = correct answers ÷ total questions, expressed as a percentage. Why it's nea...
Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools GPT-5.5 According to BenchLM.ai, GPT-5.5 ranks 5 out of 112 models on the provisional leaderboard with an overall score of 89/100. It also ranks 2 out of 16 on the verified lead...
GPT‑5.5 reaches state-of-the-art performance across multiple benchmarks that reflect this kind of work. OnGDPval, which tests agents’ abilities to produce well-specified knowledge work across 44 occupations, GPT‑5.5 scores 84.9%. On OSWorld-Verified, whic...
2/17/2026 Anthropic Claude Sonnet 4.6 2/16/2026 Alibaba Qwen 3.5 Plus 2/12/2026 MiniMax MiniMax-M2.5 2/12/2026 MiniMax MiniMax-M2.5 2/11/2026 zAI GLM 5 2/5/2026 Anthropic Claude Opus 4.6 (Nonthinking) 2/5/2026 Anthropic Claude Opus 4.6 (Thinking) 1/26/2026...
Kimi K2.6 tops SWE-Bench Pro and runs 300 parallel sub-agents on 4x H100S. Learn the full architecture, benchmark results, and how to run it ... 3 days ago
Moonshot's Kimi K2.6 is the new leading open weights model. Kimi K2.6 lands at 4 on the Artificial Analysis Intelligence Index (54) behind ... 5 days ago
Kimi 2.6 by Moonshot AI scores 85/100 on BenchLM's provisional leaderboard ( 12 of 115) with 27 published benchmark scores currently shown ... 6 days ago
Kimi K2.6. Release Date: 4/20/2026. Vals Index. Accuracy (Vals Index). 63.94% ± 1.97. Latency (Vals Index). 373.57s. Cost/Test (Vals Index). $0.21.