studioglobal
인기 있는 발견
보고서게시됨16 소스

Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: 2026 벤치마크 비교

공개 자료만으로 네 모델의 절대 1 4위를 확정할 수는 없습니다. 확인 가능한 핵심 수치는 Claude Opus 4.7의 BenchLM 97/100·SWE bench Verified 82.4%, GPT 5.5의 GDPval 84.9%처럼 평가축이 달라 직접 합산하면 안 됩니다 [2][3][29].

16K0
네 개의 최신 AI 모델을 벤치마크 차트와 비교하는 추상적 에디토리얼 이미지
Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: 2026 벤치마크 비교Claude Opus 4.7, GPT-5.5, DeepSeek V4, Kimi K2.6의 2026 벤치마크 비교를 표현한 AI 생성 이미지.
AI 프롬프트

Create a landscape editorial hero image for this Studio Global article: Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: 2026 벤치마크 비교. Article summary: 네 모델의 ‘절대 1위’를 확정하기는 어렵습니다. 공개 자료 기준 Claude Opus 4.7은 BenchLM 97/100·SWE bench Verified 82.4%가 가장 뚜렷하고, GPT 5.5는 GDPval 84.9% 등 업무형 공식 수치가 강하지만 평가 체계가 달라 직접 합산할 수 없습니다 [2][3][29].. Topic tags: ai, ai benchmarks, llm, openai, anthropic. Reference image context from search candidates: Reference image 1: visual subject "# Kimi K2.6 vs Claude Opus 4.7: Which Model Wins in 2026? Kimi K2.6 ties Opus 4.7 on multilingual SWE-bench but trails by 7 points on Verified — at 1/5th the cost. Two weeks after" source context "Kimi K2.6 vs Claude Opus 4.7 (2026): Benchmarks, Cost, When Each Wins" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www

openai.com

공개 벤치마크를 모아보면 네 모델의 승자는 하나로 정리되지 않습니다. Vals AI 목록에는 DeepSeek V4와 GPT-5.5가 2026년 4월 23일, Kimi K2.6이 4월 20일, Claude Opus 4.7이 4월 16일 항목으로 표시되지만, 제공된 공개 자료는 네 모델을 동일 벤치마크·동일 설정·동일 비용 조건으로 나란히 평가하지 않습니다 [19]. 따라서 이 비교의 핵심은 절대 순위가 아니라, 어떤 지표에서 어떤 모델의 강점이 확인되는지를 구분하는 것입니다.

비교 전에: 왜 단일 순위가 어려운가

2026년 AI 벤치마크는 하나의 시험이 아니라 여러 능력의 묶음에 가깝습니다. Kili Technology는 MMLU, MMLU-Pro, GPQA Diamond, SWE-Bench, Terminal-Bench, GAIA, WebArena, GDPval, 안전성 평가가 서로 다른 능력을 측정한다고 설명합니다 [8]. Stanford HAI의 AI Index도 기술 성능을 MMLU, MATH, GPQA Diamond, MMMU, OSWorld, AIME, SWE-bench Verified 등 별도 축으로 나눠 다룹니다 [13].

특히 MMLU 같은 일반 지식 평가는 상위 모델 간 변별력이 약해졌다는 지적이 있습니다. Nanonets는 MMLU가 5-shot 방식으로 계산되며, 2026년에는 상위 모델들이 88% 이상 구간에 몰려 모델 간 차이를 가르기 어렵다고 설명합니다 [22]. 그래서 모델을 고를 때는 종합 점수 하나보다 코딩, 지식 업무, 과학 추론, 컴퓨터 사용, 비용 같은 실제 사용 목적을 먼저 정해야 합니다 [8][22].

한눈에 보는 공개 벤치마크 표

모델공개 자료에서 확인되는 주요 수치강점으로 읽을 수 있는 영역비교 시 주의점
Claude Opus 4.7BenchLM 97/100, provisional 2위/110; SWE-bench Verified 82.4%; FinanceBench 82.7%; MathVista 9.5점 상승 [2][3]코딩, 종합 리더보드, 금융 문서 분석, 비전 수학 추론Anthropic의 research-agent benchmark 0.715는 내부 평가라 GPT-5.5의 GDPval 등과 직접 비교하기 어렵습니다 [7][29].
GPT-5.5BenchLM 89/100, provisional 5위/112; GDPval 84.9%; OSWorld-Verified 78.7%; Tau2-bench Telecom 98.0%; Vals Accuracy 67.76% ± 1.79 [28][29][31]지식 업무, 컴퓨터 사용, 고객지원 워크플로, 에이전트형 작업OpenAI 공식 발표, BenchLM, Vals Index는 서로 다른 평가 체계입니다 [28][29][31].
DeepSeek V4 / V4-Pro-MaxVals AI 목록의 2026년 4월 23일 항목; V4-Pro-Max MMLU-Pro 87.5%, GPQA Diamond 90.1%, GSM8K 92.6% [15][19]과학 QA, 수학, 고난도 추론 후보DataCamp는 해당 수치를 DeepSeek 내부 결과 기반으로 소개하므로 독립 검증 점수와 구분해야 합니다 [15].
Kimi K2.6BenchLM 85/100, provisional 12위/115; Vals Accuracy 63.94% ± 1.97, Latency 373.57s, Cost/Test $0.21; Artificial Analysis Intelligence Index 54, 전체 4위 [36][37][39]오픈 웨이트 계열, 비용·지연시간, 운영 효율출처에 따라 Kimi 2.6, Kimi K2.6, K2.6 Thinking 표기가 섞여 있어 같은 설정인지 확인해야 합니다 [37][39].

종합 리더보드: BenchLM 기준으로는 Claude가 앞선다

BenchLM에 공개된 세 모델만 놓고 보면 Claude Opus 4.7의 점수가 가장 높습니다. BenchLM은 Claude Opus 4.7을 provisional leaderboard 110개 모델 중 2위, overall score 97/100으로 표시하고, verified leaderboard에서도 14개 모델 중 2위라고 설명합니다 [3].

GPT-5.5는 BenchLM에서 provisional leaderboard 112개 모델 중 5위, overall score 89/100으로 제시되며, verified leaderboard에서는 16개 모델 중 2위로 표시됩니다 [28]. Kimi 2.6은 BenchLM provisional leaderboard에서 115개 모델 중 12위, overall score 85/100이며, 27개의 공개 벤치마크 점수가 표시된다고 설명됩니다 [37].

다만 이 순서는 BenchLM에 한정된 참고점입니다. 각 페이지의 비교 표본 수가 110, 112, 115처럼 다르고, 여기서 확인한 자료만으로는 DeepSeek V4의 동등한 BenchLM 점수를 함께 놓고 비교할 수 없습니다 [3][28][37].

코딩: Claude Opus 4.7의 SWE-bench Verified 수치가 가장 명확하다

코딩 벤치마크에서는 Claude Opus 4.7의 공개 수치가 가장 직접적입니다. MindStudio는 Claude Opus 4.7이 SWE-bench Verified에서 82.4%를 기록했고, Opus 4.6 대비 약 11점 상승했다고 설명합니다 [2]. 같은 자료는 Claude Opus 4.7의 FinanceBench 성능을 82.7%로 제시하고, 비전 관련 개선 중 MathVista가 9.5점 상승했다고 설명합니다 [2].

GPT-5.5의 경우, 제공된 OpenAI 소개 자료에서 전면에 제시된 수치는 SWE-bench가 아니라 GDPval, OSWorld-Verified, Tau2-bench Telecom입니다 [29]. Kimi K2.6에 대해서는 GMI Cloud 자료가 SWE-Bench Pro 상위 성과를 주장하지만, 제공된 스니펫만으로 정확한 점수와 네 모델 동일 조건 비교를 확정하기는 어렵습니다 [35]. DeepSeek V4는 이 자료 묶음에서 코딩보다 추론·수학 관련 수치가 더 구체적으로 확인됩니다 [15][16].

업무형 에이전트: GPT-5.5는 공식 지표가 구체적이다

업무형·에이전트형 평가에서는 GPT-5.5의 공식 수치가 가장 구체적으로 공개되어 있습니다. OpenAI는 GPT-5.5가 GDPval에서 84.9%를 기록했다고 밝혔고, GDPval은 44개 직업군의 명세화된 지식 업무 산출 능력을 테스트한다고 설명합니다 [29]. OpenAI는 또한 GPT-5.5가 실제 컴퓨터 환경 조작을 평가하는 OSWorld-Verified에서 78.7%, 복잡한 고객지원 워크플로를 테스트하는 Tau2-bench Telecom에서 98.0%를 기록했다고 제시합니다 [29].

Claude Opus 4.7에도 에이전트형 작업 자료가 있습니다. Anthropic은 내부 research-agent benchmark에서 Claude Opus 4.7이 6개 모듈 전체 점수 0.715로 공동 최고 점수를 기록했고, General Finance 모듈에서 Opus 4.6의 0.767보다 높은 0.813을 기록했다고 설명합니다 [7].

다만 GPT-5.5의 GDPval·OSWorld-Verified·Tau2-bench와 Claude Opus 4.7의 Anthropic 내부 research-agent benchmark는 평가 체계가 다릅니다 [7][29]. GPT-5.5의 84.9%와 Claude의 0.715를 같은 척도처럼 직접 비교해서는 안 됩니다 [7][29].

추론·지식: DeepSeek V4-Pro-Max와 Kimi K2.6 Thinking은 일부 표에서 비교된다

DeepSeek V4의 구체적인 공개 수치는 V4-Pro-Max 설정에서 확인됩니다. DataCamp는 DeepSeek 내부 결과에 따르면 DeepSeek V4-Pro-Max가 MMLU-Pro 87.5%, GPQA Diamond 90.1%, GSM8K 92.6%를 기록했다고 설명합니다 [15]. 이 수치는 유용한 참고점이지만, DataCamp가 내부 결과 기반이라고 밝힌 만큼 독립 리더보드와 같은 무게로 해석하기는 어렵습니다 [15].

Hugging Face의 DeepSeek-V4-Pro 자료에는 DeepSeek V4-Pro-Max와 K2.6 Thinking이 같은 표에 일부 함께 표시됩니다 [16]. 해당 표의 지식·추론 항목은 다음과 같습니다 [16].

벤치마크DeepSeek V4-Pro-MaxKimi K2.6 Thinking표 기준 우위
MMLU-Pro87.587.1DeepSeek V4-Pro-Max
SimpleQA-Verified57.936.9DeepSeek V4-Pro-Max
Chinese-SimpleQA84.475.9DeepSeek V4-Pro-Max
GPQA Diamond90.190.5Kimi K2.6 Thinking
HLE37.736.4DeepSeek V4-Pro-Max

이 표만 보면 DeepSeek V4-Pro-Max는 MMLU-Pro, SimpleQA-Verified, Chinese-SimpleQA, HLE에서 Kimi K2.6 Thinking보다 높고, Kimi K2.6 Thinking은 GPQA Diamond에서 근소하게 높습니다 [16]. 그러나 같은 표의 비교 대상은 Claude Opus 4.7과 GPT-5.5가 아니라 Opus-4.6 Max, GPT-5.4 xHigh 등 다른 모델이므로, 네 모델 전체 순위를 결론내리기에는 부족합니다 [16].

비용·지연시간: Kimi K2.6은 운영 지표가 눈에 띈다

Vals AI 자료에서는 GPT-5.5가 Accuracy 67.76% ± 1.79, Latency 409.09s, Context Window 1M으로 표시됩니다 [31]. Kimi K2.6은 Accuracy 63.94% ± 1.97, Latency 373.57s, Cost/Test $0.21로 표시됩니다 [39]. 두 Vals 기록만 비교하면 정확도 표시값은 GPT-5.5가 높고, 지연시간 표시값은 Kimi K2.6이 더 낮습니다 [31][39].

Kimi K2.6은 오픈 웨이트 계열을 보는 사용자에게도 별도 의미가 있습니다. Artificial Analysis는 Moonshot의 Kimi K2.6을 leading open weights model로 소개하며, Artificial Analysis Intelligence Index 54와 전체 4위라는 순위를 제시합니다 [36]. 다만 Artificial Analysis, Vals, BenchLM은 서로 다른 평가 체계이므로, Kimi의 54점, Vals 정확도 63.94%, BenchLM 85/100을 하나의 점수처럼 합산하면 안 됩니다 [36][37][39].

실무 선택 가이드

  • 코딩 자동 수정과 소프트웨어 엔지니어링이 핵심이라면 Claude Opus 4.7부터 검토할 만합니다. 현재 공개 근거에서는 SWE-bench Verified 82.4%와 BenchLM 97/100이라는 수치가 가장 선명합니다 [2][3].
  • 지식 업무 산출, 컴퓨터 사용, 고객지원 워크플로가 중요하다면 GPT-5.5의 GDPval 84.9%, OSWorld-Verified 78.7%, Tau2-bench Telecom 98.0%가 가장 직접적인 공식 지표입니다 [29].
  • 과학 QA, 수학, 고난도 추론 후보를 비교한다면 DeepSeek V4-Pro-Max와 Kimi K2.6 Thinking의 MMLU-Pro·GPQA Diamond·HLE 표를 함께 볼 수 있습니다 [15][16].
  • 오픈 웨이트와 운영 비용을 중시한다면 Kimi K2.6의 Artificial Analysis open weights 평가와 Vals의 $0.21/test, 373.57s 지연시간 지표가 참고점입니다 [36][39].
  • 상위 모델 비교에서는 MMLU 하나에 의존하지 않는 편이 좋습니다. 2026년에는 상위 모델들이 MMLU 고득점 구간에 몰려 변별력이 낮아졌다는 지적이 있습니다 [22].

최종 판단

공개 근거만 놓고 보면 Claude Opus 4.7은 코딩과 BenchLM 종합 리더보드, GPT-5.5는 업무형 에이전트와 컴퓨터 사용 평가, DeepSeek V4-Pro-Max는 추론·수학 관련 공개 수치, Kimi K2.6은 오픈 웨이트와 비용·지연시간 지표에서 각각 강점이 확인됩니다 [2][3][15][16][28][29][36][37][39].

하지만 네 모델의 완전한 1위부터 4위까지를 확정하기에는 공개 자료가 아직 고르지 않습니다. 실제 도입에서는 이 벤치마크 표를 출발점으로 삼되, 코딩, 금융 문서 분석, 브라우저·컴퓨터 제어, 고객지원, 장기 에이전트 실행처럼 자신의 업무와 같은 조건에서 별도 평가를 병행하는 것이 가장 안전합니다 [8][22].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

주요 시사점

  • 공개 자료만으로 네 모델의 절대 1 4위를 확정할 수는 없습니다. 확인 가능한 핵심 수치는 Claude Opus 4.7의 BenchLM 97/100·SWE bench Verified 82.4%, GPT 5.5의 GDPval 84.9%처럼 평가축이 달라 직접 합산하면 안 됩니다 [2][3][29].
  • DeepSeek V4는 V4 Pro Max 설정에서 MMLU Pro 87.5%·GPQA Diamond 90.1%가 제시되지만 일부는 내부 결과 기반이고, Kimi K2.6은 BenchLM 85/100 및 Vals Accuracy 63.94%±1.97·$0.21/test가 확인됩니다 [15][37][39].
  • 실무 선택은 단일 벤치마크보다 과제별로 나누는 편이 안전합니다. 코딩은 Claude, 지식 업무·컴퓨터 사용은 GPT 5.5, 추론 후보는 DeepSeek/Kimi, 비용·오픈 웨이트는 Kimi 지표를 우선 확인할 만합니다 [8][16][29][36].

사람들은 또한 묻습니다.

"Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: 2026 벤치마크 비교"에 대한 짧은 대답은 무엇입니까?

공개 자료만으로 네 모델의 절대 1 4위를 확정할 수는 없습니다. 확인 가능한 핵심 수치는 Claude Opus 4.7의 BenchLM 97/100·SWE bench Verified 82.4%, GPT 5.5의 GDPval 84.9%처럼 평가축이 달라 직접 합산하면 안 됩니다 [2][3][29].

먼저 검증할 핵심 포인트는 무엇인가요?

공개 자료만으로 네 모델의 절대 1 4위를 확정할 수는 없습니다. 확인 가능한 핵심 수치는 Claude Opus 4.7의 BenchLM 97/100·SWE bench Verified 82.4%, GPT 5.5의 GDPval 84.9%처럼 평가축이 달라 직접 합산하면 안 됩니다 [2][3][29]. DeepSeek V4는 V4 Pro Max 설정에서 MMLU Pro 87.5%·GPQA Diamond 90.1%가 제시되지만 일부는 내부 결과 기반이고, Kimi K2.6은 BenchLM 85/100 및 Vals Accuracy 63.94%±1.97·$0.21/test가 확인됩니다 [15][37][39].

실무에서는 다음으로 무엇을 해야 합니까?

실무 선택은 단일 벤치마크보다 과제별로 나누는 편이 안전합니다. 코딩은 Claude, 지식 업무·컴퓨터 사용은 GPT 5.5, 추론 후보는 DeepSeek/Kimi, 비용·오픈 웨이트는 Kimi 지표를 우선 확인할 만합니다 [8][16][29][36].

다음에는 어떤 관련 주제를 탐구해야 할까요?

다른 각도와 추가 인용을 보려면 "Claude Opus 4.7·GPT-5.5·DeepSeek V4·Kimi K2.6 벤치마크 비교: 2026년 판정"으로 계속하세요.

관련 페이지 열기

이것을 무엇과 비교해야 합니까?

"DeepSeek V4 엔지니어링 해설: 100만 토큰, MoE, API 이전 체크포인트"에 대해 이 답변을 대조 확인하세요.

관련 페이지 열기

연구를 계속하세요

연구 대화

당신

연구문제

Claude Opus 4.7, GPT-5.5, DeepSeek V4, Kimi K2.6의 벤치마크를 조사하고 가능한 한 종합적으로 비교해 주세요.

Studio Global AI40 소스

인용 답변

제공된 근거만으로는 네 모델을 동등한 수준으로 “종합 벤치마크 비교”하기에는 자료가 크게 부족합니다. 확인 가능한 정량 벤치마크는 사실상 Claude Opus 4.7에 집중되어 있고, GPT-5.5·DeepSeek V4·Kimi K2.6은 제공 근거 안에서 직접 비교 가능한 공식 점수나 일관된 벤치마크 결과가 없습니다. 따라서 아래 비교는 “확인 가능한 것”과 “증거 부족”을 명확히 나누어 정리합니다.

Key findings

  • Claude Opus 4.7은 제공된 자료 중 유일하게 구체적인 벤치마크 수치가 확인되는 모델입니다. SWE-bench Verified에서 82.4%를 기록했고, 이는 Opus 4.6 대비 약 11점 상승한 것으로 제시됩니다 [6].

  • Claude Opus 4.7은 BenchLM 기준 provisional leaderboard에서 110개 모델 중 2위, overall score 97/100으로 제시되며, verified leaderboard에서도 14개 모델 중 2위로 언급됩니다 [7].

  • Claude Opus 4.7은 비전 관련 개선 폭이 컸고, MathVista가 9.5점 상승했다는 자료가 있습니다 [6].

  • Kimi K2.6은 Vals AI의 모델 목록에서 Moonshot AI 모델로 확인되며, 제공된 스니펫에는 2026년 4월 20일 항목으로 표시됩니다 [5]. 다만 이 근거에는 Kimi K2.6의 실제 벤치마크 점수가 포함되어 있지 않습니다 [5].

  • Claude Opus 4.7 역시 Vals AI 목록에서 Anthropic 모델로 확인되며, 제공된 스니펫에는 2026년 4월 16일 항목으로 표시됩니다 [5].

  • GPT-5.5에 대해서는 제공된 근거 안에 직접적인 벤치마크 점수, 공식 발표, 리더보드 결과가 없습니다. Insufficient evidence.

  • DeepSeek V4에 대해서는 제공된 근거 중 Reddit 스니펫이 있으나, 해당 스니펫은 로컬 호스팅과 운영상 조언에 가까우며 비교 가능한 벤치마크 수치를 제공하지 않습니다 [40]. Insufficient evidence.

비교 표

모델확인 가능한 벤치마크 / 순위강점으로 볼 수 있는 영역증거 수준
Claude Opus 4.7SWE-bench Verified 82.4% [6]; BenchLM provisional 2/110, 97/100 [7]; verified 2/14 [7]코딩, 비전 수학 추론, 종합 리더보드 성능 [6][7]상대적으로 높음
GPT-5.5제공 근거 내 직접 점수 없음판단 불가Insufficient evidence
DeepSeek V4제공 근거 내 직접 점수 없음판단 불가Insufficient evidence
Kimi K2.6모델 목록 및 날짜 항목은 확인되나 점수 없음 [5]판단 불가낮음

벤치마크별 해석

  • SWE-bench Verified 기준으로는 Claude Opus 4.7만 비교 가능한 수치가 있습니다. Claude Opus 4.7의 82.4%는 제공 자료상 Opus 4.6 대비 약 11점 개선된 결과로 제시됩니다 [6].

  • 종합 리더보드 기준으로도 Claude Opus 4.7만 명확한 순위가 있습니다. BenchLM은 Claude Opus 4.7을 provisional leaderboard 110개 모델 중 2위, overall score 97/100으로 제시합니다 [7].

  • 비전·수학 영역에서는 Claude Opus 4.7의 MathVista 점수가 9.5점 상승했다는 자료가 있으나, GPT-5.5·DeepSeek V4·Kimi K2.6의 동등 지표가 제공되지 않아 상대 비교는 불가능합니다 [6].

  • 일반 지식·추론 벤치마크는 2026년 기준 MMLU, MMLU-Pro, GPQA Diamond, SWE-bench, Arena Elo 등이 주요 평가로 언급됩니다 [2]. 다만 MMLU는 상위 모델들이 이미 88% 이상을 기록해 2026년에는 변별력이 약하다는 지적이 있습니다 [3].

Evidence notes

  • Stanford HAI의 2026 AI Index 기술 성능 자료는 ImageNet, VQA, SuperGLUE, SQuAD 2.0 등 여러 벤치마크에서 AI 성능이 인간 성능과 비교되는 장기 추세를 다룹니다 [1]. 이는 개별 네 모델의 직접 비교 자료라기보다는 벤치마크 해석의 배경 자료에 가깝습니다 [1].

  • Kili Technology 자료는 2026년 주요 벤치마크로 MMLU, MMLU-Pro, GPQA Diamond, SWE-bench, Arena Elo 등을 언급하면서 벤치마크만으로 모델 성능을 충분히 설명하기 어렵다고 설명합니다 [2].

  • Nanonets 자료는 MMLU가 5-shot 방식으로 계산된다는 점과, 상위 모델들이 88% 이상을 기록하면서 2026년에는 변별력이 낮아졌다는 점을 지적합니다 [3].

  • DeepSeek V4 관련 제공 근거는 Reddit 스니펫뿐이며, 신뢰도 높은 공식·학술·독립 리더보드 근거가 아닙니다 [40].

Limitations / uncertainty

  • GPT-5.5, DeepSeek V4, Kimi K2.6에 대해 제공된 근거만으로는 SWE-bench, GPQA, MMLU-Pro, AIME, MathVista, Arena Elo 같은 동일 벤치마크 축에서 점수를 비교할 수 없습니다. Insufficient evidence.

  • Claude Opus 4.7의 수치도 출처별로 평가 방법과 리더보드 산식이 다를 수 있으므로, BenchLM의 97/100 및 순위와 SWE-bench Verified 82.4%는 서로 다른 평가 체계의 결과로 해석해야 합니다 [6][7].

  • Kimi K2.6은 모델 존재와 날짜 항목은 확인되지만, 제공 근거 안에는 성능 점수가 없습니다 [5]. Insufficient evidence.

  • DeepSeek V4는 제공 근거 안에서 벤치마크 수치가 확인되지 않습니다 [40]. Insufficient evidence.

Summary

현재 제공된 증거만 놓고 보면 Claude Opus 4.7이 네 모델 중 유일하게 구체적이고 비교 가능한 성능 자료를 갖고 있습니다. Claude Opus 4.7은 SWE-bench Verified 82.4%, BenchLM provisional 2위/110개 모델, overall score 97/100으로 제시되어 코딩과 종합 평가에서 매우 강한 모델로 볼 수 있습니다 [6][7].

반면 GPT-5.5, DeepSeek V4, Kimi K2.6은 제공 근거 안에서 직접 벤치마크 점수가 없으므로 Claude Opus 4.7보다 높다거나 낮다고 결론낼 수 없습니다. Insufficient evidence.

출처

  • [2] Claude Opus 4.7 Benchmark Breakdown: Vision, Coding, ...mindstudio.ai

    Claude Opus 4.7 posted 82.4% on SWE-bench Verified, up roughly 11 points from Opus 4.6 — the most meaningful coding benchmark available. Vision improvements were the largest percentage gains: MathVista jumped 9.5 points, enabling reliable visual math reason...

  • [3] Claude Opus 4.7 Benchmarks 2026: Scores, Rankings & Performancebenchlm.ai

    Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools Claude Opus 4.7 According to BenchLM.ai, Claude Opus 4.7 ranks 2 out of 110 models on the provisional leaderboard with an overall score of 97/100. It also ranks 2 out of 14 on t...

  • [7] Introducing Claude Opus 4.7 - Anthropicanthropic.com

    Image 7: logo Based on our internal research-agent benchmark, Claude Opus 4.7 has the strongest efficiency baseline we’ve seen for multi-step work. It tied for the top overall score across our six modules at 0.715 and delivered the most consistent long-cont...

  • [8] AI Benchmarks 2026: Top Evaluations and Their Limitskili-technology.com

    Image 2: Kili Technology.png) Kili Technology · Apr 13, 2026 Image 3: AI Benchmarks Guide: The Top Evaluations in 2026 and Why They're Not Enough Table of contents Introduction What Are the Most Important AI Benchmarks in 2026? General knowledge and reasoni...

  • [13] [PDF] Technical Performance - Stanford HAIhai.stanford.edu

    Technical Performance Benchmarks vs. Human Performance 76 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024 2025 0% 20% 40% 60% 80% 100% 120% Image classiLJcation (ImageNet Top-5) Visual reasoning (VQA) English language understanding (SuperGLU...

  • [15] DeepSeek V4: Features, Benchmarks, and Comparisonsdatacamp.com

    DeepSeek V4 Benchmarks According to DeepSeek’s internal results, DeepSeek V4 demonstrates impressive performance, particularly when pushed to its maximum reasoning limits (DeepSeek-V4-Pro-Max). According to the official release notes, here is how the model...

  • [16] deepseek-ai/DeepSeek-V4-Pro - Hugging Facehuggingface.co

    Opus-4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High K2.6 Thinking GLM-5.1 Thinking DS-V4-Pro Max :---: :---: :---: Knowledge & Reasoning MMLU-Pro (EM) 89.1 87.5 91.0 87.1 86.0 87.5 SimpleQA-Verified (Pass@1) 46.2 45.3 75.6 36.9 38.1 57.9 Chinese-SimpleQA (Pass@1...

  • [19] DeepSeek V4 - Vals AIvals.ai

    Benchmarks Models Comparison Model Guide App Reports News About Benchmarks Models Comparison Model Guide App Reports About Release date Models 4/23/2026 DeepSeek DeepSeek V4 4/23/2026 OpenAI GPT 5.5 4/20/2026 Moonshot AI Kimi K2.6 4/16/2026 Anthropic Claude...

  • [22] AI Benchmarks Explained: GPQA, SWE-bench & Arena Elonanonets.com

    How the score is calculated: Before each question, the model is shown 5 example questions with correct answers, this is called 5-shot prompting. Then comes the real question. Score = correct answers ÷ total questions, expressed as a percentage. Why it's nea...

  • [28] GPT-5.5 Benchmarks 2026: Scores, Rankings & Performancebenchlm.ai

    Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools GPT-5.5 According to BenchLM.ai, GPT-5.5 ranks 5 out of 112 models on the provisional leaderboard with an overall score of 89/100. It also ranks 2 out of 16 on the verified lead...

  • [29] Introducing GPT-5.5 - OpenAIopenai.com

    GPT‑5.5 reaches state-of-the-art performance across multiple benchmarks that reflect this kind of work. OnGDPval⁠⁠, which tests agents’ abilities to produce well-specified knowledge work across 44 occupations, GPT‑5.5 scores 84.9%. On OSWorld-Verified, whic...

  • [31] GPT 5.5 - Vals AIvals.ai

    2/17/2026 Anthropic Claude Sonnet 4.6 2/16/2026 Alibaba Qwen 3.5 Plus 2/12/2026 MiniMax MiniMax-M2.5 2/12/2026 MiniMax MiniMax-M2.5 2/11/2026 zAI GLM 5 2/5/2026 Anthropic Claude Opus 4.6 (Nonthinking) 2/5/2026 Anthropic Claude Opus 4.6 (Thinking) 1/26/2026...

  • [35] Kimi K2.6 on GMI Cloud: Architecture, Benchmarks & API Accessgmicloud.ai

    Kimi K2.6 tops SWE-Bench Pro and runs 300 parallel sub-agents on 4x H100S. Learn the full architecture, benchmark results, and how to run it ... 3 days ago

  • [36] Kimi K2.6: The new leading open weights model - Artificial Analysisartificialanalysis.ai

    Moonshot's Kimi K2.6 is the new leading open weights model. Kimi K2.6 lands at 4 on the Artificial Analysis Intelligence Index (54) behind ... 5 days ago

  • [37] Kimi 2.6 Benchmarks 2026: Scores, Rankings & Performancebenchlm.ai

    Kimi 2.6 by Moonshot AI scores 85/100 on BenchLM's provisional leaderboard ( 12 of 115) with 27 published benchmark scores currently shown ... 6 days ago

  • [39] Kimi K2.6 - Vals AIvals.ai

    Kimi K2.6. Release Date: 4/20/2026. Vals Index. Accuracy (Vals Index). 63.94% ± 1.97. Latency (Vals Index). 373.57s. Cost/Test (Vals Index). $0.21.