← Back to Trending

보고서게시됨3개월 전Last edited 2개월 전18 소스

GPT-5.5·Claude Opus 4.7·DeepSeek V4·Kimi K2.6, 벤치마크별 승자는?

공통 비교표에서는 Claude Opus 4.7이 GPQA Diamond 94.2%와 Humanity’s Last Exam 무도구 46.9%로 앞서고, GPT 5.5는 Terminal Bench 2.0 82.7%, GPT 5.5 Pro는 도구 사용 HLE 57.2%로 앞선다 [4][5]. DeepSeek V4 Pro Max는 공통 표에서 1위 항목은 없지만 경쟁권 점수를 냈고, 가장 큰 근거는 Opus 4.7·GPT 5.5 대비 약 6분의 1 비용이라는 비용 대비 성능 주장이다 [4].

Studio Global AI로 검색 및 팩트체크 인기 페이지 더 보기

Editorial illustration of GPT-5.5, Claude Opus 4.7, DeepSeek V4 and Kimi K2.6 compared across AI benchmark categories — GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmark Winners by CategoryAI-generated editorial illustration for comparing frontier model benchmark winners by category.
AI 프롬프트
Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmark Winners by Category. Article summary: No single model wins across the available 2026 benchmark evidence: Claude Opus 4.7 leads GPQA Diamond at 94.2% and Humanity’s Last Exam without tools at 46.9%, GPT 5.5 leads Terminal Bench 2.0 at 82.7%, and GPT 5.5 Pr.... Topic tags: ai, llm benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "Kimi K2.6 ties GPT-5.5 on SWE-bench Pro at 5–6x lower cost — with agent swarms, 13-hour autonomous runs, and open weights. In practice it is the first open-source model that can su" source context "Kimi K2.6: The Complete Developer Guide (2026) - Codersera" Reference image 2: visual subject "# Kimi K2.6 vs DeepSeek V4 vs GPT-5.5 vs Claude Opus 4.7: Which S
openai.com

벤치마크 표만 보면 승부가 간단해 보입니다. 하지만 실제로는 그렇지 않습니다. 이번 비교에서 가장 탄탄한 공통 표는 GPT-5.5, 일부 GPT-5.5 Pro, Claude Opus 4.7, DeepSeek-V4-Pro-Max를 같은 축에 놓습니다. 반면 Kimi K2.6은 주로 별도 비교표에 등장해 네 모델 전체를 같은 조건에서 줄 세우기 어렵습니다 .

따라서 핵심은 단일 1등을 찾는 것이 아닙니다. 과학 추론, 도구 사용, 터미널 작업, 소프트웨어 엔지니어링, 문서 분석처럼 실제 업무와 닮은 항목을 고른 뒤, 그 범주에서 강한 모델을 직접 재시험하는 방식이 더 안전합니다.

한눈에 보는 벤치마크별 승자

쓰임새	우선 후보	근거
과학 추론	Claude Opus 4.7	GPQA Diamond 94.2%로 GPT-5.5 93.6%, DeepSeek-V4-Pro-Max 90.1%를 앞선다 .
도구 없는 전문가형 추론	Claude Opus 4.7	Humanity’s Last Exam 무도구에서 46.9%로 GPT-5.5 Pro 43.1%, GPT-5.5 41.4%, DeepSeek-V4-Pro-Max 37.7%보다 높다 .
도구를 쓰는 시험형 추론	GPT-5.5 Pro	Humanity’s Last Exam 도구 사용에서 57.2%로 Claude Opus 4.7 54.7%를 앞선다 .

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

사람들은 또한 묻습니다.

"GPT-5.5·Claude Opus 4.7·DeepSeek V4·Kimi K2.6, 벤치마크별 승자는?"에 대한 짧은 대답은 무엇입니까?

공통 비교표에서는 Claude Opus 4.7이 GPQA Diamond 94.2%와 Humanity’s Last Exam 무도구 46.9%로 앞서고, GPT 5.5는 Terminal Bench 2.0 82.7%, GPT 5.5 Pro는 도구 사용 HLE 57.2%로 앞선다 [4][5].

먼저 검증할 핵심 포인트는 무엇인가요?

공통 비교표에서는 Claude Opus 4.7이 GPQA Diamond 94.2%와 Humanity’s Last Exam 무도구 46.9%로 앞서고, GPT 5.5는 Terminal Bench 2.0 82.7%, GPT 5.5 Pro는 도구 사용 HLE 57.2%로 앞선다 [4][5]. DeepSeek V4 Pro Max는 공통 표에서 1위 항목은 없지만 경쟁권 점수를 냈고, 가장 큰 근거는 Opus 4.7·GPT 5.5 대비 약 6분의 1 비용이라는 비용 대비 성능 주장이다 [4].

실무에서는 다음으로 무엇을 해야 합니까?

Kimi K2.6은 코딩·에이전트·브라우징 관련 참고 점수가 있지만, GPT 5.5·Claude Opus 4.7·DeepSeek V4 Pro Max와 같은 표에서 평가된 결과가 적어 직접 비교에는 한계가 있다 [4][11][13].

출처

벤치마크 / 능력	GPT-5.5	GPT-5.5 Pro	Claude Opus 4.7	DeepSeek V4 / V4 Pro Max	Kimi K2.6	가장 조심스럽게 읽은 결론
GPQA Diamond	93.6%	자료 없음	94.2%	DeepSeek-V4-Pro-Max 90.1%	자료 없음	공통 표에서는 Claude 우세 .
Humanity’s Last Exam, 무도구	41.4%	43.1%	46.9%	DeepSeek-V4-Pro-Max 37.7%	자료 없음	공통 표에서는 Claude 우세 .
Humanity’s Last Exam, 도구 사용	52.2%	57.2%	54.7%	DeepSeek-V4-Pro-Max 48.2%	별도 비교 54.0%	공통 표에서는 GPT-5.5 Pro 우세 .
Terminal-Bench 2.0	82.7%	자료 없음	69.4%	DeepSeek-V4-Pro-Max 67.9%	별도 비교 66.7%	GPT-5.5 우세 .
SWE-Bench Pro / SWE Pro	58.6%	자료 없음	64.3%	DeepSeek-V4-Pro-Max 55.4%	별도 비교 58.6%	공통 표에서는 Claude 우세 .
BrowseComp	84.4%	90.1%	79.3%	DeepSeek-V4-Pro-Max 83.4% ; 별도 비교 DeepSeek-V4 Pro 83.4%	별도 비교 83.2%	공통 표에서는 GPT-5.5 Pro 우세 .
MCP Atlas / MCPAtlas Public	75.3%	자료 없음	79.1%	DeepSeek-V4-Pro-Max 73.6%	자료 없음	Claude 우세 .
OSWorld-Verified	78.7%	자료 없음	78.0%	자료 없음	자료 없음	GPT-5.5가 Claude를 근소하게 앞선다 .
FrontierMath Tiers 1–3	51.7%	자료 없음	43.8%	자료 없음	자료 없음	GPT-5.5 우세 .
Vision & Document Arena	자료 없음	자료 없음	전체 1위로 보고	자료 없음	자료 없음	인용 자료상 Claude의 문서·비전 강점이 가장 분명하다 .
AIME 2026	자료 없음	자료 없음	자료 없음	인용된 Kimi 대 DeepSeek 표에서 값 없음	Thinking mode 96.4%	Kimi 참고 신호일 뿐 4자 순위는 아니다 .
APEX Agents	자료 없음	자료 없음	자료 없음	인용된 Kimi 대 DeepSeek 표에서 값 없음	Thinking mode 27.9%	Kimi 참고 신호일 뿐 4자 순위는 아니다 .
컨텍스트 창	자료 없음	자료 없음	한 Artificial Analysis 비교에서 1,000k 토큰	같은 비교에서 DeepSeek V4 Pro 1,000k 토큰	자료 없음	해당 비교에 한해 Claude와 DeepSeek V4 Pro가 같다 .