보고서게시됨3개월 전Last edited 2개월 전18 소스

GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: 어디서 누가 앞서나

공통 표 기준 Claude Opus 4.7은 GPQA Diamond 94.2%와 HLE 도구 없음 46.9%에서 앞섰고, GPT 5.5는 Terminal Bench 2.0 82.7%, GPT 5.5 Pro는 HLE 도구 사용 57.2%와 BrowseComp 90.1%에서 선두였다 [6]. Kimi K2.6은 동일한 head to head 표에는 없지만, Hugging Face 모델 카드와 평가 파일 기준 SWE Bench Verified 80.2, SWE Bench Pro 58.6, Terminal Bench 2.0 66.7을 기록했다 [25][37].

Studio Global AI로 검색 및 팩트체크 인기 페이지 더 보기

Сравнение AI-моделей GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 по бенчмаркам — GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмаркахИллюстрация к сравнению GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 по ключевым AI-бенчмаркам.
AI 프롬프트
Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмарках. Article summary: Единого победителя нет: Claude Opus 4.7 лидирует в GPQA Diamond — 94.2% — и HLE без инструментов — 46.9%, GPT 5.5 — в Terminal Bench 2.0 с 82.7%, а GPT 5.5 Pro — в HLE с инструментами и BrowseComp.. Topic tags: ai, llm benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2.6 vs GPT-5.5 vs DeepSeek V4](https://www.youtube.com/watch?v=hqPVqQtgWOc). 🤯xCreate 8.4K views • 1 day ago Live Playlist ()Mix (50+)](https://www.youtube.com/watch?v=3928" source context "Kimi K2.6 vs GPT-5.5 vs DeepSeek V4 - YouTube" Reference image 2: visual subject "# GPT-5.5vs Claude Opus 4.7. Get a detailed comparison of AI language modelsOpenAI's GPT-5.5andAnthropic's
openai.com

공개된 수치만 놓고 보면, 이 비교는 ‘한 모델이 전부 이긴다’는 식의 왕좌전이 아니다. 가장 직접적으로 비교 가능한 표는 GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7, DeepSeek-V4-Pro-Max를 함께 다룬다. 반면 Kimi K2.6은 Hugging Face 모델 카드와 별도 평가 파일의 수치를 가져와야 하므로, 같은 조건에서 동시에 돌린 head-to-head 결과로 읽으면 곤란하다 .

DeepSeek도 이름을 조심해야 한다. 공통 표에는 DeepSeek-V4-Pro-Max가 나오지만, SWE-Bench Verified의 별도 비교 수치는 DeepSeek V4-Pro에 관한 것이다 . 따라서 아래의 결론은 ‘DeepSeek V4 전체의 단일 점수’가 아니라, 출처별로 제시된 특정 변형의 결과로 봐야 한다.

빠르게 고르면

도구 없이 복잡한 추론을 시킬 때: Claude Opus 4.7부터 테스트해볼 만하다. 공통 표에서 GPQA Diamond와 Humanity’s Last Exam 도구 없음 항목을 이긴다 .
터미널 기반 agentic 작업: GPT-5.5가 가장 두드러진다. Terminal-Bench 2.0에서 82.7%로 Claude Opus 4.7의 69.4%, DeepSeek-V4-Pro-Max의 67.9%보다 높다 .
도구 사용·브라우징이 중요한 작업: GPT-5.5 Pro가 유리해 보인다. HLE 도구 사용 57.2%, BrowseComp 90.1%로 해당 행의 선두다 .
코딩 평가와 가중치 접근성을 함께 볼 때: Kimi K2.6은 별도로 검토할 가치가 있다. 모델 카드 기준 SWE-Bench Verified 80.2, SWE-Bench Pro 58.6, Terminal-Bench 2.0 66.7을 기록했다 . 또 Kimi K2.6의 가중치는 Hugging Face에 있으며 vLLM, SGLang, KTransformers로 실행할 수 있다고 설명돼 있다 .
비용이 최우선일 때: DeepSeek V4는 공통 벤치마크 표의 1위는 아니지만, API 가격이 100만 input 토큰당 $1.74, output 토큰당 $3.48로 제시됐다. 같은 출처들은 GPT-5.5를 $5/$30, Claude Opus 4.7을 $5/$25로 비교한다 .

주요 벤치마크 표

벤치마크	GPT-5.5	GPT-5.5 Pro	Claude Opus 4.7	DeepSeek V4	Kimi K2.6	현재 자료상 선두
GPQA Diamond	93.6%	자료 없음	94.2%	90.1%, DeepSeek-V4-Pro-Max	자료 없음	Claude Opus 4.7
Humanity’s Last Exam, 도구 없음	41.4%	43.1%	46.9%	37.7%, DeepSeek-V4-Pro-Max	자료 없음	Claude Opus 4.7
Humanity’s Last Exam, 도구 사용	52.2%	57.2%	54.7%	48.2%, DeepSeek-V4-Pro-Max	자료 없음	GPT-5.5 Pro
Terminal-Bench 2.0	82.7%	자료 없음	69.4%	67.9%, DeepSeek-V4-Pro-Max	66.7	GPT-5.5
SWE-Bench Pro / SWE Pro	58.6%	자료 없음	64.3%	55.4%, DeepSeek-V4-Pro-Max	58.6	Claude Opus 4.7
BrowseComp	84.4%	90.1%	79.3%	83.4%, DeepSeek-V4-Pro-Max	자료 없음	GPT-5.5 Pro
MCP Atlas / MCPAtlas Public	75.3%	자료 없음	79.1%	73.6%, DeepSeek-V4-Pro-Max	자료 없음	Claude Opus 4.7
SWE-Bench Verified	자료 없음	자료 없음	87.6%, 별도 비교	80.6%, DeepSeek V4-Pro, Pro-Max 아님	80.2	모든 모델의 공통 행이 없어 순위 산정 불가

여기서 ‘자료 없음’은 0점이라는 뜻이 아니다. 해당 출처에 그 모델의 값이 제시되지 않았다는 의미다.

추론: 도구 없이는 Claude, 도구를 쓰면 GPT-5.5 Pro

GPQA Diamond에서는 Claude Opus 4.7이 94.2%, GPT-5.5가 93.6%, DeepSeek-V4-Pro-Max가 90.1%다 . 차이가 아주 크지는 않지만, 이 행의 1위는 Claude다 .

Humanity’s Last Exam을 도구 없이 풀게 한 결과에서는 Claude의 우위가 더 뚜렷하다. Claude Opus 4.7은 46.9%로, GPT-5.5의 41.4%, GPT-5.5 Pro의 43.1%, DeepSeek-V4-Pro-Max의 37.7%보다 높다 .

하지만 도구 사용이 허용되면 순위가 바뀐다. HLE 도구 사용 항목에서 GPT-5.5 Pro는 57.2%를 기록해 Claude Opus 4.7의 54.7%, GPT-5.5의 52.2%, DeepSeek-V4-Pro-Max의 48.2%를 앞선다 . 즉, ‘순수 추론’과 ‘도구를 곁들인 추론’을 같은 성격의 능력으로 묶어 판단하면 중요한 차이를 놓칠 수 있다.

코딩·에이전트 작업: Terminal-Bench는 GPT-5.5가 크게 앞선다

이 비교에서 GPT-5.5가 가장 선명하게 돋보이는 곳은 Terminal-Bench 2.0이다. GPT-5.5는 82.7%로, Claude Opus 4.7의 69.4%, DeepSeek-V4-Pro-Max의 67.9%보다 높다 .

Kimi K2.6은 Hugging Face 모델 카드에서 Terminal-Bench 2.0 66.7을 기록했고, LLM Stats의 별도 리더보드도 Kimi K2.6 0.667, Claude Opus 4.7 0.694를 제시한다 . 이 수치만 놓고 보면 Kimi는 Claude·DeepSeek와 가까운 구간에 있지만, 공통 표의 GPT-5.5와는 격차가 있다 .

SWE-Bench Pro / SWE Pro에서는 그림이 달라진다. Claude Opus 4.7이 64.3%로 선두이고, GPT-5.5는 58.6%, DeepSeek-V4-Pro-Max는 55.4%다 . Kimi K2.6도 Hugging Face 모델 카드에서 SWE-Bench Pro 58.6으로 제시되지만, 이는 GPT-5.5·Claude·DeepSeek가 함께 나온 공통 표와 같은 단일 실행 결과는 아니다 .

SWE-Bench Verified는 더 조심해서 봐야 한다. Kimi K2.6은 모델 카드와 평가 파일에서 80.2로 제시된다 . 별도 DeepSeek V4 자료는 Claude Opus 4.7 87.6%, DeepSeek V4-Pro 80.6%를 제시하지만, GPT-5.5를 포함한 전체 공통 행은 아니며 DeepSeek도 V4-Pro-Max가 아니라 V4-Pro다 .

모델별로 보면

GPT-5.5와 GPT-5.5 Pro

GPT-5.5의 대표 강점은 Terminal-Bench 2.0이다. 공통 표에서 82.7%로 해당 행의 최고 점수다 . GPT-5.5 Pro는 모든 벤치마크에 값이 나오지는 않지만, 값이 제시된 곳에서는 강하다. HLE 도구 사용 57.2%, BrowseComp 90.1%로 각각 선두다 .

따라서 터미널에서 여러 단계를 수행하는 agentic 작업은 GPT-5.5를 먼저 시험해볼 만하고, 외부 도구 사용이나 브라우징이 필요한 작업은 GPT-5.5 Pro를 우선 후보로 올릴 수 있다 .

Claude Opus 4.7

Claude Opus 4.7은 공통 표에서 여러 항목을 가져간다. GPQA Diamond 94.2%, HLE 도구 없음 46.9%, SWE-Bench Pro / SWE Pro 64.3%, MCP Atlas / MCPAtlas Public 79.1%로 선두다 .

다만 모든 곳에서 앞서는 것은 아니다. Terminal-Bench 2.0에서는 GPT-5.5에 뒤지고, HLE 도구 사용과 BrowseComp에서는 GPT-5.5 Pro가 더 높다 . 실무적으로는 도구 없이 깊은 추론을 시키거나 SWE-Bench Pro에 가까운 코딩 과제를 볼 때 Claude Opus 4.7을 첫 후보로 삼을 만하다 .

Kimi K2.6

Kimi K2.6은 이 기사에서 가장 주의해서 읽어야 할 모델이다. 수치가 없어서가 아니라, 비교 방식이 다르기 때문이다. Kimi의 주요 수치는 공통 표가 아니라 Hugging Face 모델 카드와 평가 파일에서 나온다 .

그럼에도 코딩 후보로서의 존재감은 분명하다. 모델 카드와 평가 파일은 Kimi K2.6에 대해 SWE-Bench Verified 80.2, SWE-Bench Pro 58.6, SWE-Bench Multilingual 76.7, Terminal-Bench 2.0 66.7, OSWorld-Verified 73.1을 제시한다 .

운영 측면에서는 가중치 접근성이 차별점이다. Kimi K2.6의 가중치는 Hugging Face에 있고, vLLM, SGLang, KTransformers로 실행할 수 있다고 설명돼 있다 . 이것이 곧 Kimi가 전체 벤치마크 1위라는 뜻은 아니다. 다만 자체 호스팅이나 내부 실험 환경이 중요한 팀이라면 별도 평가 대상으로 올려볼 이유가 있다 .

DeepSeek V4

공통 표에서 DeepSeek는 DeepSeek-V4-Pro-Max로 등장한다 . 이 표의 행만 보면 DeepSeek-V4-Pro-Max는 1위를 차지하지 못한다. GPQA Diamond 90.1%, HLE 도구 없음 37.7%, HLE 도구 사용 48.2%, Terminal-Bench 2.0 67.9%, SWE-Bench Pro / SWE Pro 55.4%, BrowseComp 83.4%, MCP Atlas / MCPAtlas Public 73.6%다 .

하지만 DeepSeek V4의 강점은 ‘최고 점수’보다 ‘가격 대비 후보군’ 쪽에 가깝다. Mashable과 DataCamp는 DeepSeek V4의 API 가격을 100만 input 토큰당 $1.74, 100만 output 토큰당 $3.48로 제시한다. 같은 비교에서 GPT-5.5는 $5/$30, Claude Opus 4.7은 $5/$25로 제시된다 .

따라서 비용이 성능 1위보다 더 중요한 제품이나 대량 처리 시나리오라면 DeepSeek V4를 자체 평가에 넣는 것이 합리적이다. 다만 이 표만 근거로 DeepSeek를 벤치마크 선두라고 부르기는 어렵다 .

비교할 때 놓치기 쉬운 점

네 모델을 모두 같은 조건으로 비교한 단일 표가 없다. 공통 표는 GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7, DeepSeek-V4-Pro-Max를 다루며, Kimi K2.6은 별도 출처에서 더해야 한다 .
DeepSeek V4는 출처마다 변형이 다르다. 공통 표는 DeepSeek-V4-Pro-Max, SWE-Bench Verified 별도 수치는 DeepSeek V4-Pro에 해당한다 .
GPT-5.5 Pro는 모든 행에 값이 없다. 공통 표에서도 Pro 수치는 일부 벤치마크에만 나오므로, 값이 없는 행에 성능을 임의로 대입하면 안 된다 .
Kimi K2.6은 자체 평가가 특히 중요하다. Hugging Face 수치는 유용하지만, GPT-5.5·Claude Opus 4.7·DeepSeek-V4-Pro-Max와 같은 공통 표의 결과는 아니다 .

결론

공통 표만 보면 Claude Opus 4.7은 GPQA Diamond, HLE 도구 없음, SWE-Bench Pro, MCP Atlas에서 앞선다. GPT-5.5는 Terminal-Bench 2.0에서 앞서고, GPT-5.5 Pro는 HLE 도구 사용과 BrowseComp에서 선두다 .

Kimi K2.6은 같은 표에서 직접 겨룬 결과는 아니지만, Hugging Face 기준으로 코딩 관련 수치가 강하고 가중치 접근성이 있어 자체 호스팅·내부 실험 후보로 볼 만하다 . DeepSeek V4는 제시된 벤치마크 행에서 1위는 아니지만, 낮은 API 가격 때문에 비용 민감한 시나리오에서는 별도 평가할 가치가 있다 .

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

사람들은 또한 묻습니다.