AI 모델 비교에서 가장 흔한 함정은 벤치마크 하나를 전체 우열로 읽는 것이다. 이번 자료가 말하는 결론은 더 실무적이다. 종합 순위 신호는 GPT-5.5가 가장 강하고, Claude Opus 4.7은 어려운 추론과 소프트웨어 엔지니어링의 여러 항목에서 앞서며, DeepSeek V4는 API 단가가 가장 분명한 강점이다. Kimi K2.6은 코딩·에이전트 작업에서 평가해볼 만하지만 GPT-5.5·Opus 4.7과의 직접 비교 근거는 상대적으로 얇다.[2][
16][
15][
18][
19]
빠른 결론
| 가장 중요하게 보는 기준 | 가장 근거가 강한 선택 | 이유 |
|---|---|---|
| 종합 지능 순위 | GPT-5.5 | Artificial Analysis가 GPT-5.5 xhigh를 60, GPT-5.5 high를 59로 제시해 Claude Opus 4.7 Adaptive Reasoning Max Effort의 57보다 높다.[ |
| 고난도 추론·소프트웨어 엔지니어링 | Claude Opus 4.7, 단 GPT-5.5도 접전 | VentureBeat 표에서 Claude는 GPQA Diamond, HLE no-tools, SWE-Bench Pro, MCP Atlas를 앞선다. GPT-5.5는 Terminal-Bench 2.0과 기본 BrowseComp에서 강하고, GPT-5.5 Pro는 HLE with tools와 BrowseComp에서 최고값을 보인다.[ |
| 플래그십급 API 비용 | DeepSeek V4 | Mashable은 DeepSeek V4를 입력 100만 토큰당 1.74달러, 출력 100만 토큰당 3.48달러로 제시했다. GPT-5.5는 5달러·30달러, Claude Opus 4.7은 5달러·25달러다.[ |
| 공개된 코딩·경쟁 프로그래밍 지표 | DeepSeek V4 Pro | Together AI는 DeepSeek V4 Pro에 대해 LiveCodeBench 93.5%, Codeforces 3206, SWE-Bench Verified 80.6%, SWE-Bench Multilingual 76.2%를 제시한다.[ |
| Kimi K2.6 평가 | 유망하지만 결론 보류 | Kimi K2.6은 코딩과 에이전트 지표가 있지만, 주요 Kimi 중심 자료는 GPT-5.5·Claude Opus 4.7이 아니라 GPT-5.4·Claude Opus 4.6과 비교한 경우가 많다.[ |
종합 순위: 현재 근거는 GPT-5.5 쪽이 가장 강하다
가장 깔끔한 종합 신호는 Artificial Analysis 자료다. 여기서는 GPT-5.5 xhigh가 Intelligence Index 60으로 1위, GPT-5.5 high가 59로 2위이며, Claude Opus 4.7 Adaptive Reasoning Max Effort는 57로 제시된다.[2]
Kimi K2.6은 제공된 종합 지표 조각에서는 이 GPT-5.5·Claude 상위권보다 낮게 나타난다. OpenRouter는 Kimi K2.6을 Intelligence 53.9, Coding 47.1, Agentic 66.0으로 제시하고, LLMBase의 DeepSeek V4 Flash High 대 Kimi K2.6 비교도 Kimi의 Intelligence를 53.9, Coding을 47.1로 적고 있다.[3][
1] 같은 LLMBase 비교에서 DeepSeek V4 Flash High는 Intelligence 44.9, Coding 39.8로 표시되지만, 이는 DeepSeek V4 Pro나 Pro-Max가 아니라 Flash 변형이라는 점을 구분해야 한다.[
1]
다만 여기서도 주의할 점이 있다. 제공된 종합 순위는 GPT-5.5와 Claude Opus 4.7 사이의 방향성은 비교적 분명하게 보여주지만, GPT-5.5·Claude Opus 4.7·DeepSeek V4 Pro-Max·Kimi K2.6 네 모델을 같은 한 줄에서 완전히 비교한 리더보드는 아니다.[2]
공통 벤치마크: Claude와 GPT-5.5가 항목별로 승부를 나눈다
VentureBeat의 공통 벤치마크 표는 DeepSeek-V4-Pro-Max, GPT-5.5, 일부 항목의 GPT-5.5 Pro, Claude Opus 4.7을 같은 행에서 비교한다는 점에서 유용하다.[16]
| 벤치마크 | DeepSeek-V4-Pro-Max | GPT-5.5 | GPT-5.5 Pro, 표기된 경우 | Claude Opus 4.7 | 이 자료의 최고 결과 |
|---|---|---|---|---|---|
| GPQA Diamond | 90.1% | 93.6% | — | 94.2% | Claude Opus 4.7[ |
| Humanity’s Last Exam, no tools | 37.7% | 41.4% | 43.1% | 46.9% | Claude Opus 4.7[ |
| Humanity’s Last Exam, with tools | 48.2% | 52.2% | 57.2% | 54.7% | GPT-5.5 Pro[ |
| Terminal-Bench 2.0 | 67.9% | 82.7% | — | 69.4% | GPT-5.5[ |
| SWE-Bench Pro / SWE Pro | 55.4% | 58.6% | — | 64.3% | Claude Opus 4.7[ |
| BrowseComp | 83.4% | 84.4% | 90.1% | 79.3% | GPT-5.5 Pro[ |
| MCP Atlas / MCPAtlas Public | 73.6% | 75.3% | — | 79.1% | Claude Opus 4.7[ |
이 표는 한쪽의 압승이라기보다 항목별 판정승에 가깝다. Claude Opus 4.7은 GPQA Diamond, HLE no-tools, SWE-Bench Pro, MCP Atlas에서 더 강한 근거를 갖는다.[16] 반대로 GPT-5.5는 기본 모델 기준 Terminal-Bench 2.0과 BrowseComp에서 우세하고, GPT-5.5 Pro가 표시된 HLE with tools와 BrowseComp에서는 GPT-5.5 Pro가 가장 높은 값을 보인다.[
16]
DeepSeek-V4-Pro-Max는 여러 항목에서 경쟁권에 있지만, 이 VentureBeat 표에서는 GPT-5.5나 Claude Opus 4.7의 최고값을 넘지는 못한다. 가장 근접한 항목은 BrowseComp로, DeepSeek-V4-Pro-Max가 83.4%, GPT-5.5가 84.4%, Claude Opus 4.7이 79.3%다.[16]
코딩 성능: 저장소 수정, 경쟁 코딩, 에이전트 작업을 나눠 봐야 한다
실제 저장소 단위의 소프트웨어 엔지니어링을 보는 SWE-Bench Pro에서는 Claude Opus 4.7의 근거가 가장 강하다. VentureBeat 표에서 Claude Opus 4.7은 64.3%로, GPT-5.5의 58.6%, DeepSeek-V4-Pro-Max의 55.4%보다 높다.[16]
반면 공개된 코딩 지표의 폭만 놓고 보면 DeepSeek V4 Pro가 눈에 띈다. Together AI는 DeepSeek V4 Pro에 대해 LiveCodeBench 93.5%, Codeforces 3206, SWE-Bench Verified 80.6%, SWE-Bench Multilingual 76.2%를 제시한다.[25] NVIDIA의 모델 카드도 DeepSeek V4 Flash와 V4 Pro 변형을 GPQA Diamond, HLE, LiveCodeBench, Codeforces 등으로 나눠 보여주며, V4-Pro Max를 LiveCodeBench 93.5, Codeforces 3206으로 표시한다.[
31]
Kimi K2.6도 코딩 근거가 없는 모델은 아니다. Lorka는 Kimi K2.6을 GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro와 비교한 표에서 SWE-Bench Pro 58.6%, HLE-Full with tools 54.0%, GPQA-Diamond 90.5%, MMMU-Pro 79.4%로 제시한다.[18] Verdent는 Kimi K2.6을 SWE-Bench Verified 80.2%, Terminal-Bench 2.0 66.7%, HLE with tools 54.0%, LiveCodeBench v6 89.6%로 제시하면서, Opus 4.7이 SWE-Bench Verified 87.6%로 앞선다는 점도 언급한다.[
19]
따라서 Kimi K2.6은 코딩과 에이전트 워크플로에서 시험해볼 만한 후보지만, 제공된 근거만으로 GPT-5.5나 Claude Opus 4.7을 제치고 전체 승자라고 말하기는 어렵다.[18][
19]
가격: API 비용은 DeepSeek V4가 가장 설득력 있다
API 비용이 의사결정의 핵심이라면 DeepSeek V4의 주장이 가장 선명하다. Mashable은 DeepSeek V4의 가격을 입력 100만 토큰당 1.74달러, 출력 100만 토큰당 3.48달러로 제시했다. 같은 비교에서 GPT-5.5는 입력 100만 토큰당 5달러·출력 100만 토큰당 30달러, Claude Opus 4.7은 5달러·25달러다.[15]
| 모델 또는 변형 | 제시된 입력 가격 | 제시된 출력 가격 | 참고 |
|---|---|---|---|
| GPT-5.5 | 100만 토큰당 5달러 | 100만 토큰당 30달러 | Mashable 비교에서 100만 토큰 컨텍스트 창으로 제시된다.[ |
| Claude Opus 4.7 | 100만 토큰당 5달러 | 100만 토큰당 25달러 | Mashable 비교에서 100만 토큰 컨텍스트 창으로 제시된다.[ |
| DeepSeek V4 | 100만 토큰당 1.74달러 | 100만 토큰당 3.48달러 | Mashable 비교에서 100만 토큰 컨텍스트 창으로 제시된다.[ |
| DeepSeek V4 Flash | 100만 토큰당 0.14달러 | 100만 토큰당 0.28달러 | LLMBase는 DeepSeek V4 Flash High 대 Kimi K2.6 비교에서 3:1 혼합 가격을 0.18달러로 제시한다.[ |
| Kimi K2.6 | 100만 토큰당 0.95달러 | 100만 토큰당 4.00달러 | LLMBase는 같은 비교에서 3:1 혼합 가격을 1.71달러로 제시한다.[ |
단, 컨텍스트 한도와 출력 한도는 제공사와 엔드포인트에 따라 달라질 수 있다. Mashable은 DeepSeek V4, GPT-5.5, Claude Opus 4.7에 대해 100만 토큰 컨텍스트 창을 제시하지만, OpenRouter의 DeepSeek V4 Pro 목록은 최대 토큰 256K, 최대 출력 66K로 표시한다.[15][
3] 실제 도입 전에는 모델명뿐 아니라 제공사, 변형, 추론 모드, 출력 한도까지 확인해야 한다.
모델별 추천 시나리오
GPT-5.5: 종합 순위가 중요할 때 가장 무난한 기본값
가용한 종합 지표를 우선한다면 GPT-5.5가 가장 안전한 선택지다. Artificial Analysis는 GPT-5.5 xhigh를 60, GPT-5.5 high를 59로 제시해 제공된 조각 안에서 상위 두 자리를 차지하게 했다.[2]
공통 과제에서도 GPT-5.5는 강점이 분명하다. VentureBeat 표에서 기본 GPT-5.5는 Terminal-Bench 2.0 82.7%, BrowseComp 84.4%를 기록했고, GPT-5.5 Pro가 표시된 BrowseComp에서는 90.1%로 가장 높게 나타났다.[16]
Claude Opus 4.7: 어려운 추론과 저장소형 SWE 작업에 강한 후보
Claude Opus 4.7은 종합 순위에서 GPT-5.5 바로 뒤에 있다. Artificial Analysis는 Claude Opus 4.7 Adaptive Reasoning Max Effort의 Intelligence Index를 57로 제시한다.[2] VentureBeat 표에서는 GPQA Diamond, HLE no-tools, SWE-Bench Pro, MCP Atlas에서 GPT-5.5와 DeepSeek-V4-Pro-Max보다 높은 값을 보인다.[
16]
Anthropic의 자체 출시 자료도 참고할 수는 있다. Anthropic은 내부 연구 에이전트 벤치마크에서 Claude Opus 4.7이 6개 모듈 전체 점수 0.715로 공동 최고를 기록했고, General Finance에서는 Opus 4.6의 0.767보다 높은 0.813을 기록했다고 밝혔다.[17] 다만 이는 독립 리더보드가 아니라 회사 내부 벤치마크라는 점을 감안해 읽는 것이 좋다.[
17]
DeepSeek V4: 비용 대비 성능이 핵심이면 가장 먼저 검토할 모델
DeepSeek V4의 가장 확실한 장점은 가격이다. Mashable 비교에서 DeepSeek V4는 입력·출력 100만 토큰당 1.74달러·3.48달러로, GPT-5.5의 5달러·30달러 및 Claude Opus 4.7의 5달러·25달러보다 훨씬 낮게 제시된다.[15]
성능 쪽에서도 DeepSeek V4 Pro는 풍부한 코딩 지표를 갖고 있다. Together AI는 DeepSeek V4 Pro의 LiveCodeBench 93.5%, Codeforces 3206, SWE-Bench Verified 80.6%, SWE-Bench Multilingual 76.2%를 공개한다.[25] 다만 VentureBeat의 공통 표에서는 DeepSeek-V4-Pro-Max가 BrowseComp에서 근접하긴 해도, 각 행의 최고 GPT-5.5 또는 Claude Opus 4.7 결과를 넘지는 못한다.[
16]
Kimi K2.6: 코딩·에이전트 후보로는 유망하지만 직접 근거가 더 필요하다
Kimi K2.6은 네 모델을 한 줄로 세우는 직접 비교가 상대적으로 어렵다. 제공된 Kimi 중심 벤치마크 표 상당수는 GPT-5.5와 Claude Opus 4.7이 아니라 GPT-5.4와 Claude Opus 4.6을 비교 대상으로 삼는다.[18][
19]
그래도 신호 자체가 약한 것은 아니다. OpenRouter는 Kimi K2.6을 Intelligence 53.9, Coding 47.1, Agentic 66.0으로 제시하고, Verdent는 SWE-Bench Verified 80.2%, LiveCodeBench v6 89.6%를 제시한다.[3][
19] 결론은 Kimi K2.6이 밀린다는 뜻이 아니라, 이 네 모델 경쟁에서 전체 승자라고 부르기에는 직접 근거가 부족하다는 쪽에 가깝다.[
18][
19]
선택 전 확인해야 할 함정
- 변형 이름이 중요하다. DeepSeek V4는 자료에서 V4, V4 Flash, V4 Pro, DeepSeek-V4-Pro-Max로 등장하며 가격, 한도, 벤치마크, 추론 설정이 달라진다.[
1][
15][
25][
31]
- Kimi 비교는 덜 직접적이다. 제공된 Kimi K2.6 핵심 표는 GPT-5.5·Claude Opus 4.7보다 GPT-5.4·Claude Opus 4.6과 비교한 경우가 많다.[
18][
19]
- Humanity’s Last Exam no-tools 수치가 자료마다 다르다. LLM Stats와 VentureBeat는 GPT-5.5 41.4%, Claude Opus 4.7 46.9%를 제시하지만, Mashable의 GPT 대 Claude 비교 조각은 GPT-5.5 40.6%, Opus 4.7 31.2%를 제시한다.[
7][
16][
9]
- 내부 벤치마크와 독립 리더보드는 다르게 읽어야 한다. Anthropic의 Opus 4.7 출시 글은 내부 연구 에이전트 성과를 제시하지만, 이는 교차 제공사 공개 비교와 같은 성격은 아니다.[
17]
- 가격과 컨텍스트 한도는 제공사별로 달라질 수 있다. 같은 모델 계열도 엔드포인트에 따라 컨텍스트 창, 최대 토큰, 출력 한도, 캐싱 조건이 달라질 수 있다.[
3][
15]
결론
종합 지능 순위가 최우선이면 GPT-5.5가 가장 근거가 강하다.[2] 고난도 추론과 저장소형 소프트웨어 엔지니어링이 중요하면 Claude Opus 4.7이 유력하다. VentureBeat 표에서 Claude는 GPQA Diamond, HLE no-tools, SWE-Bench Pro, MCP Atlas를 앞선다.[
16] 비용 대비 성능이 핵심이면 DeepSeek V4를 먼저 검토할 만하다. API 가격이 GPT-5.5와 Claude Opus 4.7보다 낮게 제시되고, DeepSeek V4 Pro의 공개 코딩 지표도 강하다.[
15][
25] Kimi K2.6은 코딩·에이전트 후보로 평가할 만하지만, 제공된 직접 근거만으로 GPT-5.5나 Claude Opus 4.7을 이긴 전체 승자라고 보기는 어렵다.[
18][
19]




