| Claude Opus 4.7 |
| Humanity’s Last Exam, 도구 없음 | 41.4% | 43.1% | 46.9% | 37.7% | — | Claude Opus 4.7 |
| Humanity’s Last Exam, 도구 사용 | 52.2% | 57.2% | 54.7% | 48.2% | — | GPT-5.5 Pro |
| Terminal-Bench 2.0 | 82.7% | — | 69.4% | 67.9% | — | GPT-5.5 |
| SWE-Bench Pro / SWE Pro | 58.6% | — | 64.3% | 55.4% | LLM Stats 기준 0.59 | Claude Opus 4.7 |
| BrowseComp | 84.4% | 90.1% | 79.3% | 83.4% | DocsBot 기준 83.2% | GPT-5.5 Pro |
| MCP Atlas / MCPAtlas Public | 75.3% | — | 79.1% | 73.6% | — | Claude Opus 4.7 |
이 표만 봐도 한 모델이 모든 항목을 싹쓸이한다고 말하기는 어렵다. Claude Opus 4.7은 직접 비교 데이터에서 추론과 소프트웨어 엔지니어링 쪽에 강하고, GPT-5.5 Pro는 도구·브라우징 항목에서 앞선다. GPT-5.5는 Terminal-Bench 2.0에서 가장 높은 점수를 보였고, Kimi K2.6은 LLM Stats와 DocsBot 같은 별도 출처에서만 일부 수치가 확인된다 .
VentureBeat의 직접 비교표에서 Claude Opus 4.7은 GPQA Diamond 94.2%를 기록해 GPT-5.5의 93.6%, DeepSeek-V4-Pro-Max의 90.1%보다 높았다 . GPT-5.5와의 차이가 크지는 않지만, 해당 표에서는 Claude Opus 4.7이 GPQA Diamond 선두다
.
도구 없이 푸는 Humanity’s Last Exam에서도 Claude Opus 4.7이 46.9%로 앞섰다. 같은 항목에서 GPT-5.5 Pro는 43.1%, GPT-5.5는 41.4%, DeepSeek-V4-Pro-Max는 37.7%였다 . 과학·전문 지식 기반의 까다로운 질문이나 외부 도구 없이 답해야 하는 추론 과제가 핵심이라면, 현재 인용된 데이터는 Claude Opus 4.7 쪽에 무게를 둔다
.
Kimi K2.6도 추론 쪽 신호가 전혀 없는 것은 아니다. LLM Stats는 Kimi K2.6의 GPQA를 0.91로 표시했고, 같은 리더보드에서 Claude Opus 4.7과 GPT-5.5는 반올림 기준 0.94로 표시됐다 . 다만 이는 VentureBeat의 GPQA Diamond 직접 비교표와 동일한 표가 아니므로, 절대적인 서열 판단보다는 참고 신호로 보는 편이 안전하다
.
도구 사용이 허용되면 순위가 바뀐다. Humanity’s Last Exam 도구 사용 조건에서 GPT-5.5 Pro는 57.2%를 기록해 Claude Opus 4.7의 54.7%, GPT-5.5의 52.2%, DeepSeek-V4-Pro-Max의 48.2%를 앞섰다 .
BrowseComp도 VentureBeat 표에서는 GPT-5.5 Pro가 선두다. GPT-5.5 Pro는 90.1%, GPT-5.5는 84.4%, DeepSeek-V4-Pro-Max는 83.4%, Claude Opus 4.7은 79.3%였다 . DocsBot은 Kimi K2.6의 BrowseComp 점수를 83.2%로 제시하지만, 이는 Kimi K2.6과 DeepSeek-V4 Pro를 비교하는 별도 페이지의 수치이지 네 모델 전체를 같은 조건으로 놓은 표는 아니다
.
Terminal-Bench 2.0은 단순 질의응답이 아니라 실제 명령줄 환경에서 작업을 끝내는 능력을 본다. 이 벤치마크는 파일 조작, 스크립트 실행, 디버깅, 도구 조율이 포함된 실제 CLI 워크플로를 평가하는 것으로 설명된다 .
VentureBeat 표에서 GPT-5.5는 Terminal-Bench 2.0 82.7%를 기록해 Claude Opus 4.7의 69.4%, DeepSeek-V4-Pro-Max의 67.9%를 크게 앞섰다 . 저장소를 자동으로 고치거나, 터미널에서 명령을 실행하며 오류를 해결하거나, 셸 기반의 여러 단계 작업을 맡기는 용도라면 GPT-5.5가 가장 뚜렷한 우위를 보인다
.
SWE-Bench Pro는 복잡한 소프트웨어 엔지니어링 과제를 보는 지표로 중요하다. LLM Stats는 이 벤치마크를 실제 소프트웨어 엔지니어링 작업, 긴 추론, 다단계 문제 해결을 평가하는 SWE-Bench의 고급 버전으로 설명한다 .
VentureBeat 표에서 Claude Opus 4.7은 SWE-Bench Pro / SWE Pro 64.3%를 기록해 GPT-5.5의 58.6%, DeepSeek-V4-Pro-Max의 55.4%보다 높았다 . LLM Stats도 SWE-Bench Pro에서 Claude Opus 4.7을 0.64, GPT-5.5를 0.59, Kimi K2.6을 0.59, DeepSeek-V4-Pro-Max를 0.55로 표시했다
.
두 출처의 표기 방식은 다르지만 신호는 일관된다. SWE-Bench Pro에서는 Claude Opus 4.7이 앞서고, LLM Stats 기준으로 GPT-5.5와 Kimi K2.6이 0.59로 나란히 있으며, DeepSeek-V4-Pro-Max는 그보다 낮다 .
VentureBeat의 직접 비교표에서 DeepSeek-V4-Pro-Max가 1위를 차지한 항목은 없다. 이 모델은 GPQA Diamond 90.1%, Humanity’s Last Exam 도구 없음 37.7%, Humanity’s Last Exam 도구 사용 48.2%, Terminal-Bench 2.0 67.9%, SWE-Bench Pro 55.4%, BrowseComp 83.4%, MCP Atlas 73.6%를 기록했다 .
대신 DeepSeek V4의 매력은 비용 대비 성능에 있다. VentureBeat는 DeepSeek-V4를 최상위권에 가까운 성능으로 묘사하면서, 비용이 Opus 4.7 및 GPT-5.5 대비 약 6분의 1 수준이라고 설명했다 .
다만 신뢰성 검증은 별도로 필요하다. Artificial Analysis에 따르면 DeepSeek V4 Pro Max는 AA-Omniscience에서 -10을 기록해 V3.2 Reasoning의 -21보다 11점 개선됐지만, V4 Pro와 V4 Flash의 환각률은 각각 94%, 96%로 매우 높게 제시됐다 . 인용된 자료에는 GPT-5.5, Claude Opus 4.7, Kimi K2.6의 같은 환각 지표가 함께 제공되지 않기 때문에 DeepSeek V4가 전체 중 가장 신뢰성이 낮다고 단정할 수는 없다
. 더 안전한 결론은 이렇다. 비용이 최우선이면 DeepSeek V4는 충분히 검토할 만하지만, 실제 데이터와 업무 흐름에서 환각 테스트를 강하게 걸어야 한다
.
Kimi K2.6은 이번 비교에서 가장 조심스럽게 읽어야 하는 모델이다. GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7, DeepSeek-V4-Pro-Max와 같은 완전한 벤치마크 행렬에 함께 들어간 자료가 부족하기 때문이다 .
그래도 참고할 만한 수치는 있다. LLM Stats는 Kimi K2.6을 GPQA 0.91, SWE-Bench Pro 0.59로 표시했다 . DocsBot은 Kimi K2.6이 AIME 2026에서 thinking mode 기준 96.4%, APEX Agents에서 27.9%, BrowseComp에서 83.2%를 기록했다고 제시한다. 같은 DocsBot 페이지는 DeepSeek-V4 Pro의 BrowseComp를 83.4%로 표시했다
.
이 수치들은 출처와 조건이 서로 다르다. 따라서 Kimi K2.6이 전체 1위인지 아닌지를 단정하기보다는, 자신의 과제와 맞는 벤치마크에서 좋은 신호가 있을 때 내부 평가를 돌려볼 후보로 보는 것이 합리적이다 .
둘째, Kimi K2.6 데이터는 주로 LLM Stats와 DocsBot에서 확인된다. GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7, DeepSeek-V4-Pro-Max가 모두 들어간 동일한 직접 비교표가 아니므로 해석에 주의해야 한다 .
셋째, OpenAI의 GPT-5.5 system card에는 CoT-Control이라는 평가 정보가 나온다. 이 평가는 GPQA, MMLU-Pro, HLE, BFCL, SWE-Bench Verified에서 만든 13,000개 이상의 과제를 포함한다고 설명된다 . 이는 GPT-5.5 평가 방식을 이해하는 데 유용하지만, Claude Opus 4.7·DeepSeek V4·Kimi K2.6의 같은 CoT-Control 결과가 함께 제공된 것은 아니므로 모델 간 순위표로 쓰기는 어렵다
.
Comments
0 comments