현재 자료에서 네 대상 모델 모두의 점수를 확인할 수 있는 공통 항목은 Terminal-Bench 2.0이 가장 분명하다. 공개 표에 나온 수치를 정리하면 다음과 같다.
| 모델 | Terminal-Bench 2.0 | 출처 |
|---|---|---|
| GPT-5.5 | 82.7% | OpenAI 발표 페이지 및 MLQ.ai 요약 |
| Claude Opus 4.7 | 69.4% | OpenAI 발표 페이지 |
| DeepSeek V4-Pro Max | 67.9% | DeepSeek V4-Pro 모델 카드 |
| Kimi K2.6 Thinking | 66.7% | DeepSeek V4-Pro 모델 카드 |
이 표에서 말할 수 있는 결론은 좁지만 유용하다. Terminal-Bench 2.0 한 항목에서는 GPT-5.5가 뚜렷하게 앞서고, Claude Opus 4.7이 2위이며, DeepSeek V4-Pro Max와 Kimi K2.6 Thinking은 근접해 있다는 것이다.
다만 이 결과를 곧바로 “모든 업무에서 GPT-5.5가 항상 우세하다”는 뜻으로 읽어서는 안 된다. 도구 권한, 컨텍스트 길이, 추론 예산, 프롬프트, 채점 방식이 달라지면 실제 제품 환경의 결과도 달라질 수 있다.
OpenAI 발표 페이지는 GPT-5.5와 Claude Opus 4.7의 여러 벤치마크 점수를 나란히 제시한다. 이 표에 나온 항목만 보면 GPT-5.5의 점수가 모두 Claude Opus 4.7보다 높다.
| Benchmark, OpenAI 표 | GPT-5.5 | Claude Opus 4.7 |
|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 69.4% |
| GDPval wins or ties | 84.9% | 80.3% |
| BrowseComp | 84.4% | 79.3% |
| FrontierMath Tier 1–3 | 51.7% | 43.8% |
| FrontierMath Tier 4 | 35.4% | 22.9% |
| CyberGym | 81.8% | 73.1% |
따라서 안전한 표현은 이렇다. OpenAI가 제시한 위 항목들에서는 GPT-5.5가 Claude Opus 4.7보다 높다. OpenAI 시스템 카드는 GPT-5.5를 코드 작성, 온라인 조사, 정보 분석, 문서와 스프레드시트 작성, 여러 도구를 오가며 작업을 끝내는 복잡한 실제 업무용 모델로 설명한다.
DeepSeek V4-Pro 모델 카드는 DS-V4-Pro Max와 K2.6 Thinking의 여러 항목을 함께 제시한다. 이 표 안에서는 DeepSeek V4-Pro Max가 다수 항목에서 Kimi K2.6 Thinking보다 높지만, Kimi가 앞서는 항목도 있다.
| Benchmark, DeepSeek 모델 카드 | DeepSeek V4-Pro Max | Kimi K2.6 Thinking | 표 안의 우세 |
|---|---|---|---|
| MMLU-Pro | 87.5 | 87.1 | DeepSeek |
| SimpleQA-Verified | 57.9 | 36.9 | DeepSeek |
| Chinese-SimpleQA | 84.4 | 75.9 | DeepSeek |
| GPQA Diamond | 90.1 | 90.5 | Kimi |
| HLE | 37.7 | 36.4 | DeepSeek |
| LiveCodeBench | 93.5 | 89.6 | DeepSeek |
| HMMT 2026 Feb | 95.2 | 92.7 | DeepSeek |
| IMOAnswerBench | 89.8 | 86.0 | DeepSeek |
| Apex Shortlist | 90.2 | 75.5 | DeepSeek |
| SWE Pro | 55.4 | 58.6 | Kimi |
| Terminal-Bench 2.0 | 67.9 | 66.7 | DeepSeek |
이 자료의 가장 신중한 해석은 다음과 같다. DeepSeek 모델 카드에 나온 다수 항목에서는 DS-V4-Pro Max가 K2.6 Thinking보다 높다. 다만 Kimi K2.6 Thinking은 GPQA Diamond와 SWE Pro에서 앞선다. 특히 MMLU-Pro와 Terminal-Bench 2.0처럼 차이가 작은 항목은 단순히 우세 방향만 보지 말고, 실제 업무 유형과 반복 평가 결과까지 함께 봐야 한다.
가장 흔한 실수는 OpenAI 표, DeepSeek 표, Anthropic 기능 문서의 정보를 한데 모아 평균을 내고 ‘최종 우승 모델’을 고르는 것이다. 현재 공개 자료만으로는 그렇게 하기 어렵다.
결국 공개 벤치마크는 첫 번째 필터로는 좋지만, 구매 결정이나 아키텍처 선택의 유일한 근거로 쓰기에는 부족하다.
실무에서는 세 층으로 나눠 보는 것이 낫다.
제품이 긴 에이전트 루프에 의존한다면 Claude Opus 4.7의 task budgets
반대로 제품이 복잡한 코딩, 온라인 조사, 문서·스프레드시트 생성, 여러 도구를 오가는 작업에 가깝다면 GPT-5.5 시스템 카드의 설명이 해당 사용 사례와 더 직접적으로 맞닿아 있다. 그래도 공개 표에서 앞선 모델이라 해도 실제 코드베이스, 도구 체인, 권한 경계, 실패 복구 규칙 안에서 다시 검증해야 한다.
Comments
0 comments