| 터미널·에이전트 컴퓨팅 | GPT-5.5 | Terminal-Bench 2.0 82.7%로 Claude Opus 4.7 69.4%, DeepSeek-V4-Pro-Max 67.9%와 격차가 크다 |
| OS 조작 | GPT-5.5 | OSWorld-Verified에서 78.7%로 Claude Opus 4.7 78.0%를 근소하게 앞선다 |
| 고난도 수학 | GPT-5.5 | FrontierMath Tiers 1–3에서 51.7%로 Claude Opus 4.7 43.8%보다 높다 |
| 소프트웨어 엔지니어링 | Claude Opus 4.7 | SWE-Bench Pro / SWE Pro에서 64.3%로 GPT-5.5 58.6%, DeepSeek-V4-Pro-Max 55.4%를 앞선다 |
| 브라우징 | GPT-5.5 Pro | BrowseComp 90.1%로 GPT-5.5 84.4%, DeepSeek-V4-Pro-Max 83.4%, Claude Opus 4.7 79.3%보다 높다 |
| MCP식 공개 도구 워크플로 | Claude Opus 4.7 | MCP Atlas / MCPAtlas Public에서 79.1%로 GPT-5.5 75.3%, DeepSeek-V4-Pro-Max 73.6%를 앞선다 |
| 비전·문서 분석 | Claude Opus 4.7 | Vision & Document Arena 전체 1위로 보고됐고, 도표·숙제·OCR 하위 항목에서도 승리한 것으로 제시됐다 |
| 비용 민감형 평가 | DeepSeek V4 | VentureBeat는 DeepSeek V4가 Opus 4.7·GPT-5.5 대비 약 6분의 1 비용으로 거의 최첨단 수준의 지능을 낸다고 설명한다 |
| 4자 직접 비교가 가장 어려운 모델 | Kimi K2.6 | 유용한 개별 점수는 있지만, 핵심 공통 표에는 포함되지 않아 직접 비교의 신뢰도가 상대적으로 낮다 |
이 표에서 특히 주의할 점은 Kimi K2.6입니다. Kimi 점수는 의미 있는 참고 자료지만, 대부분 GPT-5.5·Claude Opus 4.7·DeepSeek-V4-Pro-Max와 같은 평가 환경에서 나온 값이 아닙니다 . 같은 숫자라도 채점 방식, 도구 설정, 컨텍스트 관리 방식이 다르면 실무 체감 성능은 달라질 수 있습니다.
GPT-5.5의 가장 선명한 승리는 Terminal-Bench 2.0입니다. GPT-5.5는 82.7%로 Claude Opus 4.7의 69.4%, DeepSeek-V4-Pro-Max의 67.9%를 크게 앞섭니다 . 터미널을 다루는 코딩 에이전트나 시스템 작업 자동화를 검토한다면 가장 먼저 확인할 만한 항목입니다.
OSWorld-Verified에서는 GPT-5.5가 78.7%, Claude Opus 4.7이 78.0%로 격차가 0.7%포인트에 그칩니다 . 반면 FrontierMath Tiers 1–3에서는 GPT-5.5가 51.7%, Claude Opus 4.7이 43.8%로 차이가 더 큽니다
.
도구 사용과 브라우징에서는 GPT-5.5 Pro가 존재감을 보입니다. Humanity’s Last Exam 도구 사용 항목에서 GPT-5.5 Pro는 57.2%로 Claude Opus 4.7 54.7%, GPT-5.5 52.2%, DeepSeek-V4-Pro-Max 48.2%보다 높습니다 . BrowseComp에서도 GPT-5.5 Pro는 90.1%로 GPT-5.5 84.4%, DeepSeek-V4-Pro-Max 83.4%, Claude Opus 4.7 79.3%를 앞섭니다
.
다만 GPT-5.5가 모든 추론 벤치마크에서 이기는 것은 아닙니다. GPQA Diamond에서는 Claude Opus 4.7이 94.2%, GPT-5.5가 93.6%로 Claude가 0.6%포인트 앞섭니다 . 또 GPT-5.5 전용 자료에는 Harvey BigLaw Bench 91.7%, 내부 투자은행 벤치마크 88.5%, BixBench 80.5% 같은 분야별 점수도 있지만, 같은 항목에서 Claude Opus 4.7·DeepSeek V4·Kimi K2.6의 점수가 함께 제공되지 않아 4자 대결의 승리로 보기는 어렵습니다
.
Claude Opus 4.7은 공통 표의 도구 없는 추론에서 가장 안정적인 모습을 보입니다. GPQA Diamond 94.2%, Humanity’s Last Exam 무도구 46.9%로 각각 1위입니다 . 소프트웨어 엔지니어링 성격의 SWE-Bench Pro / SWE Pro에서도 64.3%, MCP Atlas / MCPAtlas Public에서도 79.1%로 공통 표의 선두입니다
.
약한 축도 분명합니다. Terminal-Bench 2.0에서는 GPT-5.5가 82.7%, Claude Opus 4.7이 69.4%로 13%포인트 이상 차이가 납니다 . OSWorld-Verified와 FrontierMath Tiers 1–3에서도 GPT-5.5가 Claude보다 높습니다
.
문서와 이미지가 섞인 업무에서는 Claude의 신호가 가장 강합니다. 한 자료는 Claude Opus 4.7이 Vision & Document Arena 전체 1위를 기록했고, Document Arena에서 Opus 4.6보다 4포인트 개선됐으며, 도표·숙제·OCR 하위 항목에서도 승리했다고 전합니다 . 다만 이 자료는 GPT-5.5, DeepSeek V4, Kimi K2.6의 같은 Arena 수치를 함께 제공하지 않으므로, 완전한 4자 멀티모달 순위라고 보기는 어렵습니다
.
DeepSeek 쪽은 이름부터 조심해서 봐야 합니다. 공통 벤치마크 표에는 DeepSeek-V4-Pro-Max가 나오고, Artificial Analysis 비교에는 DeepSeek V4 Pro가 등장합니다 . 두 표기의 결과를 자동으로 같은 모델처럼 합쳐 읽으면 곤란합니다.
공통 표에서 DeepSeek-V4-Pro-Max는 경쟁권에 있지만 1위 항목은 없습니다. GPQA Diamond 90.1%, Humanity’s Last Exam 무도구 37.7%, 도구 사용 48.2%, Terminal-Bench 2.0 67.9%, SWE-Bench Pro / SWE Pro 55.4%, BrowseComp 83.4%, MCP Atlas / MCPAtlas Public 73.6%입니다 .
DeepSeek V4의 가장 눈에 띄는 근거는 비용 대비 성능입니다. VentureBeat는 DeepSeek V4가 Opus 4.7과 GPT-5.5 대비 약 6분의 1 비용으로 거의 최첨단 수준의 지능을 제공한다고 설명합니다 . 다만 이는 자체 워크로드에서 품질, 지연 시간, 실패 비용을 검증해볼 이유이지, 곧바로 모든 업무에서 더 낫다는 뜻은 아닙니다.
긴 컨텍스트 관점에서는 한 Artificial Analysis 비교에서 DeepSeek V4 Pro와 Claude Opus 4.7이 모두 1,000k 토큰 컨텍스트 창으로 제시됩니다 . 이 역시 해당 구성 간 동률이라는 의미이지, 모든 DeepSeek 또는 Claude 모드에 대한 일반화는 아닙니다
.
Kimi K2.6은 이번 네 모델 중 순위를 매기기 가장 까다롭습니다. GPT-5.5, Claude Opus 4.7, DeepSeek-V4-Pro-Max가 함께 들어간 핵심 공통 표에는 Kimi K2.6이 포함되지 않았기 때문입니다 .
Kimi 중심 비교에서는 K2.6이 SWE-Bench Pro 58.6%, SWE-Bench Verified 80.2%, Terminal-Bench 2.0 66.7%, Humanity’s Last Exam 도구 사용 54.0%, LiveCodeBench v6 89.6%로 제시됩니다 . 해당 자료는 K2.6 수치의 출처를 Moonshot AI 공식 모델 카드라고 설명하지만, 비교 대상은 주로 Claude Opus 4.6과 GPT-5.4라서 여기서 다루는 정확한 4자 구도와는 다릅니다
.
또 다른 Kimi 대 DeepSeek 비교에서는 Kimi K2.6이 AIME 2026 Thinking mode 96.4%, APEX Agents Thinking mode 27.9%, BrowseComp Thinking mode 및 context management 83.2%로 제시됩니다 . 같은 자료에서 DeepSeek-V4 Pro는 BrowseComp 83.4%로 나오지만, AIME 2026과 APEX Agents의 DeepSeek 값은 제공되지 않습니다
.
결론적으로 Kimi K2.6은 코딩, 에이전트, 브라우징, 수학 쪽에서 시험해볼 만한 후보입니다. 다만 GPT-5.5와 Claude Opus 4.7을 상대로 같은 벤치마크 묶음에서 전체 순위를 확정할 만큼의 근거는 부족합니다 .
이번 자료는 하나의 완전한 리더보드가 아닙니다. GPT-5.5, GPT-5.5 Pro, DeepSeek-V4-Pro-Max, DeepSeek V4 Pro, Claude Opus 4.7, Kimi K2.6처럼 기본 모델과 Pro 모델, Max 설정, Thinking mode가 섞여 있습니다 .
일부 결과는 벤더 리포트라는 점도 중요합니다. Vellum의 GPT-5.5 정리는 모든 벤치마크 값이 vendor-reported라고 단서를 달고 있으며 , OpenAI의 ARC-AGI 관련 평가 표에는 GPT 평가가 reasoning effort xhigh인 연구 환경에서 실행돼 실제 production ChatGPT와 출력이 다를 수 있다는 설명이 붙어 있습니다
.
근소한 차이는 방향성 정도로 읽는 편이 낫습니다. Claude의 GPQA Diamond 우위는 GPT-5.5 대비 0.6%포인트이고, GPT-5.5의 OSWorld-Verified 우위는 Claude 대비 0.7%포인트입니다 . 반면 GPT-5.5의 Terminal-Bench 2.0 우위는 Claude 대비 13%포인트 이상이고, FrontierMath 우위는 7.9%포인트라 실무 시험 우선순위를 정하는 데 더 뚜렷한 신호가 됩니다
.
최종 결론은 단순합니다. GPT-5.5, Claude Opus 4.7, DeepSeek V4, Kimi K2.6 사이에 모든 항목을 이기는 단일 승자는 없습니다. 내 업무와 가장 닮은 벤치마크를 고르고, 실제 배포 가능한 모델과 설정으로 같은 평가를 다시 돌리는 것이 가장 현실적인 선택법입니다.
Comments
0 comments