여기서 ‘자료 없음’은 0점이라는 뜻이 아니다. 해당 출처에 그 모델의 값이 제시되지 않았다는 의미다.
GPQA Diamond에서는 Claude Opus 4.7이 94.2%, GPT-5.5가 93.6%, DeepSeek-V4-Pro-Max가 90.1%다 . 차이가 아주 크지는 않지만, 이 행의 1위는 Claude다
.
Humanity’s Last Exam을 도구 없이 풀게 한 결과에서는 Claude의 우위가 더 뚜렷하다. Claude Opus 4.7은 46.9%로, GPT-5.5의 41.4%, GPT-5.5 Pro의 43.1%, DeepSeek-V4-Pro-Max의 37.7%보다 높다 .
하지만 도구 사용이 허용되면 순위가 바뀐다. HLE 도구 사용 항목에서 GPT-5.5 Pro는 57.2%를 기록해 Claude Opus 4.7의 54.7%, GPT-5.5의 52.2%, DeepSeek-V4-Pro-Max의 48.2%를 앞선다 . 즉, ‘순수 추론’과 ‘도구를 곁들인 추론’을 같은 성격의 능력으로 묶어 판단하면 중요한 차이를 놓칠 수 있다.
이 비교에서 GPT-5.5가 가장 선명하게 돋보이는 곳은 Terminal-Bench 2.0이다. GPT-5.5는 82.7%로, Claude Opus 4.7의 69.4%, DeepSeek-V4-Pro-Max의 67.9%보다 높다 .
Kimi K2.6은 Hugging Face 모델 카드에서 Terminal-Bench 2.0 66.7을 기록했고, LLM Stats의 별도 리더보드도 Kimi K2.6 0.667, Claude Opus 4.7 0.694를 제시한다 . 이 수치만 놓고 보면 Kimi는 Claude·DeepSeek와 가까운 구간에 있지만, 공통 표의 GPT-5.5와는 격차가 있다
.
SWE-Bench Pro / SWE Pro에서는 그림이 달라진다. Claude Opus 4.7이 64.3%로 선두이고, GPT-5.5는 58.6%, DeepSeek-V4-Pro-Max는 55.4%다 . Kimi K2.6도 Hugging Face 모델 카드에서 SWE-Bench Pro 58.6으로 제시되지만, 이는 GPT-5.5·Claude·DeepSeek가 함께 나온 공통 표와 같은 단일 실행 결과는 아니다
.
SWE-Bench Verified는 더 조심해서 봐야 한다. Kimi K2.6은 모델 카드와 평가 파일에서 80.2로 제시된다 . 별도 DeepSeek V4 자료는 Claude Opus 4.7 87.6%, DeepSeek V4-Pro 80.6%를 제시하지만, GPT-5.5를 포함한 전체 공통 행은 아니며 DeepSeek도 V4-Pro-Max가 아니라 V4-Pro다
.
GPT-5.5의 대표 강점은 Terminal-Bench 2.0이다. 공통 표에서 82.7%로 해당 행의 최고 점수다 . GPT-5.5 Pro는 모든 벤치마크에 값이 나오지는 않지만, 값이 제시된 곳에서는 강하다. HLE 도구 사용 57.2%, BrowseComp 90.1%로 각각 선두다
.
따라서 터미널에서 여러 단계를 수행하는 agentic 작업은 GPT-5.5를 먼저 시험해볼 만하고, 외부 도구 사용이나 브라우징이 필요한 작업은 GPT-5.5 Pro를 우선 후보로 올릴 수 있다 .
Claude Opus 4.7은 공통 표에서 여러 항목을 가져간다. GPQA Diamond 94.2%, HLE 도구 없음 46.9%, SWE-Bench Pro / SWE Pro 64.3%, MCP Atlas / MCPAtlas Public 79.1%로 선두다 .
다만 모든 곳에서 앞서는 것은 아니다. Terminal-Bench 2.0에서는 GPT-5.5에 뒤지고, HLE 도구 사용과 BrowseComp에서는 GPT-5.5 Pro가 더 높다 . 실무적으로는 도구 없이 깊은 추론을 시키거나 SWE-Bench Pro에 가까운 코딩 과제를 볼 때 Claude Opus 4.7을 첫 후보로 삼을 만하다
.
Kimi K2.6은 이 기사에서 가장 주의해서 읽어야 할 모델이다. 수치가 없어서가 아니라, 비교 방식이 다르기 때문이다. Kimi의 주요 수치는 공통 표가 아니라 Hugging Face 모델 카드와 평가 파일에서 나온다 .
그럼에도 코딩 후보로서의 존재감은 분명하다. 모델 카드와 평가 파일은 Kimi K2.6에 대해 SWE-Bench Verified 80.2, SWE-Bench Pro 58.6, SWE-Bench Multilingual 76.7, Terminal-Bench 2.0 66.7, OSWorld-Verified 73.1을 제시한다 .
운영 측면에서는 가중치 접근성이 차별점이다. Kimi K2.6의 가중치는 Hugging Face에 있고, vLLM, SGLang, KTransformers로 실행할 수 있다고 설명돼 있다 . 이것이 곧 Kimi가 전체 벤치마크 1위라는 뜻은 아니다. 다만 자체 호스팅이나 내부 실험 환경이 중요한 팀이라면 별도 평가 대상으로 올려볼 이유가 있다
.
공통 표에서 DeepSeek는 DeepSeek-V4-Pro-Max로 등장한다 . 이 표의 행만 보면 DeepSeek-V4-Pro-Max는 1위를 차지하지 못한다. GPQA Diamond 90.1%, HLE 도구 없음 37.7%, HLE 도구 사용 48.2%, Terminal-Bench 2.0 67.9%, SWE-Bench Pro / SWE Pro 55.4%, BrowseComp 83.4%, MCP Atlas / MCPAtlas Public 73.6%다
.
하지만 DeepSeek V4의 강점은 ‘최고 점수’보다 ‘가격 대비 후보군’ 쪽에 가깝다. Mashable과 DataCamp는 DeepSeek V4의 API 가격을 100만 input 토큰당 $1.74, 100만 output 토큰당 $3.48로 제시한다. 같은 비교에서 GPT-5.5는 $5/$30, Claude Opus 4.7은 $5/$25로 제시된다 .
따라서 비용이 성능 1위보다 더 중요한 제품이나 대량 처리 시나리오라면 DeepSeek V4를 자체 평가에 넣는 것이 합리적이다. 다만 이 표만 근거로 DeepSeek를 벤치마크 선두라고 부르기는 어렵다 .
공통 표만 보면 Claude Opus 4.7은 GPQA Diamond, HLE 도구 없음, SWE-Bench Pro, MCP Atlas에서 앞선다. GPT-5.5는 Terminal-Bench 2.0에서 앞서고, GPT-5.5 Pro는 HLE 도구 사용과 BrowseComp에서 선두다 .
Comments
0 comments