표의 빈칸은 DeepSeek V4나 Kimi K2.6이 성능이 낮다는 뜻이 아니다. 여기서 확인할 수 있는 자료만으로는 같은 벤치마크, 같은 설정, 같은 수준의 세부 정보가 확보되지 않았다는 의미다
.
OpenAI의 GPT-5.5 발표 페이지에 실린 ARC-AGI 수치만 보면, GPT-5.5는 Claude Opus 4.7보다 높다. ARC-AGI-1 Verified에서 GPT-5.5는 95.0%, Claude Opus 4.7은 93.5%를 기록했다. ARC-AGI-2 Verified에서는 GPT-5.5가 85.0%, Claude Opus 4.7이 75.8%다 .
다만 이 결과를 ‘GPT-5.5가 모든 상황에서 더 낫다’는 뜻으로 읽으면 곤란하다. 이 수치는 OpenAI 표에 실린 특정 추상 추론 평가에서 GPT-5.5가 Claude Opus 4.7보다 높았다는 의미다 . 또한 OpenAI는 GPT 계열 평가가 연구 환경에서 추론 노력 수준을 ‘xhigh’로 설정해 진행됐으며, 실제 ChatGPT 프로덕션 환경의 출력과 일부 차이가 날 수 있다고 설명했다
.
Claude Opus 4.7에 가장 유리한 수치는 MCP-Atlas에서 나온다. 2차 분석 자료는 MCP-Atlas에서 Claude Opus 4.7이 79.1%, GPT-5.5가 75.3%를 기록했다고 보고했다 . 여기서 MCP는 Model Context Protocol의 약자로, 여러 외부 도구와 컨텍스트를 연결해 모델이 복합 작업을 수행하도록 돕는 방식과 관련된 영역이다.
제품이 검색, 데이터베이스, 사내 도구, 코드 실행기 같은 여러 도구를 연쇄적으로 호출해야 한다면 이 차이는 중요할 수 있다. 순수 추론 점수보다 ‘도구를 얼마나 안정적으로 부르고 이어 붙이는가’가 더 큰 변수가 되기 때문이다. 제공된 자료 안에서는 복잡한 도구 오케스트레이션과 MCP 기반 워크플로에 한해 Claude Opus 4.7이 GPT-5.5보다 나은 신호를 보인다 .
코딩 쪽에서 가장 활용하기 쉬운 숫자는 GPT-5.5의 Terminal-Bench 2.0 결과다. GPT-5.5는 터미널 작업과 에이전트형 코딩에 관련된 이 벤치마크에서 82.7%로 보고됐다 .
하지만 여기에도 한계가 있다. 제공된 자료에는 Claude Opus 4.7, DeepSeek V4, Kimi K2.6의 Terminal-Bench 2.0 점수가 같은 조건으로 정리돼 있지 않다. 따라서 더 정확한 표현은 ‘GPT-5.5가 에이전트형 코딩에서 가장 분명한 공개 수치를 갖고 있다’이지, ‘GPT-5.5가 모든 코딩 조건에서 나머지 세 모델을 이긴다’가 아니다 .
DeepSeek V4와 Kimi K2.6은 오픈웨이트 모델 범주에서 진지하게 봐야 할 후보들이다. 하지만 제공 자료만으로는 ARC-AGI, MCP-Atlas, Terminal-Bench 2.0에서 GPT-5.5·Claude Opus 4.7과 같은 방식으로 정면 비교하기 어렵다
.
DeepSeek에 대해서는 Artificial Analysis가 DeepSeek V4 출시로 DeepSeek이 주요 오픈웨이트 모델군에 다시 들어왔다고 설명한다 . 여기서 확인되는 구체적인 수치는 DeepSeek V4 Pro Max가 Artificial Analysis Intelligence Index에서 52점을 기록했다는 내용이다. 이는 DeepSeek V3.2의 42점보다 높은 수치로 보고됐다
.
Kimi K2.6의 경우, Artificial Analysis는 ‘Kimi K2.6: The new leading open weights model’이라는 제목의 분석을 내세웠다 . 이는 오픈웨이트 시장에서 강한 포지셔닝 신호다. 다만 제공된 자료 안에는 Kimi K2.6을 DeepSeek V4, GPT-5.5, Claude Opus 4.7과 같은 벤치마크에서 직접 비교할 수 있는 세부 점수가 충분하지 않다
.
GPT-5.5의 system card는 CoT-Control을 설명하면서, 이 평가 묶음이 GPQA, MMLU-Pro, HLE, BFCL, SWE-Bench Verified 같은 기존 벤치마크를 바탕으로 만든 1만 3,000개 이상의 과제를 포함한다고 밝힌다 . 이는 추론 과정의 제어 가능성을 평가하는 데 참고할 수 있지만, GPT-5.5·Claude Opus 4.7·DeepSeek V4·Kimi K2.6의 안전성을 서로 비교하는 점수표는 아니다
.
또 다른 자료는 GPT-5.5가 cyber range에서 93%의 성공률을 보였다고 전하면서도, 동시에 6시간의 레드팀 테스트에서 범용 jailbreak가 발견됐다고 설명한다 . 두 정보는 함께 읽어야 한다. 사이버 과제 수행 능력이 높다고 해서 모델의 전반적 안전성이 자동으로 입증되는 것은 아니다
.
외부 비판도 있다. 한 분석은 GPT-5.5의 안전성 평가가 OpenAI의 설명에 크게 의존한다는 점을 지적하며, 공급자가 공개한 정보만으로는 안전성 결론에 한계가 있다고 본다 .
첫째, GPT-5.5가 ARC-AGI에서 Claude Opus 4.7보다 앞선다고 해서 ‘모든 분야의 최강 모델’이라고 결론 내릴 수는 없다 . 둘째, Claude Opus 4.7이 MCP-Atlas에서 앞선다고 해서 전체 성능이 GPT-5.5보다 높다고 말할 수도 없다
. 벤치마크마다 측정하는 능력이 다르다.
셋째, DeepSeek V4와 Kimi K2.6을 충분한 공통 벤치마크 없이 두 폐쇄형 모델과 같은 순위표에 넣는 것도 무리다. Artificial Analysis의 신호는 두 모델이 오픈웨이트 생태계에서 중요하다는 점을 보여주지만, GPT-5.5와 Claude Opus 4.7에 적용된 동일 지표로 종합 순위를 만들기에는 부족하다
.
마지막으로, 능력 점수를 안전성 보증으로 바꿔 읽어서는 안 된다. GPT-5.5 관련 자료만 봐도 높은 사이버 성능 신호와 jailbreak, 평가 독립성에 대한 우려가 동시에 존재한다
.
가장 정직한 정리는 이렇다. GPT-5.5는 공개된 ARC-AGI 수치에서 Claude Opus 4.7보다 앞서며, 에이전트형 코딩에서도 가장 뚜렷한 수치를 갖고 있다. Claude Opus 4.7은 MCP-Atlas에서 GPT-5.5보다 앞선다. DeepSeek V4와 Kimi K2.6은 오픈웨이트 영역의 중요한 후보지만, 제공 자료만으로 두 폐쇄형 모델과 공정하게 줄 세우기에는 공통 점수가 부족하다
.
실제 제품 선택에서는 범용 1위를 찾기보다, 자신이 풀 문제를 기준으로 직접 평가해야 한다. 추론, 도구 호출, 코드 작업, 비용, 지연시간, 배포 통제, 안전성 리스크를 나눠 테스트하는 편이 벤치마크 표 하나를 믿는 것보다 훨씬 현실적이다.
Comments
0 comments