아래 표의 —는 제공된 공개 출처 안에서 같은 벤치마크에 직접 대응되는 수치를 확인하기 어렵다는 뜻입니다. 해당 모델이 그 작업을 수행하지 못한다는 의미는 아닙니다.
OpenAI는 GPT-5.5가 Terminal-Bench 2.0에서 82.7%, SWE-Bench Pro에서 58.6%를 기록했다고 밝혔습니다 . OpenAI 설명에 따르면 Terminal-Bench 2.0은 계획, 반복, 도구 조정이 필요한 복잡한 명령줄 워크플로를 평가하고, SWE-Bench Pro는 실제 GitHub 이슈 해결 능력을 평가합니다
.
이 점수만 보면 GPT-5.5는 샌드박스 실행, 셸 명령 반복, CI 재현, 파일 생성·수정처럼 긴 터미널 세션이 필요한 제품 워크로드에서 우선 테스트할 만합니다. 다만 SWE-Bench Pro에서는 Claude Opus 4.7의 64.3%가 GPT-5.5의 58.6%보다 높게 보고되어, 모든 코딩 작업에서 GPT-5.5가 우위라고 보기는 어렵습니다 .
Claude Opus 4.7은 SWE-Bench Pro 64.3%, SWE-Bench Verified 87.6%로 보고됩니다 . DataCamp는 Opus 4.7이 코딩, 추론, 도구 사용, 컴퓨터 사용, 시각 추론을 포함한 14개 벤치마크에서 평가됐다고 정리합니다
.
GPT-5.5와의 공통 비교에서는 Claude Opus 4.7이 GPQA Diamond에서 94.2% 대 93.6%, MCP Atlas에서 79.1% 대 75.3%로 앞섭니다 . 반대로 Terminal-Bench 2.0과 BrowseComp에서는 GPT-5.5가 더 높은 공개값을 보입니다
. 즉 Claude Opus 4.7은 터미널 자동화 전반의 절대 강자라기보다, 실제 이슈 해결·코드 수리·리뷰형 작업에서 먼저 검증할 모델에 가깝습니다.
Kimi K2.6은 SWE-Bench Pro 58.6%, SWE-Bench Verified 80.2%로 소개되며, 별도 가이드에서는 Terminal-Bench 2.0 66.7%, HLE with tools 54.0%도 제시됩니다 . 다만 해당 가이드는 K2.6 수치의 출처를 Moonshot AI 공식 모델카드로 설명하고, SWE-Bench Pro에는 Moonshot의 in-house harness라는 단서를 붙입니다
.
따라서 Kimi K2.6의 SWE-Bench Pro 58.6%가 GPT-5.5의 58.6%와 숫자상 같더라도, 동일한 평가 하네스에서 나온 완전한 동률이라고 단정하기는 어렵습니다 . 대신 Kimi K2.6은 텍스트, 이미지, 비디오 입력과 256k 컨텍스트 라우트를 지원한다고 소개되므로, 긴 멀티모달 입력이 중요한 제품에서는 별도로 실험할 가치가 있습니다
.
DeepSeek V4는 이 비교표의 Terminal-Bench, SWE-Bench Pro, SWE-Bench Verified, GPQA Diamond 같은 항목에 직접 넣을 만한 공개 수치가 제공 출처 안에서는 충분하지 않습니다. 대신 Artificial Analysis는 DeepSeek V4 Pro Max가 AA-Omniscience에서 -10을 기록해 V3.2 대비 11점 개선됐고, V4 Flash Max는 -23이라고 설명합니다 . 같은 출처는 V4 Pro와 V4 Flash의 환각률을 각각 94%, 96%로 보고하며, 모를 때도 거의 항상 답하는 경향이 있다는 해석을 덧붙입니다
.
구조와 가격 면에서는 검토할 이유가 있습니다. DataCamp는 DeepSeek V4가 Mixture of Experts 구조를 쓰며, Pro 모델은 총 1.6조 파라미터 중 490억 활성 파라미터, Flash 모델은 총 2,840억 파라미터 중 130억 활성 파라미터라고 설명합니다 . Mashable이 정리한 API 가격도 DeepSeek V4가 GPT-5.5와 Claude Opus 4.7보다 낮습니다
.
따라서 DeepSeek V4는 비용 민감도가 큰 대량 처리, 내부 검증이 가능한 워크플로, 오픈웨이트 계열 검토에서 후보가 될 수 있습니다. 그러나 높은 환각률 보고와 공통 벤치마크 공백을 함께 보면, 정확성이 중요한 제품에서는 별도 평가·후처리·실패 감지가 필요합니다 .
첫째, 네 모델을 같은 프롬프트, 같은 도구 접근, 같은 추론 예산, 같은 채점기로 평가한 독립 비교가 제공 출처 안에서는 충분하지 않습니다. GPT-5.5와 Claude Opus 4.7은 공통 비교 자료가 상대적으로 많지만, Kimi K2.6은 모델카드·in-house harness 수치가 섞이고 DeepSeek V4는 공통 벤치마크 행이 비어 있습니다 .
둘째, 같은 벤치마크 이름이라도 실행 조건이 달라질 수 있습니다. 한 집계 자료는 GPT-5.5와 Claude Opus 4.7의 공개 점수가 형태상 비교 가능하더라도 방법론까지 동일하다고 보기는 어렵다고 설명합니다 . Anthropic도 Terminal-Bench 2.0 평가에서 Terminus-2 하네스와 특정 리소스 조건을 사용했다고 밝힙니다
.
셋째, 벤치마크 점수는 제품 품질의 일부일 뿐입니다. 실제 도입에서는 정답률뿐 아니라 실패 방식, 환각률, 지연시간, 비용, 도구 호출 안정성, 보안 정책, 로그 재현성까지 함께 봐야 합니다. ExplainX도 벤치마크 정의, 프롬프트, 툴 정책에 따라 점수가 움직일 수 있으므로 자체 평가 하네스를 대체해서는 안 된다고 지적합니다 .
현재 공개 근거만 기준으로 하면 터미널형 에이전트 코딩은 GPT-5.5, SWE-Bench 계열 코드 수리는 Claude Opus 4.7, 긴 멀티모달 컨텍스트는 Kimi K2.6, 비용 민감형 대량 호출은 DeepSeek V4를 먼저 테스트하는 전략이 가장 합리적입니다 . 다만 네 모델의 종합 승자는 아직 보류하는 편이 안전합니다. 공개 점수는 프롬프트, 도구 접근, 추론 설정, 평가 하네스에 따라 달라질 수 있기 때문입니다
.
Comments
0 comments