공개 벤치마크만 보면 네 모델을 하나의 순위로 줄 세우기 어렵습니다. GPT-5.5와 Claude Opus 4.7은 같은 표에서 비교되는 공개 점수가 비교적 많지만, Kimi K2.6은 모델카드·별도 하네스 수치가 섞여 있고 DeepSeek V4는 주요 코딩 벤치마크의 공통 수치가 충분하지 않습니다 [1][
2][
5][
6]. 따라서 이 비교의 핵심은 ‘최고 모델’이 아니라 ‘어떤 작업에 어떤 모델을 먼저 테스트할 것인가’입니다.
먼저 보는 작업별 결론
- 터미널형 에이전트 코딩: GPT-5.5를 먼저 테스트할 만합니다. OpenAI는 GPT-5.5가 Terminal-Bench 2.0에서 82.7%를 기록했다고 밝혔고, 공개 비교표에서 Claude Opus 4.7은 69.4%, Kimi K2.6은 66.7%로 제시됩니다 [
19][
8][
13][
6].
- 실제 GitHub 이슈 해결·코드 수리: Claude Opus 4.7이 가장 강한 1차 후보입니다. 공개 자료에서 SWE-Bench Pro 64.3%, SWE-Bench Verified 87.6%가 보고됐고, GPT-5.5의 SWE-Bench Pro 58.6%보다 높습니다 [
27][
19].
- 긴 멀티모달 컨텍스트: Kimi K2.6을 후보군에 넣을 수 있습니다. Kimi K2.6은 텍스트, 이미지, 비디오 입력과 256k 컨텍스트 라우트를 지원한다고 소개됩니다 [
7].
- 비용 민감형 대량 호출: DeepSeek V4가 가격 면에서 눈에 띕니다. Mashable이 정리한 API 가격은 100만 토큰당 DeepSeek V4 입력 1.74달러·출력 3.48달러, GPT-5.5 입력 5달러·출력 30달러, Claude Opus 4.7 입력 5달러·출력 25달러입니다 [
3].
핵심 벤치마크 비교표
아래 표의 —는 제공된 공개 출처 안에서 같은 벤치마크에 직접 대응되는 수치를 확인하기 어렵다는 뜻입니다. 해당 모델이 그 작업을 수행하지 못한다는 의미는 아닙니다.
| 벤치마크 | GPT-5.5 | Claude Opus 4.7 | Kimi K2.6 | DeepSeek V4 | 읽는 법 |
|---|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% [ | 69.4% [ | 66.7% [ | — | 터미널·명령줄 워크플로에서는 GPT-5.5의 공개값이 가장 높습니다. |
| SWE-Bench Pro | 58.6% [ | 64.3% [ | 58.6% [ | — | 코드 수정·GitHub 이슈 해결 계열에서는 Claude Opus 4.7이 앞섭니다. |
| SWE-Bench Verified | — | 87.6% [ | 80.2% [ | — | 제공 출처 기준으로는 Claude Opus 4.7과 Kimi K2.6 수치가 확인됩니다. |
| GPQA Diamond | 93.6% [ | 94.2% [ | — | — | GPT-5.5와 Claude Opus 4.7이 매우 근접하며, 공개값은 Claude가 소폭 높습니다. |
| HLE with tools | 52.2% [ | 54.7% [ | 54.0% [ | — | Claude와 Kimi의 수치가 높지만, Kimi는 별도 비교 조건일 수 있습니다 [ |
| BrowseComp | 84.4% [ | 79.3% [ | — | — | 브라우징·웹 탐색형 평가에서는 GPT-5.5가 앞선 공개값입니다. |
| OSWorld-Verified | 78.7% [ | 78.0% [ | — | — | 두 모델 차이가 작습니다. |
| MCP Atlas | 75.3% [ | 79.1% [ | — | — | MCP·툴 연동형 평가에서는 Claude Opus 4.7이 앞섭니다. |
GPT-5.5: 터미널형 에이전트 코딩에서 강한 후보
OpenAI는 GPT-5.5가 Terminal-Bench 2.0에서 82.7%, SWE-Bench Pro에서 58.6%를 기록했다고 밝혔습니다 [19]. OpenAI 설명에 따르면 Terminal-Bench 2.0은 계획, 반복, 도구 조정이 필요한 복잡한 명령줄 워크플로를 평가하고, SWE-Bench Pro는 실제 GitHub 이슈 해결 능력을 평가합니다 [
19].
이 점수만 보면 GPT-5.5는 샌드박스 실행, 셸 명령 반복, CI 재현, 파일 생성·수정처럼 긴 터미널 세션이 필요한 제품 워크로드에서 우선 테스트할 만합니다. 다만 SWE-Bench Pro에서는 Claude Opus 4.7의 64.3%가 GPT-5.5의 58.6%보다 높게 보고되어, 모든 코딩 작업에서 GPT-5.5가 우위라고 보기는 어렵습니다 [19][
27].
Claude Opus 4.7: 코드 수리와 검토형 작업에 강함
Claude Opus 4.7은 SWE-Bench Pro 64.3%, SWE-Bench Verified 87.6%로 보고됩니다 [27]. DataCamp는 Opus 4.7이 코딩, 추론, 도구 사용, 컴퓨터 사용, 시각 추론을 포함한 14개 벤치마크에서 평가됐다고 정리합니다 [
27].
GPT-5.5와의 공통 비교에서는 Claude Opus 4.7이 GPQA Diamond에서 94.2% 대 93.6%, MCP Atlas에서 79.1% 대 75.3%로 앞섭니다 [8][
13]. 반대로 Terminal-Bench 2.0과 BrowseComp에서는 GPT-5.5가 더 높은 공개값을 보입니다 [
8][
13][
19]. 즉 Claude Opus 4.7은 터미널 자동화 전반의 절대 강자라기보다, 실제 이슈 해결·코드 수리·리뷰형 작업에서 먼저 검증할 모델에 가깝습니다.
Kimi K2.6: 긴 멀티모달 입력은 매력적, 점수 조건은 확인 필요
Kimi K2.6은 SWE-Bench Pro 58.6%, SWE-Bench Verified 80.2%로 소개되며, 별도 가이드에서는 Terminal-Bench 2.0 66.7%, HLE with tools 54.0%도 제시됩니다 [1][
6]. 다만 해당 가이드는 K2.6 수치의 출처를 Moonshot AI 공식 모델카드로 설명하고, SWE-Bench Pro에는 Moonshot의 in-house harness라는 단서를 붙입니다 [
6].
따라서 Kimi K2.6의 SWE-Bench Pro 58.6%가 GPT-5.5의 58.6%와 숫자상 같더라도, 동일한 평가 하네스에서 나온 완전한 동률이라고 단정하기는 어렵습니다 [1][
6][
19]. 대신 Kimi K2.6은 텍스트, 이미지, 비디오 입력과 256k 컨텍스트 라우트를 지원한다고 소개되므로, 긴 멀티모달 입력이 중요한 제품에서는 별도로 실험할 가치가 있습니다 [
7].
DeepSeek V4: 가격은 강점, 정확성 검증은 필수
DeepSeek V4는 이 비교표의 Terminal-Bench, SWE-Bench Pro, SWE-Bench Verified, GPQA Diamond 같은 항목에 직접 넣을 만한 공개 수치가 제공 출처 안에서는 충분하지 않습니다. 대신 Artificial Analysis는 DeepSeek V4 Pro Max가 AA-Omniscience에서 -10을 기록해 V3.2 대비 11점 개선됐고, V4 Flash Max는 -23이라고 설명합니다 [2]. 같은 출처는 V4 Pro와 V4 Flash의 환각률을 각각 94%, 96%로 보고하며, 모를 때도 거의 항상 답하는 경향이 있다는 해석을 덧붙입니다 [
2].
구조와 가격 면에서는 검토할 이유가 있습니다. DataCamp는 DeepSeek V4가 Mixture of Experts 구조를 쓰며, Pro 모델은 총 1.6조 파라미터 중 490억 활성 파라미터, Flash 모델은 총 2,840억 파라미터 중 130억 활성 파라미터라고 설명합니다 [4]. Mashable이 정리한 API 가격도 DeepSeek V4가 GPT-5.5와 Claude Opus 4.7보다 낮습니다 [
3].
따라서 DeepSeek V4는 비용 민감도가 큰 대량 처리, 내부 검증이 가능한 워크플로, 오픈웨이트 계열 검토에서 후보가 될 수 있습니다. 그러나 높은 환각률 보고와 공통 벤치마크 공백을 함께 보면, 정확성이 중요한 제품에서는 별도 평가·후처리·실패 감지가 필요합니다 [2][
3][
4].
사용 사례별 선택 가이드
| 사용 사례 | 먼저 테스트할 모델 | 근거 |
|---|---|---|
| 장시간 터미널 자동화, 셸 기반 에이전트, CI 재현 | GPT-5.5 | Terminal-Bench 2.0에서 GPT-5.5 82.7%, Claude Opus 4.7 69.4%, Kimi K2.6 66.7%가 공개되어 있습니다 [ |
| 실제 GitHub 이슈 해결, 코드 수리, SWE-Bench형 작업 | Claude Opus 4.7 | Claude Opus 4.7은 SWE-Bench Pro 64.3%, SWE-Bench Verified 87.6%로 보고됩니다 [ |
| 브라우징·웹 탐색형 작업 | GPT-5.5 | BrowseComp에서 GPT-5.5 84.4%, Claude Opus 4.7 79.3%가 보고됩니다 [ |
| MCP·툴 연동형 작업 | Claude Opus 4.7 | MCP Atlas에서 Claude Opus 4.7 79.1%, GPT-5.5 75.3%가 보고됩니다 [ |
| 긴 멀티모달 컨텍스트 | Kimi K2.6 | Kimi K2.6은 텍스트, 이미지, 비디오 입력과 256k 컨텍스트 라우트를 지원한다고 소개됩니다 [ |
| 비용 민감한 대량 호출 | DeepSeek V4 | Mashable 기준 DeepSeek V4의 토큰 가격은 GPT-5.5·Claude Opus 4.7보다 낮지만, Artificial Analysis의 높은 환각률 보고도 함께 봐야 합니다 [ |
왜 종합 1위를 단정하기 어려운가
첫째, 네 모델을 같은 프롬프트, 같은 도구 접근, 같은 추론 예산, 같은 채점기로 평가한 독립 비교가 제공 출처 안에서는 충분하지 않습니다. GPT-5.5와 Claude Opus 4.7은 공통 비교 자료가 상대적으로 많지만, Kimi K2.6은 모델카드·in-house harness 수치가 섞이고 DeepSeek V4는 공통 벤치마크 행이 비어 있습니다 [1][
2][
5][
6].
둘째, 같은 벤치마크 이름이라도 실행 조건이 달라질 수 있습니다. 한 집계 자료는 GPT-5.5와 Claude Opus 4.7의 공개 점수가 형태상 비교 가능하더라도 방법론까지 동일하다고 보기는 어렵다고 설명합니다 [5]. Anthropic도 Terminal-Bench 2.0 평가에서 Terminus-2 하네스와 특정 리소스 조건을 사용했다고 밝힙니다 [
31].
셋째, 벤치마크 점수는 제품 품질의 일부일 뿐입니다. 실제 도입에서는 정답률뿐 아니라 실패 방식, 환각률, 지연시간, 비용, 도구 호출 안정성, 보안 정책, 로그 재현성까지 함께 봐야 합니다. ExplainX도 벤치마크 정의, 프롬프트, 툴 정책에 따라 점수가 움직일 수 있으므로 자체 평가 하네스를 대체해서는 안 된다고 지적합니다 [28].
최종 판단
현재 공개 근거만 기준으로 하면 터미널형 에이전트 코딩은 GPT-5.5, SWE-Bench 계열 코드 수리는 Claude Opus 4.7, 긴 멀티모달 컨텍스트는 Kimi K2.6, 비용 민감형 대량 호출은 DeepSeek V4를 먼저 테스트하는 전략이 가장 합리적입니다 [19][
27][
7][
3]. 다만 네 모델의 종합 승자는 아직 보류하는 편이 안전합니다. 공개 점수는 프롬프트, 도구 접근, 추론 설정, 평가 하네스에 따라 달라질 수 있기 때문입니다 [
5][
28][
31].




