AI 모델을 도입할 때 가장 위험한 선택법은 ‘종합 1위’라는 말만 보고 결정하는 것이다. GPT-5.5, Claude Opus 4.7, DeepSeek V4, Kimi K2.6은 공개 자료의 결이 서로 다르다. GPT-5.5와 Claude Opus 4.7은 Vellum과 OpenAI 자료에서 직접 비교 가능한 점수가 여러 개 확인되지만, DeepSeek V4와 Kimi K2.6은 같은 벤치마크에서 네 모델 전체를 나란히 비교한 근거가 제한적이다. 대신 DeepSeek V4는 긴 컨텍스트와 신뢰성 지표, Kimi K2.6은 오픈 웨이트와 멀티모달 특성이 핵심 근거로 보인다 [2][
7][
30][
31][
33][
35][
36].
먼저 결론: 하나의 우승자를 뽑기 어렵다
공개된 숫자만 놓고 가장 안전하게 말할 수 있는 결론은 작업별로 봐야 한다는 것이다. GPT-5.5와 Claude Opus 4.7을 직접 비교한 Vellum 표에서는 GPT-5.5가 Terminal-Bench 2.0에서 82.7% 대 69.4%, GDPval에서 84.9% 대 80.3%, FrontierMath T1–3에서 51.7% 대 43.8%로 앞선다. 반대로 Claude Opus 4.7은 SWE-Bench Pro에서 64.3% 대 58.6%, GPQA Diamond에서 94.2% 대 93.6%로 GPT-5.5를 앞선다 [2].
툴 사용과 컴퓨터 사용 영역도 일방적이지 않다. OpenAI 자료에 따르면 GPT-5.5는 OSWorld-Verified에서 78.7%로 Claude Opus 4.7의 78.0%보다 근소하게 높고, BrowseComp에서는 84.4% 대 79.3%로 앞선다. 그러나 MCP Atlas에서는 Claude Opus 4.7이 79.1%로 GPT-5.5의 75.3%보다 높다 [7].
DeepSeek V4와 Kimi K2.6은 같은 평가자와 같은 벤치마크 하네스에서 GPT-5.5·Claude Opus 4.7과 함께 비교한 점수가 충분히 확인되지 않는다. 따라서 점수가 없는 항목을 성능 열세로 해석하면 안 된다. 이 경우에는 확인 가능한 특성, 즉 DeepSeek V4 Pro의 1,000k tokens 컨텍스트 창, DeepSeek V4의 hallucination 지표, Kimi K2.6의 open weights·multimodal·256k context 정보를 따로 읽어야 한다 [31][
33][
35][
36].
공개 자료로 직접 비교 가능한 핵심 표
| 벤치마크 / 지표 | GPT-5.5 | Claude Opus 4.7 | DeepSeek V4 | Kimi K2.6 | 해석 |
|---|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 69.4% | 같은 출처의 직접 비교 점수 확인 안 됨 | 같은 출처의 직접 비교 점수 확인 안 됨 | 터미널·에이전트형 작업에서는 GPT-5.5가 Claude Opus 4.7을 앞선다 [ |
| SWE-Bench Pro | 58.6% | 64.3% | 같은 출처의 직접 비교 점수 확인 안 됨 | 같은 출처의 직접 비교 점수 확인 안 됨 | 소프트웨어 엔지니어링 이슈 해결 벤치마크에서는 Claude Opus 4.7이 앞선다 [ |
| GDPval | 84.9% | 80.3% | 같은 출처의 직접 비교 점수 확인 안 됨 | 같은 출처의 직접 비교 점수 확인 안 됨 | GPT-5.5가 Claude Opus 4.7보다 높다 [ |
| OSWorld-Verified | 78.7% | 78.0% | 같은 출처의 직접 비교 점수 확인 안 됨 | 같은 출처의 직접 비교 점수 확인 안 됨 | 컴퓨터 사용 평가에서는 GPT-5.5가 근소하게 앞선다 [ |
| BrowseComp | 84.4% | 79.3% | 같은 출처의 직접 비교 점수 확인 안 됨 | 같은 출처의 직접 비교 점수 확인 안 됨 | 브라우징·툴 워크플로에서는 GPT-5.5 우위로 보고됐다 [ |
| MCP Atlas | 75.3% | 79.1% | 같은 출처의 직접 비교 점수 확인 안 됨 | 같은 출처의 직접 비교 점수 확인 안 됨 | 이 항목에서는 Claude Opus 4.7이 GPT-5.5를 앞선다 [ |
| GPQA Diamond | 93.6% | 94.2% | 같은 출처의 직접 비교 점수 확인 안 됨 | 같은 출처의 직접 비교 점수 확인 안 됨 | 고난도 지식·추론 평가에서는 Claude Opus 4.7이 근소하게 앞선다 [ |
| FrontierMath T1–3 | 51.7% | 43.8% | 같은 출처의 직접 비교 점수 확인 안 됨 | 같은 출처의 직접 비교 점수 확인 안 됨 | GPT-5.5가 Claude Opus 4.7보다 높다 [ |
| Context window | 이 표의 동일 출처 직접 비교 없음 | 이 표의 동일 출처 직접 비교 없음 | DeepSeek V4 Pro: 1,000k tokens | 256k tokens | Artificial Analysis 비교에서는 DeepSeek V4 Pro가 Kimi K2.6보다 컨텍스트 창이 크다 [ |
| AA-Omniscience / hallucination | 같은 출처의 직접 비교 점수 확인 안 됨 | 같은 출처의 직접 비교 점수 확인 안 됨 | V4 Pro Max: -10, V4 Pro hallucination rate 94% | 같은 출처의 직접 비교 점수 확인 안 됨 | DeepSeek V4는 긴 컨텍스트 장점과 별개로 답변 검증이 중요하다는 신호다 [ |
| Artificial Analysis Intelligence Index | 이 글의 비교 자료에서 확인 안 됨 | 이 글의 비교 자료에서 확인 안 됨 | 이 글의 비교 자료에서 확인 안 됨 | 54 | Kimi K2.6의 개별 지표로 읽어야 하며, Vellum·OpenAI 표와 합쳐 단일 순위로 만들면 곤란하다 [ |
여기서 직접 비교 점수 확인 안 됨은 해당 모델이 더 낮다는 뜻이 아니다. 같은 벤치마크, 같은 평가자, 같은 조건에서 공개 점수를 확인하지 못했다는 뜻에 가깝다.
GPT-5.5: 에이전트형 워크플로와 터미널 작업에 강한 선택지
이 글에서 사용한 자료 기준으로 GPT-5.5는 Claude Opus 4.7과 직접 비교 가능한 공개 점수가 가장 많이 확인되는 모델이다. Vellum은 Terminal-Bench 2.0, SWE-Bench Pro, GDPval, GPQA Diamond, FrontierMath T1–3 등을 제시했고, OpenAI는 OSWorld-Verified, BrowseComp, MCP Atlas 같은 컴퓨터 사용·툴 사용 지표를 제시했다 [2][
7].
강점은 터미널 작업, 에이전트형 워크플로, 툴 사용 쪽에 선명하게 나타난다. GPT-5.5는 Terminal-Bench 2.0에서 Claude Opus 4.7을 82.7% 대 69.4%로 앞서고, BrowseComp에서도 84.4% 대 79.3%로 높다. OSWorld-Verified 역시 78.7% 대 78.0%로 근소하게 앞선다 [2][
7].
다만 GPT-5.5가 모든 항목의 승자는 아니다. Claude Opus 4.7은 SWE-Bench Pro, MCP Atlas, GPQA Diamond에서 GPT-5.5보다 높은 점수를 보인다 [2][
7]. 소프트웨어 엔지니어링이나 특정 툴 환경에 민감한 조직이라면 GPT-5.5의 전체 인상만 보고 결정하기보다 자체 작업 샘플로 비교하는 편이 안전하다.
안전성·평가 측면에서 OpenAI는 GPT-5.5 System Card에서 CoT-Control 평가를 언급한다. 이 평가는 GPQA, MMLU-Pro, HLE, BFCL, SWE-Bench Verified 같은 기존 벤치마크에서 만든 13,000개 이상의 태스크를 포함한다고 설명됐다 [4]. 다만 이 수치는 모델의 일반 성능 점수라기보다 지시 따르기와 제어 가능성 평가에 가까우므로, 성능 벤치마크와 혼동해서 읽으면 안 된다.
Claude Opus 4.7: 소프트웨어 엔지니어링에서 가장 뚜렷한 신호
Anthropic의 Claude API 문서에는 Claude Opus 4.7이 2026년 4월 16일 항목으로 올라와 있다 [20]. 공개 비교 점수만 보면 가장 눈에 띄는 강점은 소프트웨어 엔지니어링이다. Vellum 표에서 Claude Opus 4.7은 SWE-Bench Pro 64.3%로 GPT-5.5의 58.6%보다 높다 [
2].
Claude Opus 4.7은 OpenAI 표의 MCP Atlas에서도 79.1%로 GPT-5.5의 75.3%보다 앞선다 [7]. 반면 같은 자료에서 GPT-5.5는 OSWorld-Verified와 BrowseComp에서 Claude Opus 4.7보다 높고, Vellum 표에서는 Terminal-Bench 2.0, GDPval, FrontierMath T1–3에서 GPT-5.5가 앞선다 [
2][
7]. 즉 Claude Opus 4.7의 핵심 매력은 모든 영역의 압도적 1위라기보다 실제 개발 이슈 해결에 가까운 벤치마크에서의 강한 신호다.
안전성 연구 쪽에서는 Anthropic의 Petri 2.0 자료가 참고가 된다. 해당 글은 두 가지 개입을 함께 적용했을 때 Claude 모델의 eval-awareness가 median relative drop 47.3% 감소했다고 보고했다 [22]. 이 역시 Claude Opus 4.7의 성능 점수로 직접 치환하기보다는 Claude 계열 모델의 행동·안전성 평가 맥락으로 보는 것이 맞다.
DeepSeek V4: 긴 컨텍스트가 강점, 신뢰성 관리는 필수
DeepSeek-V4 기술 문서는 V4 series가 DeepSeek-V3의 DeepSeekMoE framework와 Multi-Token Prediction 전략을 유지하면서, 긴 컨텍스트 효율을 높이기 위해 Compressed Sparse Attention과 Heavily Compressed Attention을 결합한 hybrid attention 메커니즘을 도입했다고 설명한다 [30].
가장 눈에 띄는 숫자는 컨텍스트 창이다. Artificial Analysis의 비교 표에서 DeepSeek V4 Pro는 1,000k tokens context window로 제시되며, Kimi K2.6의 256k tokens보다 크다 [33]. 긴 계약서 묶음, 대규모 코드베이스, 방대한 내부 문서처럼 한 번에 많은 문맥을 넣어야 하는 작업에서는 검토 후보가 될 수 있다.
그러나 긴 컨텍스트가 곧 정확성을 보장하지는 않는다. Artificial Analysis는 DeepSeek V4 Pro Max가 AA-Omniscience -10을 기록해 DeepSeek V3.2 Reasoning의 -21보다 개선됐다고 설명하면서도, DeepSeek V4 Pro의 hallucination rate를 94%, V4 Flash의 hallucination rate를 96%로 보고했다 [31].
따라서 DeepSeek V4 Pro를 production에 넣는다면 검색 기반 근거 연결, 출처 검증, human review 같은 보완 장치가 특히 중요하다. 긴 문맥을 잘 담는 모델이라도, 모르는 것을 모른다고 말하지 않는 경향이 강하면 업무 리스크가 커질 수 있기 때문이다 [31][
33].
Kimi K2.6: 오픈 웨이트 멀티모달 후보, 다만 직접 비교는 더 필요
Artificial Analysis는 Kimi K2.6을 2026년 4월 공개된 open weights model로 설명하며, Artificial Analysis Intelligence Index 54를 기록했다고 제시한다 [35]. 또 다른 Artificial Analysis 글은 Kimi K2.6이 image와 video input을 지원하고 text output을 네이티브로 제공하며, max context length는 256k라고 설명한다 [
36].
이 특성 때문에 Kimi K2.6은 오픈 웨이트 기반으로 멀티모달 기능을 검토하는 팀의 shortlist에 들어갈 만하다. 특히 폐쇄형 API만 쓰기 어려운 환경, 자체 배포나 모델 통제권이 중요한 환경에서는 open weights라는 사실 자체가 중요한 판단 요소가 될 수 있다 [35][
36].
다만 제공된 자료 범위에서는 Kimi K2.6을 GPT-5.5나 Claude Opus 4.7과 Terminal-Bench 2.0, SWE-Bench Pro, GDPval, OSWorld-Verified, MCP Atlas 같은 항목에서 직접 비교한 공개 점수가 충분히 확인되지 않는다 [2][
7][
33][
35][
36]. 따라서 Kimi K2.6이 특정 영역에서 우위인지 열위인지는 현재 자료만으로 단정하지 않는 편이 정확하다.
작업별 선택 가이드
| 해야 할 일 | 우선 검토할 모델 | 근거 |
|---|---|---|
| 터미널 자동화, CLI 기반 에이전트 작업 | GPT-5.5 | Terminal-Bench 2.0에서 GPT-5.5가 82.7%, Claude Opus 4.7이 69.4%로 보고됐다 [ |
| 소프트웨어 엔지니어링 이슈 해결 | Claude Opus 4.7 | SWE-Bench Pro에서 Claude Opus 4.7이 64.3%, GPT-5.5가 58.6%로 보고됐다 [ |
| 브라우저·툴 사용 워크플로 | GPT-5.5 또는 Claude Opus 4.7 | BrowseComp에서는 GPT-5.5가 앞서지만, MCP Atlas에서는 Claude Opus 4.7이 앞선다 [ |
| 일반 컴퓨터 사용 워크플로 | GPT-5.5 근소 우위 | OSWorld-Verified에서 GPT-5.5 78.7%, Claude Opus 4.7 78.0%로 보고됐다 [ |
| 매우 긴 문서·코드·자료를 한 번에 넣는 작업 | DeepSeek V4 Pro | Artificial Analysis 표에서 DeepSeek V4 Pro의 context window가 1,000k tokens로 제시됐다. 다만 hallucination rate 94%도 함께 고려해야 한다 [ |
| 오픈 웨이트 멀티모달 | Kimi K2.6 | Kimi K2.6은 open weights model로 설명되며 image·video input과 text output을 네이티브로 지원한다 [ |
| 환각을 최대한 줄여야 하는 고위험 업무 | 단일 우승자 단정 불가 | DeepSeek V4 Pro의 높은 hallucination rate는 확인되지만, 네 모델 전체를 같은 조건에서 비교한 reliability 지표는 충분하지 않다 [ |
벤치마크를 읽을 때의 주의점
첫째, 서로 다른 출처의 점수를 하나의 총점으로 합치면 왜곡될 수 있다. Vellum, OpenAI, Artificial Analysis는 서로 다른 벤치마크, 평가 조건, 모델 설정을 사용한다 [2][
7][
31][
33][
35]. 같은 이름의 모델이라도 reasoning effort, tool access, prompt, sampling, scoring pipeline에 따라 결과가 달라질 수 있다.
둘째, 코딩 벤치마크는 특히 현실 업무와의 거리를 따져야 한다. 관련 학술 자료는 HumanEval 같은 기존 벤치마크가 실제 세밀한 이슈 해결 능력을 평가하는 데 한계가 있으며, SWE-Bench처럼 실제 이슈 해결에 가까운 벤치마크가 중요하다는 문제의식을 제기한다 [42]. 그래서 단순 코드 생성보다 버그 수정, 레포지터리 이해, 테스트 통과가 중요한 팀이라면 SWE-Bench 계열 점수를 더 유심히 볼 필요가 있다.
셋째, 컨텍스트 창은 정확성 지표가 아니다. DeepSeek V4 Pro는 Artificial Analysis 표에서 1,000k tokens context window를 보이지만, 같은 계열 평가에서 DeepSeek V4 Pro의 hallucination rate 94%도 보고됐다 [31][
33]. 많은 문서를 넣을 수 있다는 것과 그 문서에서 항상 정확한 결론을 뽑는다는 것은 별개의 문제다.
최종 정리
공개 근거만 놓고 보면 GPT-5.5는 터미널, 에이전트형 작업, 브라우저·툴 사용에서 강한 선택지다. Terminal-Bench 2.0, BrowseComp, OSWorld-Verified에서 Claude Opus 4.7보다 높은 점수를 보인다 [2][
7]. Claude Opus 4.7은 SWE-Bench Pro에서 64.3%로 GPT-5.5의 58.6%를 앞서므로, 개발 이슈 해결과 소프트웨어 엔지니어링 중심의 워크플로에서 특히 매력적이다 [
2].
DeepSeek V4 Pro는 1,000k tokens라는 긴 컨텍스트 창이 가장 큰 차별점이지만, Artificial Analysis가 보고한 94% hallucination rate를 함께 고려해야 한다 [31][
33]. Kimi K2.6은 open weights, native image·video input, 256k context, Intelligence Index 54라는 장점이 확인되는 멀티모달 후보지만, GPT-5.5·Claude Opus 4.7과 직접 비교 가능한 주요 벤치마크가 더 필요하다 [
35][
36].
결국 답은 하나가 아니다. 터미널 자동화는 GPT-5.5, 실전형 소프트웨어 이슈 해결은 Claude Opus 4.7, 초장문 컨텍스트는 DeepSeek V4 Pro, 오픈 웨이트 멀티모달은 Kimi K2.6을 우선 검토하되, 실제 도입 전에는 반드시 조직의 데이터와 워크플로로 자체 평가를 돌리는 것이 가장 현실적인 선택이다.




