네 모델을 한 줄로 세워 ‘누가 제일 세냐’를 묻고 싶지만, 지금 공개된 자료만 보면 답은 그렇게 단순하지 않습니다. 먼저 봐야 할 것은 벤치마크 숫자의 출처입니다. GPT-5.5는 OpenAI가 Terminal-Bench 2.0과 SWE-Bench Pro 수치를 직접 공개했습니다 [24]. DeepSeek V4는 공식 변경 로그에서 V4-Pro와 V4-Flash의 API 제공을 확인할 수 있지만, 네 모델을 같은 조건에서 비교한 공식 벤치마크 표는 제공되지 않았습니다 [
25]. Claude Opus 4.7과 Kimi K2.6의 직접 비교 수치는 이 글에서 주로 제3자 분석에 기대고 있습니다 [
4][
6].
먼저 결론: 용도별로 승자가 갈린다
- 코딩과 GitHub 이슈 수정: 인용된 SWE-Bench, SWE-Bench Verified, CursorBench 수치만 보면 Claude Opus 4.7이 GPT-5.5보다 강해 보입니다 [
4].
- 터미널 에이전트와 컴퓨터 사용 작업: GPT-5.5가 가장 명확하게 근거를 갖고 있습니다. OpenAI는 GPT-5.5가 Terminal-Bench 2.0에서 82.7%를 기록했다고 밝혔습니다 [
24].
- 비용을 중시하는 코딩 에이전트: CodeRouter는 Kimi K2.6을 비용·품질 측면의 승자로 설명하며, 입력 $0.60 및 출력 $4.00 per million tokens 가격을 제시합니다 [
6].
- DeepSeek V4: V4-Pro와 V4-Flash가 DeepSeek API에서 공식 지원된다는 점은 확인됩니다. 다만 Kimi K2.6, Claude Opus 4.7, GPT-5.5와의 공식 4자 벤치마크 매트릭스는 이 자료들 안에서는 확인되지 않습니다 [
25].
숫자를 보기 전에: 공식 수치와 제3자 수치를 나눠 봐야 한다
OpenAI는 Terminal-Bench 2.0을 복잡한 명령줄 워크플로를 테스트하는 벤치마크로 설명합니다. 이 벤치마크는 계획, 반복, 도구 조율이 필요한 작업을 다루며, GPT-5.5는 여기서 82.7%를 기록했다고 OpenAI가 밝혔습니다 [24]. 또 실제 GitHub 이슈 해결 능력을 평가하는 SWE-Bench Pro에서는 GPT-5.5가 58.6%를 기록했다고 공개했습니다 [
24].
DeepSeek 쪽 공식 문서에서 확인되는 것은 성능 순위가 아니라 제공 방식입니다. DeepSeek API는 V4-Pro와 V4-Flash를 OpenAI ChatCompletions 인터페이스와 Anthropic 인터페이스 양쪽에서 지원하며, 모델 파라미터는 deepseek-v4-pro와 deepseek-v4-flash로 지정하도록 안내합니다 [25]. 즉, API 사용 가능성은 확인되지만 이 자체가 벤치마크 승리를 뜻하지는 않습니다.
Claude Opus 4.7과 Kimi K2.6은 조금 더 조심해서 읽어야 합니다. 이 글에서 쓰는 Claude 대 GPT 비교 수치는 LushBinary의 제3자 분석에, Kimi K2.6과 DeepSeek V4의 가격·포지셔닝 정보는 CodeRouter 자료에 주로 기반합니다 [4][
6].
공개 자료 기준 비교표
아래 표의 ‘자료 없음’은 해당 모델과 벤치마크 조합에 대해, 이 글에서 사용한 자료 안에서 직접 비교 가능한 충분한 수치를 찾지 못했다는 뜻입니다.
| 벤치마크 / 기준 | DeepSeek V4 | Kimi K2.6 | Claude Opus 4.7 | GPT-5.5 |
|---|---|---|---|---|
| SWE-Bench Pro | 자료 없음 | CodeRouter 기준 GPT-5.5 수준 [ | 64.3% [ | 58.6% [ |
| SWE-Bench Verified | 자료 없음 | 자료 없음 | 87.6% [ | 약 85% [ |
| Terminal-Bench 2.0 | 자료 없음 | 자료 없음 | 약 72% [ | 82.7% [ |
| GDPval / 지식 업무 | 자료 없음 | 자료 없음 | 약 78% [ | 84.9% [ |
| OSWorld-Verified / 컴퓨터 사용 | 자료 없음 | 자료 없음 | 약 65% [ | 78.7% [ |
| GPQA Diamond | 자료 없음 | 자료 없음 | 94.2% [ | 약 93% [ |
| CursorBench | 자료 없음 | 자료 없음 | 70% [ | 약 65% [ |
| Tau2-bench Telecom | 자료 없음 | 자료 없음 | 약 90% [ | 98.0% [ |
| Vision & Document Arena | 자료 없음 | 자료 없음 | Arena 보고서 기준 1위 [ | 자료 없음 |
| 가격·컨텍스트 참고 | V4 Flash: 입력 $0.14 / 출력 $0.28 per million tokens, 1M 컨텍스트 [ | 입력 $0.60 / 출력 $4.00 per million tokens [ | 자료 없음 | 자료 없음 |
코딩: Claude Opus 4.7이 가장 강해 보이고, Kimi K2.6은 비용 후보
코딩 벤치마크가 핵심이라면, 현재 인용 가능한 수치에서는 Claude Opus 4.7이 가장 돋보입니다. LushBinary는 SWE-Bench Pro에서 Claude Opus 4.7이 64.3%, GPT-5.5가 58.6%라고 제시하며, GPT-5.5의 58.6% 수치는 OpenAI 공식 발표에서도 확인됩니다 [4][
24]. 같은 제3자 자료에서는 SWE-Bench Verified와 CursorBench에서도 Claude Opus 4.7이 GPT-5.5보다 앞서는 것으로 정리됩니다 [
4].
다만 Kimi K2.6도 코딩 팀이 그냥 넘기기 어려운 후보입니다. CodeRouter는 Kimi K2.6을 SWE-Bench Pro에서 GPT-5.5 수준으로 평가하면서, 동시에 더 낮은 토큰 가격을 제시합니다 [6]. 이 정보만으로 실제 서비스 투입을 결정하기는 어렵지만, 에이전트 실행 횟수, 초안 생성, 재시도 비용이 많은 팀에는 의미 있는 신호입니다.
DeepSeek V4는 공식 DeepSeek 문서만 놓고 보면 코딩 벤치마크 점수를 확인할 수 없습니다. 확실히 말할 수 있는 것은 V4-Pro와 V4-Flash가 API에서 제공된다는 점입니다 [25].
터미널 에이전트와 컴퓨터 사용: GPT-5.5의 근거가 가장 선명하다
터미널 기반 에이전트라면 GPT-5.5가 가장 강하게 뒷받침됩니다. OpenAI는 GPT-5.5가 Terminal-Bench 2.0에서 82.7%를 기록했다고 밝혔고, 이 벤치마크가 계획, 반복, 도구 조율이 필요한 복잡한 명령줄 워크플로를 평가한다고 설명했습니다 [24]. LushBinary는 같은 벤치마크에서 Claude Opus 4.7을 약 72%로 제시합니다 [
4].
지식 업무와 컴퓨터 사용 관련 수치도 인용된 제3자 자료에서는 GPT-5.5 쪽이 우세합니다. LushBinary는 GDPval에서 GPT-5.5 84.9%, Claude Opus 4.7 약 78%를 제시하고, OSWorld-Verified에서는 GPT-5.5 78.7%, Claude Opus 4.7 약 65%를 제시합니다 [4]. 셸 명령, 도구 오케스트레이션, GUI에 가까운 자동화 작업을 검토한다면 GPT-5.5를 우선 테스트 후보로 둘 만합니다.
비전·문서 작업: Claude Opus 4.7에 가장 뚜렷한 긍정 신호
비전과 문서 작업에서는 네 모델을 모두 같은 표로 비교할 수 있는 자료가 충분하지 않습니다. 가장 뚜렷한 신호는 Claude Opus 4.7 쪽입니다. Latent Space/AINews가 인용한 Arena 보고서는 Claude Opus 4.7이 Vision & Document Arena에서 1위를 차지했다고 전합니다 [1].
LLM Stats는 또 Claude Opus 4.7이 긴 변 기준 최대 2,576픽셀, 약 3.75메가픽셀 이미지를 처리할 수 있다고 설명합니다. 같은 자료는 GPT-5.5가 이미지 입력을 지원하며, MMMU-Pro에서 도구 없이 81.2%, 도구 사용 시 83.2%로 제시된다고 정리합니다 [5]. 이 수치는 Claude와 GPT-5.5를 이해하는 데는 도움이 되지만, Kimi K2.6과 DeepSeek V4까지 포함한 직접 4자 비교를 대신하지는 못합니다.
가격 대비 성능: Kimi K2.6과 DeepSeek V4 Flash는 자체 평가에 넣어야 한다
가격 측면에서 가장 강하게 제시된 후보는 Kimi K2.6입니다. CodeRouter는 Kimi K2.6을 비용·품질 승자로 설명하며, 입력 $0.60 및 출력 $4.00 per million tokens 가격을 제시합니다 [6].
DeepSeek V4 Flash도 같은 자료에서 매우 저렴한 워크호스 후보로 언급됩니다. CodeRouter는 V4 Flash를 입력 $0.14, 출력 $0.28 per million tokens, 1M 컨텍스트 모델로 정리합니다 [6]. DeepSeek 공식 문서 역시 V4-Pro와 V4-Flash가 현재 API 인터페이스에서 지원된다는 점을 확인합니다 [
25].
다만 가격이 곧 성능 우위는 아닙니다. 저렴한 모델은 많은 시도, 낮은 위험의 에이전트 실행, 대량 초안 생성에 유리할 수 있습니다. 하지만 실제 운영에서는 정답률, 재시도 횟수, 사람이 고쳐야 하는 오류의 심각도까지 함께 계산해야 합니다.
네 모델을 공정하게 테스트하는 방법
프로덕션 도입을 결정하려면 공개 순위만으로는 부족합니다. 실제 코드베이스, 사내 문서, 자동화 워크플로에서 작은 평가 세트를 만들어야 합니다. 첫 답변의 품질만 보지 말고, 승인된 결과 1건당 비용, 재시도 횟수, 오류 심각도, 실행 시간까지 함께 측정하는 것이 좋습니다.
또 하나 중요한 점은 공식 수치와 제3자 자료를 같은 무게로 보지 않는 것입니다. 이 비교에서 GPT-5.5는 Terminal-Bench 2.0과 SWE-Bench Pro에 대해 OpenAI 공식 수치를 갖고 있습니다 [24]. DeepSeek V4는 공식 API 제공 근거가 있습니다 [
25]. 반면 Claude Opus 4.7과 Kimi K2.6의 주요 직접 비교 주장은 여기서는 주로 제3자 자료에 기반합니다 [
4][
6].
결론
현재 자료만으로는 보편적인 1등을 고르기 어렵습니다. Claude Opus 4.7은 인용된 코딩 관련 수치에서 강하고, GPT-5.5는 터미널 에이전트와 컴퓨터 사용 벤치마크에서 가장 잘 뒷받침됩니다. Kimi K2.6은 비용 대비 품질 후보로 눈에 띄며, DeepSeek V4는 공식 API 제공이 확인된 만큼 자체 평가에 넣어 볼 만한 후보입니다 [4][
24][
6][
25].




