DeepSeek V4 vs Kimi K2.6 vs Claude Opus 4.7 vs GPT-5.5: 벤치마크로 본 실제 선택 기준

공개 자료만으로는 네 모델의 종합 우승자를 단정하기 어렵다. GPT 5.5는 OpenAI가 Terminal Bench 2.0 82.7%, SWE Bench Pro 58.6%를 공개했고, DeepSeek V4는 공식 문서에서 V4 Pro와 V4 Flash의 API 제공이 확인된다 [24][25].

Studio Global AI로 검색 및 팩트체크 Discover에서 더 많은 것을 찾아보세요

18K0

Illustration eines Benchmark-Dashboards für DeepSeek V4, Kimi K2.6, Claude Opus 4.7 und GPT-5.5 — DeepSeek V4 vsBenchmark-Vergleiche zwischen Frontier-Modellen sind nur sinnvoll, wenn offizielle Werte, Sekundärdaten und eigene Evals getrennt betrachtet werden.
AI 프롬프트
Create a landscape editorial hero image for this Studio Global article: DeepSeek V4 vs. Kimi K2.6 vs. Claude Opus 4.7 vs. GPT-5.5: Benchmark-Vergleich. Article summary: Es gibt keinen sauber belegten Gesamtsieger: GPT 5.5 ist offiziell mit 82,7% auf Terminal Bench 2.0 und 58,6% auf SWE Bench Pro belegt, während Claude Opus 4.7 in Sekundärdaten bei SWE bench stärker wirkt; für Kimi K2.... Topic tags: ai, llm, ai benchmarks, coding agents, developer tools. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.yo
openai.com

네 모델을 한 줄로 세워 ‘누가 제일 세냐’를 묻고 싶지만, 지금 공개된 자료만 보면 답은 그렇게 단순하지 않습니다. 먼저 봐야 할 것은 벤치마크 숫자의 출처입니다. GPT-5.5는 OpenAI가 Terminal-Bench 2.0과 SWE-Bench Pro 수치를 직접 공개했습니다 ^[24]. DeepSeek V4는 공식 변경 로그에서 V4-Pro와 V4-Flash의 API 제공을 확인할 수 있지만, 네 모델을 같은 조건에서 비교한 공식 벤치마크 표는 제공되지 않았습니다 ^[25]. Claude Opus 4.7과 Kimi K2.6의 직접 비교 수치는 이 글에서 주로 제3자 분석에 기대고 있습니다 ^[4]^[6].

먼저 결론: 용도별로 승자가 갈린다

코딩과 GitHub 이슈 수정: 인용된 SWE-Bench, SWE-Bench Verified, CursorBench 수치만 보면 Claude Opus 4.7이 GPT-5.5보다 강해 보입니다 ^[4].
터미널 에이전트와 컴퓨터 사용 작업: GPT-5.5가 가장 명확하게 근거를 갖고 있습니다. OpenAI는 GPT-5.5가 Terminal-Bench 2.0에서 82.7%를 기록했다고 밝혔습니다 ^[24].
비용을 중시하는 코딩 에이전트: CodeRouter는 Kimi K2.6을 비용·품질 측면의 승자로 설명하며, 입력 $0.60 및 출력 $4.00 per million tokens 가격을 제시합니다 ^[6].
DeepSeek V4: V4-Pro와 V4-Flash가 DeepSeek API에서 공식 지원된다는 점은 확인됩니다. 다만 Kimi K2.6, Claude Opus 4.7, GPT-5.5와의 공식 4자 벤치마크 매트릭스는 이 자료들 안에서는 확인되지 않습니다 ^[25].

숫자를 보기 전에: 공식 수치와 제3자 수치를 나눠 봐야 한다

OpenAI는 Terminal-Bench 2.0을 복잡한 명령줄 워크플로를 테스트하는 벤치마크로 설명합니다. 이 벤치마크는 계획, 반복, 도구 조율이 필요한 작업을 다루며, GPT-5.5는 여기서 82.7%를 기록했다고 OpenAI가 밝혔습니다 ^[24]. 또 실제 GitHub 이슈 해결 능력을 평가하는 SWE-Bench Pro에서는 GPT-5.5가 58.6%를 기록했다고 공개했습니다 ^[24].

DeepSeek 쪽 공식 문서에서 확인되는 것은 성능 순위가 아니라 제공 방식입니다. DeepSeek API는 V4-Pro와 V4-Flash를 OpenAI ChatCompletions 인터페이스와 Anthropic 인터페이스 양쪽에서 지원하며, 모델 파라미터는 deepseek-v4-pro와 deepseek-v4-flash로 지정하도록 안내합니다 ^[25]. 즉, API 사용 가능성은 확인되지만 이 자체가 벤치마크 승리를 뜻하지는 않습니다.

Claude Opus 4.7과 Kimi K2.6은 조금 더 조심해서 읽어야 합니다. 이 글에서 쓰는 Claude 대 GPT 비교 수치는 LushBinary의 제3자 분석에, Kimi K2.6과 DeepSeek V4의 가격·포지셔닝 정보는 CodeRouter 자료에 주로 기반합니다 ^[4]^[6].

공개 자료 기준 비교표

아래 표의 ‘자료 없음’은 해당 모델과 벤치마크 조합에 대해, 이 글에서 사용한 자료 안에서 직접 비교 가능한 충분한 수치를 찾지 못했다는 뜻입니다.

벤치마크 / 기준	DeepSeek V4	Kimi K2.6	Claude Opus 4.7	GPT-5.5
SWE-Bench Pro	자료 없음	CodeRouter 기준 GPT-5.5 수준 ^[6]	64.3% ^[4]	58.6% ^[24]
SWE-Bench Verified	자료 없음	자료 없음	87.6% ^[4]	약 85% ^[4]
Terminal-Bench 2.0	자료 없음	자료 없음	약 72% ^[4]	82.7% ^[24]
GDPval / 지식 업무	자료 없음	자료 없음	약 78% ^[4]	84.9% ^[4]
OSWorld-Verified / 컴퓨터 사용	자료 없음	자료 없음	약 65% ^[4]	78.7% ^[4]
GPQA Diamond	자료 없음	자료 없음	94.2% ^[4]	약 93% ^[4]
CursorBench	자료 없음	자료 없음	70% ^[4]	약 65% ^[4]
Tau2-bench Telecom	자료 없음	자료 없음	약 90% ^[4]	98.0% ^[4]
Vision & Document Arena	자료 없음	자료 없음	Arena 보고서 기준 1위 ^[1]	자료 없음
가격·컨텍스트 참고	V4 Flash: 입력 $0.14 / 출력 $0.28 per million tokens, 1M 컨텍스트 ^[6]	입력 $0.60 / 출력 $4.00 per million tokens ^[6]	자료 없음	자료 없음

코딩: Claude Opus 4.7이 가장 강해 보이고, Kimi K2.6은 비용 후보

코딩 벤치마크가 핵심이라면, 현재 인용 가능한 수치에서는 Claude Opus 4.7이 가장 돋보입니다. LushBinary는 SWE-Bench Pro에서 Claude Opus 4.7이 64.3%, GPT-5.5가 58.6%라고 제시하며, GPT-5.5의 58.6% 수치는 OpenAI 공식 발표에서도 확인됩니다 ^[4]^[24]. 같은 제3자 자료에서는 SWE-Bench Verified와 CursorBench에서도 Claude Opus 4.7이 GPT-5.5보다 앞서는 것으로 정리됩니다 ^[4].

다만 Kimi K2.6도 코딩 팀이 그냥 넘기기 어려운 후보입니다. CodeRouter는 Kimi K2.6을 SWE-Bench Pro에서 GPT-5.5 수준으로 평가하면서, 동시에 더 낮은 토큰 가격을 제시합니다 ^[6]. 이 정보만으로 실제 서비스 투입을 결정하기는 어렵지만, 에이전트 실행 횟수, 초안 생성, 재시도 비용이 많은 팀에는 의미 있는 신호입니다.

DeepSeek V4는 공식 DeepSeek 문서만 놓고 보면 코딩 벤치마크 점수를 확인할 수 없습니다. 확실히 말할 수 있는 것은 V4-Pro와 V4-Flash가 API에서 제공된다는 점입니다 ^[25].

터미널 에이전트와 컴퓨터 사용: GPT-5.5의 근거가 가장 선명하다

터미널 기반 에이전트라면 GPT-5.5가 가장 강하게 뒷받침됩니다. OpenAI는 GPT-5.5가 Terminal-Bench 2.0에서 82.7%를 기록했다고 밝혔고, 이 벤치마크가 계획, 반복, 도구 조율이 필요한 복잡한 명령줄 워크플로를 평가한다고 설명했습니다 ^[24]. LushBinary는 같은 벤치마크에서 Claude Opus 4.7을 약 72%로 제시합니다 ^[4].

지식 업무와 컴퓨터 사용 관련 수치도 인용된 제3자 자료에서는 GPT-5.5 쪽이 우세합니다. LushBinary는 GDPval에서 GPT-5.5 84.9%, Claude Opus 4.7 약 78%를 제시하고, OSWorld-Verified에서는 GPT-5.5 78.7%, Claude Opus 4.7 약 65%를 제시합니다 ^[4]. 셸 명령, 도구 오케스트레이션, GUI에 가까운 자동화 작업을 검토한다면 GPT-5.5를 우선 테스트 후보로 둘 만합니다.

비전·문서 작업: Claude Opus 4.7에 가장 뚜렷한 긍정 신호

비전과 문서 작업에서는 네 모델을 모두 같은 표로 비교할 수 있는 자료가 충분하지 않습니다. 가장 뚜렷한 신호는 Claude Opus 4.7 쪽입니다. Latent Space/AINews가 인용한 Arena 보고서는 Claude Opus 4.7이 Vision & Document Arena에서 1위를 차지했다고 전합니다 ^[1].

LLM Stats는 또 Claude Opus 4.7이 긴 변 기준 최대 2,576픽셀, 약 3.75메가픽셀 이미지를 처리할 수 있다고 설명합니다. 같은 자료는 GPT-5.5가 이미지 입력을 지원하며, MMMU-Pro에서 도구 없이 81.2%, 도구 사용 시 83.2%로 제시된다고 정리합니다 ^[5]. 이 수치는 Claude와 GPT-5.5를 이해하는 데는 도움이 되지만, Kimi K2.6과 DeepSeek V4까지 포함한 직접 4자 비교를 대신하지는 못합니다.

가격 대비 성능: Kimi K2.6과 DeepSeek V4 Flash는 자체 평가에 넣어야 한다

가격 측면에서 가장 강하게 제시된 후보는 Kimi K2.6입니다. CodeRouter는 Kimi K2.6을 비용·품질 승자로 설명하며, 입력 $0.60 및 출력 $4.00 per million tokens 가격을 제시합니다 ^[6].

DeepSeek V4 Flash도 같은 자료에서 매우 저렴한 워크호스 후보로 언급됩니다. CodeRouter는 V4 Flash를 입력 $0.14, 출력 $0.28 per million tokens, 1M 컨텍스트 모델로 정리합니다 ^[6]. DeepSeek 공식 문서 역시 V4-Pro와 V4-Flash가 현재 API 인터페이스에서 지원된다는 점을 확인합니다 ^[25].

다만 가격이 곧 성능 우위는 아닙니다. 저렴한 모델은 많은 시도, 낮은 위험의 에이전트 실행, 대량 초안 생성에 유리할 수 있습니다. 하지만 실제 운영에서는 정답률, 재시도 횟수, 사람이 고쳐야 하는 오류의 심각도까지 함께 계산해야 합니다.

네 모델을 공정하게 테스트하는 방법

프로덕션 도입을 결정하려면 공개 순위만으로는 부족합니다. 실제 코드베이스, 사내 문서, 자동화 워크플로에서 작은 평가 세트를 만들어야 합니다. 첫 답변의 품질만 보지 말고, 승인된 결과 1건당 비용, 재시도 횟수, 오류 심각도, 실행 시간까지 함께 측정하는 것이 좋습니다.

또 하나 중요한 점은 공식 수치와 제3자 자료를 같은 무게로 보지 않는 것입니다. 이 비교에서 GPT-5.5는 Terminal-Bench 2.0과 SWE-Bench Pro에 대해 OpenAI 공식 수치를 갖고 있습니다 ^[24]. DeepSeek V4는 공식 API 제공 근거가 있습니다 ^[25]. 반면 Claude Opus 4.7과 Kimi K2.6의 주요 직접 비교 주장은 여기서는 주로 제3자 자료에 기반합니다 ^[4]^[6].

결론

현재 자료만으로는 보편적인 1등을 고르기 어렵습니다. Claude Opus 4.7은 인용된 코딩 관련 수치에서 강하고, GPT-5.5는 터미널 에이전트와 컴퓨터 사용 벤치마크에서 가장 잘 뒷받침됩니다. Kimi K2.6은 비용 대비 품질 후보로 눈에 띄며, DeepSeek V4는 공식 API 제공이 확인된 만큼 자체 평가에 넣어 볼 만한 후보입니다 ^[4]^[24]^[6]^[25].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

주요 시사점

공개 자료만으로는 네 모델의 종합 우승자를 단정하기 어렵다. GPT 5.5는 OpenAI가 Terminal Bench 2.0 82.7%, SWE Bench Pro 58.6%를 공개했고, DeepSeek V4는 공식 문서에서 V4 Pro와 V4 Flash의 API 제공이 확인된다 [24][25].
코딩 관련 SWE Bench와 CursorBench 수치에서는 인용된 제3자 자료 기준 Claude Opus 4.7이 GPT 5.5보다 앞서 보인다.
Kimi K2.6은 입력 $0.60, 출력 $4.00 per million tokens의 비용·품질 후보로, DeepSeek V4 Flash는 입력 $0.14, 출력 $0.28 per million tokens와 1M 컨텍스트의 저비용 후보로 제시된다 [6].

사람들은 또한 묻습니다.

"DeepSeek V4 vs Kimi K2.6 vs Claude Opus 4.7 vs GPT-5.5: 벤치마크로 본 실제 선택 기준"에 대한 짧은 대답은 무엇입니까?

먼저 검증할 핵심 포인트는 무엇인가요?

공개 자료만으로는 네 모델의 종합 우승자를 단정하기 어렵다. GPT 5.5는 OpenAI가 Terminal Bench 2.0 82.7%, SWE Bench Pro 58.6%를 공개했고, DeepSeek V4는 공식 문서에서 V4 Pro와 V4 Flash의 API 제공이 확인된다 [24][25]. 코딩 관련 SWE Bench와 CursorBench 수치에서는 인용된 제3자 자료 기준 Claude Opus 4.7이 GPT 5.5보다 앞서 보인다.

실무에서는 다음으로 무엇을 해야 합니까?

Kimi K2.6은 입력 $0.60, 출력 $4.00 per million tokens의 비용·품질 후보로, DeepSeek V4 Flash는 입력 $0.14, 출력 $0.28 per million tokens와 1M 컨텍스트의 저비용 후보로 제시된다 [6].

다음에는 어떤 관련 주제를 탐구해야 할까요?

다른 각도와 추가 인용을 보려면 "Claude Security 공개 베타: 앤트로픽의 AI 코드 취약점 스캐너가 하는 일"으로 계속하세요.

관련 페이지 열기

이것을 무엇과 비교해야 합니까?

"Grok 4.3 API 분석: 100만 토큰과 낮은 단가, xAI의 다음 승부수"에 대해 이 답변을 대조 확인하세요.

관련 페이지 열기

연구를 계속하세요

IT Consulting Orange County CA, IT Services, IT Outsourcing - Technijian. # Anthropic Claude Security for Enterprise: What You Need to Know. Anthropic has officially opened Claude

Claude Security 공개 베타: 앤트로픽의 AI 코드 취약점 스캐너가 하는 일

Claude Security 공개 베타, 기업 코드 보안을 AI로 훑는 방식

抽象 AI 介面顯示 Grok 4.3 API、1M context、token 價格與語音波形

Grok 4.3 API 분석: 100만 토큰과 낮은 단가, xAI의 다음 승부수

For the part of factors contributing to the issue, please use Logical synthesis of factors And using leadership frameworks, and gap analysis

홍콩 RCHE에서 ‘제자리 임종’이 어려운 이유

홍콩 요양시설 ‘제자리 임종’의 장애 요인: 리더십과 격차 분석

샤오미 Q5는 MIX 5가 아닐 가능성: 최신 단서는 샤오미 18 시리즈

샤오미 Q5, MIX 5일까? 최신 정황은 ‘샤오미 18’ 쪽

연구 대화

당신2026년 4월 25일

연구문제

Vergleiche die Benchmarks von DeepSeek V4, Kimi K2.6, Claude Opus 4.7 und GPT-5.5.

Studio Global AI2026년 4월 25일26 소스

인용 답변

Ein sauberer Benchmark-Vergleich ist derzeit nur eingeschränkt möglich: Für Claude Opus 4.7 und GPT-5.5 kursieren konkrete Vergleichswerte, aber für DeepSeek V4 und Kimi K2.6 finde ich keine gleichwertig belastbaren offiziellen Benchmark-Tabellen in den verfügbaren Quellen. Daher: Claude Opus 4.7 wirkt bei SWE-bench stärker, GPT-5.5 bei Terminal-/Agent-/Computer-Use-Benchmarks; Kimi K2.6 wird vor allem als Preis-Leistungs-Modell beschrieben; DeepSeek V4 ist laut DeepSeek-API-Changelog verfügbar, aber ohne robuste öffentliche Benchmark-Abdeckung in den gefundenen Quellen ^[4]^[6].

Benchmark / Kriterium	DeepSeek V4	Kimi K2.6	Claude Opus 4.7	GPT-5.5
SWE-bench Pro	Insufficient evidence	laut Sekundärquelle etwa auf GPT-5.5-Niveau bzw. starkes Preis-Leistungs-Profil ^[6]	64.3% ^[4]	58.6% ^[4]
SWE-bench Verified	Insufficient evidence	Insufficient evidence	87.6% ^[4]	ca. 85% ^[4]
Terminal-Bench 2.0	Insufficient evidence	Insufficient evidence	ca. 72% ^[4]	82.7% ^[4]
GDPval / Knowledge Work	Insufficient evidence	Insufficient evidence	ca. 78% ^[4]	84.9% ^[4]
OSWorld-Verified / Computer Use	Insufficient evidence	Insufficient evidence	ca. 65% ^[4]	78.7% ^[4]
Vision / Document Arena	Insufficient evidence	Insufficient evidence	laut Arena-Bericht Platz 1 in Vision & Document Arena ^[1]	Insufficient evidence
Preis-Leistung	Insufficient evidence	als starker Kosten-/Qualitäts-Kandidat beschrieben ^[6]	teuer/stark, aber nicht als Kostenführer beschrieben ^[6]	stark, aber nicht Kostenführer laut Vergleich ^[6]

Coding: Claude Opus 4.7 liegt in den gefundenen Zahlen bei SWE-bench Pro und SWE-bench Verified vor GPT-5.5 ^[4].
Agentic / Terminal / Computer Use: GPT-5.5 liegt in den gefundenen Vergleichswerten bei Terminal-Bench 2.0, GDPval und OSWorld-Verified vor Claude Opus 4.7 ^[4].
Multimodal/Vision: Claude Opus 4.7 wird in den gefundenen Arena-Berichten als führend in Vision & Document Arena beschrieben ^[1].
Kimi K2.6: Die verfügbaren Quellen beschreiben Kimi K2.6 eher als Preis-Leistungs- bzw. Open-Model-Kandidat; belastbare direkte Zahlen für alle Benchmarks neben den anderen drei Modellen fehlen in den gefundenen Quellen ^[6]^[8].
DeepSeek V4: DeepSeek V4-Pro und V4-Flash werden im DeepSeek-API-Changelog als verfügbar genannt, aber ich finde in den verfügbaren Quellen keine ausreichend belastbare offizielle Benchmark-Tabelle für einen fairen direkten Vergleich ^[6].
Wichtig: Die beste belastbare Aussage ist nicht “ein Modell gewinnt alles”, sondern: Claude Opus 4.7 ist nach den gefundenen Zahlen stärker bei SWE-bench, GPT-5.5 stärker bei Terminal-/Agent-/Computer-Use, Kimi K2.6 wahrscheinlich attraktiver bei Kosten pro Leistung, und DeepSeek V4 bleibt mangels öffentlicher Benchmark-Daten schwer einzuordnen ^[4]^[6].

출처

[1] [AINews] Moonshot Kimi K2.6: the world's leading Open Model ...latent.space
Arena results continued to matter for multimodal models. @arena reported Claude Opus 4.7 taking 1 in Vision & Document Arena, with +4 points over Opus 4.6 in Document Arena and a large margin over the next non-Anthropic models. Subcategory wins included dia...
[4] GPT-5.5 vs Claude Opus 4.7: Benchmarks, Pricing & Coding ...lushbinary.com
Benchmark GPT-5.5 Opus 4.7 Gemini 3.1 Pro --- --- SWE-bench Pro 58.6% 64.3% 54.2% SWE-bench Verified 85% 87.6% 80% Terminal-Bench 2.0 82.7% 72% 68% GDPval (Knowledge Work) 84.9% 78% 75% OSWorld-Verified (Computer Use) 78.7% 65% 60% GPQA Diamond 93% 94.2% 91...
[5] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com
Vision: 3.75 MP vs Standard Opus 4.7 reads images at roughly 3.3× the resolution of any comparable model. Up to 2,576 pixels on the long edge ( 3.75 megapixels), versus 1,568 px ( 1.15 MP) on prior Claude models. Scores align: Opus 4.7 reports 91.0% on Char...
[6] GPT-5.5, DeepSeek V4, Kimi K2.6 at a Glance - CodeRoutercoderouter.io
TL;DR — In one week (April 20–23, 2026), four frontier coding models shipped: Kimi K2.6 (Moonshot, Apr 20), GPT-5.5 (OpenAI, Apr 23), DeepSeek V4 Pro + V4 Flash (preview, April). Claude Opus 4.7 is still the SWE-Bench Pro champion. Kimi K2.6 is the new cost...
[24] Introducing GPT-5.5 - OpenAIopenai.com
Agentic coding GPT‑5.5 is our strongest agentic coding model to date. On Terminal-Bench 2.0, which tests complex command-line workflows requiring planning, iteration, and tool coordination, it achieves a state-of-the-art accuracy of 82.7%. On SWE-Bench Pro,...
[25] Change Log | DeepSeek API Docsapi-docs.deepseek.com
DeepSeek API Docs Logo DeepSeek API Docs Logo Change Log Date: 2026-04-24 DeepSeek-V4 The DeepSeek API now supports V4-Pro and V4-Flash, available via both the OpenAI ChatCompletions interface and the Anthropic interface. To access the new models, the bas...

DeepSeek V4 vs Kimi K2.6 vs Claude Opus 4.7 vs GPT-5.5: 벤치마크로 본 실제 선택 기준

Studio Global AI로 검색 및 팩트체크 Discover에서 더 많은 것을 찾아보세요

18K0

먼저 결론: 용도별로 승자가 갈린다

코딩과 GitHub 이슈 수정: 인용된 SWE-Bench, SWE-Bench Verified, CursorBench 수치만 보면 Claude Opus 4.7이 GPT-5.5보다 강해 보입니다 ^[4].
터미널 에이전트와 컴퓨터 사용 작업: GPT-5.5가 가장 명확하게 근거를 갖고 있습니다. OpenAI는 GPT-5.5가 Terminal-Bench 2.0에서 82.7%를 기록했다고 밝혔습니다 ^[24].
비용을 중시하는 코딩 에이전트: CodeRouter는 Kimi K2.6을 비용·품질 측면의 승자로 설명하며, 입력 $0.60 및 출력 $4.00 per million tokens 가격을 제시합니다 ^[6].
DeepSeek V4: V4-Pro와 V4-Flash가 DeepSeek API에서 공식 지원된다는 점은 확인됩니다. 다만 Kimi K2.6, Claude Opus 4.7, GPT-5.5와의 공식 4자 벤치마크 매트릭스는 이 자료들 안에서는 확인되지 않습니다 ^[25].

숫자를 보기 전에: 공식 수치와 제3자 수치를 나눠 봐야 한다

공개 자료 기준 비교표

벤치마크 / 기준	DeepSeek V4	Kimi K2.6	Claude Opus 4.7	GPT-5.5
SWE-Bench Pro	자료 없음	CodeRouter 기준 GPT-5.5 수준 ^[6]	64.3% ^[4]	58.6% ^[24]
SWE-Bench Verified	자료 없음	자료 없음	87.6% ^[4]	약 85% ^[4]
Terminal-Bench 2.0	자료 없음	자료 없음	약 72% ^[4]	82.7% ^[24]
GDPval / 지식 업무	자료 없음	자료 없음	약 78% ^[4]	84.9% ^[4]
OSWorld-Verified / 컴퓨터 사용	자료 없음	자료 없음	약 65% ^[4]	78.7% ^[4]
GPQA Diamond	자료 없음	자료 없음	94.2% ^[4]	약 93% ^[4]
CursorBench	자료 없음	자료 없음	70% ^[4]	약 65% ^[4]
Tau2-bench Telecom	자료 없음	자료 없음	약 90% ^[4]	98.0% ^[4]
Vision & Document Arena	자료 없음	자료 없음	Arena 보고서 기준 1위 ^[1]	자료 없음
가격·컨텍스트 참고	V4 Flash: 입력 $0.14 / 출력 $0.28 per million tokens, 1M 컨텍스트 ^[6]	입력 $0.60 / 출력 $4.00 per million tokens ^[6]	자료 없음	자료 없음

코딩: Claude Opus 4.7이 가장 강해 보이고, Kimi K2.6은 비용 후보

터미널 에이전트와 컴퓨터 사용: GPT-5.5의 근거가 가장 선명하다

비전·문서 작업: Claude Opus 4.7에 가장 뚜렷한 긍정 신호

가격 대비 성능: Kimi K2.6과 DeepSeek V4 Flash는 자체 평가에 넣어야 한다

네 모델을 공정하게 테스트하는 방법

결론

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

주요 시사점

공개 자료만으로는 네 모델의 종합 우승자를 단정하기 어렵다. GPT 5.5는 OpenAI가 Terminal Bench 2.0 82.7%, SWE Bench Pro 58.6%를 공개했고, DeepSeek V4는 공식 문서에서 V4 Pro와 V4 Flash의 API 제공이 확인된다 [24][25].
코딩 관련 SWE Bench와 CursorBench 수치에서는 인용된 제3자 자료 기준 Claude Opus 4.7이 GPT 5.5보다 앞서 보인다.
Kimi K2.6은 입력 $0.60, 출력 $4.00 per million tokens의 비용·품질 후보로, DeepSeek V4 Flash는 입력 $0.14, 출력 $0.28 per million tokens와 1M 컨텍스트의 저비용 후보로 제시된다 [6].

사람들은 또한 묻습니다.

"DeepSeek V4 vs Kimi K2.6 vs Claude Opus 4.7 vs GPT-5.5: 벤치마크로 본 실제 선택 기준"에 대한 짧은 대답은 무엇입니까?

먼저 검증할 핵심 포인트는 무엇인가요?

실무에서는 다음으로 무엇을 해야 합니까?

다음에는 어떤 관련 주제를 탐구해야 할까요?

다른 각도와 추가 인용을 보려면 "Claude Security 공개 베타: 앤트로픽의 AI 코드 취약점 스캐너가 하는 일"으로 계속하세요.

관련 페이지 열기

이것을 무엇과 비교해야 합니까?

"Grok 4.3 API 분석: 100만 토큰과 낮은 단가, xAI의 다음 승부수"에 대해 이 답변을 대조 확인하세요.

관련 페이지 열기

연구를 계속하세요

연구 대화

당신2026년 4월 25일

연구문제

Vergleiche die Benchmarks von DeepSeek V4, Kimi K2.6, Claude Opus 4.7 und GPT-5.5.

Studio Global AI2026년 4월 25일26 소스

인용 답변

Benchmark / Kriterium	DeepSeek V4	Kimi K2.6	Claude Opus 4.7	GPT-5.5
SWE-bench Pro	Insufficient evidence	laut Sekundärquelle etwa auf GPT-5.5-Niveau bzw. starkes Preis-Leistungs-Profil ^[6]	64.3% ^[4]	58.6% ^[4]
SWE-bench Verified	Insufficient evidence	Insufficient evidence	87.6% ^[4]	ca. 85% ^[4]
Terminal-Bench 2.0	Insufficient evidence	Insufficient evidence	ca. 72% ^[4]	82.7% ^[4]
GDPval / Knowledge Work	Insufficient evidence	Insufficient evidence	ca. 78% ^[4]	84.9% ^[4]
OSWorld-Verified / Computer Use	Insufficient evidence	Insufficient evidence	ca. 65% ^[4]	78.7% ^[4]
Vision / Document Arena	Insufficient evidence	Insufficient evidence	laut Arena-Bericht Platz 1 in Vision & Document Arena ^[1]	Insufficient evidence
Preis-Leistung	Insufficient evidence	als starker Kosten-/Qualitäts-Kandidat beschrieben ^[6]	teuer/stark, aber nicht als Kostenführer beschrieben ^[6]	stark, aber nicht Kostenführer laut Vergleich ^[6]

Coding: Claude Opus 4.7 liegt in den gefundenen Zahlen bei SWE-bench Pro und SWE-bench Verified vor GPT-5.5 ^[4].
Agentic / Terminal / Computer Use: GPT-5.5 liegt in den gefundenen Vergleichswerten bei Terminal-Bench 2.0, GDPval und OSWorld-Verified vor Claude Opus 4.7 ^[4].
Multimodal/Vision: Claude Opus 4.7 wird in den gefundenen Arena-Berichten als führend in Vision & Document Arena beschrieben ^[1].
Kimi K2.6: Die verfügbaren Quellen beschreiben Kimi K2.6 eher als Preis-Leistungs- bzw. Open-Model-Kandidat; belastbare direkte Zahlen für alle Benchmarks neben den anderen drei Modellen fehlen in den gefundenen Quellen ^[6]^[8].
DeepSeek V4: DeepSeek V4-Pro und V4-Flash werden im DeepSeek-API-Changelog als verfügbar genannt, aber ich finde in den verfügbaren Quellen keine ausreichend belastbare offizielle Benchmark-Tabelle für einen fairen direkten Vergleich ^[6].
Wichtig: Die beste belastbare Aussage ist nicht “ein Modell gewinnt alles”, sondern: Claude Opus 4.7 ist nach den gefundenen Zahlen stärker bei SWE-bench, GPT-5.5 stärker bei Terminal-/Agent-/Computer-Use, Kimi K2.6 wahrscheinlich attraktiver bei Kosten pro Leistung, und DeepSeek V4 bleibt mangels öffentlicher Benchmark-Daten schwer einzuordnen ^[4]^[6].

출처

[1] [AINews] Moonshot Kimi K2.6: the world's leading Open Model ...latent.space
Arena results continued to matter for multimodal models. @arena reported Claude Opus 4.7 taking 1 in Vision & Document Arena, with +4 points over Opus 4.6 in Document Arena and a large margin over the next non-Anthropic models. Subcategory wins included dia...
[4] GPT-5.5 vs Claude Opus 4.7: Benchmarks, Pricing & Coding ...lushbinary.com
Benchmark GPT-5.5 Opus 4.7 Gemini 3.1 Pro --- --- SWE-bench Pro 58.6% 64.3% 54.2% SWE-bench Verified 85% 87.6% 80% Terminal-Bench 2.0 82.7% 72% 68% GDPval (Knowledge Work) 84.9% 78% 75% OSWorld-Verified (Computer Use) 78.7% 65% 60% GPQA Diamond 93% 94.2% 91...
[5] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com
Vision: 3.75 MP vs Standard Opus 4.7 reads images at roughly 3.3× the resolution of any comparable model. Up to 2,576 pixels on the long edge ( 3.75 megapixels), versus 1,568 px ( 1.15 MP) on prior Claude models. Scores align: Opus 4.7 reports 91.0% on Char...
[6] GPT-5.5, DeepSeek V4, Kimi K2.6 at a Glance - CodeRoutercoderouter.io
TL;DR — In one week (April 20–23, 2026), four frontier coding models shipped: Kimi K2.6 (Moonshot, Apr 20), GPT-5.5 (OpenAI, Apr 23), DeepSeek V4 Pro + V4 Flash (preview, April). Claude Opus 4.7 is still the SWE-Bench Pro champion. Kimi K2.6 is the new cost...
[24] Introducing GPT-5.5 - OpenAIopenai.com
Agentic coding GPT‑5.5 is our strongest agentic coding model to date. On Terminal-Bench 2.0, which tests complex command-line workflows requiring planning, iteration, and tool coordination, it achieves a state-of-the-art accuracy of 82.7%. On SWE-Bench Pro,...
[25] Change Log | DeepSeek API Docsapi-docs.deepseek.com
DeepSeek API Docs Logo DeepSeek API Docs Logo Change Log Date: 2026-04-24 DeepSeek-V4 The DeepSeek API now supports V4-Pro and V4-Flash, available via both the OpenAI ChatCompletions interface and the Anthropic interface. To access the new models, the bas...

DeepSeek V4 vs Kimi K2.6 vs Claude Opus 4.7 vs GPT-5.5: 벤치마크로 본 실제 선택 기준

Studio Global AI로 검색 및 팩트체크 Discover에서 더 많은 것을 찾아보세요

18K0

먼저 결론: 용도별로 승자가 갈린다

코딩과 GitHub 이슈 수정: 인용된 SWE-Bench, SWE-Bench Verified, CursorBench 수치만 보면 Claude Opus 4.7이 GPT-5.5보다 강해 보입니다 ^[4].
터미널 에이전트와 컴퓨터 사용 작업: GPT-5.5가 가장 명확하게 근거를 갖고 있습니다. OpenAI는 GPT-5.5가 Terminal-Bench 2.0에서 82.7%를 기록했다고 밝혔습니다 ^[24].
비용을 중시하는 코딩 에이전트: CodeRouter는 Kimi K2.6을 비용·품질 측면의 승자로 설명하며, 입력 $0.60 및 출력 $4.00 per million tokens 가격을 제시합니다 ^[6].
DeepSeek V4: V4-Pro와 V4-Flash가 DeepSeek API에서 공식 지원된다는 점은 확인됩니다. 다만 Kimi K2.6, Claude Opus 4.7, GPT-5.5와의 공식 4자 벤치마크 매트릭스는 이 자료들 안에서는 확인되지 않습니다 ^[25].

숫자를 보기 전에: 공식 수치와 제3자 수치를 나눠 봐야 한다

공개 자료 기준 비교표

벤치마크 / 기준	DeepSeek V4	Kimi K2.6	Claude Opus 4.7	GPT-5.5
SWE-Bench Pro	자료 없음	CodeRouter 기준 GPT-5.5 수준 ^[6]	64.3% ^[4]	58.6% ^[24]
SWE-Bench Verified	자료 없음	자료 없음	87.6% ^[4]	약 85% ^[4]
Terminal-Bench 2.0	자료 없음	자료 없음	약 72% ^[4]	82.7% ^[24]
GDPval / 지식 업무	자료 없음	자료 없음	약 78% ^[4]	84.9% ^[4]
OSWorld-Verified / 컴퓨터 사용	자료 없음	자료 없음	약 65% ^[4]	78.7% ^[4]
GPQA Diamond	자료 없음	자료 없음	94.2% ^[4]	약 93% ^[4]
CursorBench	자료 없음	자료 없음	70% ^[4]	약 65% ^[4]
Tau2-bench Telecom	자료 없음	자료 없음	약 90% ^[4]	98.0% ^[4]
Vision & Document Arena	자료 없음	자료 없음	Arena 보고서 기준 1위 ^[1]	자료 없음
가격·컨텍스트 참고	V4 Flash: 입력 $0.14 / 출력 $0.28 per million tokens, 1M 컨텍스트 ^[6]	입력 $0.60 / 출력 $4.00 per million tokens ^[6]	자료 없음	자료 없음

코딩: Claude Opus 4.7이 가장 강해 보이고, Kimi K2.6은 비용 후보

터미널 에이전트와 컴퓨터 사용: GPT-5.5의 근거가 가장 선명하다

비전·문서 작업: Claude Opus 4.7에 가장 뚜렷한 긍정 신호

가격 대비 성능: Kimi K2.6과 DeepSeek V4 Flash는 자체 평가에 넣어야 한다

네 모델을 공정하게 테스트하는 방법

결론

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

주요 시사점

공개 자료만으로는 네 모델의 종합 우승자를 단정하기 어렵다. GPT 5.5는 OpenAI가 Terminal Bench 2.0 82.7%, SWE Bench Pro 58.6%를 공개했고, DeepSeek V4는 공식 문서에서 V4 Pro와 V4 Flash의 API 제공이 확인된다 [24][25].
코딩 관련 SWE Bench와 CursorBench 수치에서는 인용된 제3자 자료 기준 Claude Opus 4.7이 GPT 5.5보다 앞서 보인다.
Kimi K2.6은 입력 $0.60, 출력 $4.00 per million tokens의 비용·품질 후보로, DeepSeek V4 Flash는 입력 $0.14, 출력 $0.28 per million tokens와 1M 컨텍스트의 저비용 후보로 제시된다 [6].

사람들은 또한 묻습니다.

"DeepSeek V4 vs Kimi K2.6 vs Claude Opus 4.7 vs GPT-5.5: 벤치마크로 본 실제 선택 기준"에 대한 짧은 대답은 무엇입니까?

먼저 검증할 핵심 포인트는 무엇인가요?

실무에서는 다음으로 무엇을 해야 합니까?

다음에는 어떤 관련 주제를 탐구해야 할까요?

다른 각도와 추가 인용을 보려면 "Claude Security 공개 베타: 앤트로픽의 AI 코드 취약점 스캐너가 하는 일"으로 계속하세요.

관련 페이지 열기

이것을 무엇과 비교해야 합니까?

"Grok 4.3 API 분석: 100만 토큰과 낮은 단가, xAI의 다음 승부수"에 대해 이 답변을 대조 확인하세요.

관련 페이지 열기

연구를 계속하세요

연구 대화

당신2026년 4월 25일

연구문제

Vergleiche die Benchmarks von DeepSeek V4, Kimi K2.6, Claude Opus 4.7 und GPT-5.5.

Studio Global AI2026년 4월 25일26 소스

인용 답변

Benchmark / Kriterium	DeepSeek V4	Kimi K2.6	Claude Opus 4.7	GPT-5.5
SWE-bench Pro	Insufficient evidence	laut Sekundärquelle etwa auf GPT-5.5-Niveau bzw. starkes Preis-Leistungs-Profil ^[6]	64.3% ^[4]	58.6% ^[4]
SWE-bench Verified	Insufficient evidence	Insufficient evidence	87.6% ^[4]	ca. 85% ^[4]
Terminal-Bench 2.0	Insufficient evidence	Insufficient evidence	ca. 72% ^[4]	82.7% ^[4]
GDPval / Knowledge Work	Insufficient evidence	Insufficient evidence	ca. 78% ^[4]	84.9% ^[4]
OSWorld-Verified / Computer Use	Insufficient evidence	Insufficient evidence	ca. 65% ^[4]	78.7% ^[4]
Vision / Document Arena	Insufficient evidence	Insufficient evidence	laut Arena-Bericht Platz 1 in Vision & Document Arena ^[1]	Insufficient evidence
Preis-Leistung	Insufficient evidence	als starker Kosten-/Qualitäts-Kandidat beschrieben ^[6]	teuer/stark, aber nicht als Kostenführer beschrieben ^[6]	stark, aber nicht Kostenführer laut Vergleich ^[6]

Coding: Claude Opus 4.7 liegt in den gefundenen Zahlen bei SWE-bench Pro und SWE-bench Verified vor GPT-5.5 ^[4].
Agentic / Terminal / Computer Use: GPT-5.5 liegt in den gefundenen Vergleichswerten bei Terminal-Bench 2.0, GDPval und OSWorld-Verified vor Claude Opus 4.7 ^[4].
Multimodal/Vision: Claude Opus 4.7 wird in den gefundenen Arena-Berichten als führend in Vision & Document Arena beschrieben ^[1].
Kimi K2.6: Die verfügbaren Quellen beschreiben Kimi K2.6 eher als Preis-Leistungs- bzw. Open-Model-Kandidat; belastbare direkte Zahlen für alle Benchmarks neben den anderen drei Modellen fehlen in den gefundenen Quellen ^[6]^[8].
DeepSeek V4: DeepSeek V4-Pro und V4-Flash werden im DeepSeek-API-Changelog als verfügbar genannt, aber ich finde in den verfügbaren Quellen keine ausreichend belastbare offizielle Benchmark-Tabelle für einen fairen direkten Vergleich ^[6].
Wichtig: Die beste belastbare Aussage ist nicht “ein Modell gewinnt alles”, sondern: Claude Opus 4.7 ist nach den gefundenen Zahlen stärker bei SWE-bench, GPT-5.5 stärker bei Terminal-/Agent-/Computer-Use, Kimi K2.6 wahrscheinlich attraktiver bei Kosten pro Leistung, und DeepSeek V4 bleibt mangels öffentlicher Benchmark-Daten schwer einzuordnen ^[4]^[6].

출처

[1] [AINews] Moonshot Kimi K2.6: the world's leading Open Model ...latent.space
Arena results continued to matter for multimodal models. @arena reported Claude Opus 4.7 taking 1 in Vision & Document Arena, with +4 points over Opus 4.6 in Document Arena and a large margin over the next non-Anthropic models. Subcategory wins included dia...
[4] GPT-5.5 vs Claude Opus 4.7: Benchmarks, Pricing & Coding ...lushbinary.com
Benchmark GPT-5.5 Opus 4.7 Gemini 3.1 Pro --- --- SWE-bench Pro 58.6% 64.3% 54.2% SWE-bench Verified 85% 87.6% 80% Terminal-Bench 2.0 82.7% 72% 68% GDPval (Knowledge Work) 84.9% 78% 75% OSWorld-Verified (Computer Use) 78.7% 65% 60% GPQA Diamond 93% 94.2% 91...
[5] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com
Vision: 3.75 MP vs Standard Opus 4.7 reads images at roughly 3.3× the resolution of any comparable model. Up to 2,576 pixels on the long edge ( 3.75 megapixels), versus 1,568 px ( 1.15 MP) on prior Claude models. Scores align: Opus 4.7 reports 91.0% on Char...
[6] GPT-5.5, DeepSeek V4, Kimi K2.6 at a Glance - CodeRoutercoderouter.io
TL;DR — In one week (April 20–23, 2026), four frontier coding models shipped: Kimi K2.6 (Moonshot, Apr 20), GPT-5.5 (OpenAI, Apr 23), DeepSeek V4 Pro + V4 Flash (preview, April). Claude Opus 4.7 is still the SWE-Bench Pro champion. Kimi K2.6 is the new cost...
[24] Introducing GPT-5.5 - OpenAIopenai.com
Agentic coding GPT‑5.5 is our strongest agentic coding model to date. On Terminal-Bench 2.0, which tests complex command-line workflows requiring planning, iteration, and tool coordination, it achieves a state-of-the-art accuracy of 82.7%. On SWE-Bench Pro,...
[25] Change Log | DeepSeek API Docsapi-docs.deepseek.com
DeepSeek API Docs Logo DeepSeek API Docs Logo Change Log Date: 2026-04-24 DeepSeek-V4 The DeepSeek API now supports V4-Pro and V4-Flash, available via both the OpenAI ChatCompletions interface and the Anthropic interface. To access the new models, the bas...