GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: 벤치마크 비교와 증거 등급
OpenAI의 같은 평가표 기준으로 Claude Opus 4.7은 SWE Bench Pro 64.3%로 GPT 5.5 58.6%보다 높고, GPT 5.5는 Terminal Bench 2.0 82.7%로 Claude Opus 4.7 69.4%보다 높다.[21] Kimi K2.6은 오픈 모델 후보군에 넣을 만하지만, Hugging Face의 모델 설명과 Kilo AI의 제3자 SWE Bench 수치가 주된 근거라 GPT 5.5·Claude Opus 4.7과 같은 공식 교차표처럼 보기는 어렵다.[32][34] GPT 5.5의 Expert SWE 73.1%는 OpenA...
GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4:基準測試比較表與證據等級AI 生成示意圖;本文聚焦可核驗 benchmark 分數與來源等級。
AI 프롬프트
Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4:基準測試比較表與證據等級. Article summary: 目前不能公平排出四模型總冠軍:同表可比數據顯示 Claude Opus 4.7 在 SWE Bench Pro 64.3% vs GPT 5.5 58.6% 領先,但 GPT 5.5 在 Terminal Bench 2.0 82.7% vs 69.4% 領先;Kimi K2.6 與 DeepSeek V4 缺少同等級交叉驗證。[21]. Topic tags: ai, llm benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "OpenAI’s GPT-5.5, Anthropic’s Claude Opus 4.7, and DeepSeek V4 arrived close enough together to look like a clean three-way race. **GPT-5.5 is OpenAI’s bet on execution-heavy profe" source context "GPT-5.5, Claude Opus 4.7, and DeepSeek V4 reveal three different ..." Reference image 2: visual subject "# DeepSeek V4 Pro vs Claude Opus 4.7 vs GPT-5.5: The Frontier in April 2026. DeepSeek V4 Pro undercuts GPT-5.5 by ~9x on outpu
openai.com
네 모델을 비교할 때 가장 먼저 할 일은 ‘누가 1등인가’를 정하는 것이 아니라, ‘같은 시험지와 같은 채점 기준으로 본 숫자인가’를 가르는 것이다.
현재 제공된 출처만 놓고 보면 GPT-5.5와 Claude Opus 4.7의 비교가 가장 깔끔하다. OpenAI의 GPT-5.5 평가표가 두 모델을 같은 표에 올려 SWE-Bench Pro와 Terminal-Bench 2.0 점수를 함께 제시하기 때문이다. 반면 Kimi K2.6은 Hugging Face 모델 페이지의 설명과 Kilo AI의 제3자 글에 나온 SWE-Bench 수치가 핵심 근거다. DeepSeek V4는 이 글에서 사용할 수 있는 출처 범위 안에서 검증 가능한 벤치마크 숫자가 부족해 수치 순위에 넣지 않았다.
벤치마크 비교표
아래 표에서 —는 ‘이 글의 출처 범위에서 인용 가능한 숫자가 없음’을 뜻한다. 해당 모델이 그 작업을 못 한다는 의미가 아니다. 또한 서로 다른 출처, 다른 harness, 다른 실행 조건의 점수를 한데 더해 종합 1위를 뽑는 방식은 피하는 것이 좋다.
모델
SWE-Bench Pro
SWE-Bench Verified
Terminal-Bench 2.0
그 밖의 확인 가능 정보
증거 등급과 해석
GPT-5.5
58.6%
—
82.7%
Expert-SWE(Internal) 73.1%. OpenAI는 다른 연구실이 이 평가에서 memorization evidence를 봤다고 적었다.
: SWE-Bench Pro와 Terminal-Bench 2.0은 Claude Opus 4.7과 같은 OpenAI 표에서 비교 가능하다. Expert-SWE는 내부 평가라 보수적으로 봐야 한다.
Studio Global AI
Search, cite, and publish your own answer
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
"GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: 벤치마크 비교와 증거 등급"에 대한 짧은 대답은 무엇입니까?
OpenAI의 같은 평가표 기준으로 Claude Opus 4.7은 SWE Bench Pro 64.3%로 GPT 5.5 58.6%보다 높고, GPT 5.5는 Terminal Bench 2.0 82.7%로 Claude Opus 4.7 69.4%보다 높다.[21]
먼저 검증할 핵심 포인트는 무엇인가요?
OpenAI의 같은 평가표 기준으로 Claude Opus 4.7은 SWE Bench Pro 64.3%로 GPT 5.5 58.6%보다 높고, GPT 5.5는 Terminal Bench 2.0 82.7%로 Claude Opus 4.7 69.4%보다 높다.[21] Kimi K2.6은 오픈 모델 후보군에 넣을 만하지만, Hugging Face의 모델 설명과 Kilo AI의 제3자 SWE Bench 수치가 주된 근거라 GPT 5.5·Claude Opus 4.7과 같은 공식 교차표처럼 보기는 어렵다.[32][34]
실무에서는 다음으로 무엇을 해야 합니까?
GPT 5.5의 Expert SWE 73.1%는 OpenAI가 internal eval로 표시했고, 해당 평가에서 memorization evidence가 관찰됐다는 주석도 있어 총순위의 핵심 근거로 쓰기에는 조심스럽다.[21]
A-/B: SWE-Bench Pro와 Terminal-Bench 2.0은 GPT-5.5와 같은 표에서 비교 가능하다. SWE-Bench Verified와 CursorBench는 이 글의 출처상 제3자 정리와 vendor·partner eval 성격을 함께 고려해야 한다.
Kimi K2.6
58.6%
80.2%
—
Hugging Face는 Kimi K2.6을 open-source, native multimodal agentic model로 설명한다.
B, 제한적: SWE-Bench 수치는 제3자 글에 기반한다. 제공된 출처 안에서는 GPT-5.5·Claude Opus 4.7과 같은 공식 교차표로 검증된 전체 벤치마크를 확인하기 어렵다.
DeepSeek V4
—
—
—
—
C, 자료 부족: 제공된 출처 안에서 인용 가능한 DeepSeek V4 벤치마크가 부족하므로 숫자 비교에서 제외한다.
벤치마크별로 보면
SWE-Bench Pro: Claude Opus 4.7이 GPT-5.5보다 높다
OpenAI의 GPT-5.5 평가표에서 Claude Opus 4.7의 SWE-Bench Pro 점수는 64.3%, GPT-5.5는 58.6%다. 이 비교는 두 모델이 같은 표에 등장한다는 점에서 이 글에서 가장 직접적으로 볼 수 있는 근거 중 하나다.
Kimi K2.6도 Kilo AI의 제3자 글에서 SWE-Bench Pro 58.6%로 제시돼 GPT-5.5와 같은 숫자처럼 보인다. 다만 이 수치는 GPT-5.5, Claude Opus 4.7과 같은 공식 교차표에 함께 실린 값이 아니므로 엄밀한 동조건 승부로 보기는 어렵다.
Terminal-Bench 2.0: GPT-5.5가 Claude Opus 4.7보다 높다
같은 OpenAI 평가표에서 GPT-5.5는 Terminal-Bench 2.0 82.7%, Claude Opus 4.7은 69.4%를 기록했다. 터미널 조작, CLI 기반 워크플로, 코딩 에이전트 실행 환경에 가까운 제품을 만든다면 GPT-5.5를 우선 테스트 목록에 넣을 이유가 있다.
다만 Kimi K2.6과 DeepSeek V4의 Terminal-Bench 2.0 점수는 이 글의 출처 범위에서 확인되지 않는다. 따라서 이 항목으로 네 모델 전체를 줄 세우는 것은 무리다.
SWE-Bench Verified: 숫자만 보면 Claude Opus 4.7이 Kimi K2.6보다 높지만, 출처가 다르다
Claude Opus 4.7의 SWE-Bench Verified 87.6%는 Claude Opus 4.7 벤치마크를 정리한 제3자 글에 등장한다. Verdent는 이 수치를 Anthropic-conducted로 표시하고 memorization screens가 적용됐다고 설명한다. Kimi K2.6의 SWE-Bench Verified 80.2%는 Kilo AI의 제3자 글에 나온 수치다.
두 숫자 모두 참고할 만하지만, OpenAI의 같은 표에 있는 SWE-Bench Pro·Terminal-Bench 2.0만큼 직접 비교하기 좋은 근거는 아니다.
Expert-SWE: 총순위 근거로 쓰기 어렵다
GPT-5.5는 Expert-SWE(Internal)에서 73.1%로 제시됐다. 하지만 OpenAI가 이를 internal eval로 표시했고, 다른 연구실이 이 평가에서 memorization evidence를 봤다는 주석도 붙어 있다. 쉽게 말해 ‘시험 자체가 얼마나 깨끗한가’를 추가로 따져야 하는 항목이다. 따라서 Expert-SWE는 GPT-5.5의 내부 신호로는 볼 수 있어도, 네 모델 종합 순위의 중심축으로 삼기에는 부적절하다.
제품 선택 관점에서의 해석
GitHub 이슈 수정이나 복잡한 소프트웨어 엔지니어링 작업이 핵심이라면 Claude Opus 4.7을 먼저 시험해볼 만하다. 이 글에서 가장 직접 비교 가능한 SWE-Bench Pro 수치에서 Claude Opus 4.7은 64.3%로 GPT-5.5의 58.6%보다 높다. Vellum도 이 비교를 실제 GitHub issue resolution 맥락에서 해석한다.
터미널 중심의 코딩 에이전트라면 GPT-5.5를 우선 후보로 둘 만하다. GPT-5.5는 Terminal-Bench 2.0에서 82.7%로, Claude Opus 4.7의 69.4%보다 높다. 이것이 모든 코딩 작업에서 GPT-5.5가 더 낫다는 뜻은 아니지만, 해당 벤치마크에서는 분명한 우위가 있다.
오픈 모델 후보가 필요하다면 Kimi K2.6은 shortlist에 넣을 수 있다. Hugging Face는 Kimi K2.6을 open-source, native multimodal agentic model로 설명하고, Kilo AI의 제3자 글은 SWE-Bench Pro 58.6%, SWE-Bench Verified 80.2%를 제시한다. 다만 이 수치들이 GPT-5.5·Claude Opus 4.7과 같은 공식 교차표에 함께 놓인 것은 아니므로, 실제 제품 과제에서 다시 재는 과정이 필요하다.
DeepSeek V4는 현재로서는 보류가 안전하다. 제공된 출처 안에서 검증 가능한 벤치마크 숫자가 부족하다. 이 상태에서 억지로 순위를 매기면 빈칸으로 남기는 것보다 더 큰 오해를 만들 수 있다.
왜 ‘종합 우승자’를 뽑지 않나
LLM 벤치마크 비교에서 가장 흔한 실수는 서로 다른 출처와 테스트 조건, 서로 다른 작업 유형의 숫자를 한 표에 모아 총점처럼 읽는 것이다. 이 글은 근거를 세 단계로 나눠 본다.
같은 표에 실린 공유 벤치마크: GPT-5.5와 Claude Opus 4.7이 OpenAI 표에서 함께 제시된 SWE-Bench Pro와 Terminal-Bench 2.0이 여기에 해당한다. 이 글에서 가장 직접 비교하기 좋은 자료다.
제3자 정리에 포함된 vendor 또는 partner eval: Claude Opus 4.7의 SWE-Bench Verified와 CursorBench처럼 참고 가치는 있지만, 출처와 시험 조건을 함께 봐야 하는 자료다.
교차 검증이 부족하거나 인용 가능한 숫자가 부족한 자료: Kimi K2.6은 현재 제공된 출처상 제3자 SWE-Bench 수치가 중심이고, DeepSeek V4는 이 글에서 사용할 수 있는 검증 가능한 벤치마크가 부족하다.
이 기준으로 보면 결론은 단순하다. Claude Opus 4.7은 SWE-Bench Pro에서 GPT-5.5보다 높고, GPT-5.5는 Terminal-Bench 2.0에서 Claude Opus 4.7보다 높다. Kimi K2.6의 SWE-Bench 수치는 경쟁력이 있어 보이지만 증거 등급은 더 낮게 봐야 하며, DeepSeek V4는 현재 자료 부족으로 남겨두는 편이 정확하다.
실제 모델 선택은 벤치마크 표에서 끝나지 않는다. 이 표는 후보를 좁히는 용도로 쓰고, 다음 단계에서는 자신의 저장소 유형, 사용하는 프로그래밍 언어, 테스트 환경, 도구 호출 방식, 지연 시간, 비용, 실패 후 복구 방식까지 포함해 직접 재평가하는 것이 좋다. 그래야 ‘네 모델 총순위’보다 제품 안에서의 실제 성능에 더 가까운 답을 얻을 수 있다.
analyticsvidhya.com
Anthropic Launches Claude Opus 4.7 For "Most Difficult Tasks"
Comments
0 comments