보고서게시됨3개월 전Last edited 2개월 전16 소스

GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: 벤치마크 비교와 증거 등급

OpenAI의 같은 평가표 기준으로 Claude Opus 4.7은 SWE Bench Pro 64.3%로 GPT 5.5 58.6%보다 높고, GPT 5.5는 Terminal Bench 2.0 82.7%로 Claude Opus 4.7 69.4%보다 높다.[21] Kimi K2.6은 오픈 모델 후보군에 넣을 만하지만, Hugging Face의 모델 설명과 Kilo AI의 제3자 SWE Bench 수치가 주된 근거라 GPT 5.5·Claude Opus 4.7과 같은 공식 교차표처럼 보기는 어렵다.[32][34] GPT 5.5의 Expert SWE 73.1%는 OpenA...

Studio Global AI로 검색 및 팩트체크 인기 페이지 더 보기

四個 AI 模型基準測試比較的抽象儀表板插圖 — GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4：基準測試比較表與證據等級AI 生成示意圖；本文聚焦可核驗 benchmark 分數與來源等級。
AI 프롬프트
Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4：基準測試比較表與證據等級. Article summary: 目前不能公平排出四模型總冠軍：同表可比數據顯示 Claude Opus 4.7 在 SWE Bench Pro 64.3% vs GPT 5.5 58.6% 領先，但 GPT 5.5 在 Terminal Bench 2.0 82.7% vs 69.4% 領先；Kimi K2.6 與 DeepSeek V4 缺少同等級交叉驗證。[21]. Topic tags: ai, llm benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "OpenAI’s GPT-5.5, Anthropic’s Claude Opus 4.7, and DeepSeek V4 arrived close enough together to look like a clean three-way race. **GPT-5.5 is OpenAI’s bet on execution-heavy profe" source context "GPT-5.5, Claude Opus 4.7, and DeepSeek V4 reveal three different ..." Reference image 2: visual subject "# DeepSeek V4 Pro vs Claude Opus 4.7 vs GPT-5.5: The Frontier in April 2026. DeepSeek V4 Pro undercuts GPT-5.5 by ~9x on outpu
openai.com

네 모델을 비교할 때 가장 먼저 할 일은 ‘누가 1등인가’를 정하는 것이 아니라, ‘같은 시험지와 같은 채점 기준으로 본 숫자인가’를 가르는 것이다.

현재 제공된 출처만 놓고 보면 GPT-5.5와 Claude Opus 4.7의 비교가 가장 깔끔하다. OpenAI의 GPT-5.5 평가표가 두 모델을 같은 표에 올려 SWE-Bench Pro와 Terminal-Bench 2.0 점수를 함께 제시하기 때문이다. 반면 Kimi K2.6은 Hugging Face 모델 페이지의 설명과 Kilo AI의 제3자 글에 나온 SWE-Bench 수치가 핵심 근거다. DeepSeek V4는 이 글에서 사용할 수 있는 출처 범위 안에서 검증 가능한 벤치마크 숫자가 부족해 수치 순위에 넣지 않았다.

벤치마크 비교표

아래 표에서 —는 ‘이 글의 출처 범위에서 인용 가능한 숫자가 없음’을 뜻한다. 해당 모델이 그 작업을 못 한다는 의미가 아니다. 또한 서로 다른 출처, 다른 harness, 다른 실행 조건의 점수를 한데 더해 종합 1위를 뽑는 방식은 피하는 것이 좋다.

모델	SWE-Bench Pro	SWE-Bench Verified	Terminal-Bench 2.0	그 밖의 확인 가능 정보	증거 등급과 해석
GPT-5.5	58.6%	—	82.7%	Expert-SWE(Internal) 73.1%. OpenAI는 다른 연구실이 이 평가에서 memorization evidence를 봤다고 적었다.	: SWE-Bench Pro와 Terminal-Bench 2.0은 Claude Opus 4.7과 같은 OpenAI 표에서 비교 가능하다. Expert-SWE는 내부 평가라 보수적으로 봐야 한다.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

사람들은 또한 묻습니다.