SWE-bench는 실제 프로덕션 소프트웨어 엔지니어링 과제를 해결하는 능력을 보는 벤치마크로 소개된다 . 다만 SWE-bench, SWE-bench Verified, SWE-bench Pro를 같은 시험처럼 섞어 읽으면 안 된다. 특히 SWE-bench Pro 논문은 이 벤치마크를 더 어렵고 긴 호흡의 소프트웨어 엔지니어링 과제를 겨냥한 변형으로 설명한다
.
GPQA Diamond는 과학·대학원 수준 추론을 보는 데 유용하지만, 이미 최상위 모델들이 서로 바짝 붙어 있다. TNW는 Opus 4.7, GPT-5.4 Pro, Gemini 3.1 Pro의 GPQA Diamond 차이가 측정 잡음 범위에 들어갈 정도로 좁다고 짚었다 . MMLU는 더 조심해야 한다. Nanonets는 2026년 최상위 모델들이 MMLU에서 88%를 넘기 때문에 선두권을 세밀하게 구분하기 어렵다고 설명한다
.
또 하나는 출처의 무게다. 공식 발표, 독립 리더보드, 집계 사이트, 커뮤니티 토론은 같은 수준의 증거가 아니다. 예를 들어 BenchLM은 Claude Opus 4.7을 추적하고 있지만, 안전하게 순위를 매기기에 충분한 공개 비생성 벤치마크 커버리지가 아직 부족하다며 공개 리더보드에서 제외했다고 밝힌다 .
Claude Opus 4.7은 이번 비교에서 공개 근거가 가장 안정적인 모델이다. Anthropic은 Opus 4.7이 내부 research-agent 벤치마크 6개 모듈 전체에서 최고 종합 점수와 동률인 0.715를 기록했고, 시험한 모델 중 장문 맥락 성능이 가장 일관적이었다고 밝혔다 . 내부 평가라는 한계는 있지만, 모델의 초점이 다단계 업무와 에이전트형 작업에 있다는 점은 분명히 보여준다.
외부 신호도 코딩 쪽에서 강하다. Vals AI는 2026년 4월 24일 업데이트된 SWE-bench 페이지에서 Claude Opus 4.7을 82.00%로 1위에 올렸다 . Vellum은 SWE-bench Verified 87.6%, SWE-bench Pro 64.3%를 보고했고, LMCouncil은 SWE-bench Verified에서 83.5% ± 1.7을 제시했다
.
따라서 올바른 결론은 특정 숫자 하나만 고르는 것이 아니다. Claude Opus 4.7은 여러 소프트웨어 엔지니어링 출처에서 최상위권 또는 선두권으로 나타나지만, SWE-bench와 SWE-bench Verified, SWE-bench Pro는 동일한 시험이 아니며 날짜·설정·부분집합에 따라 값이 달라질 수 있다 .
과학 추론에서도 Claude Opus 4.7은 강하다. O-Mega, Vellum, TNW는 GPQA Diamond 94.2%를 제시한다 . 다만 GPQA가 선두권 모델 사이에서 이미 촘촘해졌다는 점 때문에, 이 수치만으로 전체 승자를 선언하기는 어렵다
.
GPT-5.5는 확인된 추론 지표에서 눈에 띈다. O-Mega는 GPT-5.5에 대해 MMLU 92.4%, GPQA Diamond 93.6%, ARC-AGI-2 85.0%, ARC-AGI-1 95.0%를 보고했다 . Vellum 역시 GPQA Diamond에서 GPT-5.5를 93.6%로 제시한다
. BenchLM은 GPT-5.5를 임시 리더보드 112개 모델 중 5위, 종합 89/100으로 평가하고, 검증 리더보드에서는 16개 중 2위로 둔다
.
하지만 핵심 주의점은 추적성이다. 이번 비교에서 확인된 자료상 GPT-5.5 수치는 기사, 집계 사이트, 벤치마크 페이지에 주로 등장한다. Appwrite는 OpenAI가 2026년 4월 23일 GPT-5.5를 출시했다고 설명했고, Vals AI도 openai/gpt-5.5의 출시일을 2026년 4월 23일, Vals Index를 67.76% ± 1.79로 표시한다 . 그러나 이는 OpenAI의 공식 성능표를 대체하지는 않는다.
실무적으로는 GPT-5.5를 일반 추론의 최상위 경쟁자로 두는 것이 타당하다. 특히 GPQA와 ARC-AGI 수치는 강하다 . 다만 모든 모델에 동일한 수준의 공식 자료가 있는 것처럼 전제하고 전체 1위를 선언하기에는 근거가 균질하지 않다.
DeepSeek는 이번 비교에서 변형 모델 문제가 가장 크다. 공개 자료는 DeepSeek V4, DeepSeek V4 Pro, DeepSeek V4 Pro High를 오가며, 한 변형의 수치를 다른 변형에 자동으로 옮겨 붙이면 안 된다 .
Hugging Face에는 DeepSeek-V4-Pro에 대해 GPQA, GSM8K, HLE, MMLU-Pro, SWE-bench Pro, SWE-bench Verified, Terminal-Bench 2.0 등의 커뮤니티 평가 결과를 추가하는 토론이 올라와 있다 . BenchLM은 DeepSeek V4 Pro High에 대해 Agentic 83.8/100, Coding 88.8/100, Knowledge 72.1/100을 보고한다
. NxCode는 DeepSeek V4가 SWE-bench 81%와 100만 토큰 Needle-in-a-Haystack 97%를 달성했다고 주장하지만, 해당 97% 수치는 독립 검증이 전제돼야 의미가 크다고 설명한다
.
순수 코딩 지표에는 긍정적 신호가 있다. Redreamality는 DeepSeek V4에 대해 LiveCodeBench 93.5, Codeforces 3206을 제시했다 . 동시에 같은 출처는 SWE-bench Pro나 Terminal-Bench 2.0 같은 장기 에이전트 작업에서는 폐쇄형 프런티어 모델이 여전히 앞선다고 정리한다
.
따라서 DeepSeek V4/V4 Pro는 사내 검증 대상으로는 충분히 매력적이다. 기술 통제, 공개 생태계, 로컬 배포 가능성, 비용 구조를 중시하는 팀이라면 PoC를 돌려볼 가치가 있다. 다만 현재 공개 근거만으로 Claude Opus 4.7과 같은 수준의 확정적 리더십을 부여하기는 어렵다 .
Kimi K2.6은 완전히 제외할 모델은 아니지만, 다른 세 모델과 같은 폭으로 비교하기에는 자료가 부족하다. LLM Stats는 Kimi K2.6을 GPQA 0.91로 제시하고, WhatLLM은 Quality Index 기준 상위 10개 모델 안에 Kimi K2.6을 포함한다 . 이는 벤치마크 활동의 신호이지만, 다중 벤치마크 비교의 충분조건은 아니다.
특히 Kimi K2.5 데이터를 Kimi K2.6의 근거처럼 쓰면 안 된다. Simon Willison은 2026년 2월 SWE-bench Verified 업데이트에서 Kimi K2.5 결과를 다뤘지만, 이는 Kimi K2.6이 아니라 다른 버전의 모델이다 . 엄밀한 비교에서는 Kimi K2.6을 근거 부족 또는 추가 검증 필요로 표시하는 편이 맞다.
경영진이나 개발 조직에 보고한다면 성능과 근거 신뢰도를 분리하는 편이 좋다. 첫 장에는 사용 사례별 추천을, 두 번째 장에는 숫자 표를, 세 번째 장에는 방법론상 한계를 넣는 방식이 가장 안전하다.
핵심 메시지는 간단하다. Claude Opus 4.7은 코딩과 에이전트형 작업에서 가장 근거가 탄탄한 선두 모델이다. GPT-5.5는 일반 추론의 강력한 경쟁자다. DeepSeek V4/V4 Pro는 기술적으로 유망하지만 자체 검증이 필요하다. Kimi K2.6은 아직 비교 가능한 자료가 부족하다.
방법론 메모에는 세 가지를 반드시 넣어야 한다. 첫째, SWE-bench와 SWE-bench Verified, SWE-bench Pro를 같은 시험처럼 섞지 말 것. SWE-bench Pro는 더 어려운 장기 소프트웨어 엔지니어링 과제를 겨냥한다 . 둘째, MMLU 하나로 결론을 내리지 말 것. 2026년 최상위 모델은 이미 MMLU에서 88% 이상으로 뭉쳐 있어 구분력이 낮다
. 셋째, 각 숫자 옆에 출처 유형을 표시할 것. 공식 발표, 독립 리더보드, 집계 사이트, 커뮤니티 평가, 기술 블로그 주장은 같은 무게가 아니다.
방어 가능한 공개 근거로 모델을 골라야 한다면 Claude Opus 4.7을 첫 번째로 놓는 것이 가장 안전하다. Anthropic의 공식 자료, Vals AI SWE-bench 1위, Vellum의 SWE-bench Verified·Pro 수치가 함께 잡히기 때문이다 . GPT-5.5는 추론 분야의 최상위 경쟁자로 제시할 수 있지만, 이번 자료에서 확인된 수치가 주로 2차 출처와 집계 사이트라는 점을 밝혀야 한다
. DeepSeek V4/V4 Pro는 내부 테스트 후보이지 공개 근거만으로 리더라고 선언할 단계는 아니다
. Kimi K2.6은 현재로서는 완전 비교를 위한 증거가 부족하다고 보는 것이 가장 정직하다
.
Comments
0 comments