네 모델을 하나의 순위표에 억지로 세우면 오히려 판단을 흐릴 수 있다. 공개 자료의 밀도가 서로 다르기 때문이다. Claude Opus 4.7은 Anthropic의 공식 설명과 외부 코딩 리더보드가 함께 잡히고, GPT-5.5는 추론 수치가 강하지만 주로 2차 출처·집계 사이트에서 확인된다 [16][
17][
3][
6]. DeepSeek V4 계열은 커뮤니티 평가와 기술 블로그, 집계 사이트가 섞여 있으며, Kimi K2.6은 아직 다중 벤치마크 비교를 할 만큼 자료가 충분하지 않다 [
25][
27][
7][
21].
결론부터: 2026년 현재 가장 무리 없는 판정
| 모델 | 가장 방어 가능한 해석 | 근거 신뢰도 |
|---|---|---|
| Claude Opus 4.7 | 코딩, 에이전트형 작업, 여러 단계 업무에서 공개 근거가 가장 탄탄하다. Anthropic은 내부 research-agent 벤치마크 0.715를 보고했고, Vals AI는 SWE-bench 82.00%로 1위에 올렸다 [ | 높음~중간 |
| GPT-5.5 | 일반 추론에서는 최상위권이다. O-Mega는 MMLU 92.4%, GPQA Diamond 93.6%, ARC-AGI-2 85.0%, ARC-AGI-1 95.0%를 보고했다 [ | 중간 |
| DeepSeek V4 / V4 Pro | 코딩과 기술적 대안으로 유망하지만, DeepSeek V4, V4 Pro, V4 Pro High 수치가 섞여 있어 그대로 합산하면 위험하다 [ | 중간~낮음 |
| Kimi K2.6 | LLM Stats의 GPQA 0.91, WhatLLM의 Quality Index 상위 10위권 등 부분 신호는 있으나, 폭넓은 비교를 하기에는 자료가 부족하다 [ | 낮음 |
숫자로 보는 핵심 벤치마크
| 벤치마크 또는 지표 | Claude Opus 4.7 | GPT-5.5 | DeepSeek V4 / V4 Pro | Kimi K2.6 | 읽는 법 |
|---|---|---|---|---|---|
| SWE-bench | Vals AI 기준 82.00%, 2026년 4월 24일 업데이트 [ | 이번 자료에서 확인된 비교 수치 없음 | NxCode가 DeepSeek V4 81%를 주장 [ | 확인된 비교 수치 없음 | 가장 깔끔한 공개 신호는 Claude 쪽이다. |
| SWE-bench Verified | Vellum 87.6%, LMCouncil 83.5% ± 1.7 [ | 확인된 비교 수치 없음 | Hugging Face 커뮤니티 평가에 항목은 있으나, 확인된 요약에는 비교 수치가 보이지 않음 [ | 확인된 비교 수치 없음 | 출처, 설정, 변형 모델에 따라 숫자가 달라질 수 있다. |
| SWE-bench Pro | Vellum 64.3% [ | 확인된 비교 수치 없음 | Hugging Face 커뮤니티 평가에 항목은 있으나, 확인된 요약에는 비교 수치가 보이지 않음 [ | 확인된 비교 수치 없음 | 장기 소프트웨어 에이전트 작업을 볼 때 더 중요한 지표다. |
| GPQA Diamond | O-Mega, Vellum, TNW 기준 94.2% [ | O-Mega·Vellum 기준 93.6% [ | 커뮤니티 평가 묶음에서 언급되지만, 확인된 요약에는 비교 수치가 없음 [ | LLM Stats 기준 0.91 [ | Claude와 GPT-5.5의 차이가 작아 GPQA 하나만으로 승자를 정하기 어렵다. |
| MMLU | 확인된 비교 수치 없음 | O-Mega 기준 92.4% [ | MMLU-Pro가 커뮤니티 평가에 포함됐지만, 확인된 요약에는 수치가 없음 [ | 확인된 비교 수치 없음 | 최상위 모델 사이에서는 이미 포화된 지표로 봐야 한다. |
| ARC-AGI | 확인된 비교 수치 없음 | ARC-AGI-2 85.0%, ARC-AGI-1 95.0% [ | 확인된 비교 수치 없음 | 확인된 비교 수치 없음 | GPT-5.5의 추론 강점을 뒷받침하지만, 출처 성격은 감안해야 한다. |
| Research-agent / 다단계 작업 | Anthropic 내부 벤치마크 0.715 [ | 확인된 비교 수치 없음 | BenchLM이 DeepSeek V4 Pro High의 Agentic 점수 83.8/100을 보고 [ | 확인된 비교 수치 없음 | 방향성은 참고할 만하지만 서로 같은 시험은 아니다. |
| Long context / Needle-in-a-Haystack | Anthropic은 시험한 모델 중 Opus 4.7의 장문 맥락 성능이 가장 일관적이었다고 설명 [ | 확인된 비교 수치 없음 | NxCode는 100만 토큰에서 97%를 주장하되 독립 검증을 조건으로 읽어야 한다고 설명 [ | 확인된 비교 수치 없음 | DeepSeek 쪽 신호는 강하지만 확정 판정은 아니다. |
| LiveCodeBench / Codeforces | 확인된 비교 수치 없음 | 확인된 비교 수치 없음 | Redreamality가 DeepSeek V4의 LiveCodeBench 93.5, Codeforces 3206을 보고 [ | 확인된 비교 수치 없음 | 순수 코딩 신호는 긍정적이지만, 장기 에이전트 비교를 대체하지는 않는다. |
벤치마크를 읽을 때 주의할 점
SWE-bench는 실제 프로덕션 소프트웨어 엔지니어링 과제를 해결하는 능력을 보는 벤치마크로 소개된다 [17]. 다만 SWE-bench, SWE-bench Verified, SWE-bench Pro를 같은 시험처럼 섞어 읽으면 안 된다. 특히 SWE-bench Pro 논문은 이 벤치마크를 더 어렵고 긴 호흡의 소프트웨어 엔지니어링 과제를 겨냥한 변형으로 설명한다 [
38].
GPQA Diamond는 과학·대학원 수준 추론을 보는 데 유용하지만, 이미 최상위 모델들이 서로 바짝 붙어 있다. TNW는 Opus 4.7, GPT-5.4 Pro, Gemini 3.1 Pro의 GPQA Diamond 차이가 측정 잡음 범위에 들어갈 정도로 좁다고 짚었다 [15]. MMLU는 더 조심해야 한다. Nanonets는 2026년 최상위 모델들이 MMLU에서 88%를 넘기 때문에 선두권을 세밀하게 구분하기 어렵다고 설명한다 [
1].
또 하나는 출처의 무게다. 공식 발표, 독립 리더보드, 집계 사이트, 커뮤니티 토론은 같은 수준의 증거가 아니다. 예를 들어 BenchLM은 Claude Opus 4.7을 추적하고 있지만, 안전하게 순위를 매기기에 충분한 공개 비생성 벤치마크 커버리지가 아직 부족하다며 공개 리더보드에서 제외했다고 밝힌다 [14].
Claude Opus 4.7: 코딩과 에이전트 작업에서 가장 탄탄한 카드
Claude Opus 4.7은 이번 비교에서 공개 근거가 가장 안정적인 모델이다. Anthropic은 Opus 4.7이 내부 research-agent 벤치마크 6개 모듈 전체에서 최고 종합 점수와 동률인 0.715를 기록했고, 시험한 모델 중 장문 맥락 성능이 가장 일관적이었다고 밝혔다 [16]. 내부 평가라는 한계는 있지만, 모델의 초점이 다단계 업무와 에이전트형 작업에 있다는 점은 분명히 보여준다.
외부 신호도 코딩 쪽에서 강하다. Vals AI는 2026년 4월 24일 업데이트된 SWE-bench 페이지에서 Claude Opus 4.7을 82.00%로 1위에 올렸다 [17]. Vellum은 SWE-bench Verified 87.6%, SWE-bench Pro 64.3%를 보고했고, LMCouncil은 SWE-bench Verified에서 83.5% ± 1.7을 제시했다 [
20][
9].
따라서 올바른 결론은 특정 숫자 하나만 고르는 것이 아니다. Claude Opus 4.7은 여러 소프트웨어 엔지니어링 출처에서 최상위권 또는 선두권으로 나타나지만, SWE-bench와 SWE-bench Verified, SWE-bench Pro는 동일한 시험이 아니며 날짜·설정·부분집합에 따라 값이 달라질 수 있다 [17][
20][
38].
과학 추론에서도 Claude Opus 4.7은 강하다. O-Mega, Vellum, TNW는 GPQA Diamond 94.2%를 제시한다 [3][
12][
15]. 다만 GPQA가 선두권 모델 사이에서 이미 촘촘해졌다는 점 때문에, 이 수치만으로 전체 승자를 선언하기는 어렵다 [
15].
GPT-5.5: 추론 수치는 매우 강하지만 공식 추적성은 약하다
GPT-5.5는 확인된 추론 지표에서 눈에 띈다. O-Mega는 GPT-5.5에 대해 MMLU 92.4%, GPQA Diamond 93.6%, ARC-AGI-2 85.0%, ARC-AGI-1 95.0%를 보고했다 [3]. Vellum 역시 GPQA Diamond에서 GPT-5.5를 93.6%로 제시한다 [
12]. BenchLM은 GPT-5.5를 임시 리더보드 112개 모델 중 5위, 종합 89/100으로 평가하고, 검증 리더보드에서는 16개 중 2위로 둔다 [
6].
하지만 핵심 주의점은 추적성이다. 이번 비교에서 확인된 자료상 GPT-5.5 수치는 기사, 집계 사이트, 벤치마크 페이지에 주로 등장한다. Appwrite는 OpenAI가 2026년 4월 23일 GPT-5.5를 출시했다고 설명했고, Vals AI도 openai/gpt-5.5의 출시일을 2026년 4월 23일, Vals Index를 67.76% ± 1.79로 표시한다 [2][
11]. 그러나 이는 OpenAI의 공식 성능표를 대체하지는 않는다.
실무적으로는 GPT-5.5를 일반 추론의 최상위 경쟁자로 두는 것이 타당하다. 특히 GPQA와 ARC-AGI 수치는 강하다 [3][
12]. 다만 모든 모델에 동일한 수준의 공식 자료가 있는 것처럼 전제하고 전체 1위를 선언하기에는 근거가 균질하지 않다.
DeepSeek V4 / V4 Pro: 유망하지만 변형 모델을 구분해야 한다
DeepSeek는 이번 비교에서 변형 모델 문제가 가장 크다. 공개 자료는 DeepSeek V4, DeepSeek V4 Pro, DeepSeek V4 Pro High를 오가며, 한 변형의 수치를 다른 변형에 자동으로 옮겨 붙이면 안 된다 [25][
26][
27].
Hugging Face에는 DeepSeek-V4-Pro에 대해 GPQA, GSM8K, HLE, MMLU-Pro, SWE-bench Pro, SWE-bench Verified, Terminal-Bench 2.0 등의 커뮤니티 평가 결과를 추가하는 토론이 올라와 있다 [25]. BenchLM은 DeepSeek V4 Pro High에 대해 Agentic 83.8/100, Coding 88.8/100, Knowledge 72.1/100을 보고한다 [
27]. NxCode는 DeepSeek V4가 SWE-bench 81%와 100만 토큰 Needle-in-a-Haystack 97%를 달성했다고 주장하지만, 해당 97% 수치는 독립 검증이 전제돼야 의미가 크다고 설명한다 [
26].
순수 코딩 지표에는 긍정적 신호가 있다. Redreamality는 DeepSeek V4에 대해 LiveCodeBench 93.5, Codeforces 3206을 제시했다 [30]. 동시에 같은 출처는 SWE-bench Pro나 Terminal-Bench 2.0 같은 장기 에이전트 작업에서는 폐쇄형 프런티어 모델이 여전히 앞선다고 정리한다 [
30].
따라서 DeepSeek V4/V4 Pro는 사내 검증 대상으로는 충분히 매력적이다. 기술 통제, 공개 생태계, 로컬 배포 가능성, 비용 구조를 중시하는 팀이라면 PoC를 돌려볼 가치가 있다. 다만 현재 공개 근거만으로 Claude Opus 4.7과 같은 수준의 확정적 리더십을 부여하기는 어렵다 [16][
17][
25][
27].
Kimi K2.6: 이름은 올릴 수 있지만, 아직 순위표의 주역은 아니다
Kimi K2.6은 완전히 제외할 모델은 아니지만, 다른 세 모델과 같은 폭으로 비교하기에는 자료가 부족하다. LLM Stats는 Kimi K2.6을 GPQA 0.91로 제시하고, WhatLLM은 Quality Index 기준 상위 10개 모델 안에 Kimi K2.6을 포함한다 [7][
21]. 이는 벤치마크 활동의 신호이지만, 다중 벤치마크 비교의 충분조건은 아니다.
특히 Kimi K2.5 데이터를 Kimi K2.6의 근거처럼 쓰면 안 된다. Simon Willison은 2026년 2월 SWE-bench Verified 업데이트에서 Kimi K2.5 결과를 다뤘지만, 이는 Kimi K2.6이 아니라 다른 버전의 모델이다 [8]. 엄밀한 비교에서는 Kimi K2.6을 근거 부족 또는 추가 검증 필요로 표시하는 편이 맞다.
사용 사례별 추천
| 사용 사례 | 추천 모델 | 신뢰도 | 이유 |
|---|---|---|---|
| 실제 이슈 해결과 코딩 에이전트 | Claude Opus 4.7 | 높음~중간 | Vals AI SWE-bench에서 82.00%로 1위이며, Vellum 기준 SWE-bench Verified와 SWE-bench Pro에서도 강하다 [ |
| 다단계 작업과 research-agent | Claude Opus 4.7 | 중간 | Anthropic이 내부 research-agent 0.715와 장문 맥락 성능의 높은 일관성을 보고했다 [ |
| GPQA형 과학 추론 | Claude Opus 4.7 또는 GPT-5.5 | 중간 | Claude는 94.2%, GPT-5.5는 93.6%로 나타나며, GPQA는 선두권 모델 사이에서 차이가 작다 [ |
| 넓은 범위의 일반 추론 | GPT-5.5 | 중간~낮음 | MMLU, GPQA, ARC-AGI 수치가 강하지만, 근거는 O-Mega, Vellum, BenchLM 같은 2차 출처와 집계 사이트가 중심이다 [ |
| 공개 생태계·로컬·기술 통제 중심 검토 | DeepSeek V4 / V4 Pro | 중간~낮음 | Hugging Face, BenchLM, NxCode, Redreamality에 긍정 신호가 있으나 변형 모델이 섞여 있어 독립 검증이 필요하다 [ |
| 정량 순위표에 Kimi K2.6 포함 | 검증된 비교 대상으로 쓰지 않는 것이 안전 | 낮음 | LLM Stats의 GPQA 0.91 등 부분 신호는 있지만, 비교 가능한 공개 커버리지가 충분하지 않다 [ |
발표 자료에는 이렇게 넣는 것이 안전하다
경영진이나 개발 조직에 보고한다면 성능과 근거 신뢰도를 분리하는 편이 좋다. 첫 장에는 사용 사례별 추천을, 두 번째 장에는 숫자 표를, 세 번째 장에는 방법론상 한계를 넣는 방식이 가장 안전하다.
핵심 메시지는 간단하다. Claude Opus 4.7은 코딩과 에이전트형 작업에서 가장 근거가 탄탄한 선두 모델이다. GPT-5.5는 일반 추론의 강력한 경쟁자다. DeepSeek V4/V4 Pro는 기술적으로 유망하지만 자체 검증이 필요하다. Kimi K2.6은 아직 비교 가능한 자료가 부족하다.
방법론 메모에는 세 가지를 반드시 넣어야 한다. 첫째, SWE-bench와 SWE-bench Verified, SWE-bench Pro를 같은 시험처럼 섞지 말 것. SWE-bench Pro는 더 어려운 장기 소프트웨어 엔지니어링 과제를 겨냥한다 [38]. 둘째, MMLU 하나로 결론을 내리지 말 것. 2026년 최상위 모델은 이미 MMLU에서 88% 이상으로 뭉쳐 있어 구분력이 낮다 [
1]. 셋째, 각 숫자 옆에 출처 유형을 표시할 것. 공식 발표, 독립 리더보드, 집계 사이트, 커뮤니티 평가, 기술 블로그 주장은 같은 무게가 아니다.
최종 결론
방어 가능한 공개 근거로 모델을 골라야 한다면 Claude Opus 4.7을 첫 번째로 놓는 것이 가장 안전하다. Anthropic의 공식 자료, Vals AI SWE-bench 1위, Vellum의 SWE-bench Verified·Pro 수치가 함께 잡히기 때문이다 [16][
17][
20]. GPT-5.5는 추론 분야의 최상위 경쟁자로 제시할 수 있지만, 이번 자료에서 확인된 수치가 주로 2차 출처와 집계 사이트라는 점을 밝혀야 한다 [
3][
6][
12]. DeepSeek V4/V4 Pro는 내부 테스트 후보이지 공개 근거만으로 리더라고 선언할 단계는 아니다 [
25][
26][
27][
30]. Kimi K2.6은 현재로서는 완전 비교를 위한 증거가 부족하다고 보는 것이 가장 정직하다 [
7][
21].




