2026년 AI 벤치마크를 볼 때 가장 흔한 함정은 여러 모델을 한 줄 리더보드에 세워놓고, 서로 다른 테스트와 모델 버전을 같은 기준처럼 읽는 일입니다. 이 자료 묶음에서 가장 탄탄하게 비교할 수 있는 조합은 Claude Opus 4.7과 GPT-5.5입니다. 두 모델 모두 OpenAI와 Vellum 표의 같은 벤치마크에 함께 등장하기 때문입니다 [5][
2].
반면 DeepSeek V4와 Kimi K2.6은 사정이 다릅니다. 현재 제공된 출처에는 두 모델의 직접 벤치마크 숫자가 없고, 가장 가까운 참고 자료도 DeepSeek V3.2, KimiK2.5, Kimi K2 Thinking에 관한 것입니다 [1][
13][
6]. 따라서 네 모델을 모두 같은 순위표에 올려 단정하는 것은 아직 무리입니다.
먼저 보는 결론
- GPT-5.5는 터미널/CLI 에이전트, 오피스·전문 업무, 브라우저/검색, 일부 수학 평가에서 강하게 나타납니다 [
5][
2].
- Claude Opus 4.7은 SWE-Bench Pro Public, MCP Atlas 같은 툴 오케스트레이션, FinanceAgent v1.1에서 더 좋은 수치를 보입니다 [
5][
2].
- DeepSeek V4와 Kimi K2.6은 이 자료만으로 Claude Opus 4.7 또는 GPT-5.5와 공정하게 순위를 매길 수 없습니다. 출처에 나온 숫자는 다른 버전의 모델에 관한 것입니다 [
1][
13][
6].
같은 벤치마크에서 직접 비교되는 숫자
아래 표는 Claude Opus 4.7과 GPT-5.5가 같은 벤치마크 이름으로 나란히 나온 경우만 묶었습니다. GPT-5.5 Pro는 출처가 별도 변종으로 제시한 경우에만 함께 적었습니다 [2].
| 제품 관점의 질문 | 벤치마크 | 보고된 결과 | 읽는 법 |
|---|---|---|---|
| 코드 수정·리포지토리 복구 | SWE-Bench Pro Public | Claude Opus 4.7 64.3% vs GPT-5.5 58.6% [ | 이 벤치마크에서는 Claude가 앞섭니다. |
| 터미널/CLI 에이전트 | Terminal-Bench 2.0 | GPT-5.5 82.7% vs Claude Opus 4.7 69.4% [ | 터미널 작업에서는 GPT-5.5의 우위가 가장 뚜렷합니다. |
| 전문 업무·오피스 작업 | GDPval; OfficeQA Pro | GDPval은 GPT-5.5 84.9% vs Claude 80.3%, OfficeQA Pro는 GPT-5.5 54.1% vs Claude 43.6% [ | 두 전문 업무 지표에서는 GPT-5.5가 높습니다. |
| 금융 에이전트 | FinanceAgent v1.1 | Claude 64.4% vs GPT-5.5 60.0% [ | 이 금융 에이전트 평가에서는 Claude가 앞섭니다. |
| 컴퓨터 사용·브라우저 작업 | OSWorld-Verified; BrowseComp | OSWorld는 GPT-5.5 78.7% vs Claude 78.0%, BrowseComp는 GPT-5.5 84.4% 및 GPT-5.5 Pro 90.1% vs Claude 79.3% [ | OSWorld는 거의 비슷하고, BrowseComp는 GPT-5.5 쪽이 높습니다. |
| 도구 호출·오케스트레이션 | MCP Atlas | Claude 79.1% vs GPT-5.5 75.3% [ | 여러 도구를 엮는 MCP 계열 시나리오에서는 Claude가 강합니다. |
| 과학·수학 추론 | GPQA Diamond; FrontierMath T1–3 | GPQA는 Claude 94.2% vs GPT-5.5 93.6%, FrontierMath는 GPT-5.5 51.7% 및 GPT-5.5 Pro 52.4% vs Claude 43.8% [ | GPQA는 초접전이고, FrontierMath는 GPT-5.5가 앞섭니다. |
숫자를 읽기 전에: 세 가지 주의점
1. SWE-Bench Pro와 SWE-bench Verified를 섞지 말 것
OpenAI의 직접 비교 표는 SWE-Bench Pro Public을 씁니다 [5]. 반면 BenchLM이 설명하는 SWE-bench Verified는 SWE-bench의 사람이 검증한 하위 집합으로, Django·Flask·scikit-learn 같은 인기 파이썬 오픈소스 저장소의 실제 GitHub 이슈 해결 능력을 테스트합니다 [
21].
따라서 SWE-Bench Pro Public에서 Claude가 64.3%를 기록했다는 숫자를 다른 리더보드의 SWE-bench Verified 점수와 바로 비교하면 안 됩니다 [5][
21]. 벤치마크 이름, 평가 실행 방식, 평가일, 모델 설정, 재시도 정책까지 맞아야 같은 숫자로 읽을 수 있습니다.
2. GPQA Diamond는 프런티어 모델을 가르는 칼날이 무뎌졌습니다
Vellum은 GPQA Diamond에서 Claude Opus 4.7 94.2%, GPT-5.5 93.6%를 제시합니다 [2]. The Next Web도 Claude Opus 4.7 94.2%, GPT-5.4 Pro 94.4%, Gemini 3.1 Pro 94.3%를 전하며, 이런 차이는 노이즈 범위라고 설명했습니다 [
17].
즉 GPQA Diamond는 기본 추론 체력을 보는 데는 여전히 참고할 수 있지만, 최신 프런티어 모델 중 하나를 고르는 결정타로 쓰기에는 부족합니다. 실제 제품에서는 장시간 작업, 도구 호출, 브라우저 사용, 사내 코드베이스 적응처럼 더 구체적인 평가가 필요합니다.
3. 제3자 리더보드는 서로 다를 수 있습니다
SWE-bench Verified에서 Claude Opus 4.7의 숫자도 출처마다 다릅니다. BenchLM은 2026년 4월 24일 기준 Claude Opus 4.7 Adaptive를 87.6%로 제시했고 [21], LLM Stats도 87.6%를 적었습니다 [
18]. 반면 LM Council은 Claude Opus 4.7 max를 83.5% ±1.7로 표시했고 [
10], MindStudio는 82.4%라고 설명했습니다 [
14].
이 차이가 곧 어느 한쪽이 틀렸다는 뜻은 아닙니다. 모델 설정, 평가 실행 방식, 테스트 날짜, reasoning mode, retry 처리 방식이 달라지면 같은 이름의 벤치마크라도 결과가 달라질 수 있습니다. 엔지니어링 팀이라면 공개 점수는 후보군을 좁히는 용도로 쓰고, 최종 판단은 사내 저장소와 실제 워크플로에서 다시 해야 합니다.
Claude Opus 4.7: 코드 복구와 다중 도구 작업에서 강한 신호
Claude Opus 4.7의 강점은 코드 복구와 툴을 많이 쓰는 에이전트 작업에서 가장 뚜렷합니다. OpenAI 표에서 Claude는 SWE-Bench Pro Public 64.3% 대 58.6%로 GPT-5.5를 앞섰고, FinanceAgent v1.1에서도 64.4% 대 60.0%로 더 높았습니다 [5]. Vellum 표에서도 MCP Atlas 점수는 Claude 79.1%, GPT-5.5 75.3%입니다 [
2].
Anthropic의 Claude Opus 4.7 출시 글에는 에이전트 워크플로와 관련된 파트너 평가도 언급됩니다. Anthropic은 Hebbia가 핵심 orchestrator agents에서 tool call 정확도와 planning 정확도의 두 자릿수 상승을 봤다고 소개했고, Rakuten-SWE-Bench에서는 Opus 4.7이 Opus 4.6보다 세 배 많은 production tasks를 해결했으며 Code Quality와 Test Quality도 두 자릿수 개선됐다고 전했습니다 [19].
다만 이는 유용한 제품 신호일 뿐, 여러분의 내부 워크로드에서 독립적으로 검증된 결과는 아닙니다. 자율 코드 수정, MCP, 여러 도구를 길게 이어 쓰는 워크플로가 핵심이라면 Claude Opus 4.7을 먼저 시험해볼 만합니다. 하지만 테스트 스위트, 권한 모델, 도구 스키마, 실패 시 재시도 방식은 반드시 실제 운영 환경에 맞춰 다시 확인해야 합니다.
GPT-5.5: 터미널, 브라우저/검색, 오피스, 수학에서 강점
GPT-5.5의 가장 선명한 우위는 Terminal-Bench 2.0에서 나타납니다. OpenAI는 GPT-5.5가 82.7%를 기록했다고 보고했으며, Claude Opus 4.7은 69.4%, Gemini 3.1 Pro는 68.5%였습니다 [5]. 같은 표에서 GPT-5.5는 GDPval wins/ties 84.9% 대 80.3%, OfficeQA Pro 54.1% 대 43.6%로 Claude보다 높았습니다 [
5].
Vellum은 컴퓨터 사용, 검색, 추론 쪽의 추가 맥락을 제공합니다. GPT-5.5는 OSWorld-Verified에서 78.7% 대 78.0%로 Claude보다 근소하게 높고, BrowseComp에서는 84.4% 대 79.3%, FrontierMath T1–3에서는 51.7% 대 43.8%로 더 높습니다 [2]. BrowseComp에서는 GPT-5.5 Pro가 90.1%로 따로 제시됩니다 [
2].
코딩에서는 그림이 조금 더 복합적입니다. GPT-5.5는 Terminal-Bench 2.0에서 매우 강하지만, OpenAI의 SWE-Bench Pro Public 표에서는 Claude Opus 4.7보다 낮습니다 [5]. OpenAI System Card는 GPT-5.5의 CoT-Control도 설명합니다. 이는 GPQA, MMLU-Pro, HLE, BFCL, SWE-Bench Verified 등에서 만든 13,000개 이상의 과제를 포함해 모델이 chain-of-thought 관련 사용자 지시를 얼마나 잘 따르는지 측정하는 평가 묶음입니다 [
26]. 다만 이 자료는 DeepSeek V4나 Kimi K2.6과의 직접 비교 수치를 제공하지 않습니다 [
26].
DeepSeek V4와 Kimi K2.6: 아직 직접 비교할 숫자가 없습니다
DeepSeek V4에 대해서는 제공된 출처 안에 직접 벤치마크 숫자가 없습니다. 가장 가까운 자료는 DeepSeek V3.2입니다. MangoMind는 2026년 4월 코딩 추천에서 DeepSeek V3.2를 SWE-bench 89.2%로 제시했지만, 이는 Claude Opus 4.6 93.2%, GPT-5.4 Pro 91.1% 아래에 놓인 수치이며 DeepSeek V4가 아닙니다 [1]. DeepSeek V3.2의 점수로 DeepSeek V4의 성능을 결론낼 수는 없습니다.
Kimi K2.6도 마찬가지입니다. Stanford HAI는 2026년 2월 기준 SWE-bench Verified에서 KimiK2.5가 70%~76% 범위의 모델군에 포함됐다고 설명했습니다 [13]. Siliconflow는 Kimi K2 Thinking의 GPQA 84.5, SWE Bench 71.3을 제시합니다 [
6]. 두 자료 모두 Kimi K2.6의 직접 점수가 아니므로, Kimi 생태계를 이해하는 참고 정보로만 봐야 합니다.
제품 팀을 위한 평가 가이드
| 주요 사용 목적 | 먼저 시험해볼 모델 | 근거 | 주의할 점 |
|---|---|---|---|
| 터미널/CLI 코딩 에이전트 | GPT-5.5 | Terminal-Bench 2.0: GPT-5.5 82.7% vs Claude 69.4% [ | 사내 shell 환경, 권한 모델, CI/CD 흐름에서 재평가해야 합니다. |
| 자율 리포지토리 복구 | Claude Opus 4.7, 이후 GPT-5.5 비교 | SWE-Bench Pro Public: Claude 64.3% vs GPT-5.5 58.6% [ | SWE-bench Verified와 섞어 읽지 말고 평가 방식부터 맞춰야 합니다 [ |
| MCP 또는 다중 도구 오케스트레이션 | Claude Opus 4.7 | MCP Atlas: Claude 79.1% vs GPT-5.5 75.3% [ | 실제 tool schema, retry logic, access policy에서 검증해야 합니다. |
| 브라우저/검색 에이전트 | GPT-5.5 또는 GPT-5.5 Pro | BrowseComp: GPT-5.5 84.4%, GPT-5.5 Pro 90.1%, Claude 79.3% [ | BrowseComp 점수를 모든 내부 리서치 업무의 대리 지표로 보면 안 됩니다. |
| 금융·전문 업무 워크플로 | Claude와 GPT-5.5를 나란히 테스트 | Claude는 FinanceAgent v1.1에서 앞서고, GPT-5.5는 GDPval과 OfficeQA Pro에서 앞섭니다 [ | MindStudio는 금융 벤치마크 점수와 실제 배포 도구 사이의 간극이 모델 지능보다 엔드투엔드 인프라에서 생기는 경우가 많다고 설명합니다 [ |
| 과학적 추론 전반 | GPQA만 보고 고르지 말 것 | Vellum의 GPQA Diamond 점수는 Claude와 GPT-5.5가 매우 가깝습니다 [ | 실제 과제가 벤치마크 문제와 다르면 도메인별 평가가 더 중요합니다. |
결론
현재 확인되는 head-to-head 근거만 놓고 보면, GPT-5.5는 터미널/CLI 에이전트, 브라우저/검색, 오피스 작업, 일부 수학 벤치마크에서 가장 강한 후보입니다 [5][
2]. Claude Opus 4.7은 SWE-Bench Pro Public, MCP/도구 오케스트레이션, FinanceAgent v1.1에서 가장 설득력 있는 후보입니다 [
5][
2].
DeepSeek V4와 Kimi K2.6은 이 자료 묶음만으로 두 모델과 공정하게 순위를 매길 수 없습니다. 현재 확인되는 숫자는 DeepSeek V3.2, KimiK2.5, Kimi K2 Thinking에 관한 것이므로, DeepSeek V4나 Kimi K2.6이 Claude Opus 4.7 또는 GPT-5.5를 앞선다는 주장은 직접 벤치마크 수치로 뒷받침되지 않습니다 [1][
13][
6].




