단순히 ‘1등 모델’을 고르는 식의 순위표는 이 비교에 잘 맞지 않습니다. 제공된 자료는 GPT-5.5, Claude Opus 4.7, DeepSeek V4, Kimi K2.6을 하나의 독립 기관이 같은 조건에서 모두 시험한 결과가 아니라, 서로 다른 벤치마크·모델 변형·업체 발표·2차 분석을 엮은 것입니다 [2][
3][
7][
21].
그래도 실무적으로 읽을 수 있는 흐름은 있습니다. GPT-5.5는 가장 강하게 입증된 올라운더, Claude Opus 4.7은 코딩과 전문 지식 일부에서 매우 강한 모델, DeepSeek V4는 비용을 고려할 때 가장 눈에 띄는 도전자, Kimi K2.6은 기술 사양은 흥미롭지만 직접 비교 수치가 부족한 모델로 보는 것이 가장 안전합니다 [1][
2][
3][
7][
22][
24].
먼저 보는 결론
- 전체 성능의 출발점은 GPT-5.5가 가장 유리합니다. Artificial Analysis의 Intelligence Index 일부에서 GPT-5.5 xhigh는 60점, GPT-5.5 high는 59점으로, Claude Opus 4.7의 57점보다 앞섭니다 [
2]. BrowseComp에서도 GPT-5.5는 84.4%로 DeepSeek V4의 83.4%, Claude Opus 4.7의 79.3%보다 높습니다 [
3].
- Claude Opus 4.7은 개발자 업무에서 만만치 않습니다. SWE-Bench Pro에서 Claude Opus 4.7은 64.3%로 GPT-5.5의 58.6%보다 높고, GPQA Diamond에서도 94.2%로 GPT-5.5의 93.6%를 근소하게 앞섭니다 [
22][
24]. 다만 Terminal-Bench 2.0에서는 GPT-5.5가 82.7%로 Claude Opus 4.7의 69.4%보다 크게 앞섭니다 [
22][
24].
- DeepSeek V4는 ‘가성비’가 핵심입니다. VentureBeat가 인용한 BrowseComp 수치에서 DeepSeek V4는 83.4%로 GPT-5.5보다 1.0%포인트 낮지만 Claude Opus 4.7보다 높습니다 [
3]. Mashable이 제시한 API 가격도 100만 입력 토큰당 1.74달러, 100만 출력 토큰당 3.48달러로, GPT-5.5의 5달러·30달러 및 Claude Opus 4.7의 5달러·25달러보다 낮습니다 [
1].
- Kimi K2.6은 이 자료만으로는 순위를 매기기 어렵습니다. DocsBot은 Kimi K2.6을 오픈소스, 네이티브 멀티모달, 에이전트형 모델로 설명하며 1조 파라미터 MoE 구조, 320억 활성 파라미터, 256K 컨텍스트를 언급합니다 [
7]. 하지만 GPT-5.5, Claude Opus 4.7, DeepSeek V4와 나란히 비교할 수 있는 충분한 직접 벤치마크 수치는 제공되지 않았습니다 [
7].
네 모델 비교 요약
| 모델 | 자료에서 가장 강하게 확인되는 포인트 | 주요 수치 | 읽는 법 |
|---|---|---|---|
| GPT-5.5 | 제공된 Artificial Analysis Intelligence Index 일부에서 선두 [ | Intelligence Index 60점 xhigh, 59점 high [ | 전반적 선택지로 가장 안정적이지만 모든 항목에서 1위는 아닙니다. |
| Claude Opus 4.7 | SWE-Bench, GPQA, 일부 에이전트·전문 업무에서 강세 [ | Intelligence Index 57점 [ | 코드 리뷰, 복잡한 소프트웨어 작업, 지식형 업무에서 특히 검토할 만합니다. |
| DeepSeek V4 | BrowseComp에서 GPT-5.5에 근접 [ | BrowseComp 83.4% [ | 비용과 웹·리서치 성능을 함께 볼 때 강력한 후보입니다. |
| Kimi K2.6 | 긴 컨텍스트와 에이전트형 구조가 강조됨 [ | 1조 파라미터 MoE, 320억 활성 파라미터, 256K 컨텍스트 [ | 기술적으로는 흥미롭지만, 이 자료만으로 네 모델 순위에 넣기는 어렵습니다. |
왜 벤치마크를 ‘성적순’으로만 보면 위험한가
AI 벤치마크는 시험 이름이 같아도 실행 조건이 다를 수 있습니다. DataCamp는 유사한 프런티어 모델 비교에서 일부 벤치마크가 업체 보고값이며, 서로 다른 테스트 하네스 구성을 사용할 수 있다고 지적했습니다 [21]. 즉, 점수 하나만 떼어 보면 깔끔해 보이지만 실제로는 모델 설정, 추론 강도, 도구 사용 여부, 평가 스크립트가 결과에 영향을 줄 수 있습니다.
이번 비교에서도 모델 이름이 완전히 같은 조건으로 맞춰져 있지 않습니다. Artificial Analysis는 GPT-5.5 xhigh, GPT-5.5 high, Claude Opus 4.7 Adaptive Reasoning 및 Max Effort 구성을 언급합니다 [2]. VentureBeat의 DeepSeek 비교는 DeepSeek-V4-Pro-Max를 기준으로 설명합니다 [
3]. 따라서 ‘누가 무조건 1등인가’보다 ‘어떤 업무에서 어느 모델의 근거가 가장 강한가’가 더 좋은 질문입니다.
전체 성능: GPT-5.5가 가장 강하게 입증됨
가장 깔끔한 전체 지표는 Artificial Analysis의 Intelligence Index 일부입니다. 여기서 GPT-5.5 xhigh는 60점으로 1위, GPT-5.5 high는 59점으로 2위, Claude Opus 4.7은 Adaptive Reasoning 및 Max Effort 조건에서 57점으로 3위에 올라 있습니다 [2].
이 자료만 놓고 보면 GPT-5.5는 Claude Opus 4.7보다 약하지만 분명한 우위를 보입니다 [2]. 다만 같은 출처 조각 안에서 DeepSeek V4와 Kimi K2.6까지 모두 같은 방식으로 비교할 수 있는 완전한 점수표는 제공되지 않았습니다 [
2][
7].
BrowseComp: DeepSeek V4가 GPT-5.5 턱밑까지 접근
BrowseComp는 GPT-5.5, Claude Opus 4.7, DeepSeek V4를 직접 비교하기에 가장 유용한 지표 중 하나입니다. VentureBeat는 GPT-5.5 Pro 90.1%, GPT-5.5 84.4%, DeepSeek V4 83.4%, Claude Opus 4.7 79.3%를 제시했습니다 [3].
| 모델 또는 변형 | BrowseComp 점수 | 해석 |
|---|---|---|
| GPT-5.5 Pro | 90.1% | 이 비교 조각에서는 확실한 선두입니다 [ |
| GPT-5.5 | 84.4% | DeepSeek V4보다 1.0%포인트 앞섭니다 [ |
| DeepSeek V4 | 83.4% | GPT-5.5와 매우 가깝고 Claude Opus 4.7보다 높습니다 [ |
| Claude Opus 4.7 | 79.3% | 이 항목에서는 GPT-5.5와 DeepSeek V4 뒤입니다 [ |
| Kimi K2.6 | 직접 비교 가능한 수치 없음 | 이 자료만으로는 공정한 순위 산정이 어렵습니다 [ |
다만 VentureBeat는 DeepSeek-V4-Pro-Max가 직접 비교 가능한 벤치마크 전반에서 GPT-5.5나 Claude Opus 4.7을 완전히 밀어냈다고 보기는 어렵다고 평가했습니다 [3]. 핵심은 ‘DeepSeek V4가 BrowseComp에서 매우 강하다’이지, ‘전체 1위가 확정됐다’는 뜻은 아닙니다 [
3].
코딩·소프트웨어: Claude는 SWE, GPT는 Terminal에서 강함
개발자 관점에서는 승자가 하나로 고정되지 않습니다. SWE-Bench Pro에서는 Claude Opus 4.7이 64.3%로 GPT-5.5의 58.6%보다 높습니다 [22][
24]. Vellum은 Claude Opus 4.7의 SWE-Bench Verified 점수도 87.6%로 제시했습니다 [
20].
반대로 Terminal-Bench 2.0에서는 GPT-5.5가 82.7%로 Claude Opus 4.7의 69.4%를 크게 앞섭니다 [22][
24]. 터미널 조작, 파일 탐색, 도구 사용이 중요한 작업에서는 이 차이를 가볍게 보기 어렵습니다.
| 벤치마크 | GPT-5.5 | Claude Opus 4.7 | 결론 |
|---|---|---|---|
| SWE-Bench Pro | 58.6% | 64.3% | Claude Opus 4.7 우세 [ |
| SWE-Bench Verified | 직접 인용 가능한 GPT-5.5 수치 없음 | 87.6% | Claude의 강한 수치지만 네 모델 전체 비교는 아님 [ |
| Terminal-Bench 2.0 | 82.7% | 69.4% | GPT-5.5 우세 [ |
DeepSeek V4와 Kimi K2.6은 이 영역에서 같은 수준의 표로 정리할 만큼 직접 비교 수치가 충분하지 않습니다. VentureBeat는 DeepSeek V4가 여러 직접 비교 가능한 벤치마크에서 상위 모델에 가까워졌다고 설명하지만, 제공된 조각에서 가장 명확한 수치는 BrowseComp입니다 [3]. Kimi K2.6 역시 모델 구조와 기능 설명은 있지만, 네 모델을 같은 표에 놓을 만큼의 벤치마크 매트릭스는 부족합니다 [
7].
추론·지식·전문 업무: 벤치마크마다 선두가 바뀐다
지식·추론 테스트에서는 GPT-5.5와 Claude Opus 4.7이 매우 가깝습니다. GPQA Diamond에서 GPT-5.5는 93.6%, Claude Opus 4.7은 94.2%로 Claude가 근소하게 앞섭니다 [22]. Mashable도 같은 GPQA Diamond 수치를 제시했고, Humanity’s Last Exam에서는 도구 사용 여부에 따라 승자가 바뀐다고 설명했습니다 [
8]. 도구 없이 보면 GPT-5.5가 40.6%로 Claude Opus 4.7의 31.2%보다 높고, 도구를 쓰면 Claude Opus 4.7이 54.7%로 GPT-5.5의 52.2%를 근소하게 앞섭니다 [
8].
| 벤치마크 | GPT-5.5 | Claude Opus 4.7 | 제공 수치상 우세 |
|---|---|---|---|
| GPQA Diamond | 93.6% | 94.2% | Claude Opus 4.7 근소 우세 [ |
| Humanity’s Last Exam | 40.6% | 31.2% | GPT-5.5 우세 [ |
| Humanity’s Last Exam, 도구 사용 | 52.2% | 54.7% | Claude Opus 4.7 근소 우세 [ |
전문 업무와 에이전트형 벤치마크도 마찬가지입니다. Vellum은 GDPval에서 GPT-5.5 84.9%, Claude Opus 4.7 80.3%, OSWorld-Verified에서 GPT-5.5 78.7%, Claude Opus 4.7 78.0%, MCP Atlas에서 GPT-5.5 75.3%, Claude Opus 4.7 79.1%를 제시했습니다 [22]. OpenAI는 FinanceAgent v1.1에서 GPT-5.5 60.0%, Claude Opus 4.7 64.4%를 제시했습니다 [
24].
| 벤치마크 | GPT-5.5 | Claude Opus 4.7 | 결론 |
|---|---|---|---|
| GDPval | 84.9% | 80.3% | GPT-5.5 우세 [ |
| OSWorld-Verified | 78.7% | 78.0% | GPT-5.5 근소 우세 [ |
| MCP Atlas | 75.3% | 79.1% | Claude Opus 4.7 우세 [ |
| FinanceAgent v1.1 | 60.0% | 64.4% | Claude Opus 4.7 우세 [ |
Anthropic은 내부 research-agent 벤치마크도 언급했습니다. Anthropic에 따르면 Claude Opus 4.7은 여섯 개 모듈에서 전체 최고 점수 0.715를 공동으로 기록했고, General Finance 모듈에서는 Opus 4.6의 0.767보다 높은 0.813을 기록했습니다 [6]. 다만 이는 내부 벤치마크이며 네 모델을 모두 같은 방식으로 다루는 독립 비교는 아니므로, Claude의 에이전트형 업무 강점을 보여주는 참고 자료로 보는 편이 적절합니다 [
6].
가격과 컨텍스트: DeepSeek V4가 가장 눈에 띈다
실제 도입에서는 벤치마크 1~2점보다 비용이 더 크게 작용할 때가 많습니다. 여기서 DeepSeek V4의 존재감이 커집니다. Mashable은 DeepSeek V4의 API 가격을 100만 입력 토큰당 1.74달러, 100만 출력 토큰당 3.48달러로 제시했고, 컨텍스트 창은 100만 토큰이라고 설명했습니다 [1]. 같은 출처에서 GPT-5.5는 100만 입력 토큰당 5달러, 100만 출력 토큰당 30달러, Claude Opus 4.7은 100만 입력 토큰당 5달러, 100만 출력 토큰당 25달러로 제시됐으며 둘 다 100만 토큰 컨텍스트로 설명됐습니다 [
1].
| 모델 | 입력 가격, 100만 토큰당 | 출력 가격, 100만 토큰당 | 출처의 컨텍스트 표기 |
|---|---|---|---|
| DeepSeek V4 | 1.74달러 | 3.48달러 | 100만 토큰 [ |
| GPT-5.5 | 5달러 | 30달러 | 100만 토큰 [ |
| Claude Opus 4.7 | 5달러 | 25달러 | 100만 토큰 [ |
| Kimi K2.6 | 제공 자료에 신뢰할 만한 가격 없음 | 제공 자료에 신뢰할 만한 가격 없음 | 256K 토큰 [ |
토큰은 모델이 텍스트를 읽고 쓰는 기본 처리 단위입니다. 긴 문서를 자주 넣거나 대량 출력을 생성하는 서비스라면 출력 토큰 가격 차이가 총비용에 큰 영향을 줄 수 있습니다. 다만 위 가격은 출처가 제시한 미국 달러 기준 수치이므로, 실제 도입 시에는 각 API의 최신 가격표와 사용 조건을 별도로 확인해야 합니다.
Kimi K2.6은 어떻게 봐야 하나
Kimi K2.6은 숫자보다 구조 설명이 더 많이 제공된 모델입니다. DocsBot은 Kimi K2.6을 Moonshot AI의 최신 오픈소스 네이티브 멀티모달 에이전트형 모델로 소개하며, 장기 코딩, 코딩 기반 디자인, 능동적 자율 실행, 스웜 기반 작업 오케스트레이션을 강조합니다 [7]. 또한 Kimi K2.5의 1조 파라미터 MoE 구조, 320억 활성 파라미터, 256K 컨텍스트를 유지하고, 최대 300개 하위 에이전트와 4,000개 조정 단계를 지원한다고 설명합니다 [
7].
이 설명만 보면 Kimi K2.6은 긴 문맥과 복잡한 에이전트 작업에 관심 있는 팀이 시험해 볼 만한 모델입니다. 그러나 이 글의 비교 대상인 GPT-5.5, Claude Opus 4.7, DeepSeek V4와 동일한 조건에서 측정된 충분한 벤치마크·가격 수치가 없기 때문에, 지금 단계에서 ‘몇 위’라고 단정하는 것은 부정확합니다 [7].
목적별 추천 출발점
| 우선순위 | 먼저 검토할 모델 | 이유 |
|---|---|---|
| 가장 강한 전체 성능 근거 | GPT-5.5 | 제공된 Intelligence Index 일부에서 선두이고, BrowseComp에서도 Claude Opus 4.7과 DeepSeek V4보다 높습니다 [ |
| SWE-Bench 중심 소프트웨어 엔지니어링 | Claude Opus 4.7 | SWE-Bench Pro에서 GPT-5.5보다 높고, SWE-Bench Verified 87.6% 수치가 제시됐습니다 [ |
| 터미널·컴퓨터 조작·도구 실행 | GPT-5.5 | Terminal-Bench 2.0에서 Claude Opus 4.7보다 크게 앞서며, GDPval과 OSWorld-Verified에서도 우세한 수치가 있습니다 [ |
| 웹 리서치 성능과 낮은 API 비용 | DeepSeek V4 | BrowseComp 83.4%로 GPT-5.5에 근접했고, 인용된 API 가격이 크게 낮습니다 [ |
| 오픈소스 멀티모달 에이전트 모델 실험 | Kimi K2.6 | 오픈소스, 네이티브 멀티모달, 에이전트형 모델로 설명되지만 직접 비교 수치는 부족합니다 [ |
최종 판단
제공된 근거만 놓고 가장 안전하게 말하면, GPT-5.5가 현재 가장 강하게 입증된 올라운더입니다. Artificial Analysis의 Intelligence Index 일부에서 앞서고, BrowseComp와 여러 전문 벤치마크에서도 강한 수치를 보입니다 [2][
3][
22][
24].
하지만 Claude Opus 4.7은 코딩과 고난도 지식 업무에서 여전히 최상위권입니다. SWE-Bench Pro, SWE-Bench Verified, GPQA Diamond, FinanceAgent v1.1 같은 항목에서는 GPT-5.5보다 나은 수치가 제시됐습니다 [20][
22][
24].
DeepSeek V4는 가격 대비 성능의 변수입니다. BrowseComp에서 GPT-5.5에 거의 근접하면서도, 인용된 API 가격은 GPT-5.5와 Claude Opus 4.7보다 낮습니다 [1][
3]. 대규모 호출이 많은 서비스라면 벤치마크 1점 차이보다 이 비용 차이가 더 중요할 수 있습니다.
Kimi K2.6은 보류가 맞습니다. 긴 컨텍스트와 에이전트형 구조는 매력적이지만, 이 자료만으로는 네 모델을 같은 잣대로 세운 순위를 만들 수 없습니다 [7]. 따라서 실제 선택은 ‘전체 1위’보다 ‘내 업무가 코딩인지, 리서치인지, 터미널 실행인지, 비용 민감형 API인지’에서 출발하는 편이 더 정확합니다.




