studioglobal
인기 있는 발견
보고서게시됨11 소스

GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: 2026 벤치마크와 모델 선택법

네 모델을 같은 리더보드에서 완전히 apples to apples로 비교한 공개 자료는 부족하다. 확인 가능한 직접 비교에서는 GPT 5.5가 Terminal Bench 2.0에서 82.7%로 Claude Opus 4.7의 69.4%를 앞섰고, Claude는 SWE Bench Pro에서 64.3%로 GPT 5.5의 58.6%를 앞섰다 [2].

16K0
ภาพประกอบการเปรียบเทียบ benchmark ของ GPT-5.5, Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6
GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmark 2026 และโมเดลที่ควรเลือกภาพประกอบการเปรียบเทียบโมเดล AI ชั้นนำปี 2026 ตามหมวด benchmark และกรณีใช้งาน
AI 프롬프트

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmark 2026 และโมเดลที่ควรเลือก. Article summary: ยังไม่มี benchmark ชุดเดียวที่เทียบทั้ง 4 รุ่นได้ครบแบบ apples to apples; จากตัวเลขที่มี GPT 5.5 นำ Terminal Bench 2.0 ที่ 82.7% ต่อ 69.4% ส่วน Claude Opus 4.7 นำ SWE Bench Pro ที่ 64.3% ต่อ 58.6% จึงควรเลือกตามงาน ไม.... Topic tags: ai, llm benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "[Sign in](https://medium.com/m/signin?operation=login&redirect=https%3A%2F%2Fmedium.com%2F%40cognidownunder%2Fclaude-opus-4-7-leads-on-code-gpt-5-5-wins-intelligence-and-kimi-k2-6-" source context "Claude Opus 4.7 Leads on Code, GPT 5.5 Wins Intelligence, and ..." Reference image 2: visual subject "[Sign in](https://medium.com/m/signin?operation=login

openai.com

AI 모델을 도입할 때 가장 위험한 선택법은 ‘종합 1위’라는 말만 보고 결정하는 것이다. GPT-5.5, Claude Opus 4.7, DeepSeek V4, Kimi K2.6은 공개 자료의 결이 서로 다르다. GPT-5.5와 Claude Opus 4.7은 Vellum과 OpenAI 자료에서 직접 비교 가능한 점수가 여러 개 확인되지만, DeepSeek V4와 Kimi K2.6은 같은 벤치마크에서 네 모델 전체를 나란히 비교한 근거가 제한적이다. 대신 DeepSeek V4는 긴 컨텍스트와 신뢰성 지표, Kimi K2.6은 오픈 웨이트와 멀티모달 특성이 핵심 근거로 보인다 [2][7][30][31][33][35][36].

먼저 결론: 하나의 우승자를 뽑기 어렵다

공개된 숫자만 놓고 가장 안전하게 말할 수 있는 결론은 작업별로 봐야 한다는 것이다. GPT-5.5와 Claude Opus 4.7을 직접 비교한 Vellum 표에서는 GPT-5.5가 Terminal-Bench 2.0에서 82.7% 대 69.4%, GDPval에서 84.9% 대 80.3%, FrontierMath T1–3에서 51.7% 대 43.8%로 앞선다. 반대로 Claude Opus 4.7은 SWE-Bench Pro에서 64.3% 대 58.6%, GPQA Diamond에서 94.2% 대 93.6%로 GPT-5.5를 앞선다 [2].

툴 사용과 컴퓨터 사용 영역도 일방적이지 않다. OpenAI 자료에 따르면 GPT-5.5는 OSWorld-Verified에서 78.7%로 Claude Opus 4.7의 78.0%보다 근소하게 높고, BrowseComp에서는 84.4% 대 79.3%로 앞선다. 그러나 MCP Atlas에서는 Claude Opus 4.7이 79.1%로 GPT-5.5의 75.3%보다 높다 [7].

DeepSeek V4와 Kimi K2.6은 같은 평가자와 같은 벤치마크 하네스에서 GPT-5.5·Claude Opus 4.7과 함께 비교한 점수가 충분히 확인되지 않는다. 따라서 점수가 없는 항목을 성능 열세로 해석하면 안 된다. 이 경우에는 확인 가능한 특성, 즉 DeepSeek V4 Pro의 1,000k tokens 컨텍스트 창, DeepSeek V4의 hallucination 지표, Kimi K2.6의 open weights·multimodal·256k context 정보를 따로 읽어야 한다 [31][33][35][36].

공개 자료로 직접 비교 가능한 핵심 표

벤치마크 / 지표GPT-5.5Claude Opus 4.7DeepSeek V4Kimi K2.6해석
Terminal-Bench 2.082.7%69.4%같은 출처의 직접 비교 점수 확인 안 됨같은 출처의 직접 비교 점수 확인 안 됨터미널·에이전트형 작업에서는 GPT-5.5가 Claude Opus 4.7을 앞선다 [2].
SWE-Bench Pro58.6%64.3%같은 출처의 직접 비교 점수 확인 안 됨같은 출처의 직접 비교 점수 확인 안 됨소프트웨어 엔지니어링 이슈 해결 벤치마크에서는 Claude Opus 4.7이 앞선다 [2].
GDPval84.9%80.3%같은 출처의 직접 비교 점수 확인 안 됨같은 출처의 직접 비교 점수 확인 안 됨GPT-5.5가 Claude Opus 4.7보다 높다 [2].
OSWorld-Verified78.7%78.0%같은 출처의 직접 비교 점수 확인 안 됨같은 출처의 직접 비교 점수 확인 안 됨컴퓨터 사용 평가에서는 GPT-5.5가 근소하게 앞선다 [7].
BrowseComp84.4%79.3%같은 출처의 직접 비교 점수 확인 안 됨같은 출처의 직접 비교 점수 확인 안 됨브라우징·툴 워크플로에서는 GPT-5.5 우위로 보고됐다 [7].
MCP Atlas75.3%79.1%같은 출처의 직접 비교 점수 확인 안 됨같은 출처의 직접 비교 점수 확인 안 됨이 항목에서는 Claude Opus 4.7이 GPT-5.5를 앞선다 [7].
GPQA Diamond93.6%94.2%같은 출처의 직접 비교 점수 확인 안 됨같은 출처의 직접 비교 점수 확인 안 됨고난도 지식·추론 평가에서는 Claude Opus 4.7이 근소하게 앞선다 [2].
FrontierMath T1–351.7%43.8%같은 출처의 직접 비교 점수 확인 안 됨같은 출처의 직접 비교 점수 확인 안 됨GPT-5.5가 Claude Opus 4.7보다 높다 [2].
Context window이 표의 동일 출처 직접 비교 없음이 표의 동일 출처 직접 비교 없음DeepSeek V4 Pro: 1,000k tokens256k tokensArtificial Analysis 비교에서는 DeepSeek V4 Pro가 Kimi K2.6보다 컨텍스트 창이 크다 [33].
AA-Omniscience / hallucination같은 출처의 직접 비교 점수 확인 안 됨같은 출처의 직접 비교 점수 확인 안 됨V4 Pro Max: -10, V4 Pro hallucination rate 94%같은 출처의 직접 비교 점수 확인 안 됨DeepSeek V4는 긴 컨텍스트 장점과 별개로 답변 검증이 중요하다는 신호다 [31].
Artificial Analysis Intelligence Index이 글의 비교 자료에서 확인 안 됨이 글의 비교 자료에서 확인 안 됨이 글의 비교 자료에서 확인 안 됨54Kimi K2.6의 개별 지표로 읽어야 하며, Vellum·OpenAI 표와 합쳐 단일 순위로 만들면 곤란하다 [35].

여기서 직접 비교 점수 확인 안 됨은 해당 모델이 더 낮다는 뜻이 아니다. 같은 벤치마크, 같은 평가자, 같은 조건에서 공개 점수를 확인하지 못했다는 뜻에 가깝다.

GPT-5.5: 에이전트형 워크플로와 터미널 작업에 강한 선택지

이 글에서 사용한 자료 기준으로 GPT-5.5는 Claude Opus 4.7과 직접 비교 가능한 공개 점수가 가장 많이 확인되는 모델이다. Vellum은 Terminal-Bench 2.0, SWE-Bench Pro, GDPval, GPQA Diamond, FrontierMath T1–3 등을 제시했고, OpenAI는 OSWorld-Verified, BrowseComp, MCP Atlas 같은 컴퓨터 사용·툴 사용 지표를 제시했다 [2][7].

강점은 터미널 작업, 에이전트형 워크플로, 툴 사용 쪽에 선명하게 나타난다. GPT-5.5는 Terminal-Bench 2.0에서 Claude Opus 4.7을 82.7% 대 69.4%로 앞서고, BrowseComp에서도 84.4% 대 79.3%로 높다. OSWorld-Verified 역시 78.7% 대 78.0%로 근소하게 앞선다 [2][7].

다만 GPT-5.5가 모든 항목의 승자는 아니다. Claude Opus 4.7은 SWE-Bench Pro, MCP Atlas, GPQA Diamond에서 GPT-5.5보다 높은 점수를 보인다 [2][7]. 소프트웨어 엔지니어링이나 특정 툴 환경에 민감한 조직이라면 GPT-5.5의 전체 인상만 보고 결정하기보다 자체 작업 샘플로 비교하는 편이 안전하다.

안전성·평가 측면에서 OpenAI는 GPT-5.5 System Card에서 CoT-Control 평가를 언급한다. 이 평가는 GPQA, MMLU-Pro, HLE, BFCL, SWE-Bench Verified 같은 기존 벤치마크에서 만든 13,000개 이상의 태스크를 포함한다고 설명됐다 [4]. 다만 이 수치는 모델의 일반 성능 점수라기보다 지시 따르기와 제어 가능성 평가에 가까우므로, 성능 벤치마크와 혼동해서 읽으면 안 된다.

Claude Opus 4.7: 소프트웨어 엔지니어링에서 가장 뚜렷한 신호

Anthropic의 Claude API 문서에는 Claude Opus 4.7이 2026년 4월 16일 항목으로 올라와 있다 [20]. 공개 비교 점수만 보면 가장 눈에 띄는 강점은 소프트웨어 엔지니어링이다. Vellum 표에서 Claude Opus 4.7은 SWE-Bench Pro 64.3%로 GPT-5.5의 58.6%보다 높다 [2].

Claude Opus 4.7은 OpenAI 표의 MCP Atlas에서도 79.1%로 GPT-5.5의 75.3%보다 앞선다 [7]. 반면 같은 자료에서 GPT-5.5는 OSWorld-Verified와 BrowseComp에서 Claude Opus 4.7보다 높고, Vellum 표에서는 Terminal-Bench 2.0, GDPval, FrontierMath T1–3에서 GPT-5.5가 앞선다 [2][7]. 즉 Claude Opus 4.7의 핵심 매력은 모든 영역의 압도적 1위라기보다 실제 개발 이슈 해결에 가까운 벤치마크에서의 강한 신호다.

안전성 연구 쪽에서는 Anthropic의 Petri 2.0 자료가 참고가 된다. 해당 글은 두 가지 개입을 함께 적용했을 때 Claude 모델의 eval-awareness가 median relative drop 47.3% 감소했다고 보고했다 [22]. 이 역시 Claude Opus 4.7의 성능 점수로 직접 치환하기보다는 Claude 계열 모델의 행동·안전성 평가 맥락으로 보는 것이 맞다.

DeepSeek V4: 긴 컨텍스트가 강점, 신뢰성 관리는 필수

DeepSeek-V4 기술 문서는 V4 series가 DeepSeek-V3의 DeepSeekMoE framework와 Multi-Token Prediction 전략을 유지하면서, 긴 컨텍스트 효율을 높이기 위해 Compressed Sparse Attention과 Heavily Compressed Attention을 결합한 hybrid attention 메커니즘을 도입했다고 설명한다 [30].

가장 눈에 띄는 숫자는 컨텍스트 창이다. Artificial Analysis의 비교 표에서 DeepSeek V4 Pro는 1,000k tokens context window로 제시되며, Kimi K2.6의 256k tokens보다 크다 [33]. 긴 계약서 묶음, 대규모 코드베이스, 방대한 내부 문서처럼 한 번에 많은 문맥을 넣어야 하는 작업에서는 검토 후보가 될 수 있다.

그러나 긴 컨텍스트가 곧 정확성을 보장하지는 않는다. Artificial Analysis는 DeepSeek V4 Pro Max가 AA-Omniscience -10을 기록해 DeepSeek V3.2 Reasoning의 -21보다 개선됐다고 설명하면서도, DeepSeek V4 Pro의 hallucination rate를 94%, V4 Flash의 hallucination rate를 96%로 보고했다 [31].

따라서 DeepSeek V4 Pro를 production에 넣는다면 검색 기반 근거 연결, 출처 검증, human review 같은 보완 장치가 특히 중요하다. 긴 문맥을 잘 담는 모델이라도, 모르는 것을 모른다고 말하지 않는 경향이 강하면 업무 리스크가 커질 수 있기 때문이다 [31][33].

Kimi K2.6: 오픈 웨이트 멀티모달 후보, 다만 직접 비교는 더 필요

Artificial Analysis는 Kimi K2.6을 2026년 4월 공개된 open weights model로 설명하며, Artificial Analysis Intelligence Index 54를 기록했다고 제시한다 [35]. 또 다른 Artificial Analysis 글은 Kimi K2.6이 image와 video input을 지원하고 text output을 네이티브로 제공하며, max context length는 256k라고 설명한다 [36].

이 특성 때문에 Kimi K2.6은 오픈 웨이트 기반으로 멀티모달 기능을 검토하는 팀의 shortlist에 들어갈 만하다. 특히 폐쇄형 API만 쓰기 어려운 환경, 자체 배포나 모델 통제권이 중요한 환경에서는 open weights라는 사실 자체가 중요한 판단 요소가 될 수 있다 [35][36].

다만 제공된 자료 범위에서는 Kimi K2.6을 GPT-5.5나 Claude Opus 4.7과 Terminal-Bench 2.0, SWE-Bench Pro, GDPval, OSWorld-Verified, MCP Atlas 같은 항목에서 직접 비교한 공개 점수가 충분히 확인되지 않는다 [2][7][33][35][36]. 따라서 Kimi K2.6이 특정 영역에서 우위인지 열위인지는 현재 자료만으로 단정하지 않는 편이 정확하다.

작업별 선택 가이드

해야 할 일우선 검토할 모델근거
터미널 자동화, CLI 기반 에이전트 작업GPT-5.5Terminal-Bench 2.0에서 GPT-5.5가 82.7%, Claude Opus 4.7이 69.4%로 보고됐다 [2].
소프트웨어 엔지니어링 이슈 해결Claude Opus 4.7SWE-Bench Pro에서 Claude Opus 4.7이 64.3%, GPT-5.5가 58.6%로 보고됐다 [2].
브라우저·툴 사용 워크플로GPT-5.5 또는 Claude Opus 4.7BrowseComp에서는 GPT-5.5가 앞서지만, MCP Atlas에서는 Claude Opus 4.7이 앞선다 [7].
일반 컴퓨터 사용 워크플로GPT-5.5 근소 우위OSWorld-Verified에서 GPT-5.5 78.7%, Claude Opus 4.7 78.0%로 보고됐다 [7].
매우 긴 문서·코드·자료를 한 번에 넣는 작업DeepSeek V4 ProArtificial Analysis 표에서 DeepSeek V4 Pro의 context window가 1,000k tokens로 제시됐다. 다만 hallucination rate 94%도 함께 고려해야 한다 [31][33].
오픈 웨이트 멀티모달Kimi K2.6Kimi K2.6은 open weights model로 설명되며 image·video input과 text output을 네이티브로 지원한다 [35][36].
환각을 최대한 줄여야 하는 고위험 업무단일 우승자 단정 불가DeepSeek V4 Pro의 높은 hallucination rate는 확인되지만, 네 모델 전체를 같은 조건에서 비교한 reliability 지표는 충분하지 않다 [31].

벤치마크를 읽을 때의 주의점

첫째, 서로 다른 출처의 점수를 하나의 총점으로 합치면 왜곡될 수 있다. Vellum, OpenAI, Artificial Analysis는 서로 다른 벤치마크, 평가 조건, 모델 설정을 사용한다 [2][7][31][33][35]. 같은 이름의 모델이라도 reasoning effort, tool access, prompt, sampling, scoring pipeline에 따라 결과가 달라질 수 있다.

둘째, 코딩 벤치마크는 특히 현실 업무와의 거리를 따져야 한다. 관련 학술 자료는 HumanEval 같은 기존 벤치마크가 실제 세밀한 이슈 해결 능력을 평가하는 데 한계가 있으며, SWE-Bench처럼 실제 이슈 해결에 가까운 벤치마크가 중요하다는 문제의식을 제기한다 [42]. 그래서 단순 코드 생성보다 버그 수정, 레포지터리 이해, 테스트 통과가 중요한 팀이라면 SWE-Bench 계열 점수를 더 유심히 볼 필요가 있다.

셋째, 컨텍스트 창은 정확성 지표가 아니다. DeepSeek V4 Pro는 Artificial Analysis 표에서 1,000k tokens context window를 보이지만, 같은 계열 평가에서 DeepSeek V4 Pro의 hallucination rate 94%도 보고됐다 [31][33]. 많은 문서를 넣을 수 있다는 것과 그 문서에서 항상 정확한 결론을 뽑는다는 것은 별개의 문제다.

최종 정리

공개 근거만 놓고 보면 GPT-5.5는 터미널, 에이전트형 작업, 브라우저·툴 사용에서 강한 선택지다. Terminal-Bench 2.0, BrowseComp, OSWorld-Verified에서 Claude Opus 4.7보다 높은 점수를 보인다 [2][7]. Claude Opus 4.7은 SWE-Bench Pro에서 64.3%로 GPT-5.5의 58.6%를 앞서므로, 개발 이슈 해결과 소프트웨어 엔지니어링 중심의 워크플로에서 특히 매력적이다 [2].

DeepSeek V4 Pro는 1,000k tokens라는 긴 컨텍스트 창이 가장 큰 차별점이지만, Artificial Analysis가 보고한 94% hallucination rate를 함께 고려해야 한다 [31][33]. Kimi K2.6은 open weights, native image·video input, 256k context, Intelligence Index 54라는 장점이 확인되는 멀티모달 후보지만, GPT-5.5·Claude Opus 4.7과 직접 비교 가능한 주요 벤치마크가 더 필요하다 [35][36].

결국 답은 하나가 아니다. 터미널 자동화는 GPT-5.5, 실전형 소프트웨어 이슈 해결은 Claude Opus 4.7, 초장문 컨텍스트는 DeepSeek V4 Pro, 오픈 웨이트 멀티모달은 Kimi K2.6을 우선 검토하되, 실제 도입 전에는 반드시 조직의 데이터와 워크플로로 자체 평가를 돌리는 것이 가장 현실적인 선택이다.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

주요 시사점

  • 네 모델을 같은 리더보드에서 완전히 apples to apples로 비교한 공개 자료는 부족하다. 확인 가능한 직접 비교에서는 GPT 5.5가 Terminal Bench 2.0에서 82.7%로 Claude Opus 4.7의 69.4%를 앞섰고, Claude는 SWE Bench Pro에서 64.3%로 GPT 5.5의 58.6%를 앞섰다 [2].
  • DeepSeek V4 Pro는 제공된 자료 기준으로 긴 컨텍스트가 가장 두드러진다. Artificial Analysis 표에서 context window가 1,000k tokens로, Kimi K2.6의 256k tokens보다 크지만, DeepSeek V4 Pro의 hallucination rate 94%도 함께 보고됐다 [31][33].
  • Kimi K2.6은 open weights 모델이며 image·video input과 text output을 네이티브로 지원하고 Artificial Analysis Intelligence Index 54를 기록했다.

사람들은 또한 묻습니다.

"GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: 2026 벤치마크와 모델 선택법"에 대한 짧은 대답은 무엇입니까?

네 모델을 같은 리더보드에서 완전히 apples to apples로 비교한 공개 자료는 부족하다. 확인 가능한 직접 비교에서는 GPT 5.5가 Terminal Bench 2.0에서 82.7%로 Claude Opus 4.7의 69.4%를 앞섰고, Claude는 SWE Bench Pro에서 64.3%로 GPT 5.5의 58.6%를 앞섰다 [2].

먼저 검증할 핵심 포인트는 무엇인가요?

네 모델을 같은 리더보드에서 완전히 apples to apples로 비교한 공개 자료는 부족하다. 확인 가능한 직접 비교에서는 GPT 5.5가 Terminal Bench 2.0에서 82.7%로 Claude Opus 4.7의 69.4%를 앞섰고, Claude는 SWE Bench Pro에서 64.3%로 GPT 5.5의 58.6%를 앞섰다 [2]. DeepSeek V4 Pro는 제공된 자료 기준으로 긴 컨텍스트가 가장 두드러진다. Artificial Analysis 표에서 context window가 1,000k tokens로, Kimi K2.6의 256k tokens보다 크지만, DeepSeek V4 Pro의 hallucination rate 94%도 함께 보고됐다 [31][33].

실무에서는 다음으로 무엇을 해야 합니까?

Kimi K2.6은 open weights 모델이며 image·video input과 text output을 네이티브로 지원하고 Artificial Analysis Intelligence Index 54를 기록했다.

다음에는 어떤 관련 주제를 탐구해야 할까요?

다른 각도와 추가 인용을 보려면 "Claude Opus 4.7·GPT-5.5·DeepSeek V4·Kimi K2.6 벤치마크 비교: 2026년 판정"으로 계속하세요.

관련 페이지 열기

이것을 무엇과 비교해야 합니까?

"DeepSeek V4 엔지니어링 해설: 100만 토큰, MoE, API 이전 체크포인트"에 대해 이 답변을 대조 확인하세요.

관련 페이지 열기

연구를 계속하세요

연구 대화

당신

연구문제

ศึกษาค้นคว้าเกณฑ์มาตรฐานการทดสอบของ GPT-5.5, Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6 แล้วเปรียบเทียบให้ครอบคลุมมากที่สุดเท่าที่เป็นไปได้ จัดทำรายงานการวิจัยเกี่ยวกับเรื่องนี้

Studio Global AI40 소스

인용 답변

รายงานนี้พบว่า “มีข้อมูลเปรียบเทียบได้บางส่วน แต่ยังไม่ครบแบบ apples-to-apples” สำหรับ GPT-5.5, Claude Opus 4.7, DeepSeek V4 และ Kimi K2.6 โดย GPT-5.5 มีข้อมูลคะแนนสาธารณะมากที่สุดในชุดที่ค้นพบ, Claude Opus 4.7 เด่นกว่า GPT-5.5 ใน SWE-Bench Pro ตามแหล่งเปรียบเทียบภายนอก, DeepSeek V4 เด่นเรื่องบริบทยาวระดับ 1,000k tokens แต่มีสัญญาณความเสี่ยงด้าน hallucination ในการทดสอบของ Artificial Analysis, ส่วน Kimi K2.6 มีหลักฐานเปรียบเทียบที่พบจำกัด โดยยืนยันได้หลัก ๆ เรื่องบริบท 256k tokens จากแหล่งเปรียบเทียบภายนอก [11][7][9]

Key findings

  • ข้อมูลที่เทียบได้ตรงที่สุดระหว่าง GPT-5.5 กับ Claude Opus 4.7 คือ Terminal-Bench 2.0, SWE-Bench Pro และ GDPval จากแหล่งวิเคราะห์ภายนอกเดียวกัน [11]

  • GPT-5.5 ได้ 82.7% บน Terminal-Bench 2.0 เทียบกับ Claude Opus 4.7 ที่ 69.4% ทำให้ GPT-5.5 นำในงาน terminal/agentic workflow ตามข้อมูลชุดนี้ [11]

  • Claude Opus 4.7 ได้ 64.3% บน SWE-Bench Pro เทียบกับ GPT-5.5 ที่ 58.6% ทำให้ Claude นำใน benchmark งานแก้ปัญหา software engineering ตามข้อมูลชุดนี้ [11]

  • GPT-5.5 ได้ 84.9% บน GDPval เทียบกับ Claude Opus 4.7 ที่ 80.3% ทำให้ GPT-5.5 นำใน benchmark งานเชิงเศรษฐกิจ/งานมืออาชีพตามข้อมูลชุดนี้ [11]

  • OpenAI มีเอกสาร safety/evaluation สำหรับ GPT-5.5 ที่กล่าวถึง CoT-Control ซึ่งใช้ชุดงานมากกว่า 13,000 งานจาก benchmark ที่มีอยู่ เช่น GPQA และ MMLU-Pro [14]

  • Anthropic มีบันทึกเอกสาร API ที่ระบุ Claude Opus 4.7 วันที่ 16 เมษายน 2026 แต่ข้อมูลคะแนน benchmark อย่างเป็นทางการที่พบในชุดผลค้นหานี้ยังไม่ครบเท่าข้อมูลของ GPT-5.5 [2]

  • DeepSeek V4 series ถูกอธิบายในเอกสารเทคนิคว่าเป็นการต่อยอดจาก DeepSeek-V3 โดยยังคง DeepSeekMoE และ Multi-Token Prediction พร้อมเพิ่มกลไกด้านประสิทธิภาพสำหรับ long context [6]

  • DeepSeek V4 Pro ถูกระบุในแหล่งเปรียบเทียบว่าใช้ context window 1,000k tokens ส่วน Kimi K2.6 ใช้ context window 256k tokens [9]

  • Artificial Analysis รายงานว่า DeepSeek V4 Pro Max ทำคะแนน AA-Omniscience ที่ -10 ดีขึ้น 11 จุดจาก V3.2 แต่มี hallucination rate สูงถึง 94% ในชุดทดสอบนั้น [7]

  • หลักฐานสาธารณะที่พบยังไม่เพียงพอสำหรับการสรุปตารางคะแนน benchmark ครบทุกหมวดของทั้ง 4 รุ่นพร้อมกัน; ดังนั้นจุดที่ไม่มีตัวเลขควรถือว่า “Insufficient evidence.”

ขอบเขตและวิธีวิจัย

  • รายงานนี้ใช้หลักฐานจากเอกสารทางการ, เอกสารเทคนิค, แหล่ง benchmark ภายนอก และแหล่งวิชาการที่พบในผลค้นหา ณ วันที่ทำรายงาน [2][6][11][14][1]

  • แหล่งที่มีน้ำหนักสูงกว่าในรายงานนี้คือเอกสารทางการหรือเอกสารเทคนิค เช่น release notes ของ Anthropic, เอกสาร safety/evaluation ของ OpenAI และ PDF ทางเทคนิคของ DeepSeek V4 [2][14][6]

  • แหล่งที่ใช้สำหรับคะแนนเปรียบเทียบหลายรุ่นพร้อมกันส่วนใหญ่เป็นแหล่งภายนอก เช่น Vellum, BenchLM, LLM Stats และ Artificial Analysis จึงควรตีความเป็น benchmark จากผู้ประเมินรายนั้น ไม่ใช่ผลรับรองกลางทั้งหมด [11][12][15][7]

  • งานวิชาการด้าน benchmark การเขียนโค้ดชี้ว่าชุดทดสอบอย่าง HumanEval มีข้อจำกัด และมีความพยายามสร้าง benchmark ที่ใกล้งานจริงมากขึ้น เช่น SWE-Bench และ benchmark fine-grained issue solving [1]

ภาพรวม benchmark ที่ควรใช้เทียบ

หมวดทดสอบตัวอย่าง benchmark ที่พบใช้วัดอะไรหมายเหตุด้านความน่าเชื่อถือ
Reasoning / knowledgeGPQA, MMLU-Pro, ARC-AGI, LongBench v2, MuSRความรู้เชิงลึก การให้เหตุผล และการแก้ปัญหาซับซ้อนOpenAI ระบุว่า CoT-Control ของ GPT-5.5 ใช้ชุดงานจาก GPQA และ MMLU-Pro ร่วมกับ benchmark อื่น ๆ มากกว่า 13,000 งาน [14]
Coding / software engineeringSWE-Bench Pro, SWE-Bench Verified, LiveCodeBench, Expert-SWEความสามารถแก้ issue, เขียน/แก้โค้ด และทำงานวิศวกรรมซอฟต์แวร์งานวิชาการระบุว่า benchmark แบบ HumanEval ไม่พอสำหรับงานจริง จึงต้องใช้ benchmark ที่ใกล้ issue จริงมากขึ้น [1]
Agentic / tool useTerminal-Bench 2.0, BrowseComp, OSWorld-Verified, GAIA, TAU-bench, WebArenaการใช้เครื่องมือ, terminal, browser, workflow หลายขั้นตอนBenchLM จัด GPT-5.5 ในหมวด agentic ด้วยชุด benchmark อย่าง Terminal-Bench 2.0, BrowseComp, OSWorld-Verified, GAIA, TAU-bench และ WebArena [12]
Vision / multimodalMMMU Pro, image/video input testsความเข้าใจภาพ วิดีโอ และเอกสารหลายรูปแบบข้อมูลที่พบสำหรับทั้ง 4 รุ่นยังไม่พอสำหรับสรุปเชิงตัวเลขครบทุกโมเดล; Insufficient evidence.
Long contextLongBench v2, MRCRv2, context-window testsการคงบริบทและดึงข้อมูลจากเอกสารยาวDeepSeek V4 Pro ถูกระบุว่ามี context window 1,000k tokens และ Kimi K2.6 256k tokens ในแหล่งเปรียบเทียบเดียวกัน [9]
Safety / reliabilityCoT-Control, Petri, hallucination tests, AA-Omniscienceการควบคุมพฤติกรรม, eval-awareness, hallucination, ความน่าเชื่อถือOpenAI ใช้ CoT-Control กับงานมากกว่า 13,000 งาน ส่วน Anthropic รายงาน Petri 2.0 และ Artificial Analysis รายงาน hallucination rate ของ DeepSeek V4 Pro Max [14][4][7]

ตารางเปรียบเทียบคะแนนที่พบ

Benchmark / metricGPT-5.5Claude Opus 4.7DeepSeek V4Kimi K2.6ข้อสรุปจากหลักฐาน
Terminal-Bench 2.082.7%69.4%Insufficient evidenceInsufficient evidenceGPT-5.5 นำ Claude Opus 4.7 ชัดเจนในงาน terminal/agentic ตามแหล่งนี้ [11]
SWE-Bench Pro58.6%64.3%Insufficient evidenceInsufficient evidenceClaude Opus 4.7 นำ GPT-5.5 ในงาน software engineering ตามแหล่งนี้ [11]
Expert-SWE internal73.1%Insufficient evidenceInsufficient evidenceInsufficient evidenceใช้ได้เป็นสัญญาณภายในของ GPT-5.5 แต่ไม่เหมาะสรุปเทียบทุกค่ายเพราะไม่มีคะแนนครบ [11]
GDPval84.9%80.3%Insufficient evidenceInsufficient evidenceGPT-5.5 นำ Claude Opus 4.7 ใน benchmark งานมืออาชีพตามแหล่งนี้ [11]
BenchLM aggregate: Agentic#2 / 99.5 จาก 100Insufficient evidenceInsufficient evidenceInsufficient evidenceใช้ดูอันดับรวมของ GPT-5.5 ได้ แต่ยังไม่ใช่ตารางเดียวกันครบ 4 โมเดล [12]
BenchLM aggregate: Coding85.6 จาก 100Insufficient evidenceInsufficient evidenceInsufficient evidenceGPT-5.5 ถูกจัดอันดับสูงใน coding aggregate แต่ไม่มีคะแนนคู่เทียบครบในแหล่งเดียวกัน [12]
BenchLM aggregate: Reasoning100.0 จาก 100Insufficient evidenceInsufficient evidenceInsufficient evidenceGPT-5.5 ถูกจัดอันดับสูงสุดใน reasoning aggregate ของ BenchLM แต่ยังไม่ใช่ผลเปรียบเทียบครบ 4 รุ่น [12]
Context windowInsufficient evidenceInsufficient evidence1,000k tokens256k tokensDeepSeek V4 Pro เหนือ Kimi K2.6 ด้าน context window ตามแหล่งเปรียบเทียบนี้ [9]
AA-OmniscienceInsufficient evidenceInsufficient evidence-10 สำหรับ V4 Pro MaxInsufficient evidenceDeepSeek V4 Pro Max ดีขึ้นจาก V3.2 แต่ยังมี hallucination rate สูงมากในรายงานเดียวกัน [7]
Hallucination rateInsufficient evidenceInsufficient evidence94% สำหรับ V4 Pro/FlashInsufficient evidenceเป็นสัญญาณความเสี่ยงสำคัญของ DeepSeek V4 ในชุดทดสอบของ Artificial Analysis [7]

วิเคราะห์รายโมเดล

GPT-5.5

  • GPT-5.5 เป็นโมเดลที่มีข้อมูลคะแนนสาธารณะมากที่สุดในชุดหลักฐานที่พบ โดยมีคะแนน Terminal-Bench 2.0, SWE-Bench Pro, Expert-SWE และ GDPval จากแหล่งเปรียบเทียบภายนอก [11]

  • จุดแข็งหลักของ GPT-5.5 คือ agentic workflow และงานมืออาชีพ โดยได้ 82.7% บน Terminal-Bench 2.0 และ 84.9% บน GDPval [11]

  • จุดที่ยังไม่ชนะทุกหมวดคือ software engineering benchmark แบบ SWE-Bench Pro เพราะ GPT-5.5 ได้ 58.6% ต่ำกว่า Claude Opus 4.7 ที่ 64.3% [11]

  • เอกสาร safety/evaluation ของ OpenAI สำหรับ GPT-5.5 ระบุการใช้ CoT-Control กับงานมากกว่า 13,000 งานจาก benchmark เช่น GPQA และ MMLU-Pro ซึ่งทำให้ข้อมูลด้านการควบคุมพฤติกรรมมีฐานเอกสารทางการมากกว่าโมเดลอื่นในชุดนี้ [14]

Claude Opus 4.7

  • Claude Opus 4.7 ปรากฏในเอกสาร release notes ของ Anthropic วันที่ 16 เมษายน 2026 ซึ่งช่วยยืนยันสถานะโมเดลในเอกสารทางการ [2]

  • จุดแข็งที่เด่นที่สุดจากข้อมูลที่พบคือ coding/software engineering เพราะ Claude Opus 4.7 ได้ 64.3% บน SWE-Bench Pro เทียบกับ GPT-5.5 ที่ 58.6% [11]

  • Claude Opus 4.7 ตามข้อมูลเดียวกันได้ 69.4% บน Terminal-Bench 2.0 และ 80.3% บน GDPval ซึ่งตามหลัง GPT-5.5 ในสองหมวดนี้ [11]

  • Anthropic มีงานประเมินด้าน safety/eval-awareness ผ่าน Petri 2.0 โดยรายงานว่าการแทรกแซงสองแนวทางร่วมกันทำให้ eval-awareness ลดลงแบบ median relative drop 47.3% ในโมเดล Claude [4]

DeepSeek V4

  • เอกสาร DeepSeek-V4 ระบุว่า V4 series ยังคง DeepSeekMoE framework และ Multi-Token Prediction strategy จาก DeepSeek-V3 พร้อมเพิ่มนวัตกรรมด้านสถาปัตยกรรมและการปรับประสิทธิภาพ [6]

  • DeepSeek V4 Pro ถูกระบุในแหล่งเปรียบเทียบว่ามี context window 1,000k tokens ซึ่งสูงกว่า Kimi K2.6 ที่ 256k tokens อย่างมีนัยสำคัญ [9]

  • Artificial Analysis รายงานว่า DeepSeek V4 Pro Max ได้ AA-Omniscience -10 ซึ่งดีขึ้น 11 จุดจาก DeepSeek V3.2 Reasoning ที่ -21 [7]

  • ประเด็นเสี่ยงสำคัญคือ Artificial Analysis รายงาน hallucination rate 94% สำหรับ DeepSeek V4 Pro และ V4 Flash ในชุดประเมินของตน [7]

  • ยังไม่มีหลักฐานเพียงพอในชุดผลค้นหานี้สำหรับการเปรียบเทียบ DeepSeek V4 กับ GPT-5.5 และ Claude Opus 4.7 บน Terminal-Bench 2.0, SWE-Bench Pro หรือ GDPval; Insufficient evidence.

Kimi K2.6

  • หลักฐานเปรียบเทียบที่พบสำหรับ Kimi K2.6 จำกัดกว่ารุ่นอื่น โดยแหล่งที่พบยืนยันได้ว่า Kimi K2.6 มี context window 256k tokens ในตารางเปรียบเทียบกับ DeepSeek V4 Pro [9]

  • เมื่อเทียบเฉพาะ context window, Kimi K2.6 ต่ำกว่า DeepSeek V4 Pro ที่ 1,000k tokens ตามแหล่งเปรียบเทียบเดียวกัน [9]

  • ยังไม่มีหลักฐานเพียงพอในชุดผลค้นหานี้สำหรับคะแนน Kimi K2.6 บน Terminal-Bench 2.0, SWE-Bench Pro, GPQA, MMLU-Pro, GDPval หรือ hallucination benchmark แบบเดียวกับ DeepSeek V4; Insufficient evidence.

เปรียบเทียบตามกรณีใช้งาน

  • หากเน้น terminal, agentic workflow และงานหลายขั้นตอน GPT-5.5 เป็นตัวเลือกที่มีหลักฐานคะแนนนำ Claude Opus 4.7 ชัดเจนจาก Terminal-Bench 2.0 ที่ 82.7% เทียบกับ 69.4% [11]

  • หากเน้นแก้ปัญหา software engineering จาก issue จริง Claude Opus 4.7 น่าพิจารณากว่า GPT-5.5 เพราะได้ SWE-Bench Pro 64.3% เทียบกับ 58.6% [11]

  • หากเน้นงานมืออาชีพหรือ benchmark แนว GDPval GPT-5.5 มีคะแนน 84.9% สูงกว่า Claude Opus 4.7 ที่ 80.3% [11]

  • หากเน้น long-context retrieval หรือเอกสารยาวมาก DeepSeek V4 Pro มีจุดเด่นจาก context window 1,000k tokens เทียบกับ Kimi K2.6 ที่ 256k tokens แต่ยังไม่มีข้อมูลครบสำหรับเทียบกับ GPT-5.5 และ Claude Opus 4.7 ในแหล่งเดียวกัน [9]

  • หากเน้นความน่าเชื่อถือและลด hallucination ควรระวัง DeepSeek V4 เพราะรายงานของ Artificial Analysis ระบุ hallucination rate 94% ในชุดทดสอบของตน [7]

  • หากต้องการเลือก Kimi K2.6 สำหรับงาน production ควรขอหรือรอ benchmark เพิ่มเติมจากแหล่งทางการหรือผู้ประเมินภายนอกที่ใช้ harness เดียวกับ GPT-5.5, Claude Opus 4.7 และ DeepSeek V4; Insufficient evidence.

Evidence notes

  • แหล่งทางการที่พบสำหรับ GPT-5.5 มีน้ำหนักสูงในส่วน safety/evaluation แต่คะแนนเปรียบเทียบเชิงประสิทธิภาพที่ครบกว่าในรายงานนี้มาจากแหล่งภายนอก [14][11]

  • แหล่งทางการของ Anthropic ที่พบยืนยันการมีอยู่ของ Claude Opus 4.7 ใน release notes แต่คะแนนเปรียบเทียบที่ใช้ในตารางมาจากแหล่งภายนอก [2][11]

  • แหล่ง DeepSeek V4 ที่มีน้ำหนักสูงสุดคือ PDF เทคนิคบน Hugging Face ของ deepseek-ai ซึ่งอธิบายสถาปัตยกรรมและ long-context direction แต่ไม่ให้ตารางเปรียบเทียบครบทุก benchmark ที่ต้องการในผลค้นหาที่พบ [6]

  • แหล่งสำหรับ Kimi K2.6 ที่ใช้ได้ในรายงานนี้เป็นแหล่งเปรียบเทียบภายนอก ไม่ใช่เอกสาร benchmark ทางการของ Moonshot/Kimi ในผลค้นหาที่พบ [9]

  • งานวิชาการสนับสนุนข้อควรระวังว่าการวัด coding capability ต้องใช้ benchmark ที่ใกล้งานจริงกว่า HumanEval และควรพิจารณา benchmark ประเภท SWE-Bench หรือ issue-solving ร่วมด้วย [1]

Limitations / uncertainty

  • Insufficient evidence สำหรับตารางคะแนนครบทุก benchmark ของทั้ง 4 รุ่นใน harness เดียวกัน

  • คะแนนจากแหล่งต่างกันอาจใช้ prompt, sampling, tool access, reasoning mode, compute budget และ scoring pipeline ต่างกัน จึงไม่ควรนำตัวเลขจากคนละแหล่งมารวมเป็นอันดับเด็ดขาด

  • ข้อมูล DeepSeek V4 และ Kimi K2.6 ในรายงานนี้ยังไม่ครบด้าน coding, reasoning, multimodal, safety และ cost-performance เมื่อเทียบกับข้อมูล GPT-5.5 และ Claude Opus 4.7

  • ผล benchmark ของโมเดลรุ่น frontier เปลี่ยนเร็วมาก และควรตรวจซ้ำกับ model card, system card, technical report และ leaderboard ที่อัปเดตล่าสุดก่อนตัดสินใจใช้งานจริง

Summary

  • GPT-5.5 มีหลักฐานแข็งที่สุดในชุดนี้ด้าน agentic workflow และ GDPval โดยนำ Claude Opus 4.7 บน Terminal-Bench 2.0 และ GDPval [11]

  • Claude Opus 4.7 เด่นกว่า GPT-5.5 ใน SWE-Bench Pro ซึ่งเป็นสัญญาณสำคัญสำหรับงาน software engineering [11]

출처

  • [2] Everything You Need to Know About GPT-5.5vellum.ai

    Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...

  • [4] GPT-5.5 System Card - OpenAI Deployment Safety Hubdeploymentsafety.openai.com

    We measure GPT-5.5’s controllability by running CoT-Control, an evaluation suite described in (Yueh-Han, 2026 ) that tracks the model’s ability to follow user instructions about their CoT. CoT-Control includes over 13,000 tasks built from established benchm...

  • [7] Introducing GPT-5.5 - OpenAIopenai.com

    Computer use and vision EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaudeOpus 4.7Gemini 3.1 Pro OSWorld-Verified 78.7%75.0%--78.0%- MMMU Pro (no tools)81.2%81.2%---80.5% MMMU Pro (with tools)83.2%82.1%---- Tool use EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaud...

  • [20] System Prompts - Claude API Docsdocs.anthropic.com

    Claude Opus 4.7. April 16, 2026. Claude Sonnet 4.6. February 17, 2026. Claude Opus 4.6. February 5, 2026. Claude Opus 4.5. January 18, 2026. November 24, 2025 ...

  • [22] Petri 2.0: New Scenarios, New Model Comparisons, and Improved ...alignment.anthropic.com

    The two approaches are complementary: On Claude models, the interventions together lead to a 47.3% median relative drop in eval-awareness ... Jan 22, 2026

  • [30] [PDF] DeepSeek-V4: Towards Highly Efficient Million-Token Context ...huggingface.co

    Compared with the DeepSeek-V3 architecture (DeepSeek-AI, 2024), DeepSeek-V4 series retain the DeepSeekMoE framework (Dai et al., 2024) and Multi-Token Prediction (MTP) strategy, while introducing several key innovations in architecture and optimization. To...

  • [31] DeepSeek is back among the leading open weights models with V4 ...artificialanalysis.ai

    Gains in knowledge but an increase in hallucination rate: DeepSeek V4 Pro (Max) scores -10 on AA-Omniscience, an 11 point improvement over V3.2 (Reasoning, -21), driven primarily by higher accuracy. V4 Flash (Max) scores -23, broadly in line with V3.2. V4 P...

  • [33] DeepSeek V4 Pro (Reasoning, High Effort) vs Kimi K2.6: Model Comparisonartificialanalysis.ai

    Metric DeepSeek logoDeepSeek V4 Pro (Reasoning, High Effort) Kimi logoKimi K2.6 Analysis --- --- Creator DeepSeek Kimi Context Window 1000k tokens ( 1500 A4 pages of size 12 Arial font) 256k tokens ( 384 A4 pages of size 12 Arial font) DeepSeek V4 Pro (Reas...

  • [35] Kimi K2.6 - Intelligence, Performance & Price Analysisartificialanalysis.ai

    Kimi K2.6 scores 54 on the Artificial Analysis Intelligence Index, placing it well above average among comparable models (averaging 28). When evaluating the Intelligence Index, it generated 160M tokens, which is very verbose in comparison to the average of...

  • [36] Kimi K2.6: The new leading open weights model - Artificial Analysisartificialanalysis.ai

    ➤ Multimodality: Kimi K2.6 supports Image and Video input and text output natively. The model’s max context length remains 256k. Kimi K2.6 has significantly higher token usage than Kimi K2.5. Kimi K2.5 scores 6 on the AA-Omniscience Index, primarily driven...

  • [42] A Real-World Benchmark for Evaluating Fine-Grained Issue Solving Capabilities of Large Language Modelsarxiv.org

    … Existing benchmarks such as HumanEval fall short in their ability to … benchmarks like SWE-Bench are designed to evaluate the … on LLM evaluation, there remains a gap in benchmarks … 2024