studioglobal
인기 있는 발견
보고서게시됨13 소스

GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4-Pro

공개 자료만으로 단일 종합 순위를 매기기는 어렵다. GPT 5.5는 Terminal Bench 2.0 82.7%, Claude Opus 4.7은 SWE Bench Pro 64.3%로 보고됐지만, 출처와 평가 조건이 서로 달라 절대 순위표로 쓰기 어렵다.[27][4] 비전, 스크린샷, 문서 이해, computer use 작업에서는 Claude Opus 4.7의 근거가 가장 직접적이다.

17K0
四款 AI 模型的基準測試比較示意圖,包含 GPT-5.5、Claude Opus 4.7、Kimi K2.6 與 DeepSeek V4
GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4 基準測試比較AI 生成示意圖:本文比較 GPT-5.5、Claude Opus 4.7、Kimi K2.6 與 DeepSeek V4-Pro 在公開基準測試中的表現。
AI 프롬프트

Create a landscape editorial hero image for this Studio Global article: GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4 基準測試比較. Article summary: 目前不能公平選出單一總冠軍;四款模型缺少同一評測 harness、同一工具設定下的完整共同分數。可引用資料中,GPT 5.5 以 82.7% 領先 Terminal Bench 2.0,Claude Opus 4.7 以 64.3% 暫居 SWE Bench Pro 第一,但 Claude 數字來自次級整理引用 AWS。[27][4]. Topic tags: ai, llm, benchmarks, openai, anthropic. Reference image context from search candidates: Reference image 1: visual subject "OpenAI’s GPT-5.5, Anthropic’s Claude Opus 4.7, and DeepSeek V4 arrived close enough together to look like a clean three-way race. **GPT-5.5 is OpenAI’s bet on execution-heavy profe" source context "GPT-5.5, Claude Opus 4.7, and DeepSeek V4 reveal three different ..." Reference image 2: visual subject "GPT-5.5, Claude Opus 4.7, and DeepSeek V4 reveal three different futures for AI" source context "GPT-5.5, Claude Opus 4.7, and DeepSeek V4 reveal thr

openai.com

GPT-5.5, Claude Opus 4.7, Kimi K2.6, DeepSeek V4-Pro를 하나의 리그표에 올려놓고 1등을 고르는 방식은 지금 공개 자료만으로는 위험합니다. 출처가 다르고, 도구 사용 권한이 다르고, reasoning effort 설정도 다릅니다. 그래서 이 비교의 핵심은 종합 우승자가 아니라 업무별 shortlist입니다. 터미널·CLI workflow는 GPT-5.5, SWE-Bench와 비전·computer-use 업무는 Claude Opus 4.7, 지식·수학과 오픈 모델 노선은 DeepSeek V4-Pro, Cloudflare Workers AI 기반의 멀티모달 에이전트 workflow는 Kimi K2.6을 먼저 검토하는 쪽이 현실적입니다.[27][4][1][5][64][36]

벤치마크 요약: 숫자는 출발점일 뿐

아래 표는 이번 자료에서 직접 인용 가능한 수치만 모은 것입니다. —는 같은 항목의 인용 가능한 점수가 없다는 뜻이지, 성능이 없다는 뜻은 아닙니다. 또한 모든 점수가 같은 공식 harness에서 나온 것은 아니므로, 초기 선별에는 유용하지만 절대 순위표로 쓰기에는 부족합니다.

평가·업무GPT-5.5Claude Opus 4.7Kimi K2.6DeepSeek V4-Pro실무 해석
Terminal-Bench 2.082.7% [27]69.4% [4]66.7 [84]67.9 [64]공개 수치만 보면 command-line workflow에서는 GPT-5.5가 가장 두드러집니다.
SWE-Bench Pro58.6% [27]64.3% [4]58.6 [84]55.4 [64]Claude가 인용 가능한 수치상 앞서지만, Claude 수치는 AWS를 인용한 2차 정리입니다.
SWE-Bench Verified / Resolved87.6% [4]80.2 [45]80.6 [64]Claude 수치가 가장 높지만 GPT-5.5의 같은 열 비교 수치가 없고, 출처별 명칭도 완전히 같지 않습니다.
Graphwalks 256k: BFS / parents73.7 / 90.1 [21]76.9 / 93.6 [21]OpenAI 장문맥 표의 256k 두 항목에서는 Claude Opus 4.7이 GPT-5.5보다 높습니다.
Graphwalks 1M: BFS / parents45.4 / 58.5 [21]GPT-5.5의 1M 장문맥 성능을 보여주는 수치입니다. 같은 표의 1M 비교 열은 Opus 4.6으로 표시돼 Opus 4.7 판단에 쓰기 어렵습니다.[21]
지식·수학GPQA Diamond 90.1, GSM8K 92.6, MMLU-Pro 87.5, HLE 37.7 [64]이번 자료에서는 DeepSeek V4-Pro의 공개 모델 카드 수치가 가장 촘촘합니다.
비전·스크린샷·computer-usevision-heavy workload 향상, 1:1 픽셀 좌표, XBOW visual-acuity 98.5% [1][5]Cloudflare가 native multimodal agentic model로 설명하지만 같은 비전 벤치마크 수치는 없음 [36]스크린샷 이해와 UI 조작 근거는 Claude Opus 4.7이 가장 직접적입니다.

왜 종합 순위를 바로 내기 어려운가

첫째, 출처의 층위가 다릅니다. GPT-5.5의 Terminal-Bench 2.0과 SWE-Bench Pro 수치는 OpenAI가 제공한 benchmark 결과를 미디어가 전한 것이고, Claude Opus 4.7의 SWE-Bench Pro·SWE-Bench Verified·Terminal-Bench 2.0 수치는 AWS를 인용한 2차 정리에 가깝습니다. Kimi K2.6과 DeepSeek V4-Pro의 일부 점수는 Hugging Face 모델 카드에 올라온 값입니다.[27][4][84][64]

둘째, 도구 사용 권한이 순위를 바꿉니다. Mashable이 전한 HLE 수치에서 도구가 없는 조건의 Claude Opus 4.7은 46.9%, GPT-5.4 Pro는 42.7%였습니다. 반대로 도구가 있는 조건에서는 GPT-5.4 Pro가 58.7%, Claude Opus 4.7이 54.7%로 순서가 바뀝니다. 이 값은 GPT-5.5의 점수가 아니지만, with tools와 without tools 결과를 한 표에 섞으면 안 된다는 점을 잘 보여줍니다.[6]

셋째, 버전과 비용 설정도 중요합니다. DeepSeek V4는 V4-Pro와 V4-Flash로 나뉘며, Yahoo Finance 보도는 V4-Flash를 더 효율적이고 경제적인 선택지로 소개했습니다. 이 글에서 인용하는 상세 점수는 주로 DeepSeek-V4-Pro에 해당합니다.[57][64] 또 Artificial Analysis는 GPT-5.5를 여러 effort variant로 나눠 평가하면서, GPT-5.5 xhigh가 자사 Index 기준으로 이전 세대보다 약 20% 비싸지만 Claude Opus 4.7 max보다는 30% 저렴하다고 설명했습니다.[24]

GPT-5.5: 터미널 workflow와 긴 컨텍스트가 강점

GPT-5.5의 가장 분명한 강점은 Terminal-Bench 2.0입니다. Yahoo Finance / Investing.com 보도에 따르면 OpenAI가 제공한 benchmark 결과에서 GPT-5.5는 command-line workflow를 평가하는 Terminal-Bench 2.0에서 82.7%를 기록했고, GitHub issue resolution을 평가하는 SWE-Bench Pro에서는 58.6%를 기록했습니다.[27]

장문맥 쪽에서도 인용 가능한 수치가 있습니다. OpenAI의 long context 표에 따르면 GPT-5.5는 Graphwalks BFS에서 256k 73.7, 1M 45.4를 기록했고, Graphwalks parents에서는 256k 90.1, 1M 58.5를 기록했습니다. 같은 표에서 GPT-5.4의 Graphwalks BFS 1M은 9.4, GPT-5.5는 45.4로 제시됐습니다.[21]

제3자 평가에서는 Artificial Analysis가 GPT-5.5를 새로운 leading AI model로 평가했습니다. 같은 글은 OpenAI가 headline evaluation 5개에서 앞섰고 3개에서는 Gemini 3.1 Pro Preview에 이어 2위였다고 설명했으며, GPT-5.5 xhigh가 자사 Index 실행 시 이전 세대보다 output token을 약 40% 적게 썼다고도 밝혔습니다.[24]

먼저 시험해볼 만한 업무: CLI 자동화, terminal agent, 긴 컨텍스트 검색, output token 비용을 관리해야 하는 agentic coding workflow.[27][21][24]

Claude Opus 4.7: 코딩 수치와 비전·computer-use 근거가 강하다

Claude Opus 4.7은 공식 문서에서 비전과 UI 조작 쪽 개선 근거가 가장 명확합니다. Anthropic API 문서는 이 변화가 vision-heavy workload의 성능 향상을 열어주며, 특히 computer use, screenshot, artifact, document understanding workflow에 중요하다고 설명합니다. 또한 모델 좌표가 실제 픽셀과 1:1로 대응해 scale-factor 계산이 필요 없다고 안내합니다.[1]

Anthropic launch page는 XBOW의 visual-acuity benchmark를 인용해 Claude Opus 4.7이 98.5%, Opus 4.6이 54.5%였다고 소개했습니다.[5] 따라서 스크린샷 이해, 문서 레이아웃 파악, 데스크톱 UI 조작, computer-use agent 같은 업무에서는 네 모델 중 Claude Opus 4.7의 공식 근거가 가장 단단합니다.[1][5]

코딩 benchmark에서는 한 정리 글이 AWS를 인용해 Claude Opus 4.7의 SWE-Bench Pro 64.3%, SWE-Bench Verified 87.6%, Terminal-Bench 2.0 69.4%를 제시했습니다.[4] 이 수치만 놓고 보면 Claude는 이 글에서 인용 가능한 SWE-Bench Pro와 Verified/Resolved 비교에서 앞섭니다. 다만 직접 공식 benchmark 표보다 출처 층위가 낮으므로, 실제 도입 전에는 자사 repository로 다시 검증하는 편이 안전합니다.

운영 관점의 주의점도 있습니다. Anthropic 문서는 고해상도 이미지가 더 많은 token을 사용하므로, 추가 이미지 디테일이 필요 없다면 Claude에 보내기 전에 이미지를 downsample해 token 사용 증가를 피하라고 권합니다.[1]

먼저 시험해볼 만한 업무: GitHub issue repair, coding agent, screenshot·document understanding, computer-use agent, 픽셀 좌표가 정확해야 하는 UI 조작.[1][4][5]

Kimi K2.6: Workers AI 위의 멀티모달 agent 후보

Cloudflare changelog에 따르면 Moonshot AI Kimi K2.6은 2026년 4월 20일 Workers AI에서 사용할 수 있게 됐고, 모델 ID는 @cf/moonshotai/kimi-k2.6입니다. Cloudflare는 이를 Moonshot AI와의 Day 0 support로 설명했습니다.[36]

같은 자료는 Kimi K2.6을 native multimodal agentic model로 소개하며, long-horizon coding, coding-driven design, proactive autonomous execution, swarm-based task orchestration을 주요 역량으로 제시합니다. 또한 Mixture-of-Experts 구조를 사용하며 총 파라미터 1T, 토큰당 active 파라미터 32B라고 설명합니다.[36]

공개 점수로는 Kimi K2.6의 Hugging Face 모델 카드가 Terminal-Bench 2.0 66.7, SWE-Bench Pro 58.6, SWE-Bench Multilingual 76.7을 제시합니다.[84] MarkTechPost는 Kimi K2.6의 SWE-Bench Verified 점수를 80.2로 보도했습니다.[45]

먼저 시험해볼 만한 업무: 이미 Cloudflare Workers AI를 쓰고 있거나, long-horizon coding, coding-driven design, multimodal agent workflow, multi-agent orchestration을 검토하는 팀.[36][84]

DeepSeek V4-Pro: 지식·수학 수치와 오픈 모델 노선이 선명하다

DeepSeek V4는 자료상 V4-Pro와 V4-Flash로 나뉩니다. Yahoo Finance는 DeepSeek의 설명을 인용해 V4-Pro가 world knowledge benchmark에서 다른 open-source model을 크게 앞서며, 최상위 폐쇄형 모델인 Gemini-Pro-3.1에는 약간 뒤진다고 보도했습니다. 같은 보도에서 V4-Flash는 더 효율적이고 경제적인 선택지로 소개됐습니다.[57]

DeepSeek-V4-Pro의 Hugging Face 모델 카드는 이번 비교에서 가장 완성도 높은 지식·수학·코딩·터미널 수치 묶음을 제공합니다. GPQA Diamond 90.1, GSM8K 92.6, HLE 37.7, MMLU-Pro 87.5, SWE-Bench Pro 55.4, SWE-Bench Verified/Resolved 80.6, TerminalBench 2.0 67.9가 제시돼 있습니다.[64]

CNBC는 DeepSeek이 V4를 Claude Code와 OpenClaw 같은 agent tool에 맞춰 최적화했다고 보도했습니다. Counterpoint의 수석 AI 애널리스트 Wei Sun은 V4의 benchmark profile이 훨씬 낮은 비용으로 뛰어난 agent capability를 제공할 가능성을 시사한다고 평가했습니다.[58]

먼저 시험해볼 만한 업무: 오픈소스·자체 운영 모델을 중시하거나, 지식·수학 benchmark, agent tooling 비용 효율, 다운로드 가능한 모델의 사내 평가를 원하는 팀.[58][64]

업무별 shortlist

  • Terminal automation / command-line agent: GPT-5.5부터 테스트. 인용 가능한 자료에서 GPT-5.5의 Terminal-Bench 2.0은 82.7%로, Claude Opus 4.7 69.4%, DeepSeek V4-Pro 67.9, Kimi K2.6 66.7보다 높습니다.[27][4][64][84]
  • Software engineering repair / SWE-Bench Pro형 업무: Claude Opus 4.7을 우선 보되, 반드시 자사 repo로 재검증. 인용 가능한 점수는 Claude Opus 4.7 64.3%, GPT-5.5 58.6%, Kimi K2.6 58.6, DeepSeek V4-Pro 55.4입니다. 다만 Claude 점수는 2차 정리 출처입니다.[4][27][84][64]
  • Screenshot, document understanding, computer-use: Claude Opus 4.7 우선. Anthropic 문서는 vision-heavy workflow, computer use, 1:1 pixel coordinates를 직접 언급하고, launch page는 XBOW 98.5% visual-acuity 결과를 인용합니다.[1][5]
  • Knowledge/math와 오픈 모델 노선: DeepSeek V4-Pro를 shortlist에 포함. Hugging Face 모델 카드가 GPQA Diamond, GSM8K, HLE, MMLU-Pro, SWE-Bench, TerminalBench 2.0 수치를 함께 제시합니다.[64]
  • Workers AI 기반 multimodal agentic workflow: Kimi K2.6을 검토. Cloudflare는 Kimi K2.6의 Workers AI Day 0 support를 제공하며, 이를 long-horizon coding과 swarm-based task orchestration을 위한 native multimodal agentic model로 설명합니다.[36]

도입 전에는 같은 조건으로 다시 돌려야 한다

내부 의사결정에서 방어 가능한 결론을 내려면 같은 모델 버전 또는 API model ID, 같은 컨텍스트 길이, 같은 도구 권한, 같은 reasoning effort, 같은 temperature, 같은 token budget, 같은 scoring harness로 재평가해야 합니다. 특히 도구 권한은 섞으면 안 됩니다. HLE 보도에서 보듯 with tools와 without tools는 상대 순위를 바꿀 수 있습니다.[6]

비용도 성능과 함께 봐야 합니다. Artificial Analysis는 GPT-5.5 xhigh가 자사 Index 기준으로 이전 세대보다 약 20% 비싸지만 Claude Opus 4.7 max보다 30% 저렴하고, output token은 이전 세대보다 약 40% 적게 쓴다고 설명했습니다.[24] 반면 Anthropic 문서는 고해상도 이미지가 더 많은 token을 쓴다고 경고합니다.[1] production agent에서는 단일 benchmark 점수만큼이나 속도, token 사용량, tool call 성공률, 오류 복구율이 중요합니다.

결론

현재 가장 신뢰할 만한 비교 방식은 단일 종합 순위가 아니라 업무별 선택입니다. Terminal-Bench 관점에서는 GPT-5.5, SWE-Bench와 비전·computer-use 관점에서는 Claude Opus 4.7, 지식·수학 모델 카드 관점에서는 DeepSeek V4-Pro, Workers AI 위의 멀티모달 에이전트 코딩 workflow에서는 Kimi K2.6을 우선 후보로 보는 것이 합리적입니다.[27][4][1][5][64][36] 네 모델이 같은 harness, 같은 도구 설정, 같은 버전 조건에서 완전한 공통 점수를 갖추기 전까지는 진짜 종합 순위를 매기기 어렵습니다.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

주요 시사점

  • 공개 자료만으로 단일 종합 순위를 매기기는 어렵다. GPT 5.5는 Terminal Bench 2.0 82.7%, Claude Opus 4.7은 SWE Bench Pro 64.3%로 보고됐지만, 출처와 평가 조건이 서로 달라 절대 순위표로 쓰기 어렵다.[27][4]
  • 비전, 스크린샷, 문서 이해, computer use 작업에서는 Claude Opus 4.7의 근거가 가장 직접적이다. Anthropic 문서는 vision heavy workflow 향상과 1:1 픽셀 좌표를 설명하고, launch page는 XBOW 98.5% visual acuity 결과를 인용한다.[1][5]
  • DeepSeek V4 Pro는 Hugging Face 모델 카드에 GPQA Diamond 90.1, GSM8K 92.6, MMLU Pro 87.5, HLE 37.7 등 지식·수학 수치가 비교적 완비돼 있고, Kimi K2.6은 Cloudflare Workers AI에서 agentic multimodal workflow 후보로 확인된다.[64][36]

사람들은 또한 묻습니다.

"GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4-Pro"에 대한 짧은 대답은 무엇입니까?

공개 자료만으로 단일 종합 순위를 매기기는 어렵다. GPT 5.5는 Terminal Bench 2.0 82.7%, Claude Opus 4.7은 SWE Bench Pro 64.3%로 보고됐지만, 출처와 평가 조건이 서로 달라 절대 순위표로 쓰기 어렵다.[27][4]

먼저 검증할 핵심 포인트는 무엇인가요?

공개 자료만으로 단일 종합 순위를 매기기는 어렵다. GPT 5.5는 Terminal Bench 2.0 82.7%, Claude Opus 4.7은 SWE Bench Pro 64.3%로 보고됐지만, 출처와 평가 조건이 서로 달라 절대 순위표로 쓰기 어렵다.[27][4] 비전, 스크린샷, 문서 이해, computer use 작업에서는 Claude Opus 4.7의 근거가 가장 직접적이다. Anthropic 문서는 vision heavy workflow 향상과 1:1 픽셀 좌표를 설명하고, launch page는 XBOW 98.5% visual acuity 결과를 인용한다.[1][5]

실무에서는 다음으로 무엇을 해야 합니까?

DeepSeek V4 Pro는 Hugging Face 모델 카드에 GPQA Diamond 90.1, GSM8K 92.6, MMLU Pro 87.5, HLE 37.7 등 지식·수학 수치가 비교적 완비돼 있고, Kimi K2.6은 Cloudflare Workers AI에서 agentic multimodal workflow 후보로 확인된다.[64][36]

다음에는 어떤 관련 주제를 탐구해야 할까요?

다른 각도와 추가 인용을 보려면 "Claude Opus 4.7·GPT-5.5·DeepSeek V4·Kimi K2.6 벤치마크 비교: 2026년 판정"으로 계속하세요.

관련 페이지 열기

이것을 무엇과 비교해야 합니까?

"DeepSeek V4 엔지니어링 해설: 100만 토큰, MoE, API 이전 체크포인트"에 대해 이 답변을 대조 확인하세요.

관련 페이지 열기

연구를 계속하세요

연구 대화

당신

연구문제

研究 GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4 的基準測試表現,並根據這些基準測試對它們進行比較。

Studio Global AI40 소스

인용 답변

僅依據你提供的證據,現在還不能對 GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4 做出嚴格而公平的基準測試總排名,因為這些材料沒有提供同一套 benchmark、同一版本設定下的完整分數,而且完全沒有 GPT-5.5 的 benchmark 資料。較能成立的結論是:Claude Opus 4.7 有最明確的官方證據顯示其在視覺與 computer-use 類工作流上提升明顯,[2] 且有次級報導稱其狹義重回 generally available LLM 的領先位置。[5] DeepSeek V4-Pro 則有公司說法經媒體轉述,稱其在 world knowledge benchmarks 上明顯領先其他開源模型,[6] 而 Kimi K2.6 在現有證據中只有產品定位與上線資訊,缺少可直接比較的 benchmark 成績。[1]

Key findings

  • 無法產生可信的四模型總排名:你提供的材料沒有共享 benchmark 分數,且缺少 GPT-5.5 的任何 benchmark 證據。

  • Claude Opus 4.7 的強項證據最集中在視覺與 computer-use 工作流。Anthropic 官方文件說明它對 vision-heavy workloads 有 performance gains,特別影響 computer use、screenshot、artifact 與 document understanding workflows,且將座標映射到影像也更簡單。[2] VentureBeat 另稱其解析度提升到前代的 3 倍,並在標題中將其描述為狹義重回 generally available LLM 領先。[5]

  • DeepSeek V4-Pro 的 benchmark 相關競爭性敘述最明確,但主要來自公司說法經媒體轉述。報導稱它在 world knowledge benchmarks 上明顯領先其他開源模型,且只略遜於頂級閉源模型;另有分析師根據其 benchmark profile 認為它可能以更低成本提供很強的 agent 能力。[6][7]

  • Kimi K2.6 目前只能確認是 Moonshot AI 的原生多模態 agentic model,並於 2026-04-20 在 Workers AI 上得到 Day 0 支援;你提供的證據沒有其可比 benchmark 分數。[1]

Confirmed facts

  • Kimi K2.6 已於 2026-04-20 在 Workers AI 上可用,Cloudflare 表示這是與 Moonshot AI 合作的 Day 0 支援;該模型被描述為 native multimodal agentic model。[1]

  • Anthropic 官方文件表示 Claude Opus 4.7 的變更會帶來 vision-heavy workloads 的 performance gains,且特別有助於 computer use、screenshot、artifact、document understanding workflows;將座標映射到影像也變得更簡單。[2]

  • VentureBeat 報導稱 Claude Opus 4.7 帶來相較前代 3 倍的解析度提升,並在標題中將其描述為狹義重回「most powerful generally available LLM」。[5]

  • 媒體報導稱 DeepSeek 提供 DeepSeek V4-Pro 與 DeepSeek V4-Flash 兩個版本;其中 V4-Pro 被描述為在 world knowledge benchmarks 上明顯領先其他開源模型,且僅略遜於頂級閉源模型。[6]

  • CNBC 報導稱 DeepSeek V4 已針對 Claude Code 與 OpenClaw 之類 agent 工具做最佳化;Counterpoint 的 Wei Sun 則認為其 benchmark profile 顯示它可能以更低成本提供優秀 agent 能力。[7]

  • Hugging Face 上存在一則要求補充 DeepSeek-V4-Pro 在 GPQA、GSM8K、HLE、MMLU-Pro、SWE-Bench Pro、SWE-Bench Verified、Terminal-Bench 2.0 等項目社群評測結果的討論。[4]

What remains inference

  • 把 Claude Opus 4.7 判定為四者整體第一,仍屬推論;現有證據沒有同一組 benchmark 的分數表可直接支持這個結論。[2][5]

  • 把 DeepSeek V4-Pro 判定為所有開源任務全面第一,也仍屬推論;目前可見的是媒體轉述的公司說法,缺少你提供證據中的原始分數表。[6]

  • 把 Kimi K2.6 放在任何明確名次,幾乎純屬猜測;目前只知道它的產品定位,沒有硬 benchmark 成績。[1]

  • 對 GPT-5.5 作任何 benchmark 結論都沒有證據基礎,因為提供材料裡沒有它的 benchmark 資料。

What the evidence suggests

  • 若只看視覺與 computer-use 類任務,Claude Opus 4.7 的證據最強,因為這是唯一在官方文件中明確聲稱該類工作流有性能提升的模型,且次級報導補充了解析度提升細節。[2][5]

  • 若只看現有材料中最明確的 benchmark 競爭描述,DeepSeek V4-Pro 在 world knowledge benchmarks 的定位最突出,因為它是唯一被直接描述為明顯領先其他開源模型的模型。[6]

  • 若看 agent tooling 與成本效益敘事,DeepSeek V4 也有較清楚的外部分析支持,因為報導提到它針對 Claude Code、OpenClaw 做了最佳化,且分析師從其 benchmark profile 推論出較強的 agent 能力/成本比。[7]

  • Kimi K2.6 看起來是以多模態與 agentic 能力為賣點,但在這組證據裡沒有足夠 benchmark 資料把它與 Claude 或 DeepSeek 做定量比較。[1]

  • 整體四模型排序:Insufficient evidence。

Conflicting evidence or uncertainty

  • 最大的不確定性不是「誰贏」,而是「有沒有可比數據」:目前沒有看到四個模型在同一 benchmark、同一版本、同一提示或工具設定下的分數。

  • Claude 的「領先」敘事主要來自次級報導的綜述與標題,而不是你提供證據中的原始官方 benchmark 表。[5]

  • DeepSeek 的最強 benchmark 主張來自公司說法經媒體轉述,因此可信度低於官方技術報告或第三方獨立評測。[6]

  • Kimi K2.6 的 benchmark 能力在這組證據裡幾乎空白,所以不能因產品描述或上線速度而推斷其分數。[1]

  • Reddit 上有人提醒 SWE-bench leaderboard 可能混用了不同版本與不同 benchmark 任務,這提示跨榜單比較可能失真;但這只是低權威來源,最多當弱提醒使用。[65]

Open questions

  • GPT-5.5 在 MMLU-Pro、GPQA、HLE、SWE-Bench Verified/Pro、Terminal-Bench 2.0、以及多模態 benchmark 上的成績是什麼?

  • Claude Opus 4.7、Kimi K2.6、DeepSeek V4 是否有同一版本 benchmark 表,且使用一致的工具權限、上下文長度、溫度與評分規則?

  • DeepSeek V4-Pro 所謂的 world knowledge benchmarks,具體是哪些測試、原始分數是多少、對照模型又是哪些?[6]

  • Kimi K2.6 是否已有第三方獨立 benchmark,而不只是上線與產品定位資訊?[1]

Sources worth trusting most

  • [2] 是 Anthropic 官方文件,對 Claude Opus 4.7 的產品級能力變更與適用工作流最可信。[2]

  • [1] 是 Cloudflare 官方 changelog,對 Kimi K2.6 的上線時間、可用性與產品定位最可信。[1]

  • [6][7] 是較可靠的媒體報導,適合用來了解 DeepSeek 的對外 benchmark 敘事與外部分析,但仍屬次級來源。[6][7]

  • [5] 可作為 Claude Opus 4.7 外界競爭定位的參考,但對硬 benchmark 來說仍弱於官方技術文件。[5]

  • [4] 只能證明社群正在補充 DeepSeek-V4-Pro 的評測結果,不能當成最終 benchmark 證據。[4]

  • [65] 權威性最低,只適合拿來提醒跨榜單比較可能有方法學問題。[65]

Recommended next step

  • 如果你要一個真正可 defend 的比較,下一步應該只蒐集四模型在共享 benchmark 上的原始分數表,優先看 MMLU-Pro、GPQA、HLE、SWE-Bench Verified/Pro、Terminal-Bench 2.0,以及多模態評測,並要求每個結果都標明是否允許 tools、browsing、test-time compute 與不同解碼設定。

  • 在目前這組證據下,最安全的暫時結論是:Claude Opus 4.7 在視覺/computer-use 能力的證據最強,[2][5] DeepSeek V4-Pro 在開源對比的 world knowledge benchmark 敘事最強,[6] Kimi K2.6 與 GPT-5.5 都不足以納入公平排名。[1]

Summary

基於目前證據,不能對 GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4 做可靠的總體 benchmark 排名。較可靠的局部結論是:Claude Opus 4.7 在 vision/computer-use 類場景的正向證據最強,[2][5] DeepSeek V4-Pro 有最明確的開源 benchmark 領先聲稱,[6][7] Kimi K2.6 缺 benchmark 數據,[1] GPT-5.5 則完全沒有可用資料。若要嚴格比較,現階段最誠實的答案就是:Insufficient evidence。

출처

  • [1] What's new in Claude Opus 4.7 - Claude API Docsplatform.claude.com

    What's new in Claude Opus 4.7 - Claude API Docs Loading... . This change should unlock performance gains on vision-heavy workloads, and is particularly important for computer use and screenshot/artifact/document understanding workflows. Additionally, operat...

  • [4] Claude Opus 4.7: Pricing, Benchmarks & Context Windowalmcorp.com

    For coding, the official materials point to several standout numbers. Anthropic says Opus 4.7 improved resolution by 13% over Opus 4.6 on a 93-task coding benchmark. AWS cites 64.3% on SWE-bench Pro, 87.6% on SWE-bench Verified, and 69.4% on Terminal-Bench...

  • [5] Introducing Claude Opus 4.7anthropic.com

    Image 22: logo Claude Opus 4.7 feels like a real step up in intelligence. Code quality is noticeably improved, it’s cutting out the meaningless wrapper functions and fallback scaffolding that used to pile up, and fixes its own code as it goes. It’s the clea...

  • [6] Anthropic releases Claude Opus 4.7: How to try it, benchmarks, safetymashable.com

    Claude Mythos scored 56.8 percent on HLE Claude Opus 4.7 scored 46.9 percent Gemini 3.1 Pro scored 44.4 percent GPT-5-4 Pro scored 42.7 percent Claude Opus 4.6 scored 40.0 percent With tools, GPT-5-4-Pro scored 58.7 percent compared to Opus 4.7’s 54.7 perce...

  • [21] Introducing GPT-5.5openai.com

    Long context EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaudeOpus 4.7Gemini 3.1 Pro Graphwalks BFS 256k f1 73.7%62.5%--76.9%- Graphwalks BFS 1mil f1 45.4%9.4%--41.2% (Opus 4.6)- Graphwalks parents 256k f1 90.1%82.8%--93.6%- Graphwalks parents 1mil f1 58.5%44....

  • [24] OpenAI's GPT-5.5 is the new leading AI model - Artificial Analysisartificialanalysis.ai

    Image 2 OpenAI leads five of our headline evaluations and places second to Gemini 3.1 Pro Preview on three. Image 3 Effort variants provide a clear ladder to balance intelligence and cost. GPT-5.5 (xhigh) is 20% more expensive to run our Index than its pred...

  • [27] OpenAI releases GPT-5.5 with improved coding and research capabilitiesca.finance.yahoo.com

    © 2026 All rights reserved. About our ads Advertising Jobs Yahoo Finance Yahoo Finance Mail Sign in Investing.com OpenAI releases GPT-5.5 with improved coding and research capabilities Louis Juricic 1 min read Investing.com -- OpenAI announced Thursday the...

  • [36] Moonshot AI Kimi K2.6 now available on Workers AIdevelopers.cloudflare.com

    Image 2: hero image ← Back to all posts Moonshot AI Kimi K2.6 now available on Workers AI Apr 20, 2026 Workers AI @cf/moonshotai/kimi-k2.6 is now available on Workers AI, in partnership with Moonshot AI for Day 0 support. Kimi K2.6 is a native multimodal ag...

  • [45] Moonshot AI Releases Kimi K2.6 with Long-Horizon Coding, Agent ...marktechpost.com

    The Long-Horizon Coding Headline Numbers The metric that will likely get the most attention from dev teams is SWE-Bench Pro — a benchmark testing whether a model can resolve real-world GitHub issues in professional software repositories. Kimi K2.6 scores 58...

  • [57] China’s DeepSeek releases new AI model it claims beats all open-source competitorsau.finance.yahoo.com

    The model is available as DeepSeek V4-Pro and DeepSeek V4-Flash. The latter version, the company says, is a “more efficient and economical choice". “In world knowledge benchmarks, DeepSeek V4-Pro significantly leads other open-source models and is only slig...

  • [58] China's DeepSeek releases preview of long-awaited V4 model as AI ...cnbc.com

    DeepSeek also said that V4 has been optimized for use with popular agent tools such as Anthropic’s Claude Code and OpenClaw. According to Counterpoint’s principal AI analyst, Wei Sun, V4′s benchmark profile suggests it could offer “excellent agent capabilit...

  • [64] deepseek-ai/DeepSeek-V4-Pro - Hugging Facehuggingface.co

    Evaluation results []( Diamond on Idavidrein/gpqaView evaluation resultsleaderboard 90.1 Gsm8k on openai/gsm8kView evaluation resultsleaderboard 92.6 Hle on cais/hleView evaluation results 37.7 Mmlu Pro on TIGER-Lab/MMLU-ProView evaluation results 87.5 SWE...

  • [84] moonshotai/Kimi-K2.6 - Hugging Facehuggingface.co

    3. Evaluation Results ; Terminal-Bench 2.0 (Terminus-2), 66.7, 65.4 ; SWE-Bench Pro, 58.6, 57.7 ; SWE-Bench Multilingual, 76.7, - ; SWE-Bench ... 5 days ago