studioglobal
인기 있는 발견
답변게시됨14 소스

GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6:按任务看谁赢

公开基准不支持把四个模型简单排成总榜。GPT 5.5与Claude Opus 4.7有较多同表分数,但Kimi K2.6混有模型卡与不同评测框架数据,DeepSeek V4在若干通用编码基准上缺少可直接对齐的公开数值 [1][2][5][6]。 终端型代理编码可优先测试GPT 5.5;真实GitHub issue解决和SWE Bench代码修复可优先测试Claude Opus 4.7。前者Terminal Bench 2.0为82.7%,后者SWE Bench Pro为64.3%、SWE Bench Verified为87.6% [19][27]。

17K0
네 개의 AI 모델 벤치마크 점수를 비교하는 추상적인 대시보드 일러스트
GPT-5.5·Claude Opus 4.7·DeepSeek V4·Kimi K2.6 벤치마크 비교: 작업별 승자는 다르다AI 생성 이미지. 네 모델의 공개 벤치마크 비교를 상징적으로 표현했습니다.
AI 프롬프트

Create a landscape editorial hero image for this Studio Global article: GPT-5.5·Claude Opus 4.7·DeepSeek V4·Kimi K2.6 벤치마크 비교: 작업별 승자는 다르다. Article summary: 종합 1위는 보류가 맞습니다. 공개값 기준으로 GPT 5.5는 Terminal Bench 2.0 82.7%, Claude Opus 4.7은 SWE Bench Pro 64.3%·SWE Bench Verified 87.6%가 강하지만, 네 모델을 같은 하네스로 평가한 독립 비교는 부족합니다 [19][27][5].. Topic tags: ai, benchmarks, openai, chatgpt, anthropic. Reference image context from search candidates: Reference image 1: visual subject "[Sign in](https://medium.com/m/signin?operation=login&redirect=https%3A%2F%2Fmedium.com%2F%40cognidownunder%2Fclaude-opus-4-7-leads-on-code-gpt-5-5-wins-intelligence-and-kimi-k2-6-" source context "Claude Opus 4.7 Leads on Code, GPT 5.5 Wins Intelligence, and Kimi K2.6 Changes Everything" Reference image 2: visual subject "[Sign in](https://medium.com/m/signin?operation=login&redirect=https%3A%2F%2Fmedium.com%2F%40cognidownun

openai.com

如果你正在为产品或团队选模型,公开榜单能给方向,但不能替你做最终上线决策。现有资料里,GPT-5.5与Claude Opus 4.7被放在同一张表里比较的公开分数相对更多;Kimi K2.6的数值则混有模型卡与不同评测框架;DeepSeek V4在Terminal-Bench、SWE-Bench Pro、SWE-Bench Verified、GPQA Diamond这些共用行上还缺少足够直接对应的公开分数 [1][2][5][6]

所以,更实用的问题不是谁是绝对第一,而是:你的任务应该先测哪一个。

先看结论:按任务选首测模型

  • 终端型Agent编码、命令行工作流:先测GPT-5.5。OpenAI公布GPT-5.5在Terminal-Bench 2.0为82.7%;公开比较中Claude Opus 4.7为69.4%,Kimi K2.6为66.7% [19][8][13][6]
  • 真实GitHub issue解决、代码修复:先测Claude Opus 4.7。公开资料显示其SWE-Bench Pro为64.3%、SWE-Bench Verified为87.6%,高于GPT-5.5在SWE-Bench Pro上的58.6% [27][19]
  • 长多模态上下文:把Kimi K2.6放入候选。资料称Kimi K2.6支持文本、图像、视频输入,并提供256k上下文路由 [7]
  • 成本敏感的大量API调用:DeepSeek V4值得算账。Mashable列出的API价格为每100万token输入1.74美元、输出3.48美元;GPT-5.5为输入5美元、输出30美元,Claude Opus 4.7为输入5美元、输出25美元 [3]

公开基准对比表

下表里的“—”表示:在提供的公开来源中,暂时没有足够可直接对齐的数值。它不等于该模型不能完成这类任务。

基准GPT-5.5Claude Opus 4.7Kimi K2.6DeepSeek V4怎么读
Terminal-Bench 2.082.7% [19]69.4% [8][13]66.7% [6]终端、Shell、命令行代理工作流中,GPT-5.5的公开值最高。
SWE-Bench Pro58.6% [19]64.3% [27]58.6% [1][6]真实代码修复与GitHub issue解决类任务中,Claude Opus 4.7领先。
SWE-Bench Verified87.6% [27]80.2% [1][6]现有来源中,主要能对齐Claude Opus 4.7与Kimi K2.6的数值。
GPQA Diamond93.6% [8][13]94.2% [8][13]GPT-5.5与Claude Opus 4.7非常接近,公开值里Claude小幅领先。
HLE with tools52.2% [8]54.7% [8][29]54.0% [6]Claude与Kimi数值更高,但Kimi可能来自不同评测条件 [6]
BrowseComp84.4% [8][13]79.3% [8][13]浏览、网页探索类评估中,GPT-5.5公开值更高。
OSWorld-Verified78.7% [13]78.0% [13]两者差距很小,不宜过度解读。
MCP Atlas75.3% [13]79.1% [13]MCP与工具联动型评估中,Claude Opus 4.7领先。

GPT-5.5:长终端会话和命令行代理的强候选

OpenAI称,GPT-5.5在Terminal-Bench 2.0上达到82.7%,在SWE-Bench Pro上达到58.6% [19]。OpenAI对这两个基准的解释是:Terminal-Bench 2.0测试需要规划、反复执行和工具协调的复杂命令行流程;SWE-Bench Pro测试真实GitHub issue的解决能力 [19]

这意味着,如果你的工作负载包括沙箱运行、Shell命令反复试错、CI(持续集成)复现、文件生成与修改,GPT-5.5很适合作为第一轮候选。它看起来更像是“能长时间在终端里跑流程”的模型。

但这不等于所有编码任务都由GPT-5.5领先。在SWE-Bench Pro上,Claude Opus 4.7的64.3%高于GPT-5.5的58.6% [19][27]。因此,若重点是精准修复既有代码库中的真实问题,Claude Opus 4.7更值得先试。

Claude Opus 4.7:代码修复、审查型流程更值得先上

Claude Opus 4.7的公开亮点集中在SWE-Bench系列:SWE-Bench Pro为64.3%,SWE-Bench Verified为87.6% [27]。DataCamp整理称,Opus 4.7被放到14个基准中评估,覆盖编码、推理、工具使用、电脑使用和视觉推理等方向 [27]

在与GPT-5.5的共同对比中,Claude Opus 4.7在GPQA Diamond上为94.2%对93.6%,在MCP Atlas上为79.1%对75.3%,均小幅领先 [8][13]。反过来,GPT-5.5在Terminal-Bench 2.0和BrowseComp上公开值更高 [8][13][19]

换句话说,Claude Opus 4.7不一定是所有“代理自动化”的绝对赢家,但在代码修复、代码审查、真实issue处理这类更偏工程质量的任务上,它是非常强的一号候选。

Kimi K2.6:长多模态输入有吸引力,分数要看评测框架

Kimi K2.6被列出SWE-Bench Pro 58.6%、SWE-Bench Verified 80.2%;另有资料列出其Terminal-Bench 2.0为66.7%、HLE with tools为54.0% [1][6]。不过,相关指南也说明,K2.6这些数值来自Moonshot AI官方模型卡,其中SWE-Bench Pro还带有in-house harness这一评测框架说明 [6]

因此,即使Kimi K2.6的SWE-Bench Pro 58.6%在数字上与GPT-5.5的58.6%相同,也不宜直接断言二者是在完全相同条件下打平 [1][6][19]。对于模型评测来说,提示词、工具权限、推理预算、评分器和评测框架的差异,都可能影响结果。

Kimi K2.6真正值得单独关注的,是长上下文和多模态输入。资料称其支持文本、图像、视频输入,并有256k上下文路由 [7]。如果你的产品需要处理长材料、图像或视频输入,Kimi K2.6应进入候选名单。

DeepSeek V4:价格有吸引力,但准确性要自己兜底

DeepSeek V4在这张表里的缺口比较明显:就提供的公开来源看,它还没有足够多可直接填入Terminal-Bench、SWE-Bench Pro、SWE-Bench Verified、GPQA Diamond等行的共同基准数值。换句话说,不能因为某些价格或架构亮点,就把它直接放进同一张能力排行榜。

不过,DeepSeek V4仍有值得评估的地方。Artificial Analysis称,DeepSeek V4 Pro Max在AA-Omniscience上得到-10,相比V3.2提升11分;V4 Flash Max为-23。同一来源也报告V4 Pro和V4 Flash的幻觉率分别为94%和96%,并解释为模型在不知道答案时也几乎总会作答 [2]

架构与价格是它的主要看点。DataCamp称DeepSeek V4采用Mixture of Experts(MoE,专家混合)架构,Pro模型总参数1.6万亿、激活参数490亿;Flash模型总参数2,840亿、激活参数130亿 [4]。Mashable整理的API价格也显示,DeepSeek V4低于GPT-5.5和Claude Opus 4.7 [3]

因此,DeepSeek V4更适合成本敏感的大批量处理、能做内部校验的流程,或需要考察开放权重路线的团队。但如果任务对事实准确性、合规或用户可见输出要求很高,就必须配套自建评测、后处理和失败检测 [2][3][4]

使用场景选择表

使用场景先测试的模型依据
长时间终端自动化、Shell代理、CI复现GPT-5.5Terminal-Bench 2.0中,GPT-5.5为82.7%,Claude Opus 4.7为69.4%,Kimi K2.6为66.7% [19][8][13][6]
真实GitHub issue解决、代码修复、SWE-Bench类任务Claude Opus 4.7Claude Opus 4.7的SWE-Bench Pro为64.3%,SWE-Bench Verified为87.6% [27]
浏览、网页探索型任务GPT-5.5BrowseComp中,GPT-5.5为84.4%,Claude Opus 4.7为79.3% [8][13]
MCP、工具联动型任务Claude Opus 4.7MCP Atlas中,Claude Opus 4.7为79.1%,GPT-5.5为75.3% [13]
长多模态上下文Kimi K2.6Kimi K2.6被介绍为支持文本、图像、视频输入,并提供256k上下文路由 [7]
成本敏感的大量API调用DeepSeek V4DeepSeek V4的token价格低于GPT-5.5与Claude Opus 4.7,但需要同时考虑Artificial Analysis对高幻觉率的报告 [2][3]

为什么现在不适合给“综合冠军”

第一,四个模型并没有在同一提示词、同一工具权限、同一推理预算和同一评分器下,得到足够多独立公开结果。GPT-5.5与Claude Opus 4.7的共同对比资料较多;Kimi K2.6混有模型卡与内部评测框架;DeepSeek V4在共用基准行上仍有空白 [1][2][5][6]

第二,同一个基准名称,也可能因为执行条件不同而产生差异。有汇总资料指出,GPT-5.5和Claude Opus 4.7的公开分数在形式上可比,但不能等同于方法论完全一致 [5]。Anthropic也说明,其Terminal-Bench 2.0评测使用了Terminus-2 harness,并采用特定资源条件 [31]

第三,基准分数只是产品质量的一部分。真正上线时,还要看失败方式、幻觉率、延迟、成本、工具调用稳定性、安全策略、日志可复现性等。ExplainX也提醒,排行榜定义、提示词和工具策略都会改变分数,公开基准不应替代团队自己的评测框架 [28]

最终判断

基于目前公开证据,比较稳妥的策略是:终端型Agent编码先测GPT-5.5,SWE-Bench代码修复先测Claude Opus 4.7,长多模态上下文先把Kimi K2.6放进候选,成本敏感的大批量调用再认真评估DeepSeek V4 [19][27][7][3]

但如果要做生产级选择,不要只看一张总榜。把你的真实任务、工具权限、预算、延迟要求和失败容忍度放进自建评测里,才是更可靠的决策方式 [5][28][31]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

주요 시사점

  • 公开基准不支持把四个模型简单排成总榜。GPT 5.5与Claude Opus 4.7有较多同表分数,但Kimi K2.6混有模型卡与不同评测框架数据,DeepSeek V4在若干通用编码基准上缺少可直接对齐的公开数值 [1][2][5][6]。
  • 终端型代理编码可优先测试GPT 5.5;真实GitHub issue解决和SWE Bench代码修复可优先测试Claude Opus 4.7。前者Terminal Bench 2.0为82.7%,后者SWE Bench Pro为64.3%、SWE Bench Verified为87.6% [19][27]。
  • Kimi K2.6适合纳入长多模态上下文测试;DeepSeek V4的API价格更低,但需要把高幻觉率报告和自建评测一起纳入决策 [7][2][3]。

사람들은 또한 묻습니다.

"GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6:按任务看谁赢"에 대한 짧은 대답은 무엇입니까?

公开基准不支持把四个模型简单排成总榜。GPT 5.5与Claude Opus 4.7有较多同表分数,但Kimi K2.6混有模型卡与不同评测框架数据,DeepSeek V4在若干通用编码基准上缺少可直接对齐的公开数值 [1][2][5][6]。

먼저 검증할 핵심 포인트는 무엇인가요?

公开基准不支持把四个模型简单排成总榜。GPT 5.5与Claude Opus 4.7有较多同表分数,但Kimi K2.6混有模型卡与不同评测框架数据,DeepSeek V4在若干通用编码基准上缺少可直接对齐的公开数值 [1][2][5][6]。 终端型代理编码可优先测试GPT 5.5;真实GitHub issue解决和SWE Bench代码修复可优先测试Claude Opus 4.7。前者Terminal Bench 2.0为82.7%,后者SWE Bench Pro为64.3%、SWE Bench Verified为87.6% [19][27]。

실무에서는 다음으로 무엇을 해야 합니까?

Kimi K2.6适合纳入长多模态上下文测试;DeepSeek V4的API价格更低,但需要把高幻觉率报告和自建评测一起纳入决策 [7][2][3]。

다음에는 어떤 관련 주제를 탐구해야 할까요?

다른 각도와 추가 인용을 보려면 "Claude Security 공개 베타: 앤트로픽의 AI 코드 취약점 스캐너가 하는 일"으로 계속하세요.

관련 페이지 열기

이것을 무엇과 비교해야 합니까?

"Grok 4.3 API 분석: 100만 토큰과 낮은 단가, xAI의 다음 승부수"에 대해 이 답변을 대조 확인하세요.

관련 페이지 열기

연구를 계속하세요

연구 대화

당신

연구문제

GPT-5.5, Claude Opus 4.7, DeepSeek V4, Kimi K2.6의 벤치마크를 비교해 주세요.

Studio Global AI34 소스

인용 답변

요약하면, 공개적으로 확인 가능한 “동일 조건” 벤치마크만 놓고 보면 GPT-5.5는 터미널/에이전트 코딩, Claude Opus 4.7은 SWE-Bench Pro·Verified와 추론 계열에서 강합니다. DeepSeek V4와 Kimi K2.6은 공개 수치가 흩어져 있어 4개 모델을 한 표로 공정하게 순위화하기에는 근거가 부족합니다.

항목GPT-5.5Claude Opus 4.7DeepSeek V4Kimi K2.6
Terminal-Bench 2.082.7%69.4%공개 비교 근거 부족약 66%대로 보도됨
SWE-Bench Pro58.6%64.3%공개 비교 근거 부족58.6%
SWE-Bench Verified공개 수치 확인 부족87.6%공개 비교 근거 부족80.2%
GPQA Diamond0.94/1로 집계된 자료 있음94.2%로 보도됨공개 비교 근거 부족공개 비교 근거 부족
HLEGPT-5.5와 Opus 4.7 비교 자료에서 항목 존재46.9%로 보도됨공개 비교 근거 부족공개 비교 근거 부족
기타OSWorld, BrowseComp, CyberGym 등에서 GPT-5.5가 앞선다는 비교가 있음FinanceAgent, MCP Atlas 등에서 Opus 4.7이 앞선다는 비교가 있음Artificial Analysis 기준 AA-Omniscience 개선이 보고됐지만 환각률이 매우 높다는 지적도 있음텍스트·이미지·비디오 입력과 256k 컨텍스트 지원으로 소개됨
  • GPT-5.5는 OpenAI 발표 기준 Terminal-Bench 2.0에서 82.7%, SWE-Bench Pro에서 58.6%를 기록한 것으로 확인됩니다 [15].
  • Claude Opus 4.7은 여러 비교 자료에서 SWE-Bench Pro 64.3%, SWE-Bench Verified 87.6%, Terminal-Bench 69.4%, GPQA Diamond 94.2%로 제시됩니다 [3].
  • GPT-5.5와 Claude Opus 4.7만 비교하면, 한 집계 자료는 공통 10개 벤치마크 중 Claude Opus 4.7이 6개, GPT-5.5가 4개에서 앞선다고 요약합니다 [12].
  • Kimi K2.6은 SWE-Bench Pro 58.6%, SWE-Bench Verified 80.2%로 소개된 자료가 있지만, GPT-5.5·Claude Opus 4.7·DeepSeek V4와 완전히 같은 하네스에서 비교됐는지는 명확하지 않습니다 [15][4].
  • DeepSeek V4는 Artificial Analysis에서 V4 Pro와 V4 Flash의 지식·환각 관련 평가가 언급되지만, 위 표의 SWE-Bench Pro, Terminal-Bench, GPQA, HLE와 직접 대응되는 공개 비교 수치는 충분하지 않습니다 [7].

결론적으로 “벤치마크 승자”를 하나로 고르면 왜곡될 수 있습니다.

  • 에이전트 터미널 작업: GPT-5.5 우세로 볼 근거가 가장 강합니다 [15].
  • 실전 GitHub 이슈 해결/SWE-Bench 계열: Claude Opus 4.7 우세로 볼 근거가 강합니다 [3][12].
  • 비용 대비 성능/오픈웨이트 계열: DeepSeek V4와 Kimi K2.6을 검토할 만하지만, 동일 벤치마크 공개 근거는 부족합니다 [7][4].
  • 종합 순위: Insufficient evidence. 4개 모델 모두를 같은 프롬프트, 같은 도구 사용 조건, 같은 채점기로 평가한 독립 벤치마크가 필요합니다.

출처

  • [1] Claude Opus 4.7 vs Kimi K2.6 - Detailed Performance & Feature Comparisondocsbot.ai

    SWE-Bench Verified Evaluates software engineering capabilities through verified code modifications and custom agent setups Not available 80.2% SWE-Bench Verified, thinking mode Source SWE-Bench Pro Evaluates software engineering on multi-language SWE-Bench...

  • [2] DeepSeek is back among the leading open weights models with V4 Pro ...artificialanalysis.ai

    Gains in knowledge but an increase in hallucination rate: DeepSeek V4 Pro (Max) scores -10 on AA-Omniscience, an 11 point improvement over V3.2 (Reasoning, -21), driven primarily by higher accuracy. V4 Flash (Max) scores -23, broadly in line with V3.2. V4 P...

  • [3] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com

    Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...

  • [4] DeepSeek V4: Features, Benchmarks, and Comparisons - DataCampdatacamp.com

    How large are the DeepSeek V4 models? DeepSeek uses a Mixture of Experts (MoE) architecture. The Pro model contains 1.6 trillion total parameters (49 billion active) and requires an 865GB download. The Flash model contains 284 billion parameters (13 billion...

  • [5] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarksllm-stats.com

    The Verdict On the 10 benchmarks both providers report, Opus 4.7 leads on 6 and GPT-5.5 leads on 4. The leads cluster by category, not by overall quality: Opus 4.7 is ahead on the reasoning-heavy and review-grade tests (GPQA Diamond, HLE with and without to...

  • [6] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4 - Verdent AIverdent.ai

    Benchmark K2.6 Claude Opus 4.6 GPT-5.4 Notes --- --- SWE-Bench Pro 58.60% 53.40% 57.70% Moonshot in-house harness; SEAL mini-swe-agent puts GPT-5.4 at 59.1%, Opus 4.6 at 51.9% SWE-Bench Verified 80.20% 80.80% 80% Tight cluster; Opus 4.7 now leads at 87.6% T...

  • [7] Kimi K2.6 vs DeepSeek V4 vs GPT-5.5 vs Claude Opus 4.7blog.laozhang.ai

    Official Contract Lanes Official rows keep the comparison honest. Kimi's K2.6 pricing page says K2.6 is the latest and smartest Kimi model, supports text, image, and video input, and has a 256k context route. DeepSeek's pricing page lists deepseek-v4-flash...

  • [8] OpenAI’s GPT-5.5 vs Claude Opus 4.7: Which is better? | Mashablemashable.com

    Thanks for signing up! SWE-Bench Pro: GPT-5.5 scored 58.6; Opus 4.7 scored 64.3 percent Terminal-Bench 2.0: GPT-5.5 scored 82.7 percent; Opus 4.7 scored 69.4 percent Humanity's Last Exam: GPT-5.5 scored 40.6 percent; Opus 4.7 scored 31.2 percent\ Humanity's...

  • [13] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai

    Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...

  • [19] Introducing GPT-5.5 - OpenAIopenai.com

    Agentic coding GPT‑5.5 is our strongest agentic coding model to date. On Terminal-Bench 2.0, which tests complex command-line workflows requiring planning, iteration, and tool coordination, it achieves a state-of-the-art accuracy of 82.7%. On SWE-Bench Pro,...

  • [27] Claude Opus 4.7: Anthropic's New Best (Available) Model - DataCampdatacamp.com

    Claude Opus 4.7 Benchmarks Opus 4.7 was evaluated across 14 benchmarks covering coding, reasoning, tool use, computer use, and visual reasoning. The table below shows the full comparison with Opus 4.6, GPT 5.4, Gemini 3.1 Pro, and the not-yet-published Myth...

  • [28] Claude Opus 4.7: Anthropic’s new flagship, benchmarks, and how it compares to Sonnet & Haiku | explainx.ai Blog | explainx.aiexplainx.ai

    \Percentages are as printed on Anthropic’s benchmark figure; leaderboard definitions, prompts, and tool policies can move scores over time—treat this as a snapshot, not a substitute for your eval harness. Reading the table pragmatically Agentic coding (SWE-...

  • [29] Anthropic releases Claude Opus 4.7: How to try it, benchmarks, safetymashable.com

    Claude Mythos scored 56.8 percent on HLE Claude Opus 4.7 scored 46.9 percent Gemini 3.1 Pro scored 44.4 percent GPT-5-4 Pro scored 42.7 percent Claude Opus 4.6 scored 40.0 percent With tools, GPT-5-4-Pro scored 58.7 percent compared to Opus 4.7’s 54.7 perce...

  • [31] Introducing Claude Opus 4.7 - Anthropicanthropic.com

    For GPT-5.4 and Gemini 3.1 Pro, we compared against the best reported model version available via API in the charts and table. MCP-Atlas: The Opus 4.6 score has been updated to reflect revised grading methodology from Scale AI. SWE-bench Verified, Pro, and...