報告已發布2026年4月28日Last edited 2026年5月6日8 來源

GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4：Benchmark 比較

同一張可比較表入面，Claude Opus 4.7 喺 GPQA Diamond（94.2%）、HLE 無工具（46.9%）、SWE Bench Pro（64.3%）同 MCP Atlas（79.1%）領先；GPT 5.5 贏 Terminal Bench 2.0（82.7%），GPT 5.5 Pro 贏 HLE 有工具（57.2%）同 BrowseComp（90.1%）[6]。 Kimi K2.6 唔應該硬擺入同一場 head to head，但作為 coding 候選模型幾值得睇：Hugging Face 卡列出 SWE Bench Verified 80.2、SWE Bench Pro 58.6、Terminal Ben...

使用 Studio Global AI 搜尋並查核事實從「發現」瀏覽更多內容

17K0

Сравнение AI-моделей GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 по бенчмаркам — GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмаркахИллюстрация к сравнению GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 по ключевым AI-бенчмаркам.
AI 提示
Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмарках. Article summary: Единого победителя нет: Claude Opus 4.7 лидирует в GPQA Diamond — 94.2% — и HLE без инструментов — 46.9%, GPT 5.5 — в Terminal Bench 2.0 с 82.7%, а GPT 5.5 Pro — в HLE с инструментами и BrowseComp.. Topic tags: ai, llm benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2.6 vs GPT-5.5 vs DeepSeek V4](https://www.youtube.com/watch?v=hqPVqQtgWOc). 🤯xCreate 8.4K views • 1 day ago Live Playlist ()Mix (50+)](https://www.youtube.com/watch?v=3928" source context "Kimi K2.6 vs GPT-5.5 vs DeepSeek V4 - YouTube" Reference image 2: visual subject "# GPT-5.5vs Claude Opus 4.7. Get a detailed comparison of AI language modelsOpenAI's GPT-5.5andAnthropic's
openai.com

睇 AI model benchmark，最容易中伏嘅位係一句「邊個最強」講晒。今次 GPT-5.5、Claude Opus 4.7、Kimi K2.6 同 DeepSeek V4，答案其實要按任務拆開睇。

最接近「同枱比較」嘅資料，覆蓋 GPT-5.5、GPT-5.5 Pro、Claude Opus 4.7 同 DeepSeek-V4-Pro-Max；Kimi K2.6 嘅數字就要由 Hugging Face model card 同 eval 檔案補入，所以唔可以當成同一個 head-to-head 測試跑出嚟嘅結果 ^[6]^[25]^[37]。

仲有一個重要細節：共同表格入面嘅 DeepSeek 係 DeepSeek-V4-Pro-Max；另一個 SWE-Bench Verified 來源講嘅係 DeepSeek V4-Pro，兩者唔應該混為一談 ^[6]^[15]。

如果你只想快手揀模型

複雜 reasoning、但唔用工具： 先試 Claude Opus 4.7。佢喺 GPQA Diamond 同 Humanity’s Last Exam（HLE）無工具版本都領先 ^[6]。
Terminal / agentic 任務： GPT-5.5 最突出。Terminal-Bench 2.0 有 82.7%，高過 Claude Opus 4.7 嘅 69.4% 同 DeepSeek-V4-Pro-Max 嘅 67.9% ^[6]。
需要工具、瀏覽或外部操作嘅 reasoning： GPT-5.5 Pro 喺有資料嘅項目領先：HLE with tools 57.2%，BrowseComp 90.1% ^[6]。
Coding，加上想試可自行部署嘅權重： Kimi K2.6 要獨立評估。Hugging Face 卡列出 SWE-Bench Verified 80.2、SWE-Bench Pro 58.6、Terminal-Bench 2.0 66.7 ^[25]^[37]；另有來源指 K2.6 權重喺 Hugging Face，可用 vLLM、SGLang 或 KTransformers 跑 ^[7]。
成本比第一名更重要： DeepSeek V4 喺呢批 benchmark 行未攞第一，但公開價格係每 100 萬 input tokens $1.74、每 100 萬 output tokens $3.48；同源比較列出 GPT-5.5 為 $5/$30，Claude Opus 4.7 為 $5/$25 ^[14]^[19]。

Benchmark 總表

Benchmark	GPT-5.5	GPT-5.5 Pro	Claude Opus 4.7	DeepSeek V4	Kimi K2.6	目前可見領先者
GPQA Diamond	93.6% ^[6]	未列	94.2% ^[6]	DeepSeek-V4-Pro-Max 90.1% ^[6]	未列	Claude Opus 4.7 ^[6]
Humanity’s Last Exam，無工具	41.4% ^[6]	43.1% ^[6]	46.9% ^[6]	DeepSeek-V4-Pro-Max 37.7% ^[6]	未列	Claude Opus 4.7 ^[6]
Humanity’s Last Exam，有工具	52.2% ^[6]	57.2% ^[6]	54.7% ^[6]	DeepSeek-V4-Pro-Max 48.2% ^[6]	未列	GPT-5.5 Pro ^[6]
Terminal-Bench 2.0	82.7% ^[6]	未列	69.4% ^[6]	DeepSeek-V4-Pro-Max 67.9% ^[6]	66.7 ^[25]^[33]	GPT-5.5 ^[6]
SWE-Bench Pro / SWE Pro	58.6% ^[6]	未列	64.3% ^[6]	DeepSeek-V4-Pro-Max 55.4% ^[6]	58.6 ^[25]	Claude Opus 4.7 ^[6]
BrowseComp	84.4% ^[6]	90.1% ^[6]	79.3% ^[6]	DeepSeek-V4-Pro-Max 83.4% ^[6]	未列	GPT-5.5 Pro ^[6]
MCP Atlas / MCPAtlas Public	75.3% ^[6]	未列	79.1% ^[6]	DeepSeek-V4-Pro-Max 73.6% ^[6]	未列	Claude Opus 4.7 ^[6]
SWE-Bench Verified	未列	未列	87.6%，來自另一個比較 ^[15]	DeepSeek V4-Pro 80.6%，不是 Pro-Max ^[15]	80.2 ^[25]^[37]	未有同一條共同比較線 ^[15]^[25]^[37]

「未列」意思係相關來源冇提供該格數字，唔代表模型得零分。

Reasoning：Claude 無工具較強，GPT-5.5 Pro 用工具反超

喺 GPQA Diamond，Claude Opus 4.7 同 GPT-5.5 差距好細：94.2% 對 93.6%；DeepSeek-V4-Pro-Max 則係 90.1% ^[6]。去到 Humanity’s Last Exam 無工具版本，Claude 優勢明顯啲：46.9%，對比 GPT-5.5 41.4%、GPT-5.5 Pro 43.1%、DeepSeek-V4-Pro-Max 37.7% ^[6]。

但一開放工具，排序就變。HLE with tools 入面，GPT-5.5 Pro 有 57.2%，Claude Opus 4.7 有 54.7%，GPT-5.5 有 52.2%，DeepSeek-V4-Pro-Max 有 48.2% ^[6]。所以比較準確嘅講法係：純 reasoning 先睇 Claude；工具增強型 reasoning 先睇 GPT-5.5 Pro ^[6]。

Coding 同 agentic 任務：GPT-5.5 喺 Terminal-Bench 拉開距離

今次最搶眼嘅差距係 Terminal-Bench 2.0。GPT-5.5 做到 82.7%，明顯高過 Claude Opus 4.7 嘅 69.4% 同 DeepSeek-V4-Pro-Max 嘅 67.9% ^[6]。Kimi K2.6 嘅 model card 列出 Terminal-Bench 2.0 為 66.7；另一個 LLM Stats leaderboard 亦列 Kimi K2.6 為 0.667、Claude Opus 4.7 為 0.694 ^[25]^[33]。

SWE-Bench Pro / SWE Pro 就係另一幅圖：Claude Opus 4.7 以 64.3% 領先，GPT-5.5 為 58.6%，DeepSeek-V4-Pro-Max 為 55.4% ^[6]。Kimi K2.6 喺 Hugging Face 卡同樣列出 SWE-Bench Pro 58.6，但因為來源同測試批次唔係同一個共同表格，最好視為「值得測」而唔係直接判定同分 ^[6]^[25]。

SWE-Bench Verified 更加唔適合砌成四模型總排名。Kimi K2.6 有 80.2，來自 model card 同 eval 檔案 ^[25]^[37]；另一個 DeepSeek V4 來源列出 Claude Opus 4.7 為 87.6%、DeepSeek V4-Pro 為 80.6%，但嗰條比較唔係完整覆蓋 GPT-5.5，而且講嘅 DeepSeek 版本係 V4-Pro，唔係 V4-Pro-Max ^[15]。

逐個模型點睇

GPT-5.5 / GPT-5.5 Pro

GPT-5.5 最大亮點係 Terminal-Bench 2.0：82.7%，係共同表格中呢一行嘅最高分 ^[6]。GPT-5.5 Pro 唔係每一行都有數字，但有列出嘅地方都好強：HLE with tools 57.2%，BrowseComp 90.1%，兩者都係該行最高 ^[6]。

實務上，如果你做嘅係 terminal 入面多步執行、agent 操作、或者工程自動化任務，GPT-5.5 值得第一個試；如果任務要配合工具、搜尋或 browsing，GPT-5.5 Pro 會更有吸引力 ^[6]。

Claude Opus 4.7

Claude Opus 4.7 贏嘅範圍比較平均：GPQA Diamond 94.2%、HLE 無工具 46.9%、SWE-Bench Pro / SWE Pro 64.3%、MCP Atlas / MCPAtlas Public 79.1%，都係共同表格中該行第一 ^[6]。

不過，Claude 喺 Terminal-Bench 2.0 輸畀 GPT-5.5，喺 HLE with tools 同 BrowseComp 就輸畀 GPT-5.5 Pro ^[6]。所以如果你要揀一個「純推理」或者接近 SWE-Bench Pro 類 coding 任務嘅首選，Claude Opus 4.7 係好自然嘅候選；但做 terminal agent 或 browsing-heavy 任務，就唔一定係第一順位 ^[6]。

Kimi K2.6

Kimi K2.6 最大問題唔係分數低，而係資料來源唔同：佢唔喺主要共同比較表入面，所以唔應該硬同 GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro-Max 做一刀切排名 ^[6]^[25]^[37]。

但作為 coding 模型，Kimi K2.6 仍然值得留意。Hugging Face 卡列出 SWE-Bench Verified 80.2、SWE-Bench Pro 58.6、SWE-Bench Multilingual 76.7、Terminal-Bench 2.0 66.7、OSWorld-Verified 73.1 ^[25]^[37]。另外，有來源指 K2.6 權重喺 Hugging Face，可經 vLLM、SGLang 或 KTransformers 執行；對需要 self-hosted 或本地實驗嘅團隊，呢點係同純 API 模型好唔同嘅考慮 ^[7]。

DeepSeek V4

共同表格入面嘅 DeepSeek 係 DeepSeek-V4-Pro-Max ^[6]。喺列出嘅行入面，佢未有攞第一：GPQA Diamond 90.1%、HLE 無工具 37.7%、HLE 有工具 48.2%、Terminal-Bench 2.0 67.9%、SWE-Bench Pro / SWE Pro 55.4%、BrowseComp 83.4%、MCP Atlas / MCPAtlas Public 73.6% ^[6]。

DeepSeek V4 呢輪較突出嘅位，反而係價格。Mashable 同 DataCamp 列出 DeepSeek V4 API 價格為每 100 萬 input tokens $1.74、每 100 萬 output tokens $3.48；同一比較下，GPT-5.5 為 $5/$30，Claude Opus 4.7 為 $5/$25 ^[14]^[19]。如果你嘅產品或內部流程對成本非常敏感，DeepSeek V4 值得放入自己 eval；但單睇呢張 benchmark 表，就唔應該話佢係總冠軍 ^[6]^[14]^[19]。

比較時要記住嘅限制

冇一個測試同時完整覆蓋四個模型所有項目。 共同表格包括 GPT-5.5、GPT-5.5 Pro、Claude Opus 4.7、DeepSeek-V4-Pro-Max；Kimi K2.6 係由 Hugging Face model card 同 eval 檔案補入 ^[6]^[25]^[37]。
DeepSeek V4 有版本差異。 共同表格係 DeepSeek-V4-Pro-Max；SWE-Bench Verified 另一個數字就係 DeepSeek V4-Pro ^[6]^[15]。
GPT-5.5 Pro 唔係每行都有資料。 共同表格只喺部分 benchmark 列出 Pro，所以唔可以將佢喺 HLE with tools 或 BrowseComp 嘅優勢自動外推到全部測試 ^[6]。
Kimi K2.6 最好自己跑 eval。 佢嘅 Hugging Face 數字有參考價值，但同 GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro-Max 唔係同一張共同表格直接比較 ^[6]^[25]^[37]。

總結

如果只睇共同表格，Claude Opus 4.7 贏 GPQA Diamond、HLE 無工具、SWE-Bench Pro 同 MCP Atlas；GPT-5.5 贏 Terminal-Bench 2.0；GPT-5.5 Pro 贏 HLE 有工具同 BrowseComp ^[6]。

Kimi K2.6 係一個好值得 coding 團隊測試嘅候選，尤其係你重視可用權重、自行部署或本地實驗；但佢唔應該被當成已經同其他三個模型完成同場直跑 ^[7]^[25]^[37]。DeepSeek V4 喺呢批 benchmark 未係第一，但憑較低公開 API 價格，對成本敏感場景仍然值得納入評估 ^[6]^[14]^[19]。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查核事實

重點

同一張可比較表入面，Claude Opus 4.7 喺 GPQA Diamond（94.2%）、HLE 無工具（46.9%）、SWE Bench Pro（64.3%）同 MCP Atlas（79.1%）領先；GPT 5.5 贏 Terminal Bench 2.0（82.7%），GPT 5.5 Pro 贏 HLE 有工具（57.2%）同 BrowseComp（90.1%）[6]。
Kimi K2.6 唔應該硬擺入同一場 head to head，但作為 coding 候選模型幾值得睇：Hugging Face 卡列出 SWE Bench Verified 80.2、SWE Bench Pro 58.6、Terminal Bench 2.0 66.7 [25][37]。
DeepSeek V4 喺列出嘅 benchmark 行未有攞第一，但公開 API 價格較低：每 100 萬 input tokens $1.74、每 100 萬 output tokens $3.48；對比 GPT 5.5 為 $5/$30，Claude Opus 4.7 為 $5/$25 [14][19]。
要小心版本同來源：共同表格用 DeepSeek V4 Pro Max；另一個 SWE Bench Verified 數字講嘅係 DeepSeek V4 Pro，唔係 Pro Max [6][15]。

人們還問

「GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4：Benchmark 比較」的簡短答案是什麼？

首先要驗證的關鍵點是什麼？

接下來在實務上我該做什麼？

DeepSeek V4 喺列出嘅 benchmark 行未有攞第一，但公開 API 價格較低：每 100 萬 input tokens $1.74、每 100 萬 output tokens $3.48；對比 GPT 5.5 為 $5/$30，Claude Opus 4.7 為 $5/$25 [14][19]。

接下來我應該探索哪個相關主題？

繼續“Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6：2026 Benchmark 點睇先唔會睇錯”以獲得另一個角度和額外的引用。

開啟相關頁面

我應該將其與什麼進行比較？

對照「DeepSeek V4 唔止 1M context：MoE、長上下文同 API 遷移重點」交叉檢查此答案。

開啟相關頁面

繼續你的研究

Comparativa de benchmarks 2026 entre Claude Opus 4.7, GPT-5.5, DeepSeek V4 y Kimi K2.6

Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6：2026 Benchmark 點睇先唔會睇錯

Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6：2026 Benchmark 實證比較

DeepSeek V4 工程架构示意图，包含 1M 上下文、MoE 专家路由和 API 服务化元素

DeepSeek V4 唔止 1M context：MoE、長上下文同 API 遷移重點

Northwest vs Southeast Timber：替代性越高，點解係 larger; larger？

Northwest 與 Southeast Timber：替代性高，點解兩格都填 larger？

抽象 AI 晶片與多個聊天機器人平台競爭的示意圖，象徵 DeepSeek 挑戰 OpenAI、Claude、Gemini 與 Grok

DeepSeek 會唔會打低 OpenAI、Claude、Gemini、Grok？真正關鍵係成本同信任

DeepSeek 會唔會打低 OpenAI、Claude、Gemini、Grok？

研究對話

你2026年4月26日

研究問題

Изучите показатели GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 в бенчмарках. Пожалуйста, сделайте отчёт удобным для чтения.

Studio Global AI2026年4月26日40 來源

引用的答案

Я нашёл сопоставимые данные не по всем четырём моделям в одном и том же независимом тестовом прогоне. Поэтому ниже — аккуратная сводка: GPT-5.5, Claude Opus 4.7 и DeepSeek-V4-Pro-Max сравниваются по одной опубликованной таблице, а Kimi K2.6 добавлен по отдельной карточке модели; прямое сравнение с Kimi нужно считать ориентировочным, а не строго «один к одному» ^[9]^[15].

Key findings

Claude Opus 4.7 выглядит сильнейшим в GPQA Diamond: 94.2% против 93.6% у GPT-5.5 и 90.1% у DeepSeek-V4-Pro-Max ^[9].
Claude Opus 4.7 также лидирует в Humanity’s Last Exam без инструментов: 46.9% против 41.4% у GPT-5.5, 43.1% у GPT-5.5 Pro и 37.7% у DeepSeek-V4-Pro-Max ^[9].
GPT-5.5 Pro лидирует в Humanity’s Last Exam с инструментами: 57.2% против 54.7% у Claude Opus 4.7, 52.2% у GPT-5.5 и 48.2% у DeepSeek-V4-Pro-Max ^[9].
GPT-5.5 заметно впереди в Terminal-Bench 2.0: 82.7% против 69.4% у Claude Opus 4.7, 67.9% у DeepSeek-V4-Pro-Max и 66.7% у Kimi K2.6 ^[9]^[15].
Kimi K2.6 выглядит очень сильной открытой/доступной по весам моделью для coding-бенчмарков: карточка модели указывает 80.2 на SWE-Bench Verified, 58.6 на SWE-Bench Pro, 76.7 на SWE-Bench Multilingual и 66.7 на Terminal-Bench 2.0 ^[15].
DeepSeek-V4-Pro-Max в найденной таблице стабильно ниже GPT-5.5 и Claude Opus 4.7 по GPQA, HLE и Terminal-Bench 2.0, но остаётся близко к Claude в Terminal-Bench 2.0: 67.9% против 69.4% ^[9].

Сводная таблица

Бенчмарк	GPT-5.5	GPT-5.5 Pro	Claude Opus 4.7	DeepSeek-V4-Pro-Max	Kimi K2.6	Кто впереди
GPQA Diamond	93.6% ^[9]	н/д	94.2% ^[9]	90.1% ^[9]	н/д	Claude Opus 4.7
Humanity’s Last Exam, без инструментов	41.4% ^[9]	43.1% ^[9]	46.9% ^[9]	37.7% ^[9]	н/д	Claude Opus 4.7
Humanity’s Last Exam, с инструментами	52.2% ^[9]	57.2% ^[9]	54.7% ^[9]	48.2% ^[9]	н/д	GPT-5.5 Pro
Terminal-Bench 2.0	82.7% ^[9]	н/д	69.4% ^[9]	67.9% ^[9]	66.7 ^[15]	GPT-5.5
SWE-Bench Verified	н/д	н/д	н/д	н/д	80.2 ^[15]	недостаточно данных
SWE-Bench Pro	н/д	н/д	н/д	н/д	58.6 ^[15]	недостаточно данных
SWE-Bench Multilingual	н/д	н/д	н/д	н/д	76.7 ^[15]	недостаточно данных

По моделям

GPT-5.5

GPT-5.5 показывает лучший найденный результат в Terminal-Bench 2.0 среди сопоставленных моделей: 82.7% ^[9].
GPT-5.5 уступает Claude Opus 4.7 в GPQA Diamond: 93.6% против 94.2% ^[9].
GPT-5.5 уступает Claude Opus 4.7 в Humanity’s Last Exam без инструментов: 41.4% против 46.9% ^[9].
GPT-5.5 Pro, отдельный более сильный режим/вариант в найденной таблице, выходит на первое место в HLE с инструментами: 57.2% ^[9].

Claude Opus 4.7

Claude Opus 4.7 — лидер по GPQA Diamond среди моделей в найденной таблице: 94.2% ^[9].
Claude Opus 4.7 — лидер по HLE без инструментов: 46.9% ^[9].
Claude Opus 4.7 занимает второе место в HLE с инструментами после GPT-5.5 Pro: 54.7% против 57.2% ^[9].
В Terminal-Bench 2.0 Claude Opus 4.7 значительно уступает GPT-5.5: 69.4% против 82.7% ^[9].

Kimi K2.6

Kimi K2.6 имеет сильный профиль в coding-задачах: 80.2 на SWE-Bench Verified, 58.6 на SWE-Bench Pro и 76.7 на SWE-Bench Multilingual ^[15].
Kimi K2.6 набирает 66.7 в Terminal-Bench 2.0, что близко к DeepSeek-V4-Pro-Max 67.9 и Claude Opus 4.7 69.4, но заметно ниже GPT-5.5 82.7 ^[9]^[15].
Kimi K2.6 в найденных источниках описывается как новая сильная open-weights модель, а её карточка модели приводит отдельную таблицу результатов по coding и agentic-бенчмаркам ^[14]^[15].

DeepSeek V4

В найденной сопоставимой таблице указана именно версия DeepSeek-V4-Pro-Max, поэтому выводы по DeepSeek V4 лучше читать как выводы по этой конкретной версии, а не обязательно по всей линейке V4 ^[9].
DeepSeek-V4-Pro-Max показывает 90.1% на GPQA Diamond, что ниже GPT-5.5 93.6% и Claude Opus 4.7 94.2% ^[9].
DeepSeek-V4-Pro-Max показывает 37.7% на HLE без инструментов и 48.2% на HLE с инструментами, что ниже GPT-5.5, GPT-5.5 Pro и Claude Opus 4.7 в той же таблице ^[9].
В Terminal-Bench 2.0 DeepSeek-V4-Pro-Max набирает 67.9%, что почти на уровне Claude Opus 4.7 69.4%, но существенно ниже GPT-5.5 82.7% ^[9].

Evidence notes

Самая полезная найденная таблица сравнивает DeepSeek-V4-Pro-Max, GPT-5.5, GPT-5.5 Pro и Claude Opus 4.7 по GPQA Diamond, HLE и Terminal-Bench 2.0 ^[9].
Для Kimi K2.6 наиболее конкретные найденные цифры идут из карточки модели: Terminal-Bench 2.0 — 66.7, SWE-Bench Pro — 58.6, SWE-Bench Multilingual — 76.7, SWE-Bench Verified — 80.2 и OSWorld-Verified — 73.1 ^[15].
Источник по GPT-5.5 и Claude Opus 4.7 также указывает даты релиза: GPT-5.5 — 23 апреля 2026 года, Claude Opus 4.7 — 16 апреля 2026 года ^[10].

Limitations / uncertainty

Insufficient evidence для полностью строгого сравнения всех четырёх моделей в одном независимом прогоне с одинаковыми настройками, потому что Kimi K2.6 не присутствует в основной найденной таблице вместе с GPT-5.5, Claude Opus 4.7 и DeepSeek-V4-Pro-Max ^[9]^[15].
Insufficient evidence для уверенного сравнения всех четырёх моделей по SWE-Bench Verified, потому что найденные конкретные SWE-Bench-цифры относятся к Kimi K2.6, а сопоставимые значения для GPT-5.5, Claude Opus 4.7 и DeepSeek-V4-Pro-Max в доступных фрагментах не были полно представлены ^[15].
Результаты по DeepSeek относятся к варианту DeepSeek-V4-Pro-Max, поэтому их не следует автоматически переносить на все версии DeepSeek V4 ^[9].

Summary

Если смотреть только на найденные сопоставимые бенчмарки, Claude Opus 4.7 сильнее в GPQA и HLE без инструментов, GPT-5.5/GPT-5.5 Pro сильнее в Terminal-Bench 2.0 и HLE с инструментами, а DeepSeek-V4-Pro-Max держится близко к Claude в Terminal-Bench, но уступает в reasoning-тестах ^[9]. Kimi K2.6 выглядит особенно интересной для coding-сценариев благодаря 80.2 на SWE-Bench Verified и 58.6 на SWE-Bench Pro, но её нельзя строго ранжировать против всех трёх остальных моделей без единого общего тестового прогона ^[15].

來源

[6] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com
BenchmarkDeepSeek-V4-Pro-MaxGPT-5.5GPT-5.5 Pro, where shownClaude Opus 4.7Best result among these GPQA Diamond90.1%93.6%—94.2%Claude Opus 4.7 Humanity’s Last Exam, no tools37.7%41.4%43.1%46.9%Claude Opus 4.7 Humanity’s Last Exam, with tools48.2%52.2%57.2%54...
[7] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4 - Verdent AIverdent.ai
Yes. K2.6 weights are on Hugging Face and run on vLLM, SGLang, or KTransformers. Minimum viable hardware is 4× H100 for the INT4 variant at reduced context. Claude and GPT-5.4 are API-only — there is no self-hosted path. If data sovereignty is a requirement...
[14] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com
Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...
[15] DeepSeek V4 Preview: The Complete 2026 Guide - o-mega | AIo-mega.ai
7. Head-to-Head: DeepSeek V4 vs Claude Opus 4.7 Claude Opus 4.7, released just eight days before DeepSeek V4 on April 16, represents Anthropic's most capable model and the current leader in agentic coding tasks. The comparison with V4-Pro reveals a more nua...
[19] DeepSeek V4: Features, Benchmarks, and Comparisonsdatacamp.com
DeepSeek V4 vs Competitors Over the last week, we’ve seen the release of OpenAI's GPT-5.5 and Anthropic's Claude Opus 4.7. While those models boast top-tier capabilities, especially in long-context reasoning and agentic coding, DeepSeek V4 competes heavily...
[25] moonshotai/Kimi-K2.6 - Hugging Facehuggingface.co
OSWorld-Verified 73.1 75.0 72.7 63.3 Coding Terminal-Bench 2.0 (Terminus-2) 66.7 65.4 65.4 68.5 50.8 SWE-Bench Pro 58.6 57.7 53.4 54.2 50.7 SWE-Bench Multilingual 76.7 77.8 76.9 73.0 SWE-Bench Verified 80.2 80.8 80.6 76.8 SciCode 52.2 56.6 51.9 58.9 48.7 OJ...
[33] Terminal-Bench 2.0 Leaderboardllm-stats.com
Model Score Size Context Cost License --- --- --- 1 Anthropic Claude Mythos Preview Anthropic 0.820 — — $25.00 / $125.00 2 OpenAI GPT-5.3 Codex OpenAI 0.773 — 400K $1.75 / $14.00 3 OpenAI GPT-5.4 OpenAI 0.751 — 1.0M $2.50 / $15.00 4 Anthropic Claude Opus 4....
[37] .eval_results/swe_bench_verified.yaml · moonshotai/Kimi-K2.6 at mainhuggingface.co
Hugging Face's logo moonshotai / Kimi-K2.6 like 1.04k Follow Moonshot AI 9.2k bigeagle's picture --- - dataset: id: SWE-bench/SWE-bench\ Verified task\ id: swe\ bench\ %\ resolved value: 80.2 date: '2026-04-20' source: url: name: Model Card user: SaylorTwift

熱門發現

報告已發布2026年4月28日Last edited 2026年5月6日8 來源