报告已发布2026年4月29日Last edited 2026年5月6日5 来源

Cara Membaca Benchmark GPT-5.5, Claude Opus 4.7, DeepSeek V4, dan Kimi K2.6

Titik temu publik yang paling jelas untuk keempat model adalah Terminal Bench 2.0: GPT 5.5 mencatat 82,7%, Claude Opus 4.7 69,4%, DeepSeek V4 Pro Max 67,9%, dan Kimi K2.6 Thinking 66,7%.[29][30][6] Tabel OpenAI menunjukkan GPT 5.5 unggul atas Claude Opus 4.7 pada benchmark yang dicantumkan; tabel DeepSeek menunjukka...

使用 Studio Global AI 搜索并核查事实从“发现”浏览更多内容

17K0

GPT-5.5、Claude Opus 4.7、DeepSeek V4 和 Kimi K2.6 的基准测试对比示意图 — GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 基准测试对比：哪些结论站得住AI 生成插图：多模型基准测试对比场景。
AI 提示
Create a landscape editorial hero image for this Studio Global article: GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 基准测试对比：哪些结论站得住. Article summary: 最稳妥的读法是：目前四者能较清楚横向对齐的是 Terminal Bench 2.0，GPT 5.5 以 82.7% 领先；但公开分数来自不同厂商表，不能直接合成为绝对总排名。[29][30][6]. Topic tags: ai, llm benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "核心结论：2026年5月的AI模型排行榜呈现"三足鼎立"格局：GPT-5.5领跑Agentic工作流（Terminal-Bench 82.7%），Claude Opus 4.7在复杂编程任务上" source context "2026年5月AI模型排行榜：GPT-5.5、Claude Opus 4.7、DeepSeek V4三大阵营深度对比-CSDN博客" Reference image 2: visual subject "核心结论：2026年5月的AI模型排行榜呈现"三足鼎立"格局：GPT-5.5领跑Agentic工作流（Terminal-Bench 82.7%），Claude Opus 4.7在复杂编程任务上" source context "2026年5月AI模型排行榜：GPT-5.5、Claude Opus 4.7、DeepSeek V4三大阵营深度对比-CSDN博客" Style: premium digital editorial illustration, source-backed research mood, clean composition, high detail,
openai.com

Benchmark publik berguna untuk mempersempit pilihan model bahasa besar atau LLM. Namun untuk GPT-5.5, Claude Opus 4.7, DeepSeek V4, dan Kimi K2.6, angka yang tersedia saat ini belum bisa langsung disusun menjadi satu papan skor final. Data yang bisa dirujuk berasal dari halaman peluncuran dan system card OpenAI, dokumentasi API Anthropic, serta model card DeepSeek; sumber-sumber ini bukan hasil uji empat model secara serentak oleh pihak ketiga dengan versi, konfigurasi, dan aturan evaluasi yang sama.^[29]^[27]^[13]^[6]

Dengan kata lain: benchmark bisa menjadi saringan awal, bukan vonis terakhir.

Samakan dulu versi modelnya

Agar pembacaan tidak campur aduk, artikel ini membatasi DeepSeek V4 sebagai DS-V4-Pro Max dan Kimi K2.6 sebagai K2.6 Thinking. Keduanya adalah nama kolom yang muncul langsung dalam model card DeepSeek.^[6]

Pembedaan ini penting. Di tabel DeepSeek, kolom GPT dan Claude yang muncul adalah GPT-5.4 xHigh dan Opus-4.6 Max, bukan GPT-5.5 dan Claude Opus 4.7 yang menjadi fokus artikel ini.^[6] Jadi, tabel DeepSeek tidak bisa dipakai untuk menyimpulkan secara penuh apakah DeepSeek V4-Pro Max mengalahkan GPT-5.5 atau Claude Opus 4.7.

Sementara itu, dokumentasi publik Anthropic untuk Claude Opus 4.7 lebih banyak menjelaskan fitur dan cara pemakaian API, termasuk beta


task budgets

, bukan tabel benchmark empat arah yang bisa langsung digabung dengan data OpenAI dan DeepSeek.^[13]

Titik temu paling aman: Terminal-Bench 2.0

Dalam materi yang tersedia, benchmark yang paling jelas bisa disejajarkan untuk keempat model adalah Terminal-Bench 2.0. Berdasarkan tabel publik yang dikutip, urutannya adalah:

Model	Terminal-Bench 2.0	Sumber
GPT-5.5	82,7%	OpenAI dan ringkasan MLQ.ai ^[29]^[30]
Claude Opus 4.7	69,4%	OpenAI ^[29]
DeepSeek V4-Pro Max	67,9%	Model card DeepSeek V4-Pro ^[6]
Kimi K2.6 Thinking	66,7%	Model card DeepSeek V4-Pro ^[6]

Kesimpulan yang aman dari tabel ini cukup sempit, tetapi berguna: pada Terminal-Bench 2.0, GPT-5.5 unggul jelas, Claude Opus 4.7 berada di posisi kedua, sementara DeepSeek V4-Pro Max dan Kimi K2.6 Thinking berdekatan.^[29]^[30]^[6]

Namun, satu benchmark tidak otomatis berarti satu model akan selalu lebih baik untuk semua kebutuhan—misalnya coding di repositori internal, agen yang memakai banyak tool, penelusuran web, pembuatan dokumen, atau tugas dengan batas biaya dan latensi tertentu. Untuk keputusan produk, hasil ini tetap perlu diuji ulang dalam kondisi yang sama.

GPT-5.5 vs Claude Opus 4.7 menurut tabel OpenAI

Halaman peluncuran OpenAI memuat beberapa benchmark yang membandingkan GPT-5.5 dengan Claude Opus 4.7. Pada item yang dicantumkan di tabel tersebut, skor GPT-5.5 lebih tinggi daripada Claude Opus 4.7.^[29]

Benchmark dalam tabel OpenAI	GPT-5.5	Claude Opus 4.7
Terminal-Bench 2.0	82,7%	69,4%
GDPval wins or ties	84,9%	80,3%
BrowseComp	84,4%	79,3%
FrontierMath Tier 1–3	51,7%	43,8%
FrontierMath Tier 4	35,4%	22,9%
CyberGym	81,8%	73,1%

Dari sini, kesimpulan yang dapat dipertanggungjawabkan adalah: di benchmark yang ditampilkan OpenAI, GPT-5.5 berada di atas Claude Opus 4.7.^[29] System card OpenAI juga memosisikan GPT-5.5 untuk pekerjaan dunia nyata yang kompleks, termasuk menulis kode, riset online, analisis informasi, membuat dokumen dan spreadsheet, serta berpindah antar-tool untuk menyelesaikan tugas.^[27]

Tetap ada batasannya: ini adalah tabel dalam materi OpenAI, bukan uji independen empat model dengan harness dan pengaturan yang sama.^[29]

DeepSeek V4-Pro Max vs Kimi K2.6 Thinking menurut model card DeepSeek

Model card DeepSeek V4-Pro menyediakan perbandingan langsung antara DS-V4-Pro Max dan K2.6 Thinking di sejumlah benchmark.^[6] Dalam tabel itu, DeepSeek V4-Pro Max unggul di mayoritas item, tetapi Kimi juga punya dua titik unggul yang jelas.^[6]

Benchmark dalam model card DeepSeek	DeepSeek V4-Pro Max	Kimi K2.6 Thinking	Unggul di tabel
MMLU-Pro	87,5	87,1	DeepSeek
SimpleQA-Verified	57,9	36,9	DeepSeek
Chinese-SimpleQA	84,4	75,9	DeepSeek
GPQA Diamond	90,1	90,5	Kimi
HLE	37,7	36,4	DeepSeek
LiveCodeBench	93,5	89,6	DeepSeek
HMMT 2026 Feb	95,2	92,7	DeepSeek
IMOAnswerBench	89,8	86,0	DeepSeek
Apex Shortlist	90,2	75,5	DeepSeek
SWE Pro	55,4	58,6	Kimi
Terminal-Bench 2.0	67,9	66,7	DeepSeek

Cara baca yang paling hati-hati: DS-V4-Pro Max lebih tinggi daripada K2.6 Thinking pada mayoritas benchmark yang dicantumkan DeepSeek, tetapi Kimi K2.6 Thinking unggul di GPQA Diamond dan SWE Pro.^[6]

Perlu juga melihat besar-kecilnya selisih. Pada MMLU-Pro dan Terminal-Bench 2.0, jaraknya tipis. Untuk keputusan teknis, arah keunggulan saja tidak cukup; jenis tugas, data uji, toleransi error, biaya, dan stabilitas juga perlu masuk pertimbangan.

Mengapa belum bisa dibuat “juara umum” empat model

Kesalahan umum saat membaca benchmark AI adalah mencampur beberapa tabel dari sumber berbeda, lalu menjumlahkannya seolah-olah semua angka berada dalam satu kompetisi yang sama. Untuk empat model ini, pendekatan seperti itu belum didukung data publik.

Ada tiga alasan utama:

Versi model tidak sama. Tabel OpenAI membandingkan GPT-5.5 dengan Claude Opus 4.7, sedangkan tabel DeepSeek mencantumkan GPT-5.4 xHigh dan Opus-4.6 Max sebagai kolom GPT dan Claude.^[29]^[6]
Sumber dan kerangka uji tidak sama. Data berasal dari halaman peluncuran, system card, dokumentasi API, dan model card vendor—bukan satu pengujian pihak ketiga yang menjalankan keempat model secara seragam.^[29]^[27]^[13]^[6]
Benchmark mengukur hal berbeda. GDPval, BrowseComp, FrontierMath, CyberGym, MMLU-Pro, GPQA Diamond, SWE Pro, dan Terminal-Bench 2.0 tidak menilai kemampuan yang identik. Tanpa bobot yang jelas, menjumlahkannya menjadi satu skor total justru bisa menutupi perbedaan kebutuhan nyata.^[29]^[6]

Jadi, benchmark publik lebih tepat dipakai sebagai peta awal: membantu menentukan model mana yang layak diuji lebih lanjut, bukan langsung menentukan model mana yang harus dipakai.

Cara memakai angka ini untuk memilih model

Untuk tim produk, pendekatan yang lebih praktis adalah membagi evaluasi menjadi tiga lapis.

Lapisan benchmark bersama. Saat ini, irisan empat model yang paling jelas adalah Terminal-Bench 2.0. Di sana, GPT-5.5 memimpin.^[29]^[30]^[6]
Lapisan perbandingan internal vendor. Tabel OpenAI mendukung kesimpulan bahwa GPT-5.5 lebih tinggi dari Claude Opus 4.7 pada item yang dicantumkan. Model card DeepSeek mendukung kesimpulan bahwa DS-V4-Pro Max lebih tinggi dari K2.6 Thinking pada mayoritas item yang dicantumkan.^[29]^[6]
Lapisan uji ulang bisnis. Pecah kebutuhan Anda menjadi coding, agentic workflow, reasoning, retrieval, tool use, latensi, biaya, dan reliability. Lalu jalankan ulang dengan prompt, konteks, akses tool, batas token, dan aturan penilaian yang sama.

Jika produk Anda bergantung pada alur agen yang panjang, fitur


task budgets

di Claude Opus 4.7 layak diuji tersendiri. Dokumentasi Anthropic menjelaskan bahwa task budget memberi target token kasar untuk satu agentic loop penuh, termasuk thinking, tool calls, tool results, dan final output; model juga melihat hitung mundur anggaran untuk memprioritaskan pekerjaan dan menyelesaikan tugas dengan lebih terkendali.^[13]

Jika kebutuhan Anda lebih dekat ke coding kompleks, riset online, pembuatan dokumen atau spreadsheet, dan kerja lintas tool, deskripsi GPT-5.5 dalam system card OpenAI lebih langsung berkaitan dengan skenario tersebut.^[27] Namun, model yang menang di tabel publik tetap harus diuji di dalam repositori, toolchain, batas izin, dan prosedur pemulihan gagal yang benar-benar Anda pakai.

Kesimpulan paling aman

Untuk Terminal-Bench 2.0 saja: GPT-5.5 berada di posisi pertama, diikuti Claude Opus 4.7, DeepSeek V4-Pro Max, lalu Kimi K2.6 Thinking.^[29]^[30]^[6]
Dalam tabel OpenAI: GPT-5.5 lebih tinggi daripada Claude Opus 4.7 pada benchmark yang dicantumkan.^[29]
Dalam model card DeepSeek: DS-V4-Pro Max lebih tinggi daripada Kimi K2.6 Thinking pada mayoritas item, tetapi Kimi unggul di GPQA Diamond dan SWE Pro.^[6]
Untuk ranking mutlak empat model: bukti belum cukup. Belum ada data publik yang menunjukkan uji lengkap oleh pihak ketiga dengan versi, konfigurasi, izin tool, konteks, dan anggaran reasoning yang benar-benar sama untuk keempat model.^[29]^[13]^[6]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜索并核查事实

要点

Titik temu publik yang paling jelas untuk keempat model adalah Terminal Bench 2.0: GPT 5.5 mencatat 82,7%, Claude Opus 4.7 69,4%, DeepSeek V4 Pro Max 67,9%, dan Kimi K2.6 Thinking 66,7%.[29][30][6]
Tabel OpenAI menunjukkan GPT 5.5 unggul atas Claude Opus 4.7 pada benchmark yang dicantumkan; tabel DeepSeek menunjukkan DS V4 Pro Max unggul atas Kimi K2.6 Thinking pada mayoritas item, meski Kimi memimpin di GPQA Di...
Data publik tidak boleh dijahit menjadi satu “juara umum” karena versi, sumber, konfigurasi, dan jenis benchmark tidak seragam.[29][27][13][6]

人们还问

“Cara Membaca Benchmark GPT-5.5, Claude Opus 4.7, DeepSeek V4, dan Kimi K2.6”的简短答案是什么？

Titik temu publik yang paling jelas untuk keempat model adalah Terminal Bench 2.0: GPT 5.5 mencatat 82,7%, Claude Opus 4.7 69,4%, DeepSeek V4 Pro Max 67,9%, dan Kimi K2.6 Thinking 66,7%.[29][30][6]

首先要验证的关键点是什么？

接下来在实践中我应该做什么？

Data publik tidak boleh dijahit menjadi satu “juara umum” karena versi, sumber, konfigurasi, dan jenis benchmark tidak seragam.[29][27][13][6]

接下来我应该探索哪个相关主题？

继续“Claude Opus 4.7、GPT-5.5、DeepSeek V4 与 Kimi K2.6：2026 基准对比与选型结论”以获得另一个角度和额外的引用。

打开相关页面

我应该将其与什么进行比较？

对照“DeepSeek V4 工程解析：1M 上下文、MoE 与 API 迁移要点”交叉检查此答案。

打开相关页面

继续你的研究

Comparativa de benchmarks 2026 entre Claude Opus 4.7, GPT-5.5, DeepSeek V4 y Kimi K2.6

Claude Opus 4.7、GPT-5.5、DeepSeek V4 与 Kimi K2.6：2026 基准对比与选型结论

Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6：2026 基准测试怎么读

DeepSeek V4 工程架构示意图，包含 1M 上下文、MoE 专家路由和 API 服务化元素

DeepSeek V4 工程解析：1M 上下文、MoE 与 API 迁移要点

Northwest vs. Southeast Timber 弹性题解：为什么是 larger; larger

Northwest 与 Southeast Timber：替代性越高，为什么答案是 larger; larger？

抽象 AI 晶片與多個聊天機器人平台競爭的示意圖，象徵 DeepSeek 挑戰 OpenAI、Claude、Gemini 與 Grok

DeepSeek会打败OpenAI、Claude、Gemini和Grok吗？关键不只在榜单

研究对话

你2026年4月25日

研究问题

我想研究并比较 GPT-5.5、Claude Opus 4.7、DeepSeek V4 和 Kimi K2.6 的基准测试表现。

Studio Global AI2026年4月25日40 来源

引用的答案

可以，但要分开看。就我目前核实到的公开数字，四家里能直接横向对齐的共享基准其实很少；最清楚的一项是 Terminal-Bench 2.0：GPT-5.5 为 82.7%，Claude Opus 4.7 为 69.4%，DeepSeek V4-Pro Max 为 67.9%，Kimi K2.6 Thinking 为 66.7%。^[5]^[12] 这些数字主要来自 OpenAI 的 GPT-5.5 发布页和 DeepSeek V4-Pro 模型卡中的厂商对比表，所以可以做“有保留的比较”，但不足以稳妥给出一个统一总排名。^[5]^[12]

Key findings

可直接对齐的共享基准	GPT-5.5	Claude Opus 4.7	DeepSeek V4-Pro Max	Kimi K2.6 Thinking
Terminal-Bench 2.0 ^[5]^[12]	82.7%	69.4%	67.9%	66.7%

在 OpenAI 官方对比表中，凡是同时给出 GPT-5.5 和 Claude Opus 4.7 分数的项目，GPT-5.5 都更高，包括 Terminal-Bench 2.0（82.7% vs 69.4%）、GDPval wins or ties（84.9% vs 80.3%）、BrowseComp（84.4% vs 79.3%）、FrontierMath Tier 1–3（51.7% vs 43.8%）、FrontierMath Tier 4（35.4% vs 22.9%）和 CyberGym（81.8% vs 73.1%）。^[5]
在 DeepSeek 官方模型卡的对比表中，DeepSeek V4-Pro Max 对 Kimi K2.6 Thinking 在多数已列项目上更高，包括 MMLU-Pro（87.5 vs 87.1）、SimpleQA-Verified（57.9 vs 36.9）、LiveCodeBench（93.5 vs 89.6）、HMMT 2026 Feb（95.2 vs 92.7）、IMOAnswerBench（89.8 vs 86.0）、Apex Shortlist（90.2 vs 75.5）以及 Terminal-Bench 2.0（67.9 vs 66.7）。^[12]
同一张 DeepSeek 对比表里，Kimi K2.6 Thinking 也有少数领先项，例如 GPQA Diamond（90.5 vs 90.1）和 SWE Pro（58.6 vs 55.4）。^[12]
Anthropic 我目前能直接核实到的官方 Opus 4.7 页面，重点是功能和规格更新：Claude Opus 4.7 被描述为其“最强的通用可用模型”，支持 1M token 上下文、128k 最大输出，以及自适应 thinking 和 task budgets 等能力。^[1] 但在我抓取到的官方页面内容里，没有像 OpenAI 或 DeepSeek 那样展开一张完整、可直接引用的 benchmark 总表。^[1]

Evidence notes

这次比较最好拆成两层：
1. 共享 benchmark 的直接对比，目前最可靠的是 Terminal-Bench 2.0。^[5]^[12]
2. 厂商自报表里的组内对比，比如 GPT-5.5 vs Claude Opus 4.7，或 DeepSeek V4-Pro Max vs Kimi K2.6 Thinking。^[5]^[12]
OpenAI 的表比较的是 GPT-5.5 与 Claude Opus 4.7、Gemini 3.1 Pro 等模型。^[5]
DeepSeek 的表比较的是 DeepSeek V4-Pro Max 与 Kimi K2.6 Thinking、GPT-5.4 xHigh、Claude Opus 4.6 Max、Gemini 3.1 Pro High 等模型。^[12]
因此，除了像 Terminal-Bench 2.0 这种真正共享的基准外，其他分数不适合被简单拼成一个“总分榜”。这是方法上的判断，不是某一家模型一定更强的确定性结论。

Limitations / uncertainty

我目前核实到的高权威公开数字，主要集中在 OpenAI 的 GPT-5.5 发布页、Anthropic 的 Opus 4.7 功能页，以及 DeepSeek 的 V4-Pro 模型卡。^[1]^[5]^[12]
最大限制是：这些表并不是同一第三方、同一 harness、同一工具权限、同一 reasoning effort 下的完整四方对测。^[5]^[12]
尤其是 GPT-5.5 / Claude Opus 4.7 的官方表，与 DeepSeek V4 / Kimi K2.6 的官方表，不共用同一组对手版本；前者是 GPT-5.5 对 Opus 4.7，后者是 DeepSeek V4-Pro Max 对 Kimi K2.6 Thinking、GPT-5.4 xHigh、Opus 4.6 Max。^[5]^[12]
所以如果问题是“谁是四者里的绝对 benchmark 第一”，目前公开证据仍然是：Insufficient evidence.

Summary

如果你只看当前可直接对齐的共享公开基准，GPT-5.5 在这四个里最强，至少在 Terminal-Bench 2.0 上明显领先。^[5]^[12]
如果你只看 DeepSeek V4-Pro Max vs Kimi K2.6 Thinking，DeepSeek 在其官方表列出的多数项目上占优，但 Kimi 在 GPQA Diamond 和 SWE Pro 上有亮点。^[12]
对 Claude Opus 4.7，目前能较有把握地说：在 OpenAI 官方表里，它落后于 GPT-5.5；但缺少与 DeepSeek V4 和 Kimi K2.6 的同版、同条件、完整第三方对照，因此不宜直接下四方统一总排名。^[5]

如果你愿意，我下一步可以直接帮你整理成一张更实用的对比表，按 Coding / Agent / Reasoning / Vision 四个维度分开排，并把“共享 benchmark”和“厂商自报 benchmark”明确分栏。

来源

[6] deepseek-ai/DeepSeek-V4-Pro - Hugging Facehuggingface.co
Opus-4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High K2.6 Thinking GLM-5.1 Thinking DS-V4-Pro Max :---: :---: :---: Knowledge & Reasoning MMLU-Pro (EM) 89.1 87.5 91.0 87.1 86.0 87.5 SimpleQA-Verified (Pass@1) 46.2 45.3 75.6 36.9 38.1 57.9 Chinese-SimpleQA (Pass@1...
[13] What's new in Claude Opus 4.7 - Claude API Docsplatform.claude.com
Task budgets (beta) Claude Opus 4.7 introduces task budgets. A task budget gives Claude a rough estimate of how many tokens to target for a full agentic loop, including thinking, tool calls, tool results, and final output. The model sees a running countdown...
[27] GPT-5.5 System Card - OpenAIopenai.com
GPT-5.5 System Card OpenAI Skip to main content Log inTry ChatGPT(opens in a new window) Research Products Business Developers Company Foundation(opens in a new window) Try ChatGPT(opens in a new window)Login OpenAI April 23, 2026 SafetyPublication GPT‑5.5...
[29] Introducing GPT-5.5openai.com
Introducing GPT-5.5 OpenAI Skip to main content Log inTry ChatGPT(opens in a new window) Research Products Business Developers Company Foundation(opens in a new window) Introducing GPT-5.5 OpenAI Table of contents Model capabilities Next-generation inferenc...
[30] OpenAI Launches GPT-5.5 as Its Most Advanced AI Model Yet - MLQ.aimlq.ai
Key Points OpenAI launched GPT-5.5 on April 24, 2026, highlighting improvements in agentic coding, computer use, knowledge tasks and scientific research. The model scores 82.7% on Terminal-Bench 2.0 and 73.1% on Expert-SWE benchmarks14. Available now to Plu...

热门发现

报告已发布2026年4月29日Last edited 2026年5月6日5 来源

Cara Membaca Benchmark GPT-5.5, Claude Opus 4.7, DeepSeek V4, dan Kimi K2.6

使用 Studio Global AI 搜索并核查事实从“发现”浏览更多内容

17K0

Dengan kata lain: benchmark bisa menjadi saringan awal, bukan vonis terakhir.

Samakan dulu versi modelnya

Sementara itu, dokumentasi publik Anthropic untuk Claude Opus 4.7 lebih banyak menjelaskan fitur dan cara pemakaian API, termasuk beta


task budgets

, bukan tabel benchmark empat arah yang bisa langsung digabung dengan data OpenAI dan DeepSeek.^[13]

Titik temu paling aman: Terminal-Bench 2.0

Dalam materi yang tersedia, benchmark yang paling jelas bisa disejajarkan untuk keempat model adalah Terminal-Bench 2.0. Berdasarkan tabel publik yang dikutip, urutannya adalah:

Model	Terminal-Bench 2.0	Sumber
GPT-5.5	82,7%	OpenAI dan ringkasan MLQ.ai ^[29]^[30]
Claude Opus 4.7	69,4%	OpenAI ^[29]
DeepSeek V4-Pro Max	67,9%	Model card DeepSeek V4-Pro ^[6]
Kimi K2.6 Thinking	66,7%	Model card DeepSeek V4-Pro ^[6]

GPT-5.5 vs Claude Opus 4.7 menurut tabel OpenAI

Benchmark dalam tabel OpenAI	GPT-5.5	Claude Opus 4.7
Terminal-Bench 2.0	82,7%	69,4%
GDPval wins or ties	84,9%	80,3%
BrowseComp	84,4%	79,3%
FrontierMath Tier 1–3	51,7%	43,8%
FrontierMath Tier 4	35,4%	22,9%
CyberGym	81,8%	73,1%

Tetap ada batasannya: ini adalah tabel dalam materi OpenAI, bukan uji independen empat model dengan harness dan pengaturan yang sama.^[29]

DeepSeek V4-Pro Max vs Kimi K2.6 Thinking menurut model card DeepSeek

Benchmark dalam model card DeepSeek	DeepSeek V4-Pro Max	Kimi K2.6 Thinking	Unggul di tabel
MMLU-Pro	87,5	87,1	DeepSeek
SimpleQA-Verified	57,9	36,9	DeepSeek
Chinese-SimpleQA	84,4	75,9	DeepSeek
GPQA Diamond	90,1	90,5	Kimi
HLE	37,7	36,4	DeepSeek
LiveCodeBench	93,5	89,6	DeepSeek
HMMT 2026 Feb	95,2	92,7	DeepSeek
IMOAnswerBench	89,8	86,0	DeepSeek
Apex Shortlist	90,2	75,5	DeepSeek
SWE Pro	55,4	58,6	Kimi
Terminal-Bench 2.0	67,9	66,7	DeepSeek

Mengapa belum bisa dibuat “juara umum” empat model

Ada tiga alasan utama:

Versi model tidak sama. Tabel OpenAI membandingkan GPT-5.5 dengan Claude Opus 4.7, sedangkan tabel DeepSeek mencantumkan GPT-5.4 xHigh dan Opus-4.6 Max sebagai kolom GPT dan Claude.^[29]^[6]
Sumber dan kerangka uji tidak sama. Data berasal dari halaman peluncuran, system card, dokumentasi API, dan model card vendor—bukan satu pengujian pihak ketiga yang menjalankan keempat model secara seragam.^[29]^[27]^[13]^[6]
Benchmark mengukur hal berbeda. GDPval, BrowseComp, FrontierMath, CyberGym, MMLU-Pro, GPQA Diamond, SWE Pro, dan Terminal-Bench 2.0 tidak menilai kemampuan yang identik. Tanpa bobot yang jelas, menjumlahkannya menjadi satu skor total justru bisa menutupi perbedaan kebutuhan nyata.^[29]^[6]

Jadi, benchmark publik lebih tepat dipakai sebagai peta awal: membantu menentukan model mana yang layak diuji lebih lanjut, bukan langsung menentukan model mana yang harus dipakai.

Cara memakai angka ini untuk memilih model

Untuk tim produk, pendekatan yang lebih praktis adalah membagi evaluasi menjadi tiga lapis.

Lapisan benchmark bersama. Saat ini, irisan empat model yang paling jelas adalah Terminal-Bench 2.0. Di sana, GPT-5.5 memimpin.^[29]^[30]^[6]
Lapisan perbandingan internal vendor. Tabel OpenAI mendukung kesimpulan bahwa GPT-5.5 lebih tinggi dari Claude Opus 4.7 pada item yang dicantumkan. Model card DeepSeek mendukung kesimpulan bahwa DS-V4-Pro Max lebih tinggi dari K2.6 Thinking pada mayoritas item yang dicantumkan.^[29]^[6]
Lapisan uji ulang bisnis. Pecah kebutuhan Anda menjadi coding, agentic workflow, reasoning, retrieval, tool use, latensi, biaya, dan reliability. Lalu jalankan ulang dengan prompt, konteks, akses tool, batas token, dan aturan penilaian yang sama.

Jika produk Anda bergantung pada alur agen yang panjang, fitur


task budgets

Kesimpulan paling aman

Untuk Terminal-Bench 2.0 saja: GPT-5.5 berada di posisi pertama, diikuti Claude Opus 4.7, DeepSeek V4-Pro Max, lalu Kimi K2.6 Thinking.^[29]^[30]^[6]
Dalam tabel OpenAI: GPT-5.5 lebih tinggi daripada Claude Opus 4.7 pada benchmark yang dicantumkan.^[29]
Dalam model card DeepSeek: DS-V4-Pro Max lebih tinggi daripada Kimi K2.6 Thinking pada mayoritas item, tetapi Kimi unggul di GPQA Diamond dan SWE Pro.^[6]
Untuk ranking mutlak empat model: bukti belum cukup. Belum ada data publik yang menunjukkan uji lengkap oleh pihak ketiga dengan versi, konfigurasi, izin tool, konteks, dan anggaran reasoning yang benar-benar sama untuk keempat model.^[29]^[13]^[6]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜索并核查事实

要点

Titik temu publik yang paling jelas untuk keempat model adalah Terminal Bench 2.0: GPT 5.5 mencatat 82,7%, Claude Opus 4.7 69,4%, DeepSeek V4 Pro Max 67,9%, dan Kimi K2.6 Thinking 66,7%.[29][30][6]
Tabel OpenAI menunjukkan GPT 5.5 unggul atas Claude Opus 4.7 pada benchmark yang dicantumkan; tabel DeepSeek menunjukkan DS V4 Pro Max unggul atas Kimi K2.6 Thinking pada mayoritas item, meski Kimi memimpin di GPQA Di...
Data publik tidak boleh dijahit menjadi satu “juara umum” karena versi, sumber, konfigurasi, dan jenis benchmark tidak seragam.[29][27][13][6]

人们还问

“Cara Membaca Benchmark GPT-5.5, Claude Opus 4.7, DeepSeek V4, dan Kimi K2.6”的简短答案是什么？

Titik temu publik yang paling jelas untuk keempat model adalah Terminal Bench 2.0: GPT 5.5 mencatat 82,7%, Claude Opus 4.7 69,4%, DeepSeek V4 Pro Max 67,9%, dan Kimi K2.6 Thinking 66,7%.[29][30][6]

首先要验证的关键点是什么？

接下来在实践中我应该做什么？

Data publik tidak boleh dijahit menjadi satu “juara umum” karena versi, sumber, konfigurasi, dan jenis benchmark tidak seragam.[29][27][13][6]

接下来我应该探索哪个相关主题？

继续“Claude Opus 4.7、GPT-5.5、DeepSeek V4 与 Kimi K2.6：2026 基准对比与选型结论”以获得另一个角度和额外的引用。

打开相关页面

我应该将其与什么进行比较？

对照“DeepSeek V4 工程解析：1M 上下文、MoE 与 API 迁移要点”交叉检查此答案。

打开相关页面

继续你的研究

Claude Opus 4.7、GPT-5.5、DeepSeek V4 与 Kimi K2.6：2026 基准对比与选型结论

Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6：2026 基准测试怎么读

DeepSeek V4 工程解析：1M 上下文、MoE 与 API 迁移要点

Northwest vs. Southeast Timber 弹性题解：为什么是 larger; larger

Northwest 与 Southeast Timber：替代性越高，为什么答案是 larger; larger？

DeepSeek会打败OpenAI、Claude、Gemini和Grok吗？关键不只在榜单

研究对话

你2026年4月25日

研究问题

我想研究并比较 GPT-5.5、Claude Opus 4.7、DeepSeek V4 和 Kimi K2.6 的基准测试表现。

Studio Global AI2026年4月25日40 来源

引用的答案

Key findings

可直接对齐的共享基准	GPT-5.5	Claude Opus 4.7	DeepSeek V4-Pro Max	Kimi K2.6 Thinking
Terminal-Bench 2.0 ^[5]^[12]	82.7%	69.4%	67.9%	66.7%

在 OpenAI 官方对比表中，凡是同时给出 GPT-5.5 和 Claude Opus 4.7 分数的项目，GPT-5.5 都更高，包括 Terminal-Bench 2.0（82.7% vs 69.4%）、GDPval wins or ties（84.9% vs 80.3%）、BrowseComp（84.4% vs 79.3%）、FrontierMath Tier 1–3（51.7% vs 43.8%）、FrontierMath Tier 4（35.4% vs 22.9%）和 CyberGym（81.8% vs 73.1%）。^[5]
在 DeepSeek 官方模型卡的对比表中，DeepSeek V4-Pro Max 对 Kimi K2.6 Thinking 在多数已列项目上更高，包括 MMLU-Pro（87.5 vs 87.1）、SimpleQA-Verified（57.9 vs 36.9）、LiveCodeBench（93.5 vs 89.6）、HMMT 2026 Feb（95.2 vs 92.7）、IMOAnswerBench（89.8 vs 86.0）、Apex Shortlist（90.2 vs 75.5）以及 Terminal-Bench 2.0（67.9 vs 66.7）。^[12]
同一张 DeepSeek 对比表里，Kimi K2.6 Thinking 也有少数领先项，例如 GPQA Diamond（90.5 vs 90.1）和 SWE Pro（58.6 vs 55.4）。^[12]
Anthropic 我目前能直接核实到的官方 Opus 4.7 页面，重点是功能和规格更新：Claude Opus 4.7 被描述为其“最强的通用可用模型”，支持 1M token 上下文、128k 最大输出，以及自适应 thinking 和 task budgets 等能力。^[1] 但在我抓取到的官方页面内容里，没有像 OpenAI 或 DeepSeek 那样展开一张完整、可直接引用的 benchmark 总表。^[1]

Evidence notes

这次比较最好拆成两层：
1. 共享 benchmark 的直接对比，目前最可靠的是 Terminal-Bench 2.0。^[5]^[12]
2. 厂商自报表里的组内对比，比如 GPT-5.5 vs Claude Opus 4.7，或 DeepSeek V4-Pro Max vs Kimi K2.6 Thinking。^[5]^[12]
OpenAI 的表比较的是 GPT-5.5 与 Claude Opus 4.7、Gemini 3.1 Pro 等模型。^[5]
DeepSeek 的表比较的是 DeepSeek V4-Pro Max 与 Kimi K2.6 Thinking、GPT-5.4 xHigh、Claude Opus 4.6 Max、Gemini 3.1 Pro High 等模型。^[12]
因此，除了像 Terminal-Bench 2.0 这种真正共享的基准外，其他分数不适合被简单拼成一个“总分榜”。这是方法上的判断，不是某一家模型一定更强的确定性结论。

Limitations / uncertainty

我目前核实到的高权威公开数字，主要集中在 OpenAI 的 GPT-5.5 发布页、Anthropic 的 Opus 4.7 功能页，以及 DeepSeek 的 V4-Pro 模型卡。^[1]^[5]^[12]
最大限制是：这些表并不是同一第三方、同一 harness、同一工具权限、同一 reasoning effort 下的完整四方对测。^[5]^[12]
尤其是 GPT-5.5 / Claude Opus 4.7 的官方表，与 DeepSeek V4 / Kimi K2.6 的官方表，不共用同一组对手版本；前者是 GPT-5.5 对 Opus 4.7，后者是 DeepSeek V4-Pro Max 对 Kimi K2.6 Thinking、GPT-5.4 xHigh、Opus 4.6 Max。^[5]^[12]
所以如果问题是“谁是四者里的绝对 benchmark 第一”，目前公开证据仍然是：Insufficient evidence.

Summary

如果你只看当前可直接对齐的共享公开基准，GPT-5.5 在这四个里最强，至少在 Terminal-Bench 2.0 上明显领先。^[5]^[12]
如果你只看 DeepSeek V4-Pro Max vs Kimi K2.6 Thinking，DeepSeek 在其官方表列出的多数项目上占优，但 Kimi 在 GPQA Diamond 和 SWE Pro 上有亮点。^[12]
对 Claude Opus 4.7，目前能较有把握地说：在 OpenAI 官方表里，它落后于 GPT-5.5；但缺少与 DeepSeek V4 和 Kimi K2.6 的同版、同条件、完整第三方对照，因此不宜直接下四方统一总排名。^[5]

来源

[6] deepseek-ai/DeepSeek-V4-Pro - Hugging Facehuggingface.co
Opus-4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High K2.6 Thinking GLM-5.1 Thinking DS-V4-Pro Max :---: :---: :---: Knowledge & Reasoning MMLU-Pro (EM) 89.1 87.5 91.0 87.1 86.0 87.5 SimpleQA-Verified (Pass@1) 46.2 45.3 75.6 36.9 38.1 57.9 Chinese-SimpleQA (Pass@1...
[13] What's new in Claude Opus 4.7 - Claude API Docsplatform.claude.com
Task budgets (beta) Claude Opus 4.7 introduces task budgets. A task budget gives Claude a rough estimate of how many tokens to target for a full agentic loop, including thinking, tool calls, tool results, and final output. The model sees a running countdown...
[27] GPT-5.5 System Card - OpenAIopenai.com
GPT-5.5 System Card OpenAI Skip to main content Log inTry ChatGPT(opens in a new window) Research Products Business Developers Company Foundation(opens in a new window) Try ChatGPT(opens in a new window)Login OpenAI April 23, 2026 SafetyPublication GPT‑5.5...
[29] Introducing GPT-5.5openai.com
Introducing GPT-5.5 OpenAI Skip to main content Log inTry ChatGPT(opens in a new window) Research Products Business Developers Company Foundation(opens in a new window) Introducing GPT-5.5 OpenAI Table of contents Model capabilities Next-generation inferenc...
[30] OpenAI Launches GPT-5.5 as Its Most Advanced AI Model Yet - MLQ.aimlq.ai
Key Points OpenAI launched GPT-5.5 on April 24, 2026, highlighting improvements in agentic coding, computer use, knowledge tasks and scientific research. The model scores 82.7% on Terminal-Bench 2.0 and 73.1% on Expert-SWE benchmarks14. Available now to Plu...

热门发现

报告已发布2026年4月29日Last edited 2026年5月6日5 来源

Cara Membaca Benchmark GPT-5.5, Claude Opus 4.7, DeepSeek V4, dan Kimi K2.6

使用 Studio Global AI 搜索并核查事实从“发现”浏览更多内容

17K0

Dengan kata lain: benchmark bisa menjadi saringan awal, bukan vonis terakhir.

Samakan dulu versi modelnya

Sementara itu, dokumentasi publik Anthropic untuk Claude Opus 4.7 lebih banyak menjelaskan fitur dan cara pemakaian API, termasuk beta


task budgets

, bukan tabel benchmark empat arah yang bisa langsung digabung dengan data OpenAI dan DeepSeek.^[13]

Titik temu paling aman: Terminal-Bench 2.0

Dalam materi yang tersedia, benchmark yang paling jelas bisa disejajarkan untuk keempat model adalah Terminal-Bench 2.0. Berdasarkan tabel publik yang dikutip, urutannya adalah:

Model	Terminal-Bench 2.0	Sumber
GPT-5.5	82,7%	OpenAI dan ringkasan MLQ.ai ^[29]^[30]
Claude Opus 4.7	69,4%	OpenAI ^[29]
DeepSeek V4-Pro Max	67,9%	Model card DeepSeek V4-Pro ^[6]
Kimi K2.6 Thinking	66,7%	Model card DeepSeek V4-Pro ^[6]

GPT-5.5 vs Claude Opus 4.7 menurut tabel OpenAI

Benchmark dalam tabel OpenAI	GPT-5.5	Claude Opus 4.7
Terminal-Bench 2.0	82,7%	69,4%
GDPval wins or ties	84,9%	80,3%
BrowseComp	84,4%	79,3%
FrontierMath Tier 1–3	51,7%	43,8%
FrontierMath Tier 4	35,4%	22,9%
CyberGym	81,8%	73,1%

Tetap ada batasannya: ini adalah tabel dalam materi OpenAI, bukan uji independen empat model dengan harness dan pengaturan yang sama.^[29]

DeepSeek V4-Pro Max vs Kimi K2.6 Thinking menurut model card DeepSeek

Benchmark dalam model card DeepSeek	DeepSeek V4-Pro Max	Kimi K2.6 Thinking	Unggul di tabel
MMLU-Pro	87,5	87,1	DeepSeek
SimpleQA-Verified	57,9	36,9	DeepSeek
Chinese-SimpleQA	84,4	75,9	DeepSeek
GPQA Diamond	90,1	90,5	Kimi
HLE	37,7	36,4	DeepSeek
LiveCodeBench	93,5	89,6	DeepSeek
HMMT 2026 Feb	95,2	92,7	DeepSeek
IMOAnswerBench	89,8	86,0	DeepSeek
Apex Shortlist	90,2	75,5	DeepSeek
SWE Pro	55,4	58,6	Kimi
Terminal-Bench 2.0	67,9	66,7	DeepSeek

Mengapa belum bisa dibuat “juara umum” empat model

Ada tiga alasan utama:

Versi model tidak sama. Tabel OpenAI membandingkan GPT-5.5 dengan Claude Opus 4.7, sedangkan tabel DeepSeek mencantumkan GPT-5.4 xHigh dan Opus-4.6 Max sebagai kolom GPT dan Claude.^[29]^[6]
Sumber dan kerangka uji tidak sama. Data berasal dari halaman peluncuran, system card, dokumentasi API, dan model card vendor—bukan satu pengujian pihak ketiga yang menjalankan keempat model secara seragam.^[29]^[27]^[13]^[6]
Benchmark mengukur hal berbeda. GDPval, BrowseComp, FrontierMath, CyberGym, MMLU-Pro, GPQA Diamond, SWE Pro, dan Terminal-Bench 2.0 tidak menilai kemampuan yang identik. Tanpa bobot yang jelas, menjumlahkannya menjadi satu skor total justru bisa menutupi perbedaan kebutuhan nyata.^[29]^[6]

Jadi, benchmark publik lebih tepat dipakai sebagai peta awal: membantu menentukan model mana yang layak diuji lebih lanjut, bukan langsung menentukan model mana yang harus dipakai.

Cara memakai angka ini untuk memilih model

Untuk tim produk, pendekatan yang lebih praktis adalah membagi evaluasi menjadi tiga lapis.

Lapisan benchmark bersama. Saat ini, irisan empat model yang paling jelas adalah Terminal-Bench 2.0. Di sana, GPT-5.5 memimpin.^[29]^[30]^[6]
Lapisan perbandingan internal vendor. Tabel OpenAI mendukung kesimpulan bahwa GPT-5.5 lebih tinggi dari Claude Opus 4.7 pada item yang dicantumkan. Model card DeepSeek mendukung kesimpulan bahwa DS-V4-Pro Max lebih tinggi dari K2.6 Thinking pada mayoritas item yang dicantumkan.^[29]^[6]
Lapisan uji ulang bisnis. Pecah kebutuhan Anda menjadi coding, agentic workflow, reasoning, retrieval, tool use, latensi, biaya, dan reliability. Lalu jalankan ulang dengan prompt, konteks, akses tool, batas token, dan aturan penilaian yang sama.

Jika produk Anda bergantung pada alur agen yang panjang, fitur


task budgets

Kesimpulan paling aman

Untuk Terminal-Bench 2.0 saja: GPT-5.5 berada di posisi pertama, diikuti Claude Opus 4.7, DeepSeek V4-Pro Max, lalu Kimi K2.6 Thinking.^[29]^[30]^[6]
Dalam tabel OpenAI: GPT-5.5 lebih tinggi daripada Claude Opus 4.7 pada benchmark yang dicantumkan.^[29]
Dalam model card DeepSeek: DS-V4-Pro Max lebih tinggi daripada Kimi K2.6 Thinking pada mayoritas item, tetapi Kimi unggul di GPQA Diamond dan SWE Pro.^[6]
Untuk ranking mutlak empat model: bukti belum cukup. Belum ada data publik yang menunjukkan uji lengkap oleh pihak ketiga dengan versi, konfigurasi, izin tool, konteks, dan anggaran reasoning yang benar-benar sama untuk keempat model.^[29]^[13]^[6]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜索并核查事实

要点

Titik temu publik yang paling jelas untuk keempat model adalah Terminal Bench 2.0: GPT 5.5 mencatat 82,7%, Claude Opus 4.7 69,4%, DeepSeek V4 Pro Max 67,9%, dan Kimi K2.6 Thinking 66,7%.[29][30][6]
Tabel OpenAI menunjukkan GPT 5.5 unggul atas Claude Opus 4.7 pada benchmark yang dicantumkan; tabel DeepSeek menunjukkan DS V4 Pro Max unggul atas Kimi K2.6 Thinking pada mayoritas item, meski Kimi memimpin di GPQA Di...
Data publik tidak boleh dijahit menjadi satu “juara umum” karena versi, sumber, konfigurasi, dan jenis benchmark tidak seragam.[29][27][13][6]

人们还问

“Cara Membaca Benchmark GPT-5.5, Claude Opus 4.7, DeepSeek V4, dan Kimi K2.6”的简短答案是什么？

Titik temu publik yang paling jelas untuk keempat model adalah Terminal Bench 2.0: GPT 5.5 mencatat 82,7%, Claude Opus 4.7 69,4%, DeepSeek V4 Pro Max 67,9%, dan Kimi K2.6 Thinking 66,7%.[29][30][6]

首先要验证的关键点是什么？

接下来在实践中我应该做什么？

Data publik tidak boleh dijahit menjadi satu “juara umum” karena versi, sumber, konfigurasi, dan jenis benchmark tidak seragam.[29][27][13][6]

接下来我应该探索哪个相关主题？

继续“Claude Opus 4.7、GPT-5.5、DeepSeek V4 与 Kimi K2.6：2026 基准对比与选型结论”以获得另一个角度和额外的引用。

打开相关页面

我应该将其与什么进行比较？

对照“DeepSeek V4 工程解析：1M 上下文、MoE 与 API 迁移要点”交叉检查此答案。

打开相关页面

继续你的研究

研究对话

你2026年4月25日

研究问题

我想研究并比较 GPT-5.5、Claude Opus 4.7、DeepSeek V4 和 Kimi K2.6 的基准测试表现。

Studio Global AI2026年4月25日40 来源

引用的答案

Key findings

可直接对齐的共享基准	GPT-5.5	Claude Opus 4.7	DeepSeek V4-Pro Max	Kimi K2.6 Thinking
Terminal-Bench 2.0 ^[5]^[12]	82.7%	69.4%	67.9%	66.7%

在 OpenAI 官方对比表中，凡是同时给出 GPT-5.5 和 Claude Opus 4.7 分数的项目，GPT-5.5 都更高，包括 Terminal-Bench 2.0（82.7% vs 69.4%）、GDPval wins or ties（84.9% vs 80.3%）、BrowseComp（84.4% vs 79.3%）、FrontierMath Tier 1–3（51.7% vs 43.8%）、FrontierMath Tier 4（35.4% vs 22.9%）和 CyberGym（81.8% vs 73.1%）。^[5]
在 DeepSeek 官方模型卡的对比表中，DeepSeek V4-Pro Max 对 Kimi K2.6 Thinking 在多数已列项目上更高，包括 MMLU-Pro（87.5 vs 87.1）、SimpleQA-Verified（57.9 vs 36.9）、LiveCodeBench（93.5 vs 89.6）、HMMT 2026 Feb（95.2 vs 92.7）、IMOAnswerBench（89.8 vs 86.0）、Apex Shortlist（90.2 vs 75.5）以及 Terminal-Bench 2.0（67.9 vs 66.7）。^[12]
同一张 DeepSeek 对比表里，Kimi K2.6 Thinking 也有少数领先项，例如 GPQA Diamond（90.5 vs 90.1）和 SWE Pro（58.6 vs 55.4）。^[12]
Anthropic 我目前能直接核实到的官方 Opus 4.7 页面，重点是功能和规格更新：Claude Opus 4.7 被描述为其“最强的通用可用模型”，支持 1M token 上下文、128k 最大输出，以及自适应 thinking 和 task budgets 等能力。^[1] 但在我抓取到的官方页面内容里，没有像 OpenAI 或 DeepSeek 那样展开一张完整、可直接引用的 benchmark 总表。^[1]

Evidence notes

这次比较最好拆成两层：
1. 共享 benchmark 的直接对比，目前最可靠的是 Terminal-Bench 2.0。^[5]^[12]
2. 厂商自报表里的组内对比，比如 GPT-5.5 vs Claude Opus 4.7，或 DeepSeek V4-Pro Max vs Kimi K2.6 Thinking。^[5]^[12]
OpenAI 的表比较的是 GPT-5.5 与 Claude Opus 4.7、Gemini 3.1 Pro 等模型。^[5]
DeepSeek 的表比较的是 DeepSeek V4-Pro Max 与 Kimi K2.6 Thinking、GPT-5.4 xHigh、Claude Opus 4.6 Max、Gemini 3.1 Pro High 等模型。^[12]
因此，除了像 Terminal-Bench 2.0 这种真正共享的基准外，其他分数不适合被简单拼成一个“总分榜”。这是方法上的判断，不是某一家模型一定更强的确定性结论。

Limitations / uncertainty

我目前核实到的高权威公开数字，主要集中在 OpenAI 的 GPT-5.5 发布页、Anthropic 的 Opus 4.7 功能页，以及 DeepSeek 的 V4-Pro 模型卡。^[1]^[5]^[12]
最大限制是：这些表并不是同一第三方、同一 harness、同一工具权限、同一 reasoning effort 下的完整四方对测。^[5]^[12]
尤其是 GPT-5.5 / Claude Opus 4.7 的官方表，与 DeepSeek V4 / Kimi K2.6 的官方表，不共用同一组对手版本；前者是 GPT-5.5 对 Opus 4.7，后者是 DeepSeek V4-Pro Max 对 Kimi K2.6 Thinking、GPT-5.4 xHigh、Opus 4.6 Max。^[5]^[12]
所以如果问题是“谁是四者里的绝对 benchmark 第一”，目前公开证据仍然是：Insufficient evidence.

Summary

如果你只看当前可直接对齐的共享公开基准，GPT-5.5 在这四个里最强，至少在 Terminal-Bench 2.0 上明显领先。^[5]^[12]
如果你只看 DeepSeek V4-Pro Max vs Kimi K2.6 Thinking，DeepSeek 在其官方表列出的多数项目上占优，但 Kimi 在 GPQA Diamond 和 SWE Pro 上有亮点。^[12]
对 Claude Opus 4.7，目前能较有把握地说：在 OpenAI 官方表里，它落后于 GPT-5.5；但缺少与 DeepSeek V4 和 Kimi K2.6 的同版、同条件、完整第三方对照，因此不宜直接下四方统一总排名。^[5]

来源

[6] deepseek-ai/DeepSeek-V4-Pro - Hugging Facehuggingface.co
Opus-4.6 Max GPT-5.4 xHigh Gemini-3.1-Pro High K2.6 Thinking GLM-5.1 Thinking DS-V4-Pro Max :---: :---: :---: Knowledge & Reasoning MMLU-Pro (EM) 89.1 87.5 91.0 87.1 86.0 87.5 SimpleQA-Verified (Pass@1) 46.2 45.3 75.6 36.9 38.1 57.9 Chinese-SimpleQA (Pass@1...
[13] What's new in Claude Opus 4.7 - Claude API Docsplatform.claude.com
Task budgets (beta) Claude Opus 4.7 introduces task budgets. A task budget gives Claude a rough estimate of how many tokens to target for a full agentic loop, including thinking, tool calls, tool results, and final output. The model sees a running countdown...
[27] GPT-5.5 System Card - OpenAIopenai.com
GPT-5.5 System Card OpenAI Skip to main content Log inTry ChatGPT(opens in a new window) Research Products Business Developers Company Foundation(opens in a new window) Try ChatGPT(opens in a new window)Login OpenAI April 23, 2026 SafetyPublication GPT‑5.5...
[29] Introducing GPT-5.5openai.com
Introducing GPT-5.5 OpenAI Skip to main content Log inTry ChatGPT(opens in a new window) Research Products Business Developers Company Foundation(opens in a new window) Introducing GPT-5.5 OpenAI Table of contents Model capabilities Next-generation inferenc...
[30] OpenAI Launches GPT-5.5 as Its Most Advanced AI Model Yet - MLQ.aimlq.ai
Key Points OpenAI launched GPT-5.5 on April 24, 2026, highlighting improvements in agentic coding, computer use, knowledge tasks and scientific research. The model scores 82.7% on Terminal-Bench 2.0 and 73.1% on Expert-SWE benchmarks14. Available now to Plu...