ReportsPublishedApr 28, 2026Last edited May 6, 202614 sources

GPT-5.5, Claude Opus 4.7, DeepSeek V4, atau Kimi K2.6: Pilih yang Mana?

Search & fact-check with Studio Global AI Browse more from Discover

18K0

GPT-5.5、Claude Opus 4.7、DeepSeek V4 与 Kimi K2.6 的 AI 模型基准和成本对比示意图 — GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6：2026 基准、成本与选型结论四个前沿 AI 模型的选型，关键不只是基准分数，还包括成本、上下文、工具能力和部署约束。
AI Prompt
Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6：2026 基准、成本与选型结论. Article summary: 截至 2026 年 4 月的公开资料，GPT 5.5 是最稳妥的综合默认项：Artificial Analysis 给 GPT 5.5 xHigh 60、High 59，高于 Claude Opus 4.7 的 57；但 Claude 在 HLE 无工具 46.9% 领先，DeepSeek V4 和 Kimi K2.6 分别更适合低成本与开权重场景。[4][6][9][25]. Topic tags: ai, ai benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "# DeepSeek V4 vs GPT-5.5 vs Claude Opus vs GLM: Cost and Benchmark Comparison for AI Agent Fleets. DeepSeek V4, GPT-5.5, Claude Opus, and GLM compared on cost, benchmarks, and self" source context "DeepSeek V4 vs GPT-5.5 vs Claude Opus vs GLM - Flowtivity" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https
openai.com

Kesalahan paling umum saat membandingkan GPT-5.5, Claude Opus 4.7, DeepSeek V4, dan Kimi K2.6 adalah mencari satu “juara umum”. Data publik justru mengarah ke jawaban yang lebih praktis: pilih berdasarkan pekerjaan.

GPT-5.5 layak menjadi kandidat default untuk performa tinggi dan workflow agentic yang kompleks. Claude Opus 4.7 lebih menarik untuk riset panjang, analisis bertahap, dan pekerjaan yang menuntut disiplin dokumen. DeepSeek V4 unggul dari sisi biaya. Kimi K2.6 menjadi kandidat penting bila Anda membutuhkan bobot terbuka, konteks panjang, dan input gambar atau video.^[4]^[6]^[7]^[9]

Ringkasan cepat: mulai uji dari mana?

Prioritas Anda	Mulai evaluasi dari	Alasan utama
Kemampuan umum, agentic workflow, coding berbasis terminal	GPT-5.5	Artificial Analysis memberi GPT-5.5 xHigh skor 60 dan GPT-5.5 High skor 59, di atas Claude Opus 4.7 di 57; VentureBeat merangkum GPT-5.5 mencapai 82,7% di Terminal-Bench 2.0.^[4]^[6]
Riset dokumen panjang, analisis multi-langkah, finance, output yang harus rapi dan bisa ditelusuri	Claude Opus 4.7	Anthropic menyebut Opus 4.7 mencetak skor keseluruhan 0,715 di benchmark internal research-agent dan 0,813 di modul General Finance, naik dari Opus 4.6 di 0,767.^[7]
Throughput tinggi dan anggaran ketat	DeepSeek V4	Mashable merangkum harga API DeepSeek V4 sebesar 1,74 dolar AS per juta token input dan 3,48 dolar AS per juta token output, lebih rendah dari GPT-5.5 dan Claude Opus 4.7 pada tabel yang sama.^[3]
Bobot terbuka, input gambar/video, konteks panjang 256K	Kimi K2.6	Artificial Analysis menyebut Kimi K2.6 sebagai model bobot terbuka terdepan baru, dengan dukungan input gambar, input video, dan konteks maksimum 256K.^[9]

Mengapa satu leaderboard saja tidak cukup

Saat ini belum ada data publik yang membandingkan keempat model tersebut secara lengkap dari satu evaluator yang sama, pada waktu yang sama, dengan anggaran reasoning yang sama, dan akses tool yang sama. Bukti yang tersedia berasal dari kombinasi halaman vendor, leaderboard pihak ketiga, rangkuman media, dokumentasi API, halaman routing model, dan uji pribadi.^[4]^[5]^[6]^[7]^[8]^[9]^[16]^[34]^[35]

Perbedaan konfigurasi itu penting. Artificial Analysis, misalnya, membedakan GPT-5.5 xHigh, GPT-5.5 High, dan Claude Opus 4.7 Adaptive Reasoning Max Effort. Dokumentasi OpenAI juga mencantumkan GPT-5.5 dengan pilihan reasoning effort dari none, low, medium, high, hingga xhigh.^[4]^[35]

Artinya, model yang menang di satu benchmark belum tentu paling cocok untuk prompt, toolchain, batas latensi, dan proses review Anda. Untuk tim produk atau engineering, leaderboard sebaiknya dipakai sebagai penyaring awal, bukan sebagai keputusan final.

Angka benchmark yang paling berguna dibaca bersama

Metrik	GPT-5.5	Claude Opus 4.7	DeepSeek V4 / V4 Pro	Kimi K2.6	Cara membacanya
Artificial Analysis Intelligence Index	xHigh 60; High 59 ^[4]	57 ^[4]	Belum ada skor presisi dalam tabel yang sama pada materi ini	AA Intelligence 53,9 menurut rangkuman OpenRouter ^[5]	GPT-5.5 memimpin di indeks umum; Kimi K2.6 kuat untuk kategori bobot terbuka.
Terminal-Bench 2.0	82,7% ^[6]	69,4% ^[6]	67,9% ^[6]	Belum ada skor publik dari sumber yang sama	Keunggulan GPT-5.5 paling jelas pada tugas agentic berbasis terminal.
SWE-Bench Pro	58,6% ^[6]	Data sebanding dari sumber yang sama tidak tersedia dalam materi ini	55,4% ^[6]	Sebagian materi Kimi membandingkan dengan GPT-5.4 atau Opus 4.6, bukan empat model ini secara langsung ^[14]^[15]	GPT-5.5 dan DeepSeek V4 bisa dibandingkan dari satu rangkuman; Kimi perlu dibaca hati-hati lintas sumber.
Humanity’s Last Exam, tanpa tool	41,4%; GPT-5.5 Pro 43,1% ^[6]	46,9% ^[6]	37,7% ^[6]	Belum ada skor publik dari sumber yang sama	Claude Opus 4.7 unggul pada setelan ini.
Humanity’s Last Exam, dengan tool	52,2%; GPT-5.5 Pro 57,2% ^[6]	54,7% ^[6]	48,2% ^[6]	Belum ada skor publik dari sumber yang sama	Claude di atas GPT-5.5 base, tetapi di bawah GPT-5.5 Pro.
BrowseComp	84,4% ^[8]	Belum ada skor publik dari sumber yang sama	V4 Pro-Max 83,4% ^[6]	83,2% ^[8]	Untuk browsing dan pemahaman web, GPT-5.5, DeepSeek V4 Pro-Max, dan Kimi K2.6 tampak berdekatan.
Subskor Kimi K2.6 di Artificial Analysis	—	—	—	Intelligence 53,9; Coding 47,1; Agentic 66,0 ^[5]	Kemampuan agentic Kimi menarik, tetapi tetap perlu diuji di toolchain nyata.

GPT-5.5: kandidat default untuk performa tinggi

OpenAI menyatakan GPT-5.5 dan GPT-5.5 Pro tersedia melalui pembaruan 24 April 2026. Dokumentasi API OpenAI menggambarkan gpt-5.5 sebagai model untuk coding dan pekerjaan profesional, dengan konteks 1M, output maksimum 128K, serta dukungan function calling, web search, file search, dan computer use.^[25]^[35]

Dari benchmark publik, GPT-5.5 paling masuk akal dijadikan baseline performa tinggi. Artificial Analysis menempatkan GPT-5.5 xHigh di skor 60 dan High di 59. VentureBeat merangkum GPT-5.5 di Terminal-Bench 2.0 pada 82,7%, lebih tinggi dari Claude Opus 4.7 di 69,4% dan DeepSeek V4 di 67,9%.^[4]^[6]

Komprominya adalah biaya. Dokumentasi API OpenAI mencantumkan GPT-5.5 di 5 dolar AS per juta token input dan 30 dolar AS per juta token output. Jika pekerjaan Anda berupa laporan panjang, agent loop berkali-kali, atau output besar, biaya token output bisa menjadi faktor utama.^[35]

Cocok diuji lebih dulu untuk: coding agent kompleks, otomasi terminal, riset lintas tool, dan workflow profesional yang menggabungkan function calling, web search, file search, atau computer use.^[35]

Claude Opus 4.7: kuat untuk kerja panjang dan disiplin dokumen

Claude Opus 4.7 diposisikan kuat untuk pekerjaan panjang, bertahap, dan membutuhkan output yang rapi. Anthropic menyebut model ini tied for the top overall score di benchmark internal research-agent dengan skor 0,715, serta memiliki performa long-context paling konsisten di antara model yang mereka uji. Pada modul General Finance, Opus 4.7 mencetak 0,813, naik dari Opus 4.6 di 0,767.^[7]

Di rangkuman VentureBeat untuk Humanity’s Last Exam, Claude Opus 4.7 memperoleh 46,9% tanpa tool, lebih tinggi dari GPT-5.5 di 41,4% dan DeepSeek V4 di 37,7%. Saat tool diaktifkan, Claude mencetak 54,7%, di atas GPT-5.5 base di 52,2%, tetapi di bawah GPT-5.5 Pro di 57,2%.^[6]

Namun Claude bukan pemenang di semua metrik. Pada Terminal-Bench 2.0, GPT-5.5 mencapai 82,7%, jauh di atas Claude Opus 4.7 di 69,4%.^[6] Ada juga sumber pihak ketiga yang menyebut Opus 4.7 mencetak 82,4% di SWE-bench Verified, tetapi itu bukan perbandingan empat model dari sumber yang sama, sehingga tidak bisa dicampur begitu saja dengan SWE-Bench Pro atau leaderboard lain.^[1]^[6]

Cocok diuji lebih dulu untuk: riset dokumen panjang, analisis materi finansial, pekerjaan yang perlu menyebut dasar data dengan disiplin, serta workflow multi-langkah yang membutuhkan review ketat.^[7]

DeepSeek V4: daya tarik terbesar ada di rasio biaya-kualitas

DeepSeek V4 paling menonjol dari sisi harga. Mashable merangkum biaya API DeepSeek V4 di 1,74 dolar AS per juta token input dan 3,48 dolar AS per juta token output. Dalam rangkuman yang sama, GPT-5.5 berada di 5/30 dolar AS, sedangkan Claude Opus 4.7 di 5/25 dolar AS.^[3]

Dari sisi performa, DeepSeek V4 terlihat mendekati jajaran terdepan, tetapi tidak memimpin secara menyeluruh dalam rangkuman publik yang tersedia. VentureBeat mencatat DeepSeek V4 memperoleh 37,7% di HLE tanpa tool dan 48,2% dengan tool, di bawah GPT-5.5, GPT-5.5 Pro, dan Claude Opus 4.7 pada metrik yang sama. Di Terminal-Bench 2.0, DeepSeek V4 mencetak 67,9%, dekat dengan Claude Opus 4.7 di 69,4%, tetapi masih jauh dari GPT-5.5 di 82,7%.^[6]

Karena itu, DeepSeek V4 lebih tepat dilihat sebagai kandidat utama untuk sistem produksi yang sensitif biaya, bukan sebagai pengganti otomatis untuk semua model frontier tertutup. Pertanyaan praktisnya: apakah kualitasnya sudah melewati ambang yang Anda butuhkan, dan apakah harga token yang lebih rendah cukup untuk menutup biaya retry, review manusia, dan latensi tambahan?^[3]^[6]

Cocok diuji lebih dulu untuk: batch processing, inferensi volume besar, aplikasi dengan margin tipis, dan sistem yang bisa menerima proses review kualitas demi menekan biaya token.^[3]

Kimi K2.6: kandidat bobot terbuka untuk konteks panjang dan multimodal

Kimi K2.6 menarik karena tiga hal: bobot terbuka, multimodal, dan konteks panjang. Artificial Analysis menyebutnya sebagai model bobot terbuka terdepan baru, dengan dukungan native untuk input gambar dan video, output teks, serta panjang konteks maksimum 256K.^[9]

OpenRouter mencantumkan Kimi K2.6 dengan Artificial Analysis Intelligence 53,9, Coding 47,1, dan Agentic 66,0. Halaman yang sama juga menampilkan maksimum token 256K dan output maksimum 66K.^[5]

Untuk tugas riset web, DocsBot merangkum BrowseComp Kimi K2.6 di 83,2%, sedangkan GPT-5.5 di 84,4%.^[8] Angka ini menunjukkan Kimi cukup dekat dengan GPT-5.5 pada rangkuman tersebut. Namun, beberapa materi Kimi K2.6 terutama membandingkannya dengan GPT-5.4 atau Claude Opus 4.6, bukan langsung dengan GPT-5.5, Claude Opus 4.7, dan DeepSeek V4 dalam satu evaluasi seragam.^[14]^[15]

Cocok diuji lebih dulu untuk: tim yang membutuhkan ekosistem bobot terbuka, kendali deployment lebih besar, pemrosesan konteks panjang, input gambar atau video, serta workflow yang mencari kompromi antara biaya, kontrol, dan kemampuan.^[5]^[9]

Biaya dan kapasitas: jangan hanya terpaku pada skor

Model	Informasi harga dan kapasitas publik	Dampak ke pemilihan
GPT-5.5	5 dolar AS per juta token input, 30 dolar AS per juta token output; konteks 1M; output maksimum 128K; mendukung function calling, web search, file search, dan computer use ^[35]	Cocok untuk tugas kompleks bernilai tinggi, tetapi biaya bisa naik cepat jika output panjang atau agent loop berulang.
Claude Opus 4.7	Mashable merangkum 5 dolar AS per juta token input dan 25 dolar AS per juta token output, dengan konteks 1M ^[3]	Harga output lebih rendah dari GPT-5.5; menarik untuk pekerjaan panjang yang menuntut konsistensi dan disiplin dokumen.^[7]
DeepSeek V4	Mashable merangkum 1,74 dolar AS per juta token input dan 3,48 dolar AS per juta token output, dengan konteks 1M ^[3]	Kandidat kuat untuk throughput tinggi, batch processing, dan aplikasi yang sangat sensitif biaya.
Kimi K2.6	OpenRouter mencantumkan salah satu rute di 0,7448 dolar AS per juta token input dan 4,655 dolar AS per juta token output; maksimum token 256K dan output maksimum 66K ^[5]	Menarik untuk evaluasi bobot terbuka, konteks panjang, dan input multimodal; harga routing tidak otomatis sama dengan harga semua penyedia.^[5]^[9]

API price hanya satu bagian dari total biaya. Dalam workflow panjang, Anda juga perlu menghitung token yang terpakai untuk reasoning, tool call, percobaan ulang, logging, dan review manusia. Panduan API OpenAI untuk GPT-5.5 menyarankan workflow yang tool-heavy atau berjalan lama dibandingkan dengan model lain berdasarkan akurasi, konsumsi token, dan latensi end-to-end.^[34]

Cara menguji di pekerjaan nyata

Gunakan benchmark publik untuk menyusun shortlist, lalu uji dengan data dan proses Anda sendiri. Minimal, catat empat metrik: tingkat keberhasilan tugas, jenis kegagalan, latensi end-to-end, serta biaya token dan retry. Dokumentasi OpenAI juga menekankan perbandingan akurasi, konsumsi token, dan latensi end-to-end untuk workflow yang berat tool atau berjalan lama.^[34]

Uji pribadi bisa menjadi sinyal tambahan, tetapi jangan diperlakukan seperti leaderboard resmi. Dalam tes coding AkitaOnRails pada April 2026, Claude Opus 4.7 mendapat skor 97, GPT-5.5 xHigh Codex 96, Kimi K2.6 87, dan DeepSeek V4 Pro 69. Tabel yang sama mencatat estimasi biaya: Claude Opus 4.7 sekitar 1,10 dolar AS, GPT-5.5 xHigh Codex sekitar 10 dolar AS, Kimi K2.6 sekitar 0,30 dolar AS, dan DeepSeek V4 Pro sekitar 0,50 dolar AS.^[16]

Nilai dari uji seperti ini bukan pada klaim “model A pasti lebih baik dari model B”, melainkan pada pengingat bahwa pemilihan model bergantung pada codebase, izin tool, pola prompt, standar review, dan biaya gagal-ulang yang benar-benar Anda hadapi.^[16]^[34]

Rekomendasi akhir

Jika hanya boleh memilih satu model untuk masuk tahap evaluasi pertama, mulai dari GPT-5.5. Ia memimpin di Artificial Analysis Intelligence Index dan menunjukkan keunggulan jelas di Terminal-Bench 2.0 dalam rangkuman VentureBeat.^[4]^[6]

Jika pekerjaan Anda lebih mirip riset dokumen panjang, pemrosesan materi finansial, analisis multi-langkah, atau output yang harus disiplin terhadap data, masukkan Claude Opus 4.7 ke tier pertama. Data internal research-agent dari Anthropic dan angka HLE yang dirangkum VentureBeat mendukung kekuatannya di arah tersebut.^[6]^[7]

Jika kendala utama adalah volume panggilan dan anggaran, DeepSeek V4 adalah kandidat paling layak untuk uji kurva biaya-kualitas. Rangkuman harga publik menunjukkan biaya input dan output-nya jauh lebih rendah dibanding GPT-5.5 dan Claude Opus 4.7.^[3]

Jika Anda membutuhkan ekosistem bobot terbuka, input multimodal, atau konteks 256K, Kimi K2.6 layak masuk daftar pendek. Namun, perbandingan langsung yang lengkap dan seragam antara Kimi K2.6, GPT-5.5, Claude Opus 4.7, dan DeepSeek V4 masih terbatas.^[5]^[8]^[9]

Kesimpulan paling aman: pakai benchmark publik untuk menentukan titik awal, lalu biarkan tugas nyata Anda menentukan model produksi. Leaderboard membantu mempersempit pilihan, tetapi tidak bisa menggantikan trade-off kualitas, biaya, dan latensi di lapangan.^[34]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Search & fact-check with Studio Global AI

Key takeaways

Jangan mulai dari pertanyaan “model mana yang paling pintar?”. Untuk uji awal, GPT 5.5 paling kuat sebagai pilihan umum; Claude Opus 4.7 unggul untuk riset dokumen panjang dan disiplin data; DeepSeek V4 menarik untuk...
Selisih biaya bisa mengubah keputusan. Dokumentasi OpenAI mencantumkan GPT 5.5 di 5 dolar AS per juta token input dan 30 dolar AS per juta token output; Mashable merangkum DeepSeek V4 di 1,74/3,48 dolar AS dan Claude...
Benchmark publik belum menyediakan perbandingan lengkap empat model dengan sumber, waktu, anggaran reasoning, dan akses tool yang sama.

Continue your research

Comparativa de benchmarks 2026 entre Claude Opus 4.7, GPT-5.5, DeepSeek V4 y Kimi K2.6

Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: benchmarks 2026 y veredicto

Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: comparativa de benchmarks 2026

DeepSeek V4 工程架构示意图，包含 1M 上下文、MoE 专家路由和 API 服务化元素

DeepSeek V4 工程解析：1M 上下文、MoE 与 API 迁移要点

Northwest vs. Southeast Timber 彈性題解：為什麼是 larger; larger

Northwest 與 Southeast Timber：替代性越高，為什麼答案是 larger; larger？

抽象 AI 晶片與多個聊天機器人平台競爭的示意圖，象徵 DeepSeek 挑戰 OpenAI、Claude、Gemini 與 Grok

DeepSeek 會擊敗 OpenAI、Claude、Gemini、Grok 嗎？關鍵不是榜單，而是成本與信任

Research conversation

YouApr 26, 2026

Research question

研究 Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6 的基准测试，并尽可能全面地进行比较。请以研究报告的格式呈现。

Studio Global AIApr 26, 202640 sources

Cited answer

截至 2026-04-26，可核查的公开资料显示：GPT-5.5 是四者中综合基准最强的闭源模型，Claude Opus 4.7 在长程编码、数据纪律和多步任务上紧随其后，Kimi K2.6 是目前证据中最强的开权重模型，DeepSeek V4 Pro 的主要优势是接近前沿模型的能力与显著更低的 API 成本。^[1]^[3]^[4]^[5]^[6] 但四者并没有完整、同源、同设置的官方横向评测；尤其 DeepSeek V4 与 Kimi K2.6 的逐项官方对比证据不足，因此部分结论应视为“公开资料下的最佳估计”。^[4]^[5]^[6]^[7]

Key findings

综合智能排名上，Artificial Analysis 的公开比较显示 GPT-5.5 xHigh 位列第一，GPT-5.5 High 第二，Claude Opus 4.7 与 Gemini 3.1 Pro Preview 同处 57 分档位，而 Kimi K2.6 在其 Intelligence Index 上为 54 分、位列开权重模型第一梯队。^[5]^[6]
编码与代理任务上，OpenAI 官方表格给出 GPT-5.5 在 Terminal-Bench 2.0 为 82.7%，在 SWE-Bench Pro 为 58.6%，并称其是 OpenAI 当时最强的 agentic coding 模型。^[1] Anthropic 官方没有在可抓取文本中给出完整统一表格，但称 Opus 4.7 相比 Opus 4.6 在高级软件工程、复杂长程任务和自我验证方面显著提升，并引用客户 93-task coding benchmark 中 resolution 提升 13%。^[3]
推理与数学上，OpenAI 官方表格显示 GPT-5.5 在 FrontierMath Tier 1–3 为 51.7%、Tier 4 为 35.4%，高于表中 Claude Opus 4.7 的 43.8% 与 22.9%。^[1] 但 VentureBeat 汇总的 Humanity’s Last Exam 数据显示，在无工具设置下 Claude Opus 4.7 为 46.9%，高于 GPT-5.5 的 41.4% 与 DeepSeek V4 的 37.7%。^[4]
浏览与研究型任务上，GPT-5.5 在 OpenAI 表格中的 BrowseComp 为 84.4%，Claude Opus 4.7 为 79.3%。^[1] VentureBeat 报道 DeepSeek V4 Pro-Max 在 BrowseComp 为 83.4%，DocsBot 汇总 Kimi K2.6 为 83.2%，因此该项上 GPT-5.5、DeepSeek V4、Kimi K2.6 非常接近，Claude Opus 4.7 落后一些。^[4]^[7]
成本上，OpenAI API 文档列出 GPT-5.5 为 $5 / 百万输入 token、$30 / 百万输出 token，并支持 1M 上下文与 128K 最大输出。^[2] Anthropic 官方称 Claude Opus 4.7 价格维持 $5 / 百万输入 token、$25 / 百万输出 token。^[3] VentureBeat 引用 DeepSeek API 定价称 DeepSeek V4 Pro 为 $1.74 / 百万输入 token、$3.48 / 百万输出 token，显著低于 GPT-5.5 与 Claude Opus 4.7。^[4]
开权重生态上，Kimi K2.6 被 Artificial Analysis 称为“new leading open weights model”，其模型为 1T 总参数、32B 激活参数的 MoE，支持 256K 上下文、图像和视频输入、文本输出。^[5] DeepSeek V4 被报道为 1.6T 参数 MoE、MIT License、可在 Hugging Face 与 DeepSeek API 获取，因此在可部署性和成本上更开放、更便宜。^[4]

Benchmark comparison

维度 / 基准	GPT-5.5	Claude Opus 4.7	DeepSeek V4 / V4 Pro	Kimi K2.6	解读
Artificial Analysis Intelligence Index	xHigh 60；High 59 ^[6]	57 ^[6]	V4 Pro 被列为领先开权重模型之一，但本次资料未给出同表精确分数 ^[6]	54，开权重第一梯队 ^[5]	GPT-5.5 综合领先，Claude 接近，Kimi 是开权重最强代表之一。
Terminal-Bench 2.0	82.7% ^[1]	68.5% ^[1]	Insufficient evidence	Insufficient evidence	GPT-5.5 在命令行代理工作流上优势明显。
SWE-Bench Pro	58.6% ^[1]	Insufficient evidence	Insufficient evidence	第三方资料显示可与 GPT-5.4 / Opus 4.6 同档，但缺少同源 GPT-5.5 / Opus 4.7 对比 ^[5]	GPT-5.5 有官方分数；其他模型缺少同设置数据。
GDPval / GDPval-AA	GPT-5.5 wins-or-ties 84.9% ^[1]	80.3% ^[1]	Insufficient evidence	GDPval-AA Elo 1520，高于 Kimi K2.5 的 1309 ^[5]	GPT 与 Claude 可在 OpenAI 表中横比；Kimi 的 AA Elo 不应与 OpenAI 的百分比分数直接相加比较。
BrowseComp	84.4% ^[1]	79.3% ^[1]	83.4% ^[4]	83.2% ^[7]	GPT-5.5 略高，DeepSeek 与 Kimi 非常接近，Claude 稍弱。
FrontierMath Tier 1–3	51.7% ^[1]	43.8% ^[1]	Insufficient evidence	Insufficient evidence	GPT-5.5 在该官方表格中领先 Claude。
FrontierMath Tier 4	35.4% ^[1]	22.9% ^[1]	Insufficient evidence	Insufficient evidence	难题数学上 GPT-5.5 与 Claude 差距扩大。
Humanity’s Last Exam，无工具	41.4% ^[4]	46.9% ^[4]	37.7% ^[4]	Insufficient evidence	Claude 在该报道的无工具 HLE 设置中最高。
Humanity’s Last Exam，有工具	52.2%；GPT-5.5 Pro 为 57.2% ^[4]	54.7% ^[4]	48.2% ^[4]	Insufficient evidence	工具设置下 Claude 高于 GPT-5.5 base，但低于 GPT-5.5 Pro。
CyberGym	81.8% ^[1]	73.1% ^[1]	Insufficient evidence	Insufficient evidence	GPT-5.5 在 OpenAI 表格中领先。
AA-Omniscience / 幻觉率	Insufficient evidence	幻觉率 36%，作为对照项出现 ^[5]	Insufficient evidence	幻觉率 39%，低于 Kimi K2.5 的 65% ^[5]	Kimi K2.6 的低幻觉率是其明显亮点。
τ²-Bench Telecom	Insufficient evidence	Insufficient evidence	Insufficient evidence	96% ^[5]	Kimi K2.6 在工具使用 / 电信任务中表现强。

Model-by-model assessment

GPT-5.5

GPT-5.5 的主要优势是综合能力、agentic coding、计算机使用、浏览研究与数学基准的均衡领先。^[1]^[2]^[6] OpenAI 官方称 GPT-5.5 擅长写代码、调试、在线研究、数据分析、创建文档和表格、操作软件并跨工具完成任务。^[1]

GPT-5.5 的主要短板是成本较高，API 文档列出的输出价格为 $30 / 百万 token，高于 Claude Opus 4.7 的 $25 / 百万 token，也远高于 DeepSeek V4 Pro 的 $3.48 / 百万 token。^[2]^[3]^[4] 如果任务量极大且边际成本敏感，DeepSeek V4 Pro 或 Kimi K2.6 可能在成本效益上更有吸引力。^[4]^[5]

Claude Opus 4.7

Claude Opus 4.7 的优势是长程编码、复杂任务执行、视觉增强、数据纪律和对不确定性的处理。^[3] Anthropic 官方称 Opus 4.7 在高级软件工程上明显优于 Opus 4.6，并且在复杂长时间任务中更严谨、更一致、更会验证自己的输出。^[3]

Claude Opus 4.7 在部分硬指标上不总是领先 GPT-5.5；例如 OpenAI 表格中 GPT-5.5 在 Terminal-Bench 2.0、BrowseComp、FrontierMath 和 CyberGym 均高于 Claude Opus 4.7。^[1] 但在 VentureBeat 汇总的 HLE 无工具数据中，Claude Opus 4.7 为 46.9%，高于 GPT-5.5 的 41.4%。^[4]

DeepSeek V4 / V4 Pro

DeepSeek V4 Pro 的核心竞争力是成本、开放可用性和接近前沿模型的能力。^[4] VentureBeat 报道 DeepSeek V4 是 1.6T 参数 MoE、MIT License，并通过 Hugging Face 与 DeepSeek API 提供。^[4]

DeepSeek V4 Pro 在已见共享基准中通常接近但不全面超过 GPT-5.5 或 Claude Opus 4.7。^[4] VentureBeat 的数据称 DeepSeek 在 HLE 无工具为 37.7%、有工具为 48.2%，低于 GPT-5.5、GPT-5.5 Pro 与 Claude Opus 4.7 的对应分数。^[4] 但它的 API 成本远低于 GPT-5.5 与 Claude Opus 4.7，因此适合高吞吐、成本敏感、可自托管或开源优先的场景。^[4]

Kimi K2.6

Kimi K2.6 的定位是强开权重、多模态、长上下文和低幻觉率。^[5] Artificial Analysis 称其为新的领先开权重模型，并给出 Intelligence Index 54、GDPval-AA Elo 1520、τ²-Bench Telecom 96%、幻觉率 39%、256K 上下文、图像和视频输入支持等结果。^[5]

Kimi K2.6 与 GPT-5.5 的直接可比官方数据较少，因此不能简单声称它全面超过 GPT-5.5 或 Claude Opus 4.7。^[5]^[7] 在 BrowseComp 上，DocsBot 汇总 Kimi K2.6 为 83.2%，接近 GPT-5.5 的 84.4%，但该数据来自不同汇总源，需谨慎比较。^[1]^[7]

Practical recommendations

如果目标是最高综合智能、agentic coding、浏览研究和工具任务，优先选择 GPT-5.5。^[1]^[2]^[6]
如果目标是长程工程任务、复杂文档/视觉理解、较强自我校验和比 GPT-5.5 略低的输出价格，优先选择 Claude Opus 4.7。^[3]
如果目标是大规模推理、低成本 API、开源许可证或部署灵活性，优先评估 DeepSeek V4 Pro。^[4]
如果目标是开权重、多模态输入、256K 长上下文、低幻觉率和强工具使用，优先评估 Kimi K2.6。^[5]
如果目标是联网研究或网页检索类任务，GPT-5.5、DeepSeek V4 和 Kimi K2.6 的公开 BrowseComp 分数非常接近，建议用自己的真实工作流做小样本 A/B 测试。^[1]^[4]^[7]

Evidence notes

本报告主要使用以下编号来源：OpenAI 官方 GPT-5.5 发布页 ^[1]、OpenAI API 模型文档 ^[2]、Anthropic 官方 Claude Opus 4.7 发布页 ^[3]、VentureBeat 对 DeepSeek V4 的报道与基准汇总 ^[4]、Artificial Analysis 对 Kimi K2.6 的评测 ^[5]、Artificial Analysis 的 GPT-5.5 / DeepSeek V4 比较页 ^[6]、DocsBot 的 Kimi K2.6 / GPT-5.5 对比页 ^[7]、OpenRouter 的 DeepSeek V4 Pro / Kimi K2.6 提供商对比页 ^[8]、AkitaOnRails 的 2026 年 4 月编码实测 ^[9]。

官方来源的证据权重最高，尤其是 OpenAI 与 Anthropic 自家发布页和 API 文档。^[1]^[2]^[3] 第三方基准的优势是可横向比较，但常受提示词、工具链、推理强度、温度、样本集和服务商封装影响，因此本报告把 Artificial Analysis、VentureBeat、DocsBot、OpenRouter 和个人实测作为补充证据而非最终裁决。^[4]^[5]^[6]^[7]^[8]^[9]

Limitations / uncertainty

Insufficient evidence：没有找到四个模型在同一组织、同一时间、同一推理预算、同一工具设置下覆盖所有关键基准的完整公开表格。^[1]^[3]^[4]^[5]^[6]^[7]

Insufficient evidence：DeepSeek V4 与 Kimi K2.6 的官方逐项基准、尤其是与 GPT-5.5 和 Claude Opus 4.7 的同源对比，在本次可核查材料中不完整。^[4]^[5]^[6]^[7]

部分分数来自模型厂商自己的发布页，可能更偏向展示该模型强项。^[1]^[3] 部分分数来自第三方聚合或媒体报道，可能存在模型版本、调用参数、工具权限或供应商路由差异。^[4]^[5]^[6]^[7]^[8]

Summary

综合公开基准看，GPT-5.5 是默认的最高性能选择，Claude Opus 4.7 是最接近的闭源替代并在长程工程与数据纪律上很强，Kimi K2.6 是开权重阵营最强候选，DeepSeek V4 Pro 则是成本效益和开放部署最突出的候选。^[1]^[3]^[4]^[5]^[6]

如果你要做采购或技术选型，不应只看排行榜；建议用自己的 30–100 个真实任务建立私有评测集，并同时记录准确率、失败模式、延迟、token 消耗、可控性、工具调用成功率和总成本。^[1]^[2]^[4]^[5]

Sources

[1] Claude Opus 4.7 Benchmark Breakdown: Vision, Coding, ...mindstudio.ai
Claude Opus 4.7 posted 82.4% on SWE-bench Verified, up roughly 11 points from Opus 4.6 — the most meaningful coding benchmark available. Vision improvements were the largest percentage gains: MathVista jumped 9.5 points, enabling reliable visual math reason...
[3] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com
Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...
[4] DeepSeek V4 Pro (Reasoning, High Effort) vs GPT-5.5 (medium)artificialanalysis.ai
What are the top AI models? The top AI models by Intelligence Index are: 1. GPT-5.5 (xhigh) (60), 2. GPT-5.5 (high) (59), 3. Claude Opus 4.7 (Adaptive Reasoning, Max Effort) (57), 4. Gemini 3.1 Pro Preview (57), 5. GPT-5.4 (xhigh) (57). Which is the fastest...
[5] DeepSeek V4 Pro vs Kimi K2.6 - AI Model Comparison | OpenRouteropenrouter.ai
Ready Output will appear here... Pricing Input$0.7448 / M tokens Output$4.655 / M tokens Images– – Features Input Modalities text, image Output Modalities text Quantization int4 Max Tokens (input + output)256K Max Output Tokens 66K Stream cancellation Suppo...
[6] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com
On Humanity’s Last Exam without tools, DeepSeek scores 37.7%, behind GPT-5.5 at 41.4%, GPT-5.5 Pro at 43.1% and Claude Opus 4.7 at 46.9%. With tools enabled, DeepSeek rises to 48.2%, but still trails GPT-5.5 at 52.2%, GPT-5.5 Pro at 57.2% and Claude Opus 4....
[7] Introducing Claude Opus 4.7 - Anthropicanthropic.com
Image 7: logo Based on our internal research-agent benchmark, Claude Opus 4.7 has the strongest efficiency baseline we’ve seen for multi-step work. It tied for the top overall score across our six modules at 0.715 and delivered the most consistent long-cont...
[8] Kimi K2.6 vs GPT-5.5 - Detailed Performance & Feature Comparisondocsbot.ai
BrowseComp Evaluates browsing and web comprehension capabilities 83.2% Thinking mode; context management Source 84.4% Source CharXiv Reasoning Evaluates information synthesis from complex charts and scientific visualizations 80.4% RQ; 86.7 with Python Sourc...
[9] Kimi K2.6: The new leading open weights model - Artificial Analysisartificialanalysis.ai
➤ Multimodality: Kimi K2.6 supports Image and Video input and text output natively. The model’s max context length remains 256k. Kimi K2.6 has significantly higher token usage than Kimi K2.5. Kimi K2.5 scores 6 on the AA-Omniscience Index, primarily driven...
[14] Kimi K2.6 Tested: Does It Beat Claude and GPT-5? | Lorka AIlorka.ai
Benchmark What it tests Kimi K2.6 GPT-5.4 Opus 4.6 Gemini 3.1 Pro --- --- --- HLE-Full (with tools) Agentic reasoning with tool use 54.0% 52.1% 53.0% 51.4% DeepSearchQA (F1) Research retrieval and synthesis 92.5% 78.6% 91.3% 81.9% SWE-Bench Pro Multi-file c...
[15] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4 - Verdent AIverdent.ai
Benchmark K2.6 Claude Opus 4.6 GPT-5.4 Notes --- --- SWE-Bench Pro 58.60% 53.40% 57.70% Moonshot in-house harness; SEAL mini-swe-agent puts GPT-5.4 at 59.1%, Opus 4.6 at 51.9% SWE-Bench Verified 80.20% 80.80% 80% Tight cluster; Opus 4.7 now leads at 87.6% T...
[16] LLM Coding Benchmark (April 2026): GPT 5.5, DeepSeek v4, Kimi ...akitaonrails.com
Rank Model Score Tier RubyLLM OK Time Cost --- --- --- 1 Claude Opus 4.7 97 A ✅ 18m $1.10 1 GPT 5.4 xHigh (Codex) 97 A ✅ 22m $16 3 GPT 5.5 xHigh (Codex) 96 A ✅ 18m $10 4 Kimi K2.6 87 A ✅ 20m $0.30 5 Claude Opus 4.6 83 A ✅ 16m $1.10 6 Gemini 3.1 Pro 82 A ✅ 1...
[25] Introducing GPT-5.5 - OpenAIopenai.com
Update on April 24, 2026: GPT‑5.5 and GPT‑5.5 Pro are now available ... GPT‑5.5 achieved leading performance among models with published scores. 3 days ago
[34] Using GPT-5.5 | OpenAI APIdevelopers.openai.com
For tool-heavy or long-running workflows, verify that your application handles phase , preambles, and assistant-item replay correctly. Benchmark against other models on accuracy, token consumption, and end-to-end latency. [...] More efficient reasoning: GPT...
[35] Models | OpenAI APIdevelopers.openai.com
GPT-5.5 New A new class of intelligence for coding and professional work. Model ID gpt-5.5 [Reasoning none low medium high xhigh Input price $5 / Input MTok Output price $30 / Output MTok Latency Fast Max output 128K tokens Context window 1M Tools Functions...

Trending Discover

ReportsPublishedApr 28, 2026Last edited May 6, 202614 sources

GPT-5.5, Claude Opus 4.7, DeepSeek V4, atau Kimi K2.6: Pilih yang Mana?

Search & fact-check with Studio Global AI Browse more from Discover

18K0

Ringkasan cepat: mulai uji dari mana?

Prioritas Anda	Mulai evaluasi dari	Alasan utama
Kemampuan umum, agentic workflow, coding berbasis terminal	GPT-5.5	Artificial Analysis memberi GPT-5.5 xHigh skor 60 dan GPT-5.5 High skor 59, di atas Claude Opus 4.7 di 57; VentureBeat merangkum GPT-5.5 mencapai 82,7% di Terminal-Bench 2.0.^[4]^[6]
Riset dokumen panjang, analisis multi-langkah, finance, output yang harus rapi dan bisa ditelusuri	Claude Opus 4.7	Anthropic menyebut Opus 4.7 mencetak skor keseluruhan 0,715 di benchmark internal research-agent dan 0,813 di modul General Finance, naik dari Opus 4.6 di 0,767.^[7]
Throughput tinggi dan anggaran ketat	DeepSeek V4	Mashable merangkum harga API DeepSeek V4 sebesar 1,74 dolar AS per juta token input dan 3,48 dolar AS per juta token output, lebih rendah dari GPT-5.5 dan Claude Opus 4.7 pada tabel yang sama.^[3]
Bobot terbuka, input gambar/video, konteks panjang 256K	Kimi K2.6	Artificial Analysis menyebut Kimi K2.6 sebagai model bobot terbuka terdepan baru, dengan dukungan input gambar, input video, dan konteks maksimum 256K.^[9]

Mengapa satu leaderboard saja tidak cukup

Angka benchmark yang paling berguna dibaca bersama

Metrik	GPT-5.5	Claude Opus 4.7	DeepSeek V4 / V4 Pro	Kimi K2.6	Cara membacanya
Artificial Analysis Intelligence Index	xHigh 60; High 59 ^[4]	57 ^[4]	Belum ada skor presisi dalam tabel yang sama pada materi ini	AA Intelligence 53,9 menurut rangkuman OpenRouter ^[5]	GPT-5.5 memimpin di indeks umum; Kimi K2.6 kuat untuk kategori bobot terbuka.
Terminal-Bench 2.0	82,7% ^[6]	69,4% ^[6]	67,9% ^[6]	Belum ada skor publik dari sumber yang sama	Keunggulan GPT-5.5 paling jelas pada tugas agentic berbasis terminal.
SWE-Bench Pro	58,6% ^[6]	Data sebanding dari sumber yang sama tidak tersedia dalam materi ini	55,4% ^[6]	Sebagian materi Kimi membandingkan dengan GPT-5.4 atau Opus 4.6, bukan empat model ini secara langsung ^[14]^[15]	GPT-5.5 dan DeepSeek V4 bisa dibandingkan dari satu rangkuman; Kimi perlu dibaca hati-hati lintas sumber.
Humanity’s Last Exam, tanpa tool	41,4%; GPT-5.5 Pro 43,1% ^[6]	46,9% ^[6]	37,7% ^[6]	Belum ada skor publik dari sumber yang sama	Claude Opus 4.7 unggul pada setelan ini.
Humanity’s Last Exam, dengan tool	52,2%; GPT-5.5 Pro 57,2% ^[6]	54,7% ^[6]	48,2% ^[6]	Belum ada skor publik dari sumber yang sama	Claude di atas GPT-5.5 base, tetapi di bawah GPT-5.5 Pro.
BrowseComp	84,4% ^[8]	Belum ada skor publik dari sumber yang sama	V4 Pro-Max 83,4% ^[6]	83,2% ^[8]	Untuk browsing dan pemahaman web, GPT-5.5, DeepSeek V4 Pro-Max, dan Kimi K2.6 tampak berdekatan.
Subskor Kimi K2.6 di Artificial Analysis	—	—	—	Intelligence 53,9; Coding 47,1; Agentic 66,0 ^[5]	Kemampuan agentic Kimi menarik, tetapi tetap perlu diuji di toolchain nyata.

GPT-5.5: kandidat default untuk performa tinggi

Claude Opus 4.7: kuat untuk kerja panjang dan disiplin dokumen

DeepSeek V4: daya tarik terbesar ada di rasio biaya-kualitas

Cocok diuji lebih dulu untuk: batch processing, inferensi volume besar, aplikasi dengan margin tipis, dan sistem yang bisa menerima proses review kualitas demi menekan biaya token.^[3]

Kimi K2.6: kandidat bobot terbuka untuk konteks panjang dan multimodal

OpenRouter mencantumkan Kimi K2.6 dengan Artificial Analysis Intelligence 53,9, Coding 47,1, dan Agentic 66,0. Halaman yang sama juga menampilkan maksimum token 256K dan output maksimum 66K.^[5]

Biaya dan kapasitas: jangan hanya terpaku pada skor

Model	Informasi harga dan kapasitas publik	Dampak ke pemilihan
GPT-5.5	5 dolar AS per juta token input, 30 dolar AS per juta token output; konteks 1M; output maksimum 128K; mendukung function calling, web search, file search, dan computer use ^[35]	Cocok untuk tugas kompleks bernilai tinggi, tetapi biaya bisa naik cepat jika output panjang atau agent loop berulang.
Claude Opus 4.7	Mashable merangkum 5 dolar AS per juta token input dan 25 dolar AS per juta token output, dengan konteks 1M ^[3]	Harga output lebih rendah dari GPT-5.5; menarik untuk pekerjaan panjang yang menuntut konsistensi dan disiplin dokumen.^[7]
DeepSeek V4	Mashable merangkum 1,74 dolar AS per juta token input dan 3,48 dolar AS per juta token output, dengan konteks 1M ^[3]	Kandidat kuat untuk throughput tinggi, batch processing, dan aplikasi yang sangat sensitif biaya.
Kimi K2.6	OpenRouter mencantumkan salah satu rute di 0,7448 dolar AS per juta token input dan 4,655 dolar AS per juta token output; maksimum token 256K dan output maksimum 66K ^[5]	Menarik untuk evaluasi bobot terbuka, konteks panjang, dan input multimodal; harga routing tidak otomatis sama dengan harga semua penyedia.^[5]^[9]

Cara menguji di pekerjaan nyata

Rekomendasi akhir

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Search & fact-check with Studio Global AI

Key takeaways

Jangan mulai dari pertanyaan “model mana yang paling pintar?”. Untuk uji awal, GPT 5.5 paling kuat sebagai pilihan umum; Claude Opus 4.7 unggul untuk riset dokumen panjang dan disiplin data; DeepSeek V4 menarik untuk...
Selisih biaya bisa mengubah keputusan. Dokumentasi OpenAI mencantumkan GPT 5.5 di 5 dolar AS per juta token input dan 30 dolar AS per juta token output; Mashable merangkum DeepSeek V4 di 1,74/3,48 dolar AS dan Claude...
Benchmark publik belum menyediakan perbandingan lengkap empat model dengan sumber, waktu, anggaran reasoning, dan akses tool yang sama.

Continue your research

Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: benchmarks 2026 y veredicto

Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: comparativa de benchmarks 2026

DeepSeek V4 工程解析：1M 上下文、MoE 与 API 迁移要点

Northwest vs. Southeast Timber 彈性題解：為什麼是 larger; larger

Northwest 與 Southeast Timber：替代性越高，為什麼答案是 larger; larger？

DeepSeek 會擊敗 OpenAI、Claude、Gemini、Grok 嗎？關鍵不是榜單，而是成本與信任

Research conversation

YouApr 26, 2026

Research question

研究 Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6 的基准测试，并尽可能全面地进行比较。请以研究报告的格式呈现。

Studio Global AIApr 26, 202640 sources

Cited answer

Key findings

综合智能排名上，Artificial Analysis 的公开比较显示 GPT-5.5 xHigh 位列第一，GPT-5.5 High 第二，Claude Opus 4.7 与 Gemini 3.1 Pro Preview 同处 57 分档位，而 Kimi K2.6 在其 Intelligence Index 上为 54 分、位列开权重模型第一梯队。^[5]^[6]
编码与代理任务上，OpenAI 官方表格给出 GPT-5.5 在 Terminal-Bench 2.0 为 82.7%，在 SWE-Bench Pro 为 58.6%，并称其是 OpenAI 当时最强的 agentic coding 模型。^[1] Anthropic 官方没有在可抓取文本中给出完整统一表格，但称 Opus 4.7 相比 Opus 4.6 在高级软件工程、复杂长程任务和自我验证方面显著提升，并引用客户 93-task coding benchmark 中 resolution 提升 13%。^[3]
推理与数学上，OpenAI 官方表格显示 GPT-5.5 在 FrontierMath Tier 1–3 为 51.7%、Tier 4 为 35.4%，高于表中 Claude Opus 4.7 的 43.8% 与 22.9%。^[1] 但 VentureBeat 汇总的 Humanity’s Last Exam 数据显示，在无工具设置下 Claude Opus 4.7 为 46.9%，高于 GPT-5.5 的 41.4% 与 DeepSeek V4 的 37.7%。^[4]
浏览与研究型任务上，GPT-5.5 在 OpenAI 表格中的 BrowseComp 为 84.4%，Claude Opus 4.7 为 79.3%。^[1] VentureBeat 报道 DeepSeek V4 Pro-Max 在 BrowseComp 为 83.4%，DocsBot 汇总 Kimi K2.6 为 83.2%，因此该项上 GPT-5.5、DeepSeek V4、Kimi K2.6 非常接近，Claude Opus 4.7 落后一些。^[4]^[7]
成本上，OpenAI API 文档列出 GPT-5.5 为 $5 / 百万输入 token、$30 / 百万输出 token，并支持 1M 上下文与 128K 最大输出。^[2] Anthropic 官方称 Claude Opus 4.7 价格维持 $5 / 百万输入 token、$25 / 百万输出 token。^[3] VentureBeat 引用 DeepSeek API 定价称 DeepSeek V4 Pro 为 $1.74 / 百万输入 token、$3.48 / 百万输出 token，显著低于 GPT-5.5 与 Claude Opus 4.7。^[4]
开权重生态上，Kimi K2.6 被 Artificial Analysis 称为“new leading open weights model”，其模型为 1T 总参数、32B 激活参数的 MoE，支持 256K 上下文、图像和视频输入、文本输出。^[5] DeepSeek V4 被报道为 1.6T 参数 MoE、MIT License、可在 Hugging Face 与 DeepSeek API 获取，因此在可部署性和成本上更开放、更便宜。^[4]

Benchmark comparison

维度 / 基准	GPT-5.5	Claude Opus 4.7	DeepSeek V4 / V4 Pro	Kimi K2.6	解读
Artificial Analysis Intelligence Index	xHigh 60；High 59 ^[6]	57 ^[6]	V4 Pro 被列为领先开权重模型之一，但本次资料未给出同表精确分数 ^[6]	54，开权重第一梯队 ^[5]	GPT-5.5 综合领先，Claude 接近，Kimi 是开权重最强代表之一。
Terminal-Bench 2.0	82.7% ^[1]	68.5% ^[1]	Insufficient evidence	Insufficient evidence	GPT-5.5 在命令行代理工作流上优势明显。
SWE-Bench Pro	58.6% ^[1]	Insufficient evidence	Insufficient evidence	第三方资料显示可与 GPT-5.4 / Opus 4.6 同档，但缺少同源 GPT-5.5 / Opus 4.7 对比 ^[5]	GPT-5.5 有官方分数；其他模型缺少同设置数据。
GDPval / GDPval-AA	GPT-5.5 wins-or-ties 84.9% ^[1]	80.3% ^[1]	Insufficient evidence	GDPval-AA Elo 1520，高于 Kimi K2.5 的 1309 ^[5]	GPT 与 Claude 可在 OpenAI 表中横比；Kimi 的 AA Elo 不应与 OpenAI 的百分比分数直接相加比较。
BrowseComp	84.4% ^[1]	79.3% ^[1]	83.4% ^[4]	83.2% ^[7]	GPT-5.5 略高，DeepSeek 与 Kimi 非常接近，Claude 稍弱。
FrontierMath Tier 1–3	51.7% ^[1]	43.8% ^[1]	Insufficient evidence	Insufficient evidence	GPT-5.5 在该官方表格中领先 Claude。
FrontierMath Tier 4	35.4% ^[1]	22.9% ^[1]	Insufficient evidence	Insufficient evidence	难题数学上 GPT-5.5 与 Claude 差距扩大。
Humanity’s Last Exam，无工具	41.4% ^[4]	46.9% ^[4]	37.7% ^[4]	Insufficient evidence	Claude 在该报道的无工具 HLE 设置中最高。
Humanity’s Last Exam，有工具	52.2%；GPT-5.5 Pro 为 57.2% ^[4]	54.7% ^[4]	48.2% ^[4]	Insufficient evidence	工具设置下 Claude 高于 GPT-5.5 base，但低于 GPT-5.5 Pro。
CyberGym	81.8% ^[1]	73.1% ^[1]	Insufficient evidence	Insufficient evidence	GPT-5.5 在 OpenAI 表格中领先。
AA-Omniscience / 幻觉率	Insufficient evidence	幻觉率 36%，作为对照项出现 ^[5]	Insufficient evidence	幻觉率 39%，低于 Kimi K2.5 的 65% ^[5]	Kimi K2.6 的低幻觉率是其明显亮点。
τ²-Bench Telecom	Insufficient evidence	Insufficient evidence	Insufficient evidence	96% ^[5]	Kimi K2.6 在工具使用 / 电信任务中表现强。

Model-by-model assessment

GPT-5.5

Claude Opus 4.7

DeepSeek V4 / V4 Pro

Kimi K2.6

Practical recommendations

如果目标是最高综合智能、agentic coding、浏览研究和工具任务，优先选择 GPT-5.5。^[1]^[2]^[6]
如果目标是长程工程任务、复杂文档/视觉理解、较强自我校验和比 GPT-5.5 略低的输出价格，优先选择 Claude Opus 4.7。^[3]
如果目标是大规模推理、低成本 API、开源许可证或部署灵活性，优先评估 DeepSeek V4 Pro。^[4]
如果目标是开权重、多模态输入、256K 长上下文、低幻觉率和强工具使用，优先评估 Kimi K2.6。^[5]
如果目标是联网研究或网页检索类任务，GPT-5.5、DeepSeek V4 和 Kimi K2.6 的公开 BrowseComp 分数非常接近，建议用自己的真实工作流做小样本 A/B 测试。^[1]^[4]^[7]

Evidence notes

Limitations / uncertainty

Insufficient evidence：没有找到四个模型在同一组织、同一时间、同一推理预算、同一工具设置下覆盖所有关键基准的完整公开表格。^[1]^[3]^[4]^[5]^[6]^[7]

Insufficient evidence：DeepSeek V4 与 Kimi K2.6 的官方逐项基准、尤其是与 GPT-5.5 和 Claude Opus 4.7 的同源对比，在本次可核查材料中不完整。^[4]^[5]^[6]^[7]

Summary

Sources

[1] Claude Opus 4.7 Benchmark Breakdown: Vision, Coding, ...mindstudio.ai
Claude Opus 4.7 posted 82.4% on SWE-bench Verified, up roughly 11 points from Opus 4.6 — the most meaningful coding benchmark available. Vision improvements were the largest percentage gains: MathVista jumped 9.5 points, enabling reliable visual math reason...
[3] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com
Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...
[4] DeepSeek V4 Pro (Reasoning, High Effort) vs GPT-5.5 (medium)artificialanalysis.ai
What are the top AI models? The top AI models by Intelligence Index are: 1. GPT-5.5 (xhigh) (60), 2. GPT-5.5 (high) (59), 3. Claude Opus 4.7 (Adaptive Reasoning, Max Effort) (57), 4. Gemini 3.1 Pro Preview (57), 5. GPT-5.4 (xhigh) (57). Which is the fastest...
[5] DeepSeek V4 Pro vs Kimi K2.6 - AI Model Comparison | OpenRouteropenrouter.ai
Ready Output will appear here... Pricing Input$0.7448 / M tokens Output$4.655 / M tokens Images– – Features Input Modalities text, image Output Modalities text Quantization int4 Max Tokens (input + output)256K Max Output Tokens 66K Stream cancellation Suppo...
[6] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com
On Humanity’s Last Exam without tools, DeepSeek scores 37.7%, behind GPT-5.5 at 41.4%, GPT-5.5 Pro at 43.1% and Claude Opus 4.7 at 46.9%. With tools enabled, DeepSeek rises to 48.2%, but still trails GPT-5.5 at 52.2%, GPT-5.5 Pro at 57.2% and Claude Opus 4....
[7] Introducing Claude Opus 4.7 - Anthropicanthropic.com
Image 7: logo Based on our internal research-agent benchmark, Claude Opus 4.7 has the strongest efficiency baseline we’ve seen for multi-step work. It tied for the top overall score across our six modules at 0.715 and delivered the most consistent long-cont...
[8] Kimi K2.6 vs GPT-5.5 - Detailed Performance & Feature Comparisondocsbot.ai
BrowseComp Evaluates browsing and web comprehension capabilities 83.2% Thinking mode; context management Source 84.4% Source CharXiv Reasoning Evaluates information synthesis from complex charts and scientific visualizations 80.4% RQ; 86.7 with Python Sourc...
[9] Kimi K2.6: The new leading open weights model - Artificial Analysisartificialanalysis.ai
➤ Multimodality: Kimi K2.6 supports Image and Video input and text output natively. The model’s max context length remains 256k. Kimi K2.6 has significantly higher token usage than Kimi K2.5. Kimi K2.5 scores 6 on the AA-Omniscience Index, primarily driven...
[14] Kimi K2.6 Tested: Does It Beat Claude and GPT-5? | Lorka AIlorka.ai
Benchmark What it tests Kimi K2.6 GPT-5.4 Opus 4.6 Gemini 3.1 Pro --- --- --- HLE-Full (with tools) Agentic reasoning with tool use 54.0% 52.1% 53.0% 51.4% DeepSearchQA (F1) Research retrieval and synthesis 92.5% 78.6% 91.3% 81.9% SWE-Bench Pro Multi-file c...
[15] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4 - Verdent AIverdent.ai
Benchmark K2.6 Claude Opus 4.6 GPT-5.4 Notes --- --- SWE-Bench Pro 58.60% 53.40% 57.70% Moonshot in-house harness; SEAL mini-swe-agent puts GPT-5.4 at 59.1%, Opus 4.6 at 51.9% SWE-Bench Verified 80.20% 80.80% 80% Tight cluster; Opus 4.7 now leads at 87.6% T...
[16] LLM Coding Benchmark (April 2026): GPT 5.5, DeepSeek v4, Kimi ...akitaonrails.com
Rank Model Score Tier RubyLLM OK Time Cost --- --- --- 1 Claude Opus 4.7 97 A ✅ 18m $1.10 1 GPT 5.4 xHigh (Codex) 97 A ✅ 22m $16 3 GPT 5.5 xHigh (Codex) 96 A ✅ 18m $10 4 Kimi K2.6 87 A ✅ 20m $0.30 5 Claude Opus 4.6 83 A ✅ 16m $1.10 6 Gemini 3.1 Pro 82 A ✅ 1...
[25] Introducing GPT-5.5 - OpenAIopenai.com
Update on April 24, 2026: GPT‑5.5 and GPT‑5.5 Pro are now available ... GPT‑5.5 achieved leading performance among models with published scores. 3 days ago
[34] Using GPT-5.5 | OpenAI APIdevelopers.openai.com
For tool-heavy or long-running workflows, verify that your application handles phase , preambles, and assistant-item replay correctly. Benchmark against other models on accuracy, token consumption, and end-to-end latency. [...] More efficient reasoning: GPT...
[35] Models | OpenAI APIdevelopers.openai.com
GPT-5.5 New A new class of intelligence for coding and professional work. Model ID gpt-5.5 [Reasoning none low medium high xhigh Input price $5 / Input MTok Output price $30 / Output MTok Latency Fast Max output 128K tokens Context window 1M Tools Functions...

Trending Discover

ReportsPublishedApr 28, 2026Last edited May 6, 202614 sources

GPT-5.5, Claude Opus 4.7, DeepSeek V4, atau Kimi K2.6: Pilih yang Mana?

Search & fact-check with Studio Global AI Browse more from Discover

18K0

Ringkasan cepat: mulai uji dari mana?

Prioritas Anda	Mulai evaluasi dari	Alasan utama
Kemampuan umum, agentic workflow, coding berbasis terminal	GPT-5.5	Artificial Analysis memberi GPT-5.5 xHigh skor 60 dan GPT-5.5 High skor 59, di atas Claude Opus 4.7 di 57; VentureBeat merangkum GPT-5.5 mencapai 82,7% di Terminal-Bench 2.0.^[4]^[6]
Riset dokumen panjang, analisis multi-langkah, finance, output yang harus rapi dan bisa ditelusuri	Claude Opus 4.7	Anthropic menyebut Opus 4.7 mencetak skor keseluruhan 0,715 di benchmark internal research-agent dan 0,813 di modul General Finance, naik dari Opus 4.6 di 0,767.^[7]
Throughput tinggi dan anggaran ketat	DeepSeek V4	Mashable merangkum harga API DeepSeek V4 sebesar 1,74 dolar AS per juta token input dan 3,48 dolar AS per juta token output, lebih rendah dari GPT-5.5 dan Claude Opus 4.7 pada tabel yang sama.^[3]
Bobot terbuka, input gambar/video, konteks panjang 256K	Kimi K2.6	Artificial Analysis menyebut Kimi K2.6 sebagai model bobot terbuka terdepan baru, dengan dukungan input gambar, input video, dan konteks maksimum 256K.^[9]

Mengapa satu leaderboard saja tidak cukup

Angka benchmark yang paling berguna dibaca bersama

Metrik	GPT-5.5	Claude Opus 4.7	DeepSeek V4 / V4 Pro	Kimi K2.6	Cara membacanya
Artificial Analysis Intelligence Index	xHigh 60; High 59 ^[4]	57 ^[4]	Belum ada skor presisi dalam tabel yang sama pada materi ini	AA Intelligence 53,9 menurut rangkuman OpenRouter ^[5]	GPT-5.5 memimpin di indeks umum; Kimi K2.6 kuat untuk kategori bobot terbuka.
Terminal-Bench 2.0	82,7% ^[6]	69,4% ^[6]	67,9% ^[6]	Belum ada skor publik dari sumber yang sama	Keunggulan GPT-5.5 paling jelas pada tugas agentic berbasis terminal.
SWE-Bench Pro	58,6% ^[6]	Data sebanding dari sumber yang sama tidak tersedia dalam materi ini	55,4% ^[6]	Sebagian materi Kimi membandingkan dengan GPT-5.4 atau Opus 4.6, bukan empat model ini secara langsung ^[14]^[15]	GPT-5.5 dan DeepSeek V4 bisa dibandingkan dari satu rangkuman; Kimi perlu dibaca hati-hati lintas sumber.
Humanity’s Last Exam, tanpa tool	41,4%; GPT-5.5 Pro 43,1% ^[6]	46,9% ^[6]	37,7% ^[6]	Belum ada skor publik dari sumber yang sama	Claude Opus 4.7 unggul pada setelan ini.
Humanity’s Last Exam, dengan tool	52,2%; GPT-5.5 Pro 57,2% ^[6]	54,7% ^[6]	48,2% ^[6]	Belum ada skor publik dari sumber yang sama	Claude di atas GPT-5.5 base, tetapi di bawah GPT-5.5 Pro.
BrowseComp	84,4% ^[8]	Belum ada skor publik dari sumber yang sama	V4 Pro-Max 83,4% ^[6]	83,2% ^[8]	Untuk browsing dan pemahaman web, GPT-5.5, DeepSeek V4 Pro-Max, dan Kimi K2.6 tampak berdekatan.
Subskor Kimi K2.6 di Artificial Analysis	—	—	—	Intelligence 53,9; Coding 47,1; Agentic 66,0 ^[5]	Kemampuan agentic Kimi menarik, tetapi tetap perlu diuji di toolchain nyata.

GPT-5.5: kandidat default untuk performa tinggi

Claude Opus 4.7: kuat untuk kerja panjang dan disiplin dokumen

DeepSeek V4: daya tarik terbesar ada di rasio biaya-kualitas

Cocok diuji lebih dulu untuk: batch processing, inferensi volume besar, aplikasi dengan margin tipis, dan sistem yang bisa menerima proses review kualitas demi menekan biaya token.^[3]

Kimi K2.6: kandidat bobot terbuka untuk konteks panjang dan multimodal

OpenRouter mencantumkan Kimi K2.6 dengan Artificial Analysis Intelligence 53,9, Coding 47,1, dan Agentic 66,0. Halaman yang sama juga menampilkan maksimum token 256K dan output maksimum 66K.^[5]

Biaya dan kapasitas: jangan hanya terpaku pada skor

Model	Informasi harga dan kapasitas publik	Dampak ke pemilihan
GPT-5.5	5 dolar AS per juta token input, 30 dolar AS per juta token output; konteks 1M; output maksimum 128K; mendukung function calling, web search, file search, dan computer use ^[35]	Cocok untuk tugas kompleks bernilai tinggi, tetapi biaya bisa naik cepat jika output panjang atau agent loop berulang.
Claude Opus 4.7	Mashable merangkum 5 dolar AS per juta token input dan 25 dolar AS per juta token output, dengan konteks 1M ^[3]	Harga output lebih rendah dari GPT-5.5; menarik untuk pekerjaan panjang yang menuntut konsistensi dan disiplin dokumen.^[7]
DeepSeek V4	Mashable merangkum 1,74 dolar AS per juta token input dan 3,48 dolar AS per juta token output, dengan konteks 1M ^[3]	Kandidat kuat untuk throughput tinggi, batch processing, dan aplikasi yang sangat sensitif biaya.
Kimi K2.6	OpenRouter mencantumkan salah satu rute di 0,7448 dolar AS per juta token input dan 4,655 dolar AS per juta token output; maksimum token 256K dan output maksimum 66K ^[5]	Menarik untuk evaluasi bobot terbuka, konteks panjang, dan input multimodal; harga routing tidak otomatis sama dengan harga semua penyedia.^[5]^[9]

Cara menguji di pekerjaan nyata

Rekomendasi akhir

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Search & fact-check with Studio Global AI

Key takeaways

Jangan mulai dari pertanyaan “model mana yang paling pintar?”. Untuk uji awal, GPT 5.5 paling kuat sebagai pilihan umum; Claude Opus 4.7 unggul untuk riset dokumen panjang dan disiplin data; DeepSeek V4 menarik untuk...
Selisih biaya bisa mengubah keputusan. Dokumentasi OpenAI mencantumkan GPT 5.5 di 5 dolar AS per juta token input dan 30 dolar AS per juta token output; Mashable merangkum DeepSeek V4 di 1,74/3,48 dolar AS dan Claude...
Benchmark publik belum menyediakan perbandingan lengkap empat model dengan sumber, waktu, anggaran reasoning, dan akses tool yang sama.

Continue your research

Research conversation

YouApr 26, 2026

Research question

研究 Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6 的基准测试，并尽可能全面地进行比较。请以研究报告的格式呈现。

Studio Global AIApr 26, 202640 sources

Cited answer

Key findings

综合智能排名上，Artificial Analysis 的公开比较显示 GPT-5.5 xHigh 位列第一，GPT-5.5 High 第二，Claude Opus 4.7 与 Gemini 3.1 Pro Preview 同处 57 分档位，而 Kimi K2.6 在其 Intelligence Index 上为 54 分、位列开权重模型第一梯队。^[5]^[6]
编码与代理任务上，OpenAI 官方表格给出 GPT-5.5 在 Terminal-Bench 2.0 为 82.7%，在 SWE-Bench Pro 为 58.6%，并称其是 OpenAI 当时最强的 agentic coding 模型。^[1] Anthropic 官方没有在可抓取文本中给出完整统一表格，但称 Opus 4.7 相比 Opus 4.6 在高级软件工程、复杂长程任务和自我验证方面显著提升，并引用客户 93-task coding benchmark 中 resolution 提升 13%。^[3]
推理与数学上，OpenAI 官方表格显示 GPT-5.5 在 FrontierMath Tier 1–3 为 51.7%、Tier 4 为 35.4%，高于表中 Claude Opus 4.7 的 43.8% 与 22.9%。^[1] 但 VentureBeat 汇总的 Humanity’s Last Exam 数据显示，在无工具设置下 Claude Opus 4.7 为 46.9%，高于 GPT-5.5 的 41.4% 与 DeepSeek V4 的 37.7%。^[4]
浏览与研究型任务上，GPT-5.5 在 OpenAI 表格中的 BrowseComp 为 84.4%，Claude Opus 4.7 为 79.3%。^[1] VentureBeat 报道 DeepSeek V4 Pro-Max 在 BrowseComp 为 83.4%，DocsBot 汇总 Kimi K2.6 为 83.2%，因此该项上 GPT-5.5、DeepSeek V4、Kimi K2.6 非常接近，Claude Opus 4.7 落后一些。^[4]^[7]
成本上，OpenAI API 文档列出 GPT-5.5 为 $5 / 百万输入 token、$30 / 百万输出 token，并支持 1M 上下文与 128K 最大输出。^[2] Anthropic 官方称 Claude Opus 4.7 价格维持 $5 / 百万输入 token、$25 / 百万输出 token。^[3] VentureBeat 引用 DeepSeek API 定价称 DeepSeek V4 Pro 为 $1.74 / 百万输入 token、$3.48 / 百万输出 token，显著低于 GPT-5.5 与 Claude Opus 4.7。^[4]
开权重生态上，Kimi K2.6 被 Artificial Analysis 称为“new leading open weights model”，其模型为 1T 总参数、32B 激活参数的 MoE，支持 256K 上下文、图像和视频输入、文本输出。^[5] DeepSeek V4 被报道为 1.6T 参数 MoE、MIT License、可在 Hugging Face 与 DeepSeek API 获取，因此在可部署性和成本上更开放、更便宜。^[4]

Benchmark comparison

维度 / 基准	GPT-5.5	Claude Opus 4.7	DeepSeek V4 / V4 Pro	Kimi K2.6	解读
Artificial Analysis Intelligence Index	xHigh 60；High 59 ^[6]	57 ^[6]	V4 Pro 被列为领先开权重模型之一，但本次资料未给出同表精确分数 ^[6]	54，开权重第一梯队 ^[5]	GPT-5.5 综合领先，Claude 接近，Kimi 是开权重最强代表之一。
Terminal-Bench 2.0	82.7% ^[1]	68.5% ^[1]	Insufficient evidence	Insufficient evidence	GPT-5.5 在命令行代理工作流上优势明显。
SWE-Bench Pro	58.6% ^[1]	Insufficient evidence	Insufficient evidence	第三方资料显示可与 GPT-5.4 / Opus 4.6 同档，但缺少同源 GPT-5.5 / Opus 4.7 对比 ^[5]	GPT-5.5 有官方分数；其他模型缺少同设置数据。
GDPval / GDPval-AA	GPT-5.5 wins-or-ties 84.9% ^[1]	80.3% ^[1]	Insufficient evidence	GDPval-AA Elo 1520，高于 Kimi K2.5 的 1309 ^[5]	GPT 与 Claude 可在 OpenAI 表中横比；Kimi 的 AA Elo 不应与 OpenAI 的百分比分数直接相加比较。
BrowseComp	84.4% ^[1]	79.3% ^[1]	83.4% ^[4]	83.2% ^[7]	GPT-5.5 略高，DeepSeek 与 Kimi 非常接近，Claude 稍弱。
FrontierMath Tier 1–3	51.7% ^[1]	43.8% ^[1]	Insufficient evidence	Insufficient evidence	GPT-5.5 在该官方表格中领先 Claude。
FrontierMath Tier 4	35.4% ^[1]	22.9% ^[1]	Insufficient evidence	Insufficient evidence	难题数学上 GPT-5.5 与 Claude 差距扩大。
Humanity’s Last Exam，无工具	41.4% ^[4]	46.9% ^[4]	37.7% ^[4]	Insufficient evidence	Claude 在该报道的无工具 HLE 设置中最高。
Humanity’s Last Exam，有工具	52.2%；GPT-5.5 Pro 为 57.2% ^[4]	54.7% ^[4]	48.2% ^[4]	Insufficient evidence	工具设置下 Claude 高于 GPT-5.5 base，但低于 GPT-5.5 Pro。
CyberGym	81.8% ^[1]	73.1% ^[1]	Insufficient evidence	Insufficient evidence	GPT-5.5 在 OpenAI 表格中领先。
AA-Omniscience / 幻觉率	Insufficient evidence	幻觉率 36%，作为对照项出现 ^[5]	Insufficient evidence	幻觉率 39%，低于 Kimi K2.5 的 65% ^[5]	Kimi K2.6 的低幻觉率是其明显亮点。
τ²-Bench Telecom	Insufficient evidence	Insufficient evidence	Insufficient evidence	96% ^[5]	Kimi K2.6 在工具使用 / 电信任务中表现强。

Model-by-model assessment

GPT-5.5

Claude Opus 4.7

DeepSeek V4 / V4 Pro

Kimi K2.6

Practical recommendations

如果目标是最高综合智能、agentic coding、浏览研究和工具任务，优先选择 GPT-5.5。^[1]^[2]^[6]
如果目标是长程工程任务、复杂文档/视觉理解、较强自我校验和比 GPT-5.5 略低的输出价格，优先选择 Claude Opus 4.7。^[3]
如果目标是大规模推理、低成本 API、开源许可证或部署灵活性，优先评估 DeepSeek V4 Pro。^[4]
如果目标是开权重、多模态输入、256K 长上下文、低幻觉率和强工具使用，优先评估 Kimi K2.6。^[5]
如果目标是联网研究或网页检索类任务，GPT-5.5、DeepSeek V4 和 Kimi K2.6 的公开 BrowseComp 分数非常接近，建议用自己的真实工作流做小样本 A/B 测试。^[1]^[4]^[7]

Evidence notes

Limitations / uncertainty

Insufficient evidence：没有找到四个模型在同一组织、同一时间、同一推理预算、同一工具设置下覆盖所有关键基准的完整公开表格。^[1]^[3]^[4]^[5]^[6]^[7]

Insufficient evidence：DeepSeek V4 与 Kimi K2.6 的官方逐项基准、尤其是与 GPT-5.5 和 Claude Opus 4.7 的同源对比，在本次可核查材料中不完整。^[4]^[5]^[6]^[7]

Summary

Sources

[1] Claude Opus 4.7 Benchmark Breakdown: Vision, Coding, ...mindstudio.ai
Claude Opus 4.7 posted 82.4% on SWE-bench Verified, up roughly 11 points from Opus 4.6 — the most meaningful coding benchmark available. Vision improvements were the largest percentage gains: MathVista jumped 9.5 points, enabling reliable visual math reason...
[3] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com
Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...
[4] DeepSeek V4 Pro (Reasoning, High Effort) vs GPT-5.5 (medium)artificialanalysis.ai
What are the top AI models? The top AI models by Intelligence Index are: 1. GPT-5.5 (xhigh) (60), 2. GPT-5.5 (high) (59), 3. Claude Opus 4.7 (Adaptive Reasoning, Max Effort) (57), 4. Gemini 3.1 Pro Preview (57), 5. GPT-5.4 (xhigh) (57). Which is the fastest...
[5] DeepSeek V4 Pro vs Kimi K2.6 - AI Model Comparison | OpenRouteropenrouter.ai
Ready Output will appear here... Pricing Input$0.7448 / M tokens Output$4.655 / M tokens Images– – Features Input Modalities text, image Output Modalities text Quantization int4 Max Tokens (input + output)256K Max Output Tokens 66K Stream cancellation Suppo...
[6] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com
On Humanity’s Last Exam without tools, DeepSeek scores 37.7%, behind GPT-5.5 at 41.4%, GPT-5.5 Pro at 43.1% and Claude Opus 4.7 at 46.9%. With tools enabled, DeepSeek rises to 48.2%, but still trails GPT-5.5 at 52.2%, GPT-5.5 Pro at 57.2% and Claude Opus 4....
[7] Introducing Claude Opus 4.7 - Anthropicanthropic.com
Image 7: logo Based on our internal research-agent benchmark, Claude Opus 4.7 has the strongest efficiency baseline we’ve seen for multi-step work. It tied for the top overall score across our six modules at 0.715 and delivered the most consistent long-cont...
[8] Kimi K2.6 vs GPT-5.5 - Detailed Performance & Feature Comparisondocsbot.ai
BrowseComp Evaluates browsing and web comprehension capabilities 83.2% Thinking mode; context management Source 84.4% Source CharXiv Reasoning Evaluates information synthesis from complex charts and scientific visualizations 80.4% RQ; 86.7 with Python Sourc...
[9] Kimi K2.6: The new leading open weights model - Artificial Analysisartificialanalysis.ai
➤ Multimodality: Kimi K2.6 supports Image and Video input and text output natively. The model’s max context length remains 256k. Kimi K2.6 has significantly higher token usage than Kimi K2.5. Kimi K2.5 scores 6 on the AA-Omniscience Index, primarily driven...
[14] Kimi K2.6 Tested: Does It Beat Claude and GPT-5? | Lorka AIlorka.ai
Benchmark What it tests Kimi K2.6 GPT-5.4 Opus 4.6 Gemini 3.1 Pro --- --- --- HLE-Full (with tools) Agentic reasoning with tool use 54.0% 52.1% 53.0% 51.4% DeepSearchQA (F1) Research retrieval and synthesis 92.5% 78.6% 91.3% 81.9% SWE-Bench Pro Multi-file c...
[15] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4 - Verdent AIverdent.ai
Benchmark K2.6 Claude Opus 4.6 GPT-5.4 Notes --- --- SWE-Bench Pro 58.60% 53.40% 57.70% Moonshot in-house harness; SEAL mini-swe-agent puts GPT-5.4 at 59.1%, Opus 4.6 at 51.9% SWE-Bench Verified 80.20% 80.80% 80% Tight cluster; Opus 4.7 now leads at 87.6% T...
[16] LLM Coding Benchmark (April 2026): GPT 5.5, DeepSeek v4, Kimi ...akitaonrails.com
Rank Model Score Tier RubyLLM OK Time Cost --- --- --- 1 Claude Opus 4.7 97 A ✅ 18m $1.10 1 GPT 5.4 xHigh (Codex) 97 A ✅ 22m $16 3 GPT 5.5 xHigh (Codex) 96 A ✅ 18m $10 4 Kimi K2.6 87 A ✅ 20m $0.30 5 Claude Opus 4.6 83 A ✅ 16m $1.10 6 Gemini 3.1 Pro 82 A ✅ 1...
[25] Introducing GPT-5.5 - OpenAIopenai.com
Update on April 24, 2026: GPT‑5.5 and GPT‑5.5 Pro are now available ... GPT‑5.5 achieved leading performance among models with published scores. 3 days ago
[34] Using GPT-5.5 | OpenAI APIdevelopers.openai.com
For tool-heavy or long-running workflows, verify that your application handles phase , preambles, and assistant-item replay correctly. Benchmark against other models on accuracy, token consumption, and end-to-end latency. [...] More efficient reasoning: GPT...
[35] Models | OpenAI APIdevelopers.openai.com
GPT-5.5 New A new class of intelligence for coding and professional work. Model ID gpt-5.5 [Reasoning none low medium high xhigh Input price $5 / Input MTok Output price $30 / Output MTok Latency Fast Max output 128K tokens Context window 1M Tools Functions...

Ringkasan cepat: mulai uji dari mana?

Mengapa satu leaderboard saja tidak cukup

Angka benchmark yang paling berguna dibaca bersama

GPT-5.5: kandidat default untuk performa tinggi

Claude Opus 4.7: kuat untuk kerja panjang dan disiplin dokumen

DeepSeek V4: daya tarik terbesar ada di rasio biaya-kualitas

Kimi K2.6: kandidat bobot terbuka untuk konteks panjang dan multimodal

Biaya dan kapasitas: jangan hanya terpaku pada skor

Cara menguji di pekerjaan nyata

Rekomendasi akhir

Search, cite, and publish your own answer

Key takeaways

People also ask

What is the short answer to "GPT-5.5, Claude Opus 4.7, DeepSeek V4, atau Kimi K2.6: Pilih yang Mana?"?

What are the key points to validate first?

What should I do next in practice?

Which related topic should I explore next?

What should I compare this against?

Continue your research

Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: benchmarks 2026 y veredicto

DeepSeek V4 工程解析：1M 上下文、MoE 与 API 迁移要点

Northwest vs. Southeast Timber 彈性題解：為什麼是 larger; larger

DeepSeek 會擊敗 OpenAI、Claude、Gemini、Grok 嗎？關鍵不是榜單，而是成本與信任

Research conversation

Research question

Cited answer

Key findings

Benchmark comparison

Model-by-model assessment

GPT-5.5

Claude Opus 4.7

DeepSeek V4 / V4 Pro

Kimi K2.6

Practical recommendations

Evidence notes

Limitations / uncertainty

Summary

Sources

Ringkasan cepat: mulai uji dari mana?

Mengapa satu leaderboard saja tidak cukup

Angka benchmark yang paling berguna dibaca bersama

GPT-5.5: kandidat default untuk performa tinggi

Claude Opus 4.7: kuat untuk kerja panjang dan disiplin dokumen

DeepSeek V4: daya tarik terbesar ada di rasio biaya-kualitas

Kimi K2.6: kandidat bobot terbuka untuk konteks panjang dan multimodal

Biaya dan kapasitas: jangan hanya terpaku pada skor

Cara menguji di pekerjaan nyata

Rekomendasi akhir

Search, cite, and publish your own answer

Key takeaways

People also ask

What is the short answer to "GPT-5.5, Claude Opus 4.7, DeepSeek V4, atau Kimi K2.6: Pilih yang Mana?"?

What are the key points to validate first?

What should I do next in practice?

Which related topic should I explore next?

What should I compare this against?

Continue your research

Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: benchmarks 2026 y veredicto

DeepSeek V4 工程解析：1M 上下文、MoE 与 API 迁移要点

Northwest vs. Southeast Timber 彈性題解：為什麼是 larger; larger

DeepSeek 會擊敗 OpenAI、Claude、Gemini、Grok 嗎？關鍵不是榜單，而是成本與信任

Research conversation

Research question

Cited answer

Key findings

Benchmark comparison

Model-by-model assessment

GPT-5.5

Claude Opus 4.7

DeepSeek V4 / V4 Pro

Kimi K2.6

Practical recommendations

Evidence notes

Limitations / uncertainty

Summary

Sources

Ringkasan cepat: mulai uji dari mana?

Mengapa satu leaderboard saja tidak cukup

Angka benchmark yang paling berguna dibaca bersama

GPT-5.5: kandidat default untuk performa tinggi