報告已發布2026年4月28日Last edited 2026年5月6日13 個來源

GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: Benchmark dan Panduan Memilih

17K0

四款 AI 模型的基準測試比較示意圖，包含 GPT-5.5、Claude Opus 4.7、Kimi K2.6 與 DeepSeek V4 — GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4 基準測試比較AI 生成示意圖：本文比較 GPT-5.5、Claude Opus 4.7、Kimi K2.6 與 DeepSeek V4-Pro 在公開基準測試中的表現。
AI 提示詞
Create a landscape editorial hero image for this Studio Global article: GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4 基準測試比較. Article summary: 目前不能公平選出單一總冠軍；四款模型缺少同一評測 harness、同一工具設定下的完整共同分數。可引用資料中，GPT 5.5 以 82.7% 領先 Terminal Bench 2.0，Claude Opus 4.7 以 64.3% 暫居 SWE Bench Pro 第一，但 Claude 數字來自次級整理引用 AWS。[27][4]. Topic tags: ai, llm, benchmarks, openai, anthropic. Reference image context from search candidates: Reference image 1: visual subject "OpenAI’s GPT-5.5, Anthropic’s Claude Opus 4.7, and DeepSeek V4 arrived close enough together to look like a clean three-way race. **GPT-5.5 is OpenAI’s bet on execution-heavy profe" source context "GPT-5.5, Claude Opus 4.7, and DeepSeek V4 reveal three different ..." Reference image 2: visual subject "GPT-5.5, Claude Opus 4.7, and DeepSeek V4 reveal three different futures for AI" source context "GPT-5.5, Claude Opus 4.7, and DeepSeek V4 reveal thr
openai.com

Saat empat model ini diletakkan berdampingan, godaan terbesarnya adalah langsung mencari pemenang. Masalahnya, angka yang tersedia datang dari sumber, izin penggunaan tool, konfigurasi reasoning effort, dan harness pengujian yang berbeda. Jadi, bukan satu papan skor umum yang paling berguna, melainkan pemilihan berbasis pekerjaan: GPT-5.5 lebih layak diuji dulu untuk alur terminal atau CLI; Claude Opus 4.7 untuk SWE-Bench, visi, dan computer-use; DeepSeek V4-Pro untuk knowledge/math dan jalur model terbuka; Kimi K2.6 untuk agentic multimodal workflow di Cloudflare Workers AI.^[27]^[4]^[1]^[5]^[64]^[36]

Ringkasan angka benchmark yang bisa dikutip

Tabel ini hanya memuat angka yang tersedia dari sumber yang diberikan. Tanda pisah bukan berarti model tersebut lemah di area itu, melainkan tidak ada angka yang bisa dikutip secara setara dalam kumpulan sumber ini. Yang lebih penting: semua angka ini tidak berasal dari satu harness resmi yang sama, sehingga cocok untuk shortlist awal, bukan untuk menetapkan juara absolut.

Tes atau tugas	GPT-5.5	Claude Opus 4.7	Kimi K2.6	DeepSeek V4-Pro	Cara membaca
Terminal-Bench 2.0	82,7% ^[27]	69,4% ^[4]	66,7 ^[84]	67,9 ^[64]	Dari data yang bisa dikutip, GPT-5.5 paling menonjol untuk workflow command-line.
SWE-Bench Pro	58,6% ^[27]	64,3% ^[4]	58,6 ^[84]	55,4 ^[64]	Claude memimpin angka yang tersedia, tetapi nilainya berasal dari rangkuman sekunder yang mengutip AWS.
SWE-Bench Verified / Resolved	—	87,6% ^[4]	80,2 ^[45]	80,6 ^[64]	Claude tertinggi, tetapi tidak ada angka GPT-5.5 yang sebaris dan penamaan benchmark tidak sepenuhnya sama.
Graphwalks 256k: BFS / parents	73,7 / 90,1 ^[21]	76,9 / 93,6 ^[21]	—	—	Dalam tabel long context OpenAI pada dua baris 256k ini, Claude Opus 4.7 berada di atas GPT-5.5.
Graphwalks 1M: BFS / parents	45,4 / 58,5 ^[21]	—	—	—	Tabel OpenAI menunjukkan performa long context 1 juta token untuk GPT-5.5; kolom pembanding 1M di tabel yang sama diberi label Opus 4.6, sehingga tidak tepat dipakai untuk menilai Opus 4.7.
Knowledge dan math	—	—	—	GPQA Diamond 90,1; GSM8K 92,6; MMLU-Pro 87,5; HLE 37,7 ^[64]	DeepSeek V4-Pro memiliki angka kartu model publik paling lengkap untuk kategori ini.
Visi, screenshot, computer-use	—	Peningkatan untuk vision-heavy workloads; koordinat piksel 1:1; visual-acuity XBOW 98,5% ^[1]^[5]	Cloudflare menyebutnya native multimodal agentic model, tetapi tidak memberi skor visual benchmark yang sama ^[36]	—	Bukti terkuat untuk tugas visual dan UI operation ada pada Claude Opus 4.7.

Mengapa tidak langsung membuat ranking total?

Pertama, level sumbernya tidak sama. Angka GPT-5.5 untuk Terminal-Bench 2.0 dan SWE-Bench Pro berasal dari laporan media yang menyebut benchmark yang diberikan OpenAI. Angka Claude Opus 4.7 untuk SWE-Bench Pro, SWE-Bench Verified, dan Terminal-Bench 2.0 berasal dari rangkuman sekunder yang mengutip AWS. Sebagian angka Kimi K2.6 dan DeepSeek V4-Pro berasal dari kartu model di Hugging Face.^[27]^[4]^[84]^[64]

Kedua, izin tool bisa membalik hasil. Laporan Mashable tentang HLE menunjukkan Claude Opus 4.7 mencetak 46,9% tanpa tool, sedangkan GPT-5.4 Pro 42,7%. Namun dengan tool, GPT-5.4 Pro tercatat 58,7% dan Claude Opus 4.7 54,7%. Ini bukan skor GPT-5.5, tetapi cukup untuk menunjukkan bahwa hasil with tools dan without tools tidak boleh dicampur dalam satu leaderboard.^[6]

Ketiga, versi dan biaya ikut menentukan makna angka. DeepSeek V4 tersedia sebagai V4-Pro dan V4-Flash; Yahoo Finance melaporkan V4-Flash sebagai versi yang lebih efisien dan ekonomis, sedangkan angka rinci yang dikutip di sini terutama merujuk DeepSeek-V4-Pro.^[57]^[64] Artificial Analysis juga membedakan GPT-5.5 berdasarkan effort variant dan menyebut GPT-5.5 xhigh sekitar 20% lebih mahal untuk menjalankan Index mereka dibanding pendahulunya, tetapi 30% lebih murah daripada Claude Opus 4.7 max.^[24]

GPT-5.5: paling jelas untuk terminal dan konteks panjang

Kekuatan GPT-5.5 yang paling jelas dalam kumpulan data ini adalah Terminal-Bench 2.0. Yahoo Finance / Investing.com melaporkan bahwa benchmark yang disediakan OpenAI menempatkan GPT-5.5 pada 82,7% di Terminal-Bench 2.0, tes untuk mengukur command-line workflows. Laporan yang sama mencantumkan GPT-5.5 pada 58,6% di SWE-Bench Pro, benchmark untuk mengevaluasi penyelesaian issue GitHub.^[27]

Untuk long context, tabel OpenAI memberi angka yang lebih rinci. GPT-5.5 mencetak 73,7 pada Graphwalks BFS 256k dan 45,4 pada 1M; pada Graphwalks parents, nilainya 90,1 untuk 256k dan 58,5 untuk 1M. Tabel yang sama menunjukkan GPT-5.4 hanya 9,4 pada Graphwalks BFS 1M, sementara GPT-5.5 mencapai 45,4.^[21]

Dari sisi evaluasi pihak ketiga, Artificial Analysis menyebut GPT-5.5 sebagai leading AI model baru. Mereka juga menyatakan OpenAI memimpin lima headline evaluations dan berada di posisi kedua setelah Gemini 3.1 Pro Preview pada tiga evaluasi lainnya. Dalam laporan yang sama, GPT-5.5 xhigh disebut memakai sekitar 40% lebih sedikit output tokens dibanding pendahulunya untuk menjalankan Index mereka.^[24]

Prioritas uji: CLI automation, terminal agents, pencarian atau penalaran berbasis konteks panjang, dan agentic coding workflow yang sensitif terhadap penggunaan output token.^[27]^[21]^[24]

Claude Opus 4.7: kuat untuk coding, paling jelas untuk visi dan computer-use

Dokumen resmi Anthropic paling tegas menyoroti area visual dan operasi antarmuka. Anthropic mengatakan perubahan pada Claude Opus 4.7 dapat membuka peningkatan performa untuk vision-heavy workloads, terutama computer use, screenshot, artifact, dan document understanding workflows. Dokumen yang sama juga menyebut koordinat model kini 1:1 dengan piksel aktual, sehingga tidak perlu menghitung scale factor.^[1]

Halaman peluncuran Anthropic mengutip benchmark visual-acuity dari XBOW: Claude Opus 4.7 mencapai 98,5%, dibanding 54,5% untuk Opus 4.6.^[5] Itu membuat bukti Claude Opus 4.7 lebih langsung untuk pekerjaan seperti memahami screenshot, membaca tata letak dokumen, mengoperasikan desktop UI, atau membangun computer-use agent.^[1]^[5]

Untuk coding benchmark, sebuah rangkuman menyebut AWS mencatat Claude Opus 4.7 pada 64,3% di SWE-Bench Pro, 87,6% di SWE-Bench Verified, dan 69,4% di Terminal-Bench 2.0.^[4] Angka ini membuat Claude memimpin dalam perbandingan SWE-Bench Pro dan Verified/Resolved yang bisa dikutip di sini, tetapi sumbernya masih lebih lemah dibanding tabel benchmark resmi bersama. Sebelum produksi, tim tetap perlu mengujinya ulang pada repo sendiri.

Ada catatan biaya yang penting: dokumentasi Anthropic mengingatkan bahwa gambar beresolusi tinggi memakai lebih banyak token. Jika detail visual tambahan tidak diperlukan, gambar sebaiknya diturunkan resolusinya sebelum dikirim ke Claude untuk menghindari kenaikan token usage.^[1]

Prioritas uji: perbaikan issue GitHub, coding agent, pemahaman screenshot atau dokumen, computer-use agents, dan tugas UI yang membutuhkan koordinat piksel presisi.^[1]^[4]^[5]

Kimi K2.6: kandidat agentic multimodal di Workers AI

Cloudflare mencatat bahwa Moonshot AI Kimi K2.6 tersedia di Workers AI pada 20 April 2026 dengan model ID @cf/moonshotai/kimi-k2.6. Cloudflare menyebut ketersediaan ini sebagai Day 0 support melalui kerja sama dengan Moonshot AI.^[36]

Dalam sumber yang sama, Kimi K2.6 digambarkan sebagai native multimodal agentic model. Fokus kemampuannya mencakup long-horizon coding, coding-driven design, proactive autonomous execution, dan swarm-based task orchestration. Cloudflare juga menyebut arsitekturnya Mixture-of-Experts dengan total 1 triliun parameter dan 32 miliar parameter aktif per token.^[36]

Untuk angka publik, kartu model Hugging Face Kimi K2.6 mencantumkan Terminal-Bench 2.0 sebesar 66,7, SWE-Bench Pro 58,6, dan SWE-Bench Multilingual 76,7.^[84] MarkTechPost juga melaporkan Kimi K2.6 pada 80,2 di SWE-Bench Verified.^[45]

Prioritas uji: tim yang sudah memakai Cloudflare Workers AI, long-horizon coding, coding-driven design, multimodal agent workflow, atau orkestrasi banyak agen.^[36]^[84]

DeepSeek V4-Pro: angka knowledge dan math paling lengkap, narasi model terbuka paling jelas

Dalam sumber yang tersedia, DeepSeek V4 dibagi menjadi V4-Pro dan V4-Flash. Yahoo Finance melaporkan klaim DeepSeek bahwa V4-Pro unggul jauh atas model open-source lain pada world knowledge benchmarks, dan hanya sedikit di bawah model tertutup papan atas Gemini-Pro-3.1. Laporan yang sama menyebut V4-Flash sebagai pilihan yang lebih efisien dan ekonomis.^[57]

Kartu model DeepSeek-V4-Pro di Hugging Face memberi kumpulan angka paling lengkap dalam artikel ini untuk knowledge, math, coding, dan terminal: GPQA Diamond 90,1; GSM8K 92,6; HLE 37,7; MMLU-Pro 87,5; SWE-Bench Pro 55,4; SWE-Bench Verified/Resolved 80,6; dan TerminalBench 2.0 67,9.^[64]

CNBC melaporkan bahwa DeepSeek mengatakan V4 telah dioptimalkan untuk agent tools populer seperti Claude Code dan OpenClaw. Dalam laporan yang sama, principal AI analyst Counterpoint Wei Sun menilai profil benchmark V4 menunjukkan potensi agent capability yang kuat dengan biaya jauh lebih rendah.^[58]

Prioritas uji: organisasi yang memprioritaskan jalur model terbuka, benchmark knowledge dan math, efisiensi biaya untuk agent tooling, atau evaluasi model di lingkungan lokal dan self-managed.^[58]^[64]

Shortlist berdasarkan tugas

Terminal automation / command-line agents: uji GPT-5.5 dulu. Dalam data yang bisa dikutip, GPT-5.5 mencetak 82,7% di Terminal-Bench 2.0, di atas Claude Opus 4.7 69,4%, DeepSeek V4-Pro 67,9, dan Kimi K2.6 66,7.^[27]^[4]^[64]^[84]
Software engineering repair / tugas mirip SWE-Bench Pro: mulai dari Claude Opus 4.7, tetapi wajib uji di repo sendiri. Angka yang tersedia menempatkan Claude Opus 4.7 di 64,3%, GPT-5.5 dan Kimi K2.6 sama-sama 58,6, dan DeepSeek V4-Pro 55,4; namun angka Claude berasal dari sumber sekunder.^[4]^[27]^[84]^[64]
Screenshot, document understanding, dan computer-use: Claude Opus 4.7 lebih dulu. Dokumentasi Anthropic secara langsung menyebut vision-heavy workflows, computer use, dan koordinat piksel 1:1; halaman peluncurannya juga mengutip hasil visual-acuity XBOW 98,5%.^[1]^[5]
Knowledge/math dan jalur model terbuka: masukkan DeepSeek V4-Pro ke shortlist. Kartu model Hugging Face-nya mencantumkan skor GPQA Diamond, GSM8K, HLE, MMLU-Pro, SWE-Bench, dan TerminalBench 2.0.^[64]
Multimodal agentic workflow di Workers AI: Kimi K2.6 layak diuji. Cloudflare sudah menyediakan Day 0 support untuk Kimi K2.6 di Workers AI dan memosisikannya sebagai native multimodal agentic model untuk long-horizon coding serta swarm-based task orchestration.^[36]

Sebelum adopsi, ulangi pengujian dengan kondisi yang sama

Kesimpulan internal yang bisa dipertanggungjawabkan harus memakai versi model atau API model ID yang sama, panjang konteks yang sama, izin tool yang sama, reasoning effort yang sama, temperature yang sama, token budget yang sama, dan scoring harness yang sama. Izin tool sangat penting karena laporan HLE menunjukkan with tools dan without tools dapat mengubah posisi relatif model.^[6]

Biaya juga harus diuji bersama kemampuan. Artificial Analysis melaporkan GPT-5.5 xhigh sekitar 20% lebih mahal daripada pendahulunya untuk menjalankan Index mereka, tetapi 30% lebih murah daripada Claude Opus 4.7 max, sekaligus memakai sekitar 40% lebih sedikit output tokens dibanding pendahulunya.^[24] Di sisi lain, dokumentasi Anthropic mengingatkan bahwa gambar beresolusi tinggi akan memakai lebih banyak token.^[1] Untuk agent produksi, latensi, token usage, keberhasilan tool call, dan kemampuan memperbaiki error sering sama pentingnya dengan satu skor benchmark.

Intinya

Perbandingan paling masuk akal saat ini bukan ranking tunggal, melainkan pemetaan tugas. Untuk Terminal-Bench, GPT-5.5 paling menonjol. Untuk SWE-Bench serta visi dan computer-use, Claude Opus 4.7 punya bukti paling kuat. Untuk knowledge dan math berdasarkan kartu model, DeepSeek V4-Pro paling lengkap. Untuk agentic multimodal coding di Workers AI, Kimi K2.6 layak masuk daftar kandidat.^[27]^[4]^[1]^[5]^[64]^[36]

Peringkat total baru layak dibuat ketika keempat model diuji dalam harness yang sama, dengan versi, izin tool, dan konfigurasi reasoning yang sama. Sampai itu tersedia, pendekatan yang paling aman adalah memilih model berdasarkan pekerjaan nyata yang akan dijalankan.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查證事實

重點整理

Belum ada dasar yang cukup adil untuk membuat satu peringkat total. Data yang bisa dikutip menunjukkan GPT 5.5 unggul di Terminal Bench 2.0 dengan 82,7%, sementara Claude Opus 4.7 tercatat 64,3% di SWE Bench Pro, teta...
Untuk tugas visual seperti screenshot, pemahaman dokumen, dan computer use, bukti resmi Claude Opus 4.7 paling kuat: Anthropic menyebut peningkatan pada vision heavy workflows dan koordinat piksel 1:1, sementara halam...
DeepSeek V4 Pro punya kartu model Hugging Face dengan angka knowledge dan math paling lengkap, termasuk GPQA, GSM8K, MMLU Pro, dan HLE; Kimi K2.6 menonjol sebagai kandidat agentic multimodal di Cloudflare Workers AI.[...

大家也會問

「GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: Benchmark dan Panduan Memilih」的簡短答案是什麼？

最值得優先驗證的重點是什麼？

Belum ada dasar yang cukup adil untuk membuat satu peringkat total. Data yang bisa dikutip menunjukkan GPT 5.5 unggul di Terminal Bench 2.0 dengan 82,7%, sementara Claude Opus 4.7 tercatat 64,3% di SWE Bench Pro, teta... Untuk tugas visual seperti screenshot, pemahaman dokumen, dan computer use, bukti resmi Claude Opus 4.7 paling kuat: Anthropic menyebut peningkatan pada vision heavy workflows dan koordinat piksel 1:1, sementara halam...

接下來在實務上該怎麼做？

DeepSeek V4 Pro punya kartu model Hugging Face dengan angka knowledge dan math paling lengkap, termasuk GPQA, GSM8K, MMLU Pro, dan HLE; Kimi K2.6 menonjol sebagai kandidat agentic multimodal di Cloudflare Workers AI.[...

下一步適合探索哪個相關主題？

繼續閱讀「Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6 基準比較：2026 年誰最值得信？」，從另一個角度查看更多引用來源。

開啟相關頁面

我應該拿這個和什麼比較？

將這個答案與「DeepSeek V4 工程解析：1M 上下文、MoE 與 API 遷移重點」交叉比對。

開啟相關頁面

繼續深入研究

Comparativa de benchmarks 2026 entre Claude Opus 4.7, GPT-5.5, DeepSeek V4 y Kimi K2.6

Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6 基準比較：2026 年誰最值得信？

Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6：2026 基準測試與決策結論

DeepSeek V4 工程架构示意图，包含 1M 上下文、MoE 专家路由和 API 服务化元素

DeepSeek V4 工程解析：1M 上下文、MoE 與 API 遷移重點

Northwest vs. Southeast Timber 彈性題解：為什麼是 larger; larger

Northwest 與 Southeast Timber：替代性越高，為什麼答案是 larger; larger？

抽象 AI 晶片與多個聊天機器人平台競爭的示意圖，象徵 DeepSeek 挑戰 OpenAI、Claude、Gemini 與 Grok

DeepSeek 會擊敗 OpenAI、Claude、Gemini、Grok 嗎？關鍵不是榜單，而是成本與信任

研究對話

你2026年4月25日

研究問題

研究 GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4 的基準測試表現，並根據這些基準測試對它們進行比較。

Studio Global AI2026年4月25日40 個來源

附引用的答案

僅依據你提供的證據，現在還不能對 GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4 做出嚴格而公平的基準測試總排名，因為這些材料沒有提供同一套 benchmark、同一版本設定下的完整分數，而且完全沒有 GPT-5.5 的 benchmark 資料。較能成立的結論是：Claude Opus 4.7 有最明確的官方證據顯示其在視覺與 computer-use 類工作流上提升明顯，^[2] 且有次級報導稱其狹義重回 generally available LLM 的領先位置。^[5] DeepSeek V4-Pro 則有公司說法經媒體轉述，稱其在 world knowledge benchmarks 上明顯領先其他開源模型，^[6] 而 Kimi K2.6 在現有證據中只有產品定位與上線資訊，缺少可直接比較的 benchmark 成績。^[1]

Key findings

無法產生可信的四模型總排名：你提供的材料沒有共享 benchmark 分數，且缺少 GPT-5.5 的任何 benchmark 證據。
Claude Opus 4.7 的強項證據最集中在視覺與 computer-use 工作流。Anthropic 官方文件說明它對 vision-heavy workloads 有 performance gains，特別影響 computer use、screenshot、artifact 與 document understanding workflows，且將座標映射到影像也更簡單。^[2] VentureBeat 另稱其解析度提升到前代的 3 倍，並在標題中將其描述為狹義重回 generally available LLM 領先。^[5]
DeepSeek V4-Pro 的 benchmark 相關競爭性敘述最明確，但主要來自公司說法經媒體轉述。報導稱它在 world knowledge benchmarks 上明顯領先其他開源模型，且只略遜於頂級閉源模型；另有分析師根據其 benchmark profile 認為它可能以更低成本提供很強的 agent 能力。^[6]^[7]
Kimi K2.6 目前只能確認是 Moonshot AI 的原生多模態 agentic model，並於 2026-04-20 在 Workers AI 上得到 Day 0 支援；你提供的證據沒有其可比 benchmark 分數。^[1]

Confirmed facts

Kimi K2.6 已於 2026-04-20 在 Workers AI 上可用，Cloudflare 表示這是與 Moonshot AI 合作的 Day 0 支援；該模型被描述為 native multimodal agentic model。^[1]
Anthropic 官方文件表示 Claude Opus 4.7 的變更會帶來 vision-heavy workloads 的 performance gains，且特別有助於 computer use、screenshot、artifact、document understanding workflows；將座標映射到影像也變得更簡單。^[2]
VentureBeat 報導稱 Claude Opus 4.7 帶來相較前代 3 倍的解析度提升，並在標題中將其描述為狹義重回「most powerful generally available LLM」。^[5]
媒體報導稱 DeepSeek 提供 DeepSeek V4-Pro 與 DeepSeek V4-Flash 兩個版本；其中 V4-Pro 被描述為在 world knowledge benchmarks 上明顯領先其他開源模型，且僅略遜於頂級閉源模型。^[6]
CNBC 報導稱 DeepSeek V4 已針對 Claude Code 與 OpenClaw 之類 agent 工具做最佳化；Counterpoint 的 Wei Sun 則認為其 benchmark profile 顯示它可能以更低成本提供優秀 agent 能力。^[7]
Hugging Face 上存在一則要求補充 DeepSeek-V4-Pro 在 GPQA、GSM8K、HLE、MMLU-Pro、SWE-Bench Pro、SWE-Bench Verified、Terminal-Bench 2.0 等項目社群評測結果的討論。^[4]

What remains inference

把 Claude Opus 4.7 判定為四者整體第一，仍屬推論；現有證據沒有同一組 benchmark 的分數表可直接支持這個結論。^[2]^[5]
把 DeepSeek V4-Pro 判定為所有開源任務全面第一，也仍屬推論；目前可見的是媒體轉述的公司說法，缺少你提供證據中的原始分數表。^[6]
把 Kimi K2.6 放在任何明確名次，幾乎純屬猜測；目前只知道它的產品定位，沒有硬 benchmark 成績。^[1]
對 GPT-5.5 作任何 benchmark 結論都沒有證據基礎，因為提供材料裡沒有它的 benchmark 資料。

What the evidence suggests

若只看視覺與 computer-use 類任務，Claude Opus 4.7 的證據最強，因為這是唯一在官方文件中明確聲稱該類工作流有性能提升的模型，且次級報導補充了解析度提升細節。^[2]^[5]
若只看現有材料中最明確的 benchmark 競爭描述，DeepSeek V4-Pro 在 world knowledge benchmarks 的定位最突出，因為它是唯一被直接描述為明顯領先其他開源模型的模型。^[6]
若看 agent tooling 與成本效益敘事，DeepSeek V4 也有較清楚的外部分析支持，因為報導提到它針對 Claude Code、OpenClaw 做了最佳化，且分析師從其 benchmark profile 推論出較強的 agent 能力/成本比。^[7]
Kimi K2.6 看起來是以多模態與 agentic 能力為賣點，但在這組證據裡沒有足夠 benchmark 資料把它與 Claude 或 DeepSeek 做定量比較。^[1]
整體四模型排序：Insufficient evidence。

Conflicting evidence or uncertainty

最大的不確定性不是「誰贏」，而是「有沒有可比數據」：目前沒有看到四個模型在同一 benchmark、同一版本、同一提示或工具設定下的分數。
Claude 的「領先」敘事主要來自次級報導的綜述與標題，而不是你提供證據中的原始官方 benchmark 表。^[5]
DeepSeek 的最強 benchmark 主張來自公司說法經媒體轉述，因此可信度低於官方技術報告或第三方獨立評測。^[6]
Kimi K2.6 的 benchmark 能力在這組證據裡幾乎空白，所以不能因產品描述或上線速度而推斷其分數。^[1]
Reddit 上有人提醒 SWE-bench leaderboard 可能混用了不同版本與不同 benchmark 任務，這提示跨榜單比較可能失真；但這只是低權威來源，最多當弱提醒使用。^[65]

Open questions

GPT-5.5 在 MMLU-Pro、GPQA、HLE、SWE-Bench Verified/Pro、Terminal-Bench 2.0、以及多模態 benchmark 上的成績是什麼？
Claude Opus 4.7、Kimi K2.6、DeepSeek V4 是否有同一版本 benchmark 表，且使用一致的工具權限、上下文長度、溫度與評分規則？
DeepSeek V4-Pro 所謂的 world knowledge benchmarks，具體是哪些測試、原始分數是多少、對照模型又是哪些？^[6]
Kimi K2.6 是否已有第三方獨立 benchmark，而不只是上線與產品定位資訊？^[1]

Sources worth trusting most

^[2] 是 Anthropic 官方文件，對 Claude Opus 4.7 的產品級能力變更與適用工作流最可信。^[2]
^[1] 是 Cloudflare 官方 changelog，對 Kimi K2.6 的上線時間、可用性與產品定位最可信。^[1]
^[6] 與 ^[7] 是較可靠的媒體報導，適合用來了解 DeepSeek 的對外 benchmark 敘事與外部分析，但仍屬次級來源。^[6]^[7]
^[5] 可作為 Claude Opus 4.7 外界競爭定位的參考，但對硬 benchmark 來說仍弱於官方技術文件。^[5]
^[4] 只能證明社群正在補充 DeepSeek-V4-Pro 的評測結果，不能當成最終 benchmark 證據。^[4]
^[65] 權威性最低，只適合拿來提醒跨榜單比較可能有方法學問題。^[65]

Recommended next step

如果你要一個真正可 defend 的比較，下一步應該只蒐集四模型在共享 benchmark 上的原始分數表，優先看 MMLU-Pro、GPQA、HLE、SWE-Bench Verified/Pro、Terminal-Bench 2.0，以及多模態評測，並要求每個結果都標明是否允許 tools、browsing、test-time compute 與不同解碼設定。
在目前這組證據下，最安全的暫時結論是：Claude Opus 4.7 在視覺/computer-use 能力的證據最強，^[2]^[5] DeepSeek V4-Pro 在開源對比的 world knowledge benchmark 敘事最強，^[6] Kimi K2.6 與 GPT-5.5 都不足以納入公平排名。^[1]

Summary

基於目前證據，不能對 GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4 做可靠的總體 benchmark 排名。較可靠的局部結論是：Claude Opus 4.7 在 vision/computer-use 類場景的正向證據最強，^[2]^[5] DeepSeek V4-Pro 有最明確的開源 benchmark 領先聲稱，^[6]^[7] Kimi K2.6 缺 benchmark 數據，^[1] GPT-5.5 則完全沒有可用資料。若要嚴格比較，現階段最誠實的答案就是：Insufficient evidence。

來源

[1] What's new in Claude Opus 4.7 - Claude API Docsplatform.claude.com
What's new in Claude Opus 4.7 - Claude API Docs Loading... . This change should unlock performance gains on vision-heavy workloads, and is particularly important for computer use and screenshot/artifact/document understanding workflows. Additionally, operat...
[4] Claude Opus 4.7: Pricing, Benchmarks & Context Windowalmcorp.com
For coding, the official materials point to several standout numbers. Anthropic says Opus 4.7 improved resolution by 13% over Opus 4.6 on a 93-task coding benchmark. AWS cites 64.3% on SWE-bench Pro, 87.6% on SWE-bench Verified, and 69.4% on Terminal-Bench...
[5] Introducing Claude Opus 4.7anthropic.com
Image 22: logo Claude Opus 4.7 feels like a real step up in intelligence. Code quality is noticeably improved, it’s cutting out the meaningless wrapper functions and fallback scaffolding that used to pile up, and fixes its own code as it goes. It’s the clea...
[6] Anthropic releases Claude Opus 4.7: How to try it, benchmarks, safetymashable.com
Claude Mythos scored 56.8 percent on HLE Claude Opus 4.7 scored 46.9 percent Gemini 3.1 Pro scored 44.4 percent GPT-5-4 Pro scored 42.7 percent Claude Opus 4.6 scored 40.0 percent With tools, GPT-5-4-Pro scored 58.7 percent compared to Opus 4.7’s 54.7 perce...
[21] Introducing GPT-5.5openai.com
Long context EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaudeOpus 4.7Gemini 3.1 Pro Graphwalks BFS 256k f1 73.7%62.5%--76.9%- Graphwalks BFS 1mil f1 45.4%9.4%--41.2% (Opus 4.6)- Graphwalks parents 256k f1 90.1%82.8%--93.6%- Graphwalks parents 1mil f1 58.5%44....
[24] OpenAI's GPT-5.5 is the new leading AI model - Artificial Analysisartificialanalysis.ai
Image 2 OpenAI leads five of our headline evaluations and places second to Gemini 3.1 Pro Preview on three. Image 3 Effort variants provide a clear ladder to balance intelligence and cost. GPT-5.5 (xhigh) is 20% more expensive to run our Index than its pred...
[27] OpenAI releases GPT-5.5 with improved coding and research capabilitiesca.finance.yahoo.com
© 2026 All rights reserved. About our ads Advertising Jobs Yahoo Finance Yahoo Finance Mail Sign in Investing.com OpenAI releases GPT-5.5 with improved coding and research capabilities Louis Juricic 1 min read Investing.com -- OpenAI announced Thursday the...
[36] Moonshot AI Kimi K2.6 now available on Workers AIdevelopers.cloudflare.com
Image 2: hero image ← Back to all posts Moonshot AI Kimi K2.6 now available on Workers AI Apr 20, 2026 Workers AI @cf/moonshotai/kimi-k2.6 is now available on Workers AI, in partnership with Moonshot AI for Day 0 support. Kimi K2.6 is a native multimodal ag...
[45] Moonshot AI Releases Kimi K2.6 with Long-Horizon Coding, Agent ...marktechpost.com
The Long-Horizon Coding Headline Numbers The metric that will likely get the most attention from dev teams is SWE-Bench Pro — a benchmark testing whether a model can resolve real-world GitHub issues in professional software repositories. Kimi K2.6 scores 58...
[57] China’s DeepSeek releases new AI model it claims beats all open-source competitorsau.finance.yahoo.com
The model is available as DeepSeek V4-Pro and DeepSeek V4-Flash. The latter version, the company says, is a “more efficient and economical choice". “In world knowledge benchmarks, DeepSeek V4-Pro significantly leads other open-source models and is only slig...
[58] China's DeepSeek releases preview of long-awaited V4 model as AI ...cnbc.com
DeepSeek also said that V4 has been optimized for use with popular agent tools such as Anthropic’s Claude Code and OpenClaw. According to Counterpoint’s principal AI analyst, Wei Sun, V4′s benchmark profile suggests it could offer “excellent agent capabilit...
[64] deepseek-ai/DeepSeek-V4-Pro - Hugging Facehuggingface.co
Evaluation results []( Diamond on Idavidrein/gpqaView evaluation resultsleaderboard 90.1 Gsm8k on openai/gsm8kView evaluation resultsleaderboard 92.6 Hle on cais/hleView evaluation results 37.7 Mmlu Pro on TIGER-Lab/MMLU-ProView evaluation results 87.5 SWE...
[84] moonshotai/Kimi-K2.6 - Hugging Facehuggingface.co
3. Evaluation Results ; Terminal-Bench 2.0 (Terminus-2), 66.7, 65.4 ; SWE-Bench Pro, 58.6, 57.7 ; SWE-Bench Multilingual, 76.7, - ; SWE-Bench ... 5 days ago

熱門探索內容