studioglobal
熱門探索內容
報告已發布6 個來源

Perbandingan Benchmark GPT-5.5, Claude Opus 4.7, Kimi K2.6, dan DeepSeek V4

Perbandingan paling bersih saat ini adalah GPT 5.5 vs Claude Opus 4.7 di tabel OpenAI: Claude unggul di SWE Bench Pro 64,3% vs 58,6%, tetapi GPT 5.5 unggul di Terminal Bench 2.0 82,7% vs 69,4%.[21] Kimi K2.6 layak masuk daftar kandidat model terbuka: Hugging Face menyebutnya open source dan multimodal agentic, semen...

17K0
四個 AI 模型基準測試比較的抽象儀表板插圖
GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4:基準測試比較表與證據等級AI 生成示意圖;本文聚焦可核驗 benchmark 分數與來源等級。
AI 提示詞

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4:基準測試比較表與證據等級. Article summary: 目前不能公平排出四模型總冠軍:同表可比數據顯示 Claude Opus 4.7 在 SWE Bench Pro 64.3% vs GPT 5.5 58.6% 領先,但 GPT 5.5 在 Terminal Bench 2.0 82.7% vs 69.4% 領先;Kimi K2.6 與 DeepSeek V4 缺少同等級交叉驗證。[21]. Topic tags: ai, llm benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "OpenAI’s GPT-5.5, Anthropic’s Claude Opus 4.7, and DeepSeek V4 arrived close enough together to look like a clean three-way race. **GPT-5.5 is OpenAI’s bet on execution-heavy profe" source context "GPT-5.5, Claude Opus 4.7, and DeepSeek V4 reveal three different ..." Reference image 2: visual subject "# DeepSeek V4 Pro vs Claude Opus 4.7 vs GPT-5.5: The Frontier in April 2026. DeepSeek V4 Pro undercuts GPT-5.5 by ~9x on outpu

openai.com

Jika Anda membandingkan GPT-5.5, Claude Opus 4.7, Kimi K2.6, dan DeepSeek V4 untuk kebutuhan coding agent atau produk berbasis LLM, pertanyaan pertamanya bukan: siapa juara umum? Pertanyaan yang lebih aman adalah: skor mana yang benar-benar bisa dibandingkan dengan ukuran yang sama?

Dalam sumber yang tersedia untuk artikel ini, perbandingan paling kuat adalah GPT-5.5 vs Claude Opus 4.7 karena keduanya muncul dalam tabel evaluasi OpenAI yang sama untuk SWE-Bench Pro dan Terminal-Bench 2.0.[21] Kimi K2.6 punya angka yang menarik, tetapi berasal dari halaman model dan artikel pihak ketiga.[32][34] DeepSeek V4 belum memiliki angka benchmark yang cukup dapat dikutip di kumpulan sumber ini, jadi tidak tepat jika dipaksa masuk peringkat numerik.

Tabel perbandingan benchmark

Tanda — berarti sumber yang dipakai artikel ini tidak menyediakan angka yang dapat dikutip, bukan berarti model tersebut tidak mampu mengerjakan tugas tersebut. Skor dari sumber, harness, dan kondisi uji yang berbeda juga sebaiknya tidak dijumlahkan menjadi satu ranking mutlak.

ModelSWE-Bench ProSWE-Bench VerifiedTerminal-Bench 2.0Data lain yang terlihatTingkat bukti dan cara membaca
GPT-5.558,6% [21]82,7% [21]Expert-SWE Internal 73,1%; OpenAI memberi catatan bahwa lab lain melihat memorization evidence pada eval ini.[21]A-: SWE-Bench Pro dan Terminal-Bench 2.0 muncul dalam tabel OpenAI yang sama dengan Claude Opus 4.7, sehingga relatif paling bisa dibandingkan langsung. Expert-SWE tetap perlu dibaca konservatif karena merupakan eval internal.[21]
Claude Opus 4.764,3% [21]87,6% [4][6]69,4% [21]CursorBench 70%.[4][6]A-/B: SWE-Bench Pro dan Terminal-Bench 2.0 dapat dibandingkan langsung dengan GPT-5.5 lewat tabel OpenAI.[21] SWE-Bench Verified dan CursorBench berguna sebagai sinyal tambahan, tetapi dalam sumber ini terutama muncul lewat ringkasan pihak ketiga; Verdent menandai Verified sebagai Anthropic-conducted dan CursorBench sebagai partner eval.[6]
Kimi K2.658,6% [34]80,2% [34]Halaman Hugging Face menggambarkannya sebagai model open-source, native multimodal, dan agentic.[32]B terbatas: angkanya kompetitif, tetapi berasal dari artikel pihak ketiga dan belum muncul dalam tabel resmi lintas model yang sama dengan GPT-5.5 dan Claude Opus 4.7.[32][34]
DeepSeek V4C data tidak cukup: dalam sumber yang tersedia untuk artikel ini, belum ada benchmark DeepSeek V4 yang cukup dapat dikutip untuk dibuat peringkat numerik.

Benchmark mana yang paling layak diperhatikan?

SWE-Bench Pro: Claude Opus 4.7 unggul atas GPT-5.5

Di tabel evaluasi OpenAI, Claude Opus 4.7 mencatat 64,3% di SWE-Bench Pro, lebih tinggi daripada GPT-5.5 yang berada di 58,6%.[21] Ini termasuk perbandingan yang paling bersih di artikel ini karena kedua model muncul dalam satu tabel yang sama.

Untuk konteks, Vellum membaca selisih ini dalam skenario penyelesaian issue GitHub dunia nyata, yaitu konteks yang relevan bagi tim yang membangun coding agent untuk memperbaiki bug atau mengerjakan perubahan multi-file.[24]

Kimi K2.6 juga dilaporkan mencetak 58,6% di SWE-Bench Pro dalam artikel Kilo AI.[34] Namun, karena angka itu tidak muncul dalam tabel lintas model yang sama dengan GPT-5.5 dan Claude Opus 4.7, posisinya lebih tepat dibaca sebagai sinyal awal, bukan bukti head-to-head yang sepenuhnya setara.

Terminal-Bench 2.0: GPT-5.5 unggul atas Claude Opus 4.7

Untuk Terminal-Bench 2.0, tabel OpenAI menunjukkan GPT-5.5 berada di 82,7%, sedangkan Claude Opus 4.7 berada di 69,4%.[21] Jika pekerjaan Anda lebih dekat ke workflow terminal, command-line, atau agent yang perlu menjalankan langkah teknis secara berurutan, GPT-5.5 pantas masuk daftar uji lebih awal.

Namun, sumber artikel ini tidak menyediakan skor Terminal-Bench 2.0 yang dapat dikutip untuk Kimi K2.6 atau DeepSeek V4. Artinya, benchmark ini belum bisa dipakai untuk membuat ranking empat model secara lengkap.

SWE-Bench Verified: Claude lebih tinggi dari Kimi, tetapi sumbernya tidak satu meja

Claude Opus 4.7 tercatat 87,6% di SWE-Bench Verified dalam ringkasan pihak ketiga; Verdent menandai angka itu sebagai Anthropic-conducted dan menyebut memorization screens applied.[4][6] Kimi K2.6 tercatat 80,2% di SWE-Bench Verified dalam artikel Kilo AI.[34]

Secara angka, Claude Opus 4.7 terlihat lebih tinggi. Tetapi karena sumber dan cara pelaporannya berbeda, perbandingan ini tidak sekuat SWE-Bench Pro dan Terminal-Bench 2.0 yang sama-sama muncul di tabel OpenAI untuk GPT-5.5 dan Claude Opus 4.7.[21]

Expert-SWE: berguna sebagai sinyal, bukan dasar ranking utama

GPT-5.5 mencatat 73,1% di Expert-SWE Internal, tetapi OpenAI sendiri menandainya sebagai internal eval dan mencatat bahwa lab lain melihat memorization evidence pada eval tersebut.[21] Karena itu, angka Expert-SWE sebaiknya tidak dijadikan dasar utama untuk menyatakan GPT-5.5 sebagai pemenang umum.

Implikasi untuk memilih model

Jika tugas Anda mirip memperbaiki issue GitHub atau rekayasa perangkat lunak kompleks, Claude Opus 4.7 layak diuji lebih dulu. Dalam data yang paling langsung bisa dibandingkan, Claude Opus 4.7 unggul di SWE-Bench Pro dengan 64,3% dibanding GPT-5.5 di 58,6%.[21] Interpretasi Vellum juga menempatkan benchmark ini dalam konteks real GitHub issue resolution.[24]

Jika workflow Anda lebih banyak bergantung pada terminal atau eksekusi langkah teknis, GPT-5.5 layak diprioritaskan. Skor 82,7% di Terminal-Bench 2.0 memberi GPT-5.5 keunggulan jelas atas Claude Opus 4.7 yang berada di 69,4% pada benchmark yang sama.[21]

Jika Anda membutuhkan kandidat model terbuka, Kimi K2.6 bisa masuk daftar pendek. Halaman Hugging Face menyebut Kimi K2.6 sebagai model open-source, native multimodal, dan agentic.[32] Artikel Kilo AI juga melaporkan 58,6% di SWE-Bench Pro dan 80,2% di SWE-Bench Verified.[34] Tetapi untuk keputusan produksi, angka itu sebaiknya divalidasi ulang dengan repositori, bahasa pemrograman, dan alur kerja Anda sendiri.

Jika Anda sedang mengevaluasi DeepSeek V4, pilihan paling aman adalah menunggu benchmark yang dapat dikutip atau menjalankan pengujian sendiri. Dalam sumber yang tersedia untuk artikel ini, belum ada angka yang cukup kuat untuk memasukkannya ke ranking numerik bersama tiga model lain.

Mengapa artikel ini tidak memberi satu juara umum

Membaca benchmark LLM itu mudah menyesatkan jika angka dari sumber berbeda dicampur begitu saja. Artikel ini memakai tiga tingkat pembacaan:

  1. Benchmark bersama dalam satu tabel: contohnya GPT-5.5 dan Claude Opus 4.7 di SWE-Bench Pro serta Terminal-Bench 2.0 pada tabel OpenAI. Ini adalah data yang paling layak dibandingkan langsung.[21]
  2. Ringkasan pihak ketiga atas eval vendor atau partner: contohnya SWE-Bench Verified dan CursorBench untuk Claude Opus 4.7. Tetap berguna, tetapi perlu memperhatikan siapa yang menjalankan evaluasi dan bagaimana datanya dilaporkan.[4][6]
  3. Sinyal awal atau data belum cukup: contohnya Kimi K2.6 yang punya angka kompetitif dari artikel pihak ketiga, serta DeepSeek V4 yang belum punya benchmark yang cukup dapat dikutip dalam sumber artikel ini.[32][34]

Kesimpulan yang paling aman: Claude Opus 4.7 unggul atas GPT-5.5 di SWE-Bench Pro, GPT-5.5 unggul atas Claude Opus 4.7 di Terminal-Bench 2.0, Kimi K2.6 terlihat kompetitif tetapi tingkat buktinya lebih rendah, dan DeepSeek V4 sebaiknya dianggap belum cukup data.[21][32][34]

Untuk keputusan nyata, jadikan tabel ini sebagai penyaring awal. Setelah itu, uji ulang dengan tugas Anda sendiri: jenis repositori, bahasa pemrograman, test suite, tool calling, latensi, biaya, dan cara model pulih dari kegagalan. Hasil seperti itu biasanya jauh lebih berguna daripada sekadar mencari satu pemenang di semua benchmark.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查證事實

重點整理

  • Perbandingan paling bersih saat ini adalah GPT 5.5 vs Claude Opus 4.7 di tabel OpenAI: Claude unggul di SWE Bench Pro 64,3% vs 58,6%, tetapi GPT 5.5 unggul di Terminal Bench 2.0 82,7% vs 69,4%.[21]
  • Kimi K2.6 layak masuk daftar kandidat model terbuka: Hugging Face menyebutnya open source dan multimodal agentic, sementara Kilo AI mencatat 58,6% di SWE Bench Pro dan 80,2% di SWE Bench Verified, tetapi sumbernya tid...
  • DeepSeek V4 tidak diberi peringkat numerik karena sumber yang tersedia untuk artikel ini belum menyediakan benchmark yang bisa dikutip; GPT 5.5 Expert SWE 73,1% juga harus dibaca hati hati karena eval internal dengan...

大家也會問

「Perbandingan Benchmark GPT-5.5, Claude Opus 4.7, Kimi K2.6, dan DeepSeek V4」的簡短答案是什麼?

Perbandingan paling bersih saat ini adalah GPT 5.5 vs Claude Opus 4.7 di tabel OpenAI: Claude unggul di SWE Bench Pro 64,3% vs 58,6%, tetapi GPT 5.5 unggul di Terminal Bench 2.0 82,7% vs 69,4%.[21]

最值得優先驗證的重點是什麼?

Perbandingan paling bersih saat ini adalah GPT 5.5 vs Claude Opus 4.7 di tabel OpenAI: Claude unggul di SWE Bench Pro 64,3% vs 58,6%, tetapi GPT 5.5 unggul di Terminal Bench 2.0 82,7% vs 69,4%.[21] Kimi K2.6 layak masuk daftar kandidat model terbuka: Hugging Face menyebutnya open source dan multimodal agentic, sementara Kilo AI mencatat 58,6% di SWE Bench Pro dan 80,2% di SWE Bench Verified, tetapi sumbernya tid...

接下來在實務上該怎麼做?

DeepSeek V4 tidak diberi peringkat numerik karena sumber yang tersedia untuk artikel ini belum menyediakan benchmark yang bisa dikutip; GPT 5.5 Expert SWE 73,1% juga harus dibaca hati hati karena eval internal dengan...

下一步適合探索哪個相關主題?

繼續閱讀「Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6 基準比較:2026 年誰最值得信?」,從另一個角度查看更多引用來源。

開啟相關頁面

我應該拿這個和什麼比較?

將這個答案與「DeepSeek V4 工程解析:1M 上下文、MoE 與 API 遷移重點」交叉比對。

開啟相關頁面

繼續深入研究

研究對話

研究問題

研究 GPT-5.5、Claude Opus 4.7、Kimi K2.6、DeepSeek V4 的基準測試,並為我以比較表形式展示。

Studio Global AI40 個來源

附引用的答案

先給你可用結論:在本次可核實資料裡,GPT-5.5 與 Claude Opus 4.7 的 benchmark 最完整,且在 OpenAI 同一張對照表上,Claude Opus 4.7 在 SWE-Bench Pro 以 64.3% 高於 GPT-5.5 的 58.6%,但 GPT-5.5 在 Terminal-Bench 2.0 以 82.7% 高於 Claude Opus 4.7 的 69.4%。[14] Kimi K2.6 目前只看到第三方摘要數值,DeepSeek V4 則缺乏足夠可核實 benchmark,因此我把「分數」與「證據等級」一起標在表裡。[4]

Key findings

模型SWE-Bench ProSWE-Bench VerifiedTerminal-Bench 2.0其他可見 benchmark證據等級 / 備註
GPT-5.558.6% [14]82.7% [14]Expert-SWE(Internal)73.1% [14]OpenAI 官方資料;OpenAI 也註記 Expert-SWE 有 memorization 風險提示,需保守解讀。[14]
Claude Opus 4.764.3% [14]87.6% [10]69.4% [14]CursorBench 70% [10]SWE-Bench Pro / Terminal-Bench 2.0 可與 GPT-5.5 同口徑比較。[14] Verified / CursorBench 來自第三方對 vendor/partner eval 的摘要,不是獨立 leaderboard。[10]
Kimi K2.658.6% [4]80.2% [4]目前僅見第三方摘要,未在本次證據集中交叉核實到官方完整 benchmark 頁面。[4]
DeepSeek V4Insufficient evidenceInsufficient evidenceInsufficient evidence本次檢索未取得足夠可核實 benchmark,暫不做數值比較。
  • 如果只看目前可同口徑對照的共享 benchmark,Claude Opus 4.7 在 SWE-Bench Pro 高於 GPT-5.5,而 GPT-5.5 在 Terminal-Bench 2.0 高於 Claude Opus 4.7。[14]
  • GPT-5.5 的 73.1% Expert-SWE 屬於 internal eval,且 OpenAI 自己提醒有 memorization caveat,因此不宜單獨把它當作總體排名依據。[14]
  • Claude Opus 4.7 的 87.6% SWE-Bench Verified 很強,但本次可用資料中,這個數值來自第三方摘要的 vendor/partner-eval 描述,可信度仍低於同張官方對照表裡的共享 benchmark。[10][14]
  • Kimi K2.6 依目前可見摘要,在 SWE-Bench Pro 與 GPT-5.5 同為 58.6%,且 SWE-Bench Verified 為 80.2%,但因缺乏同等級官方交叉驗證,我不建議直接把它與 GPT-5.5、Claude Opus 4.7 做嚴格總排名。[4][14]

Evidence notes

  • OpenAI 的比較表同時列出 GPT-5.5、GPT-5.4、Claude Opus 4.7 與 Gemini 3.1 Pro 在 SWE-Bench Pro 與 Terminal-Bench 2.0 的成績,所以這兩欄是本次最乾淨的 apples-to-apples 子集。[14]
  • Claude Opus 4.7 的 87.6% SWE-Bench Verified 與 70% CursorBench,在本次資料中來自第三方摘要,且摘要本身把它描述為 Anthropic-conducted / partner eval。[10]
  • Kimi K2.6 的數值來自本次檢索到的第三方結果摘要,而不是我已核實的官方 benchmark 表。[4]

Limitations / uncertainty

  • 四個模型沒有在完全一致的 benchmark 集上都公布足夠數字,因此如果你要的是「四家嚴格總排名」,目前證據不足。[14][10][4]
  • 目前可見的多數數據仍帶有廠商自報、合作方摘要或單一來源片段的限制,獨立重跑結果可能不同。[14][10]
  • DeepSeek V4:Insufficient evidence.

Summary

目前最穩妥的比較方式,是只拿共享 benchmark 來看:Claude Opus 4.7 在 SWE-Bench Pro 領先,GPT-5.5 在 Terminal-Bench 2.0 領先。[14] Kimi K2.6 看起來在 SWE-Bench 系列有競爭力,但證據等級較低。[4] DeepSeek V4 目前無法公平放入同一張排名表,因為可核實資料不足。

如果你要,我下一步可以幫你做兩個延伸版本:

  1. 只保留「官方來源」的極保守比較表。
  2. 擴充到 Artificial Analysis、Vals AI 等第三方榜單,做一版「更完整但混合來源」的比較表。

來源

  • [4] Claude Opus 4.7: Full Review, Benchmarks & Features (2026)buildfastwithai.com

    Claude Opus 4.7 Benchmarks: The Full Picture Claude Opus 4.7 leads all publicly available (non-preview) models on five major benchmarks as of April 16, 2026. The one exception is BrowseComp, which I will address in detail below. The headline: SWE-bench Pro...

  • [6] Claude Opus 4.7: What Changed for Coding Agents (April 2026)verdent.ai

    Benchmark Opus 4.6 Opus 4.7 GPT-5.4 Notes --- --- SWE-bench Verified 80.80% 87.60% — Anthropic-conducted; memorization screens applied SWE-bench Pro 53.50% 64.30% 57.70% Multi-language real-world tasks CursorBench 58% 70% — Source: Cursor CEO Michael Truell...

  • [21] Introducing GPT-5.5openai.com

    Evaluations Coding EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaude Opus 4.7Gemini 3.1 Pro SWE-Bench Pro (Public) 58.6%57.7%--64.3%54.2% Terminal-Bench 2.0 82.7%75.1%--69.4%68.5% Expert-SWE (Internal)73.1%68.5%---- Labs have noted evidence of memorization⁠(op...

  • [24] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai

    SWE-bench Pro: the coding crown stays with Anthropic Claude Opus 4.7 scores 64.3% versus GPT-5.5's 58.6% — a 5.7-point gap on real GitHub issue resolution. OpenAI's system card includes an asterisk noting "evidence of memorization" from other labs on this e...

  • [32] moonshotai/Kimi-K2.6 - Hugging Facehuggingface.co

    Kimi K2.6 is an open-source, native multimodal agentic model that advances practical capabilities in long-horizon coding, coding-driven design, ... 5 days ago

  • [34] Kimi K2.6 Has Arrived: An Open-Weight Powerhouse for Agentic Workblog.kilo.ai

    It scored an impressive 80.2% on SWE-Bench Verified and 58.6% on SWE-Bench Pro, showcasing its deep understanding of real-world software ... 5 days ago