studioglobal
熱門探索內容
報告已發布9 個來源

GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: panduan memilih model AI

GPT 5.5 paling menonjol untuk tool use dan agentic workflow: BrowseComp 84,4% dan Terminal Bench 2.0 82,7%; Claude Opus 4.7 lebih kuat di tes reasoning seperti GPQA Diamond 94,2% dan HLE no tools 46,9%.[7][31] DeepSeek V4 unggul jelas dari sisi biaya: harga publiknya US$1,74 per 1 juta token input dan US$3,48 per 1...

17K0
四款 AI 模型在基準測試與 API 價格上比較的抽象儀表板
GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 怎麼選?Benchmark 與價格比較AI 生成配圖:比較 GPT-5.5、Claude Opus 4.7、DeepSeek V4 與 Kimi K2.6 的性能與成本取捨。
AI 提示詞

Create a landscape editorial hero image for this Studio Global article: GPT-5.5、Claude Opus 4.7、DeepSeek V4、Kimi K2.6 怎麼選?Benchmark 與價格比較. Article summary: 公開數據不支持一個絕對總冠軍:GPT 5.5 在可見 Intelligence Index 60/59、BrowseComp 84.4% 與 Terminal Bench 2.0 82.7% 最突出;Claude Opus 4.7 在 GPQA Diamond 94.2% 與 HLE no tools 46.9% 領先,Kimi K2.6 則缺少完整四方同場數據。[2][7]. Topic tags: ai, llm benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://

openai.com

Membandingkan GPT-5.5, Claude Opus 4.7, DeepSeek V4, dan Kimi K2.6 seolah-olah ada satu klasemen absolut justru mudah menyesatkan. Angka yang tersedia datang dari sumber, tingkat reasoning, dan harness atau cara menjalankan tes yang berbeda. LLM Stats juga mengingatkan bahwa sebagian skor GPT-5.5 dan Claude Opus 4.7 adalah skor yang dilaporkan penyedia pada tier reasoning tinggi; bentuknya bisa dibandingkan, tetapi metodologinya tidak sepenuhnya sama.[3]

Cara baca yang lebih aman: pakai benchmark publik untuk menentukan prioritas uji coba, bukan untuk mengambil keputusan final. Untuk tim produk, engineering, atau data, pertanyaan praktisnya bukan siapa yang paling pintar, melainkan model mana yang paling cocok untuk tugas, risiko error, dan anggaran token Anda.

Rekomendasi cepat: mulai uji dari mana?

Kebutuhan utamaCoba lebih duluAlasan
Agentic web browsing, otomasi terminal, workflow lintas toolGPT-5.5GPT-5.5 mencetak 84,4% di BrowseComp dan 82,7% di Terminal-Bench 2.0, lebih tinggi daripada angka Claude Opus 4.7 dan DeepSeek-V4-Pro-Max dalam ringkasan VentureBeat.[7]
Reasoning sulit, review, keputusan dengan toleransi error rendahClaude Opus 4.7Claude Opus 4.7 memimpin di GPQA Diamond 94,2% dan Humanity’s Last Exam no-tools 46,9% dibanding GPT-5.5 dan DeepSeek-V4-Pro-Max pada tabel yang sama.[7]
Panggilan API volume tinggi dan sensitif biayaDeepSeek V4Harga publik DeepSeek V4 adalah US$1,74 per 1 juta token input dan US$3,48 per 1 juta token output, lebih murah daripada GPT-5.5 dan Claude Opus 4.7 pada metrik harga yang sama.[1][17]
Eksperimen coding-agent sumber terbuka dan workflow coding panjangKimi K2.6DocsBot menggambarkan Kimi K2.6 sebagai model agentic multimodal sumber terbuka dari Moonshot AI dengan konteks 256K, tetapi data publiknya belum lengkap untuk dibandingkan empat model satu meja.[5][4]

Catatan singkat: token adalah unit teks yang dipakai untuk menghitung biaya API. Jendela konteks adalah seberapa banyak instruksi, dokumen, kode, atau riwayat percakapan yang bisa dibawa model dalam satu panggilan.

Angka inti yang bisa dibandingkan

Nama DeepSeek dalam sumber tidak selalu sama. Sumber harga memakai DeepSeek V4 atau DeepSeek V4 Pro, sementara sebagian benchmark memakai DeepSeek-V4-Pro-Max.[1][7][17] Tabel di bawah mempertahankan nama dari sumber agar tidak menyamakan konfigurasi yang mungkin berbeda.

MetrikGPT-5.5Claude Opus 4.7DeepSeek V4 / V4-Pro-MaxKimi K2.6
Artificial Analysis Intelligence Indexxhigh 60; high 59.[2]Adaptive Reasoning, Max Effort 57.[2]Ringkasan yang tersedia tidak mencantumkan skor setara.[2]Ringkasan yang tersedia tidak mencantumkan skor setara.[2]
BrowseComp84,4%.[7]79,3%.[7]DeepSeek-V4-Pro-Max 83,4%.[7]Belum terlihat skor empat model satu meja.
Terminal-Bench 2.082,7%.[7][31]69,4%.[7]67,9%.[7]66,70%, tetapi dari perbandingan lain melawan Claude Opus 4.6 dan GPT-5.4, bukan empat model ini satu meja.[4]
SWE-Bench Pro58,6%.[17][31]64,3%.[17]DeepSeek V4 Pro 55,4%.[17]58,60%, tetapi Verdent mencatat penggunaan Moonshot in-house harness dan pembandingnya bukan GPT-5.5, Claude Opus 4.7, serta DeepSeek V4 dalam satu set yang sama.[4]
GPQA Diamond93,6%.[7]94,2%.[7]DeepSeek-V4-Pro-Max 90,1%.[7]Belum terlihat skor empat model satu meja.
Humanity’s Last Exam, no tools41,4%; GPT-5.5 Pro 43,1%.[7]46,9%.[7]37,7%.[7]Belum terlihat skor empat model satu meja.
Harga API input / output per 1 juta tokenUS$5 / US$30; jendela konteks 1 juta.[1]US$5 / US$25; jendela konteks 1 juta.[1]US$1,74 / US$3,48; jendela konteks 1 juta.[1]Sumber yang tersedia tidak memberi harga setara; DocsBot menyebut konteks 256K.[5]

1. Untuk leaderboard umum: GPT-5.5 unggul di indeks yang terlihat

Ringkasan Artificial Analysis menempatkan model teratas berdasarkan Intelligence Index sebagai berikut: GPT-5.5 xhigh di 60, GPT-5.5 high di 59, Claude Opus 4.7 Adaptive Reasoning, Max Effort di 57, disusul Gemini 3.1 Pro Preview dan GPT-5.4 xhigh yang juga berada di 57.[2]

Kesimpulan yang bisa ditarik terbatas: pada ringkasan Intelligence Index yang terlihat, GPT-5.5 berada di depan Claude Opus 4.7.[2] Namun, itu belum cukup untuk membuat ranking lengkap empat model, karena ringkasan yang sama tidak menampilkan skor DeepSeek V4 dan Kimi K2.6 dalam metrik setara.[2]

2. Untuk agent, browsing, dan terminal: GPT-5.5 paling kuat; DeepSeek dekat di browsing

BrowseComp mengukur kemampuan agentic web browsing, terutama pencarian informasi yang sangat terstruktur. Dalam ringkasan VentureBeat, GPT-5.5 mencetak 84,4%, DeepSeek-V4-Pro-Max 83,4%, dan Claude Opus 4.7 79,3%.[7] Artinya, untuk tugas browsing berbasis agent, DeepSeek-V4-Pro-Max sangat dekat dengan GPT-5.5, sementara Claude Opus 4.7 tertinggal dalam tabel tersebut.[7]

Di Terminal-Bench 2.0, jaraknya lebih besar. VentureBeat mencatat GPT-5.5 di 82,7%, Claude Opus 4.7 di 69,4%, dan DeepSeek di 67,9%.[7] Yahoo/Investing.com juga menjelaskan bahwa Terminal-Bench 2.0 menguji workflow command-line dan mencantumkan GPT-5.5 pada 82,7%.[31]

Kimi K2.6 punya angka Terminal-Bench 2.0 sebesar 66,70%, tetapi angka itu berasal dari perbandingan Kimi K2.6 dengan Claude Opus 4.6 dan GPT-5.4, bukan dengan GPT-5.5, Claude Opus 4.7, dan DeepSeek V4 dalam satu tabel yang sama.[4]

3. Untuk reasoning dan review: Claude Opus 4.7 lebih meyakinkan

Pada GPQA Diamond, VentureBeat mencatat Claude Opus 4.7 di 94,2%, GPT-5.5 di 93,6%, dan DeepSeek-V4-Pro-Max di 90,1%.[7] Pada Humanity’s Last Exam no-tools, Claude Opus 4.7 juga memimpin dengan 46,9%, di atas GPT-5.5 41,4%, GPT-5.5 Pro 43,1%, dan DeepSeek-V4-Pro-Max 37,7%.[7]

LLM Stats memberi pembacaan yang senada. Dari 10 benchmark yang dilaporkan kedua penyedia, Claude Opus 4.7 unggul di 6 benchmark dan GPT-5.5 unggul di 4 benchmark; keunggulan Claude terkonsentrasi pada tes reasoning-heavy dan review-grade, sedangkan keunggulan GPT-5.5 muncul pada tes long-running tool-use.[3]

Implikasinya: untuk tugas seperti audit jawaban, analisis keputusan, review teknis, atau kasus yang mahal jika salah, Claude Opus 4.7 layak menjadi kandidat pertama. Namun, tetap uji dengan data dan standar keberhasilan Anda sendiri, karena benchmark publik tidak selalu mewakili konteks produksi.

4. Untuk coding dan SWE: Claude unggul di SWE-Bench Pro, tetapi workflow tool-use perlu dilihat terpisah

DataCamp mencantumkan SWE-Bench Pro: DeepSeek V4 Pro 55,4%, GPT-5.5 58,6%, dan Claude Opus 4.7 64,3%.[17] Yahoo/Investing.com juga mencatat GPT-5.5 di 58,6% pada SWE-Bench Pro, yang menguji penyelesaian issue GitHub.[31]

Kimi K2.6 menarik untuk coding-agent, tetapi pembacaannya perlu hati-hati. Verdent mencantumkan Kimi K2.6 di 58,60% pada SWE-Bench Pro, 80,20% pada SWE-Bench Verified, dan 89,60% pada LiveCodeBench v6. Namun, sumber yang sama mencatat bahwa angka Kimi K2.6 berasal dari model card resmi Moonshot AI dan SWE-Bench Pro memakai Moonshot in-house harness.[4]

Jadi, kalau fokus Anda adalah perbaikan repository besar, code review, atau coding agent yang bekerja lama, jangan hanya melihat satu angka SWE. Claude Opus 4.7 unggul pada SWE-Bench Pro yang terlihat; GPT-5.5 jauh lebih kuat pada Terminal-Bench 2.0; Kimi K2.6 sebaiknya masuk daftar uji untuk repo, toolchain, dan pola deployment Anda sendiri.[17][7][4]

5. Untuk harga dan konteks: DeepSeek V4 paling jelas hemat biaya

Mashable mencantumkan harga API DeepSeek V4 sebesar US$1,74 per 1 juta token input dan US$3,48 per 1 juta token output, dengan jendela konteks 1 juta token. Pada metrik yang sama, GPT-5.5 tercatat US$5 per 1 juta token input dan US$30 per 1 juta token output, sementara Claude Opus 4.7 US$5 per 1 juta token input dan US$25 per 1 juta token output.[1]

DataCamp memakai angka harga yang sama untuk DeepSeek V4 Pro, GPT-5.5, dan Claude Opus 4.7, serta mencantumkan jendela konteks sekitar 1 juta token untuk ketiganya.[17] Dengan angka publik tersebut, DeepSeek V4 jelas lebih murah. Ditambah skor BrowseComp DeepSeek-V4-Pro-Max 83,4% yang mendekati GPT-5.5 84,4%, DeepSeek V4 layak menjadi kandidat awal untuk routing API yang sensitif biaya.[1][7][17]

Untuk Kimi K2.6, sumber yang tersedia tidak memberi harga API dengan metrik setara. DocsBot menyebut Kimi K2.6 memiliki konteks 256K dan memposisikannya untuk long-horizon coding, coding-driven design, autonomous execution, serta swarm-based orchestration.[5]

Cara menerapkan di produk: pakai routing, bukan pemenang tunggal

Untuk sebagian besar tim, pendekatan paling masuk akal bukan memilih satu model untuk semua hal, melainkan membuat lapisan routing dan evaluasi regresi.

  1. Pakai GPT-5.5 sebagai baseline agentic kelas atas. Angkanya kuat di BrowseComp dan Terminal-Bench 2.0; OpenAI juga mencantumkan GPT-5.5 di GDPval 84,9%, OSWorld-Verified 78,7%, dan Tau2-bench Telecom 98,0% untuk benchmark yang berkaitan dengan pekerjaan pengetahuan dan penggunaan tool.[7][23]
  2. Pakai Claude Opus 4.7 untuk reasoning, review, dan tugas rendah toleransi error. Model ini menonjol di GPQA Diamond, Humanity’s Last Exam no-tools, serta kategori reasoning-heavy dan review-grade menurut LLM Stats.[7][3]
  3. Pakai DeepSeek V4 untuk menekan biaya panggilan API bervolume tinggi. Harga tokennya lebih rendah daripada GPT-5.5 dan Claude Opus 4.7, sementara skor browsing-nya dekat dengan GPT-5.5.[1][7]
  4. Masukkan Kimi K2.6 ke kolam eksperimen coding-agent sumber terbuka. Datanya menjanjikan untuk coding dan agentic workflow, tetapi belum cukup untuk ranking empat model secara adil; uji dengan repository, tool, dan batasan deployment Anda sendiri.[4][5]

Agar hasil uji tidak bias, gunakan prompt yang sama, hak akses tool yang sama, panjang konteks yang sama, dan kriteria sukses yang sama. Catat juga biaya input, biaya output, waktu eksekusi, tingkat retry, dan jenis error yang muncul.

Batasan penting

  • Tidak semua model diuji satu meja dengan konfigurasi yang sama. GPT-5.5, Claude Opus 4.7, dan DeepSeek-V4-Pro-Max punya beberapa angka dalam ringkasan VentureBeat, sedangkan Kimi K2.6 terutama muncul dalam perbandingan lain melawan Claude Opus 4.6 dan GPT-5.4.[7][4]
  • Konfigurasi model bisa berbeda. Artificial Analysis membedakan GPT-5.5 xhigh dan high, Claude Opus 4.7 memakai Adaptive Reasoning, Max Effort, sementara VentureBeat memakai nama DeepSeek-V4-Pro-Max.[2][7]
  • Skor self-reported dan skor pihak ketiga tidak selalu setara. LLM Stats secara eksplisit mengingatkan bahwa sebagian skor GPT-5.5 dan Claude Opus 4.7 dilaporkan penyedia pada tier reasoning tinggi dan tidak sepenuhnya sama metodologinya.[3]
  • Benchmark publik hanya peta awal. BrowseComp condong ke web browsing agentic, Terminal-Bench 2.0 ke workflow command-line, dan SWE-Bench Pro ke penyelesaian issue GitHub; semuanya tidak menggantikan evaluasi pada tugas nyata Anda.[7][31]

Kesimpulan

Jika harus memilih urutan uji berdasarkan data publik yang terlihat: mulai dari GPT-5.5 untuk agentic tool-use dan workflow lintas tool; Claude Opus 4.7 untuk reasoning, review, dan keputusan yang mahal jika salah; DeepSeek V4 untuk API berbiaya lebih rendah; dan Kimi K2.6 untuk eksperimen coding-agent sumber terbuka.[2][3][1][4][5]

Namun keputusan produksi sebaiknya tidak berhenti di leaderboard. Benchmark membantu menentukan siapa yang diuji dulu. Pilihan akhir tetap harus ditentukan oleh skenario produk, biaya token, toleransi error, latensi, dan hasil evaluasi regresi di lingkungan Anda sendiri.[3][7][31]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查證事實

重點整理

  • GPT 5.5 paling menonjol untuk tool use dan agentic workflow: BrowseComp 84,4% dan Terminal Bench 2.0 82,7%; Claude Opus 4.7 lebih kuat di tes reasoning seperti GPQA Diamond 94,2% dan HLE no tools 46,9%.[7][31]
  • DeepSeek V4 unggul jelas dari sisi biaya: harga publiknya US$1,74 per 1 juta token input dan US$3,48 per 1 juta token output, di bawah GPT 5.5 US$5/US$30 dan Claude Opus 4.7 US$5/US$25.[1][17]
  • Kimi K2.6 menarik untuk eksperimen coding agent sumber terbuka dengan konteks 256K, tetapi belum punya benchmark publik empat model satu meja yang setara dengan GPT 5.5, Claude Opus 4.7, dan DeepSeek V4.[5][4]

大家也會問

「GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: panduan memilih model AI」的簡短答案是什麼?

GPT 5.5 paling menonjol untuk tool use dan agentic workflow: BrowseComp 84,4% dan Terminal Bench 2.0 82,7%; Claude Opus 4.7 lebih kuat di tes reasoning seperti GPQA Diamond 94,2% dan HLE no tools 46,9%.[7][31]

最值得優先驗證的重點是什麼?

GPT 5.5 paling menonjol untuk tool use dan agentic workflow: BrowseComp 84,4% dan Terminal Bench 2.0 82,7%; Claude Opus 4.7 lebih kuat di tes reasoning seperti GPQA Diamond 94,2% dan HLE no tools 46,9%.[7][31] DeepSeek V4 unggul jelas dari sisi biaya: harga publiknya US$1,74 per 1 juta token input dan US$3,48 per 1 juta token output, di bawah GPT 5.5 US$5/US$30 dan Claude Opus 4.7 US$5/US$25.[1][17]

接下來在實務上該怎麼做?

Kimi K2.6 menarik untuk eksperimen coding agent sumber terbuka dengan konteks 256K, tetapi belum punya benchmark publik empat model satu meja yang setara dengan GPT 5.5, Claude Opus 4.7, dan DeepSeek V4.[5][4]

下一步適合探索哪個相關主題?

繼續閱讀「Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6 基準比較:2026 年誰最值得信?」,從另一個角度查看更多引用來源。

開啟相關頁面

我應該拿這個和什麼比較?

將這個答案與「DeepSeek V4 工程解析:1M 上下文、MoE 與 API 遷移重點」交叉比對。

開啟相關頁面

繼續深入研究

研究對話

研究問題

研究 Claude Opus 4.7、GPT-5.5、DeepSeek V4、Kimi K2.6 的基準測試,並盡可能全面地進行比較。

Studio Global AI35 個來源

附引用的答案

基於你提供的證據,能比較出的結論是:GPT-5.5 在可見的綜合智能排名與 BrowseComp 中領先;DeepSeek V4/DeepSeek-V4-Pro-Max 在 BrowseComp、Terminal-Bench 2.0 和價格上顯示出很強的性價比;Claude Opus 4.7 仍屬前排模型;Kimi K2.6 的可用基準數據最少,因此無法做同等完整排名。證據來源有限且多為摘要片段,以下比較應視為「基於現有證據的部分比較」,不是完整評測。

Key findings

  • 綜合智能排名方面,GPT-5.5 領先。 Artificial Analysis 摘要列出的 Intelligence Index 前五名中,GPT-5.5 xhigh 為 60 分、GPT-5.5 high 為 59 分,Claude Opus 4.7 Adaptive Reasoning Max Effort 為 57 分,與 Gemini 3.1 Pro Preview、GPT-5.4 xhigh 同分段出現;該摘要沒有給出 DeepSeek V4 或 Kimi K2.6 的具體 Intelligence Index 分數。[4]

  • BrowseComp 上,GPT-5.5 略高於 DeepSeek-V4-Pro-Max,Claude Opus 4.7 落後一些。 VentureBeat 摘要稱 DeepSeek-V4-Pro-Max 在 BrowseComp 得分 83.4%,GPT-5.5 為 84.4%,Claude Opus 4.7 為 79.3%。[5]

  • Terminal-Bench 2.0 上,DeepSeek V4 有可見分數,但其他模型細節不足。 VentureBeat 摘要稱 DeepSeek 在 Terminal-Bench 2.0 得分 67.9%,並稱其接近 Claude Opus 4.7,但摘要沒有提供 Claude Opus 4.7 的完整數字,也沒有提供 GPT-5.5 或 Kimi K2.6 的 Terminal-Bench 2.0 分數。[5]

  • 成本方面,DeepSeek V4 明顯低於 GPT-5.5;Claude Opus 4.7 的輸入價格片段可見但輸出價格不完整。 Mashable 摘要稱 DeepSeek V4 的 API 價格為每 100 萬輸入 token $1.74、每 100 萬輸出 token $3.48,且上下文窗口為 100 萬;同一摘要稱 GPT-5.5 為每 100 萬輸入 token $5、每 100 萬輸出 token $30,且上下文窗口為 100 萬。[3] Mashable 摘要也顯示 Claude Opus 4.7 的輸入價格為每 100 萬 token $5,但輸出價格在提供片段中被截斷。[3]

  • DeepSeek V4 的性價比主張較強,但需要完整原文驗證。 VentureBeat 標題稱 DeepSeek-V4 以 Opus 4.7/GPT-5.5 約六分之一成本達到接近最先進智能,但目前可用證據只提供部分 benchmark 與價格片段,缺少完整計算方法。[5]

  • Kimi K2.6 的基準證據不足。 可用證據中有 Claude Opus 4.7 與 Kimi K2.6 的 SourceForge 比較頁,以及 Artificial Analysis 的 DeepSeek V4 Pro 與 Kimi K2.6 比較頁標題,但片段沒有提供 Kimi K2.6 的具體分數、價格、上下文窗口或任務表現。[2][4]

基準與價格對照

維度GPT-5.5Claude Opus 4.7DeepSeek V4 / V4-Pro-MaxKimi K2.6
Intelligence Indexxhigh 60;high 59。[4]Adaptive Reasoning Max Effort 57。[4]可用片段未提供分數。[4]可用片段未提供分數。[4]
BrowseComp84.4%。[5]79.3%。[5]DeepSeek-V4-Pro-Max 83.4%。[5]無可用分數。
Terminal-Bench 2.0無可用分數。摘要稱 DeepSeek 接近 Claude,但未給完整 Claude 分數。[5]67.9%。[5]無可用分數。
API 價格$5 / 100 萬輸入 token;$30 / 100 萬輸出 token;100 萬上下文。[3]可見片段顯示 $5 / 100 萬輸入 token;輸出價格片段不完整。[3]$1.74 / 100 萬輸入 token;$3.48 / 100 萬輸出 token;100 萬上下文。[3]無可用價格。
證據充分度中等:有官方系統卡存在、第三方排名與價格片段。[7][4][3]中等偏低:有第三方排名與部分價格/benchmark。[4][5][3]中等:有 BrowseComp、Terminal-Bench、價格片段。[5][3]低:只有比較頁存在,缺少具體 benchmark 數字。[2][4]

Evidence notes

  • GPT-5.5 的官方性較強,但官方 benchmark 片段不足。 OpenAI 的 GPT-5.5 System Card 於 2026 年 4 月 23 日發布,但提供的片段沒有列出具體 benchmark 成績。[7]

  • 第三方 benchmark 來源比個人測試更適合做排名依據。 Artificial Analysis 提供了 Intelligence Index 排名片段,VentureBeat 提供了 BrowseComp 和 Terminal-Bench 2.0 的部分數字,因此這兩類證據比 LinkedIn 個人測試更適合作為量化比較依據。[4][5][31]

  • 個人實測只能作為補充,不宜作為排名依據。 LinkedIn 摘要描述一名用戶用 GPT-5.5 Codex 與 Claude Code on Opus 4.7 做了 4 個 one-shot head-to-head 實驗,並指出 benchmark 只能說明部分情況;但摘要沒有提供可複核的分數表或完整任務結果。[31]

  • SourceForge 對 Claude Opus 4.7 與 Kimi K2.6 的比較主要是產品/公司資訊,不是 benchmark 數據。 該片段顯示 Anthropic 與 Moonshot AI 的公司資訊,以及 Claude Opus 4.7 vs Kimi K2.6 的比較頁存在,但沒有提供模型能力分數。[2]

Limitations / uncertainty

  • Insufficient evidence. 目前證據不足以對四個模型做「全面」基準排名,因為 Kimi K2.6 缺少具體 benchmark 數字,DeepSeek V4 在 Intelligence Index 中也沒有可見分數。[2][4]

  • 不同來源可能使用不同模型配置。 Artificial Analysis 中 GPT-5.5 有 xhigh/high,Claude Opus 4.7 有 Adaptive Reasoning Max Effort;VentureBeat 則提到 DeepSeek-V4-Pro-Max,這些配置不一定代表普通 API 默認模式。[4][5]

  • 部分價格與 benchmark 資訊被截斷。 Mashable 片段提供 DeepSeek V4 與 GPT-5.5 的完整輸入/輸出價格,但 Claude Opus 4.7 的輸出價格沒有出現在可用片段中。[3]

  • BrowseComp 和 Terminal-Bench 2.0 不能代表所有任務。 BrowseComp 偏向 agentic web browsing,Terminal-Bench 2.0 偏向終端/開發環境任務;它們不能直接代表寫作、長上下文理解、多語言、數學、視覺或企業安全表現。[5]

Summary

  • 若只看可見綜合智能排名:GPT-5.5 第一,Claude Opus 4.7 屬第一梯隊;DeepSeek V4 與 Kimi K2.6 因缺少同表分數無法排序。[4]

  • 若看 BrowseComp:GPT-5.5 84.4% 最高,DeepSeek-V4-Pro-Max 83.4% 非常接近,Claude Opus 4.7 為 79.3%;Kimi K2.6 無可用分數。[5]

  • 若看性價比:DeepSeek V4 的可見 API 價格明顯低於 GPT-5.5,且其 BrowseComp 接近 GPT-5.5;但完整成本結論仍需 Claude 與 Kimi 的完整價格和更多任務分數。[3][5]

  • 最可靠的結論是:GPT-5.5 在現有證據中性能最強,DeepSeek V4 最像高性價比追趕者,Claude Opus 4.7 仍在高端模型梯隊,Kimi K2.6 目前證據不足,不能公平排名。[4][5][2]

來源

  • [1] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com

    Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...

  • [2] DeepSeek V4 Pro (Reasoning, High Effort) vs Kimi K2.6artificialanalysis.ai

    What are the top AI models? The top AI models by Intelligence Index are: 1. GPT-5.5 (xhigh) (60), 2. GPT-5.5 (high) (59), 3. Claude Opus 4.7 (Adaptive Reasoning, Max Effort) (57), 4. Gemini 3.1 Pro Preview (57), 5. GPT-5.4 (xhigh) (57). Which is the fastest...

  • [3] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com

    The Verdict On the 10 benchmarks both providers report, Opus 4.7 leads on 6 and GPT-5.5 leads on 4. The leads cluster by category, not by overall quality: Opus 4.7 is ahead on the reasoning-heavy and review-grade tests (GPQA Diamond, HLE with and without to...

  • [4] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4 - Verdent AIverdent.ai

    Benchmark K2.6 Claude Opus 4.6 GPT-5.4 Notes --- --- SWE-Bench Pro 58.60% 53.40% 57.70% Moonshot in-house harness; SEAL mini-swe-agent puts GPT-5.4 at 59.1%, Opus 4.6 at 51.9% SWE-Bench Verified 80.20% 80.80% 80% Tight cluster; Opus 4.7 now leads at 87.6% T...

  • [5] Kimi K2.6 vs DeepSeek-V4 Pro - DocsBot AIdocsbot.ai

    Kimi K2.6 Kimi K2.6 is Moonshot AI's latest open-source native multimodal agentic model, advancing long-horizon coding, coding-driven design, proactive autonomous execution, and swarm-based task orchestration. It keeps the Kimi K2.5 1T parameter MoE archite...

  • [7] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com

    DeepSeek-V4-Pro-Max’s best showing is on BrowseComp, the benchmark measuring agentic AI web browsing prowess (especially highly containerized information), where it scores 83.4%, narrowly behind GPT-5.5 at 84.4% andahead of Claude Opus 4.7 at 79.3%. On Term...

  • [17] DeepSeek V4: Features, Benchmarks, and Comparisonsdatacamp.com

    DeepSeek V4 vs Competitors Over the last week, we’ve seen the release of OpenAI's GPT-5.5 and Anthropic's Claude Opus 4.7. While those models boast top-tier capabilities, especially in long-context reasoning and agentic coding, DeepSeek V4 competes heavily...

  • [23] Introducing GPT-5.5 - OpenAIopenai.com

    GPT‑5.5 reaches state-of-the-art performance across multiple benchmarks that reflect this kind of work. OnGDPval⁠⁠, which tests agents’ abilities to produce well-specified knowledge work across 44 occupations, GPT‑5.5 scores 84.9%. On OSWorld-Verified, whic...

  • [31] OpenAI releases GPT-5.5 with improved coding and research capabilitiesuk.finance.yahoo.com

    Louis Juricic 1 min read Investing.com -- OpenAI announced Thursday the release of GPT-5.5, its latest AI model now available to Plus, Pro, Business, and Enterprise users through ChatGPT and Codex platforms. The model achieved 82.7% accuracy on Terminal-Ben...