studioglobal
Temukan yang Sedang Tren
LaporanDipublikasikan12 sumber

GPT-5.5, Claude Opus 4.7, Kimi K2.6, dan DeepSeek V4: benchmark mana yang paling relevan?

Untuk agen coding berbasis terminal, GPT 5.5 memimpin Terminal Bench 2.0; untuk benchmark perbaikan software, Claude Opus 4.7 paling kuat di baris SWE Bench yang dikutip [18][24]. Jangan mencampur GPT 5.5 Pro dengan GPT 5.5 dasar: varian Pro memimpin BrowseComp 90,1% dan Humanity’s Last Exam dengan tools 57,2% saat...

17K0
Abstract benchmark dashboard comparing GPT-5.5, Claude Opus 4.7, Kimi K2.6 and DeepSeek V4
GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: Benchmarks ComparedAI-generated editorial illustration for a benchmark comparison of GPT-5.5, Claude Opus 4.7, Kimi K2.6 and DeepSeek V4.
AI Perintah

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: Benchmarks Compared. Article summary: There is no single apples to apples leaderboard in the cited sources. The clearest signals are GPT 5.5 at 82.7% on Terminal Bench 2.0, Claude Opus 4.7 at 87.6% on SWE Bench Verified, Kimi K2.6 as the open weight pick,.... Topic tags: ai, ai benchmarks, llm, openai, anthropic. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hp

openai.com

Grafik benchmark sering membuat empat model ini terlihat seperti satu lomba. Padahal, datanya tidak sepenuhnya setara. Perbandingan bersama terdekat dalam sumber yang dikutip mencakup GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7, dan DeepSeek-V4-Pro-Max; Kimi K2.6 muncul lewat rilis, model card, dan leaderboard Kimi yang terpisah [1][6][24]. Jadi pertanyaan yang lebih berguna bukan siapa juara umum, melainkan model mana yang sebaiknya diuji lebih dulu untuk pekerjaan Anda.

Catatan nama juga penting: artikel ini memakai DeepSeek-V4-Pro-Max untuk DeepSeek V4 karena varian itulah yang memiliki baris benchmark dan biaya dalam sumber yang dikutip [18][24]. GPT-5.5 Pro juga dipisahkan dari GPT-5.5 dasar setiap kali sumber melaporkan hasil yang berbeda [24].

Ringkasan cepat menurut kebutuhan

  • Agen coding yang banyak memakai terminal: GPT-5.5 punya skor Terminal-Bench 2.0 tertinggi dalam perbandingan bersama, yaitu 82,7% [24].
  • Perbaikan software dan bug fixing: Claude Opus 4.7 memimpin baris SWE-Bench Pro yang dikutip dengan 64,3% dan SWE-Bench Verified dengan 87,6% [18][24].
  • Reasoning sulit tanpa alat bantu: Claude Opus 4.7 memimpin GPQA Diamond dan Humanity’s Last Exam tanpa tools dalam perbandingan bersama [24].
  • Reasoning dengan tools dan tugas browsing: GPT-5.5 Pro memimpin Humanity’s Last Exam dengan tools pada 57,2% dan BrowseComp pada 90,1%, saat varian Pro itu dilaporkan [24].
  • Deployment bobot terbuka: Kimi K2.6 adalah kandidat open-weight paling jelas dalam sumber yang dikutip, dengan deskripsi sebagai model MoE 1 triliun parameter, 32 miliar parameter aktif, dan jendela konteks 256 ribu token [1].
  • Inferensi hosted yang sensitif biaya: DeepSeek-V4-Pro-Max layak masuk daftar uji, karena LLM Stats mencantumkan konteks 1 juta token, 80,6% di SWE-Bench Verified, dan kolom biaya $1,74/$3,48 [18].

Tabel perbandingan benchmark

Tanda — berarti skor tidak ditemukan dalam sumber yang dikutip untuk model tersebut, bukan berarti nilainya nol. Baris GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7, dan DeepSeek-V4-Pro-Max terutama berasal dari satu perbandingan bersama; angka Kimi K2.6 berasal dari sumber Kimi yang terpisah [1][6][24].

BenchmarkGPT-5.5GPT-5.5 ProClaude Opus 4.7Kimi K2.6DeepSeek-V4-Pro-Max
GPQA Diamond93,6% [24]94,2% [24]≈91% [28]90,1% [24]
Humanity’s Last Exam, tanpa tools41,4% [24]43,1% [24]46,9% [24]37,7% [24]
Humanity’s Last Exam, dengan tools52,2% [24]57,2% [24]54,7% [24]54,0% [1]48,2% [24]
Terminal-Bench 2.082,7% [24]69,4% [24]66,7% [6]67,9% [24]
SWE-Bench Pro58,6% [24]64,3% [24]58,6% [6]55,4% [24]
BrowseComp84,4% [24]90,1% [24]79,3% [24]83,2% [1]83,4% [24]
MCP Atlas / MCPAtlas Public75,3% [24]79,1% [24]73,6% [24]
SWE-Bench Verified87,6% [18]80,2% [6]80,6% [18]

Model mana yang sebaiknya diuji lebih dulu?

PrioritasMulai dariAlasannya
Agen coding berbasis terminalGPT-5.5Skor Terminal-Bench 2.0 tertinggi dalam perbandingan bersama, 82,7% [24].
Perbaikan softwareClaude Opus 4.7Memimpin SWE-Bench Pro dan SWE-Bench Verified di antara model yang dibahas [18][24].
Reasoning sulit tanpa toolsClaude Opus 4.7Memimpin GPQA Diamond dan Humanity’s Last Exam tanpa tools dalam perbandingan bersama [24].
Reasoning dengan tools atau browsingGPT-5.5 ProMemimpin Humanity’s Last Exam dengan tools dan BrowseComp saat GPT-5.5 Pro dilaporkan terpisah [24].
Deployment bobot terbukaKimi K2.6Disebut sebagai model MoE open-weight 1 triliun parameter, dan model card Hugging Face-nya melaporkan baris benchmark coding yang kuat [1][6].
Inferensi hosted dengan biaya ketatDeepSeek-V4-Pro-MaxLLM Stats mencantumkan konteks 1 juta token, 80,6% di SWE-Bench Verified, dan kolom biaya lebih rendah daripada Claude Opus 4.7 pada leaderboard yang sama [18].
Kebutuhan konteks panjangGPT-5.5, Claude Opus 4.7, atau DeepSeek-V4-Pro-MaxSumber yang dikutip mencantumkan konteks 1 juta token untuk GPT-5.5, Claude Opus 4.7, dan DeepSeek-V4-Pro-Max; Kimi K2.6 dilaporkan sekitar 256 ribu hingga 262 ribu token [1][11][16][18][27].

Catatan per model

GPT-5.5

OpenAI menggambarkan GPT-5.5 sebagai model untuk tugas kompleks seperti coding, riset, dan analisis data [38]. Dalam perbandingan VentureBeat yang dikutip, GPT-5.5 mencatat 82,7% di Terminal-Bench 2.0, di atas Claude Opus 4.7 pada 69,4% dan DeepSeek-V4-Pro-Max pada 67,9% [24]. Di tabel yang sama, GPT-5.5 juga mencatat 93,6% di GPQA Diamond, 58,6% di SWE-Bench Pro, dan 84,4% di BrowseComp [24].

Namun, GPT-5.5 Pro harus dibaca sebagai titik perbandingan terpisah. Dalam tabel yang sama, GPT-5.5 Pro mencapai 90,1% di BrowseComp dan 57,2% di Humanity’s Last Exam dengan tools. Angka itu tidak sebaiknya digabungkan begitu saja dengan GPT-5.5 dasar saat Anda membandingkan biaya, latensi, atau konfigurasi model [24].

Untuk konteks pengadaan, BenchLM mencantumkan GPT-5.5 dengan jendela konteks 1 juta token, sementara satu laporan harga menyebut $5 per satu juta token input dan $30 per satu juta token output [27][36]. Anggap angka harga itu sebagai sinyal awal yang perlu dicek ulang ke harga provider terbaru sebelum membuat anggaran.

Claude Opus 4.7

Claude Opus 4.7 memiliki sinyal terkuat untuk perbaikan software dalam kelompok ini. LLM Stats mencantumkan 87,6% di SWE-Bench Verified, sementara perbandingan bersama melaporkan 64,3% di SWE-Bench Pro [18][24]. Model ini juga memimpin baris GPQA Diamond dengan 94,2%, Humanity’s Last Exam tanpa tools dengan 46,9%, dan MCP Atlas dengan 79,1% [24].

LLM Stats melaporkan jendela konteks 1 juta token dan harga $5/$25 per satu juta token untuk Claude Opus 4.7 [16]. Tetapi ada catatan komparabilitas yang perlu diperhatikan: Anthropic menyebut sebagian hasil benchmark memakai implementasi internal atau parameter harness yang diperbarui, sehingga sebagian skor tidak langsung sebanding dengan skor leaderboard publik [17].

Kimi K2.6

Kimi K2.6 adalah kandidat bobot terbuka paling kuat dalam materi yang dikutip. Liputan rilis menggambarkannya sebagai model MoE open-weight 1 triliun parameter dengan 32 miliar parameter aktif, 384 experts, multimodalitas native, kuantisasi INT4, dan konteks 256 ribu token [1]. Model card Hugging Face-nya melaporkan 80,2% di SWE-Bench Verified, 58,6% di SWE-Bench Pro, 66,7% di Terminal-Bench 2.0, dan 89,6 di LiveCodeBench v6 [6].

Liputan rilis yang sama melaporkan 54,0 di Humanity’s Last Exam dengan tools dan 83,2 di BrowseComp untuk Kimi K2.6 [1]. LLM Stats mencantumkan Kimi K2.6 dengan konteks 262 ribu token, kolom harga $0,95/$4,00, dan label Open Source [11]. Batasannya: angka Kimi tidak berasal dari tabel bersama yang sama dengan GPT-5.5, Claude Opus 4.7, dan DeepSeek-V4-Pro-Max. Jadi selisih skor yang tipis lebih baik diperlakukan sebagai alasan untuk menguji, bukan bukti kemenangan final [1][6][24].

DeepSeek-V4-Pro-Max

DeepSeek-V4-Pro-Max terlihat lebih sebagai kandidat value daripada pemimpin benchmark menyeluruh. LLM Stats mencantumkan ukuran 1,6T, konteks 1 juta token, 80,6% di SWE-Bench Verified, dan kolom biaya $1,74/$3,48 [18]. Dalam perbandingan bersama, model ini mencatat 90,1% di GPQA Diamond, 37,7% di Humanity’s Last Exam tanpa tools, 48,2% di Humanity’s Last Exam dengan tools, 67,9% di Terminal-Bench 2.0, 55,4% di SWE-Bench Pro, 83,4% di BrowseComp, dan 73,6% di MCP Atlas [24].

Angka tersebut membuat DeepSeek-V4-Pro-Max menarik untuk workload yang sensitif biaya. Namun tabel yang sama menunjukkan GPT-5.5, GPT-5.5 Pro, atau Claude Opus 4.7 memimpin sebagian besar baris benchmark yang dilaporkan. Artinya, DeepSeek tetap perlu divalidasi pada tugas Anda sendiri sebelum dipakai menggantikan model premium di produksi [24].

Sinyal konteks dan harga

Harga dan jendela konteks tidak selalu dilaporkan oleh sumber atau provider yang sama. Gunakan angka berikut sebagai sinyal pengadaan awal, bukan penawaran final.

ModelSinyal konteks dan harga yang dikutipPembacaan praktis
GPT-5.5BenchLM mencantumkan konteks 1 juta token; satu laporan harga mencantumkan $5 input dan $30 output per satu juta token [27][36].Opsi hosted premium; cek harga live sebelum membuat anggaran.
Claude Opus 4.7LLM Stats melaporkan konteks 1 juta token dan harga $5/$25 per satu juta token [16].Opsi premium untuk coding, reasoning, dan konteks panjang.
Kimi K2.6Liputan rilis melaporkan konteks 256 ribu token; LLM Stats mencantumkan 262 ribu token dan kolom harga $0,95/$4,00 [1][11].Kandidat open-weight yang kuat; biaya hosted bisa berbeda menurut provider.
DeepSeek-V4-Pro-MaxLLM Stats mencantumkan konteks 1 juta token, ukuran 1,6T, 80,6% di SWE-Bench Verified, dan kolom biaya $1,74/$3,48 [18].Kandidat value yang kuat jika kualitasnya bertahan pada workload Anda.

Mengapa peringkat bisa berbeda-beda

Setiap baris benchmark mengukur kemampuan yang tidak sama. GPQA Diamond dan Humanity’s Last Exam menekankan reasoning sulit; Terminal-Bench 2.0 dan varian SWE-Bench menekankan coding serta kerja software yang agentic; BrowseComp mengukur performa retrieval bergaya browsing dalam perbandingan bersama [24]. Karena itu, sebuah model bisa unggul di satu baris tetapi tertinggal di baris lain.

Bahkan benchmark dengan nama yang sama pun bisa berbeda hasil karena implementasi dan pengaturan evaluasinya berbeda. LLM Stats mencantumkan Claude Opus 4.7 pada 87,6% di SWE-Bench Verified, sementara LMCouncil mencantumkan Claude Opus 4.7 pada 83,5% ± 1,7 dalam setup mereka [18][30]. Anthropic juga menyatakan bahwa sebagian hasilnya memakai implementasi internal atau parameter harness yang diperbarui, sehingga komparabilitas langsung dengan leaderboard publik terbatas [17].

Itulah sebabnya jarak satu atau dua poin tidak seharusnya menentukan rollout produksi sendirian. Benchmark publik paling berguna untuk mempersempit shortlist; evaluasi internal Anda tetap harus menjadi penentu akhir.

Cara menguji para finalis

Sebelum memilih satu model, uji dua atau tiga kandidat teratas pada tugas yang mirip dengan pekerjaan nyata Anda.

  1. Gunakan prompt, file, dan repositori asli. Prompt benchmark jarang menangkap struktur codebase, dokumen, kebijakan, atau perilaku pengguna Anda.
  2. Samakan lingkungan tools. Hasil agen coding bisa berubah jika model memiliki akses terminal, browsing, retrieval, konteks repositori, atau API internal.
  3. Ukur biaya dan latensi dengan konfigurasi yang sama. Mode Pro atau effort yang lebih tinggi bisa mengubah kualitas, konsumsi token, dan waktu respons.
  4. Periksa kegagalan secara manual. Untuk coding, lihat test, diff, maintainability, regresi keamanan, dan dependensi yang mungkin dihalusinasikan.
  5. Masukkan setidaknya satu penantang berbiaya lebih rendah. Kimi K2.6 dan DeepSeek-V4-Pro-Max layak masuk test set jika bobot terbuka atau biaya inferensi penting bagi Anda [1][18].

Kesimpulan

Jika Anda ingin shortlist kelas atas, uji GPT-5.5 dan Claude Opus 4.7 berdampingan: GPT-5.5 punya hasil Terminal-Bench 2.0 terkuat dalam sumber yang dikutip, sementara Claude Opus 4.7 punya hasil SWE-Bench Pro dan SWE-Bench Verified terkuat [18][24]. Jika Anda membutuhkan bobot terbuka, mulai dari Kimi K2.6 [1][6]. Jika batas utamanya biaya, masukkan DeepSeek-V4-Pro-Max, tetapi validasi pada workload sendiri sebelum menganggapnya pengganti langsung untuk opsi premium [18][24].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Cari dan periksa fakta dengan Studio Global AI

Poin-poin penting

  • Untuk agen coding berbasis terminal, GPT 5.5 memimpin Terminal Bench 2.0; untuk benchmark perbaikan software, Claude Opus 4.7 paling kuat di baris SWE Bench yang dikutip [18][24].
  • Jangan mencampur GPT 5.5 Pro dengan GPT 5.5 dasar: varian Pro memimpin BrowseComp 90,1% dan Humanity’s Last Exam dengan tools 57,2% saat dilaporkan terpisah [24].
  • Kimi K2.6 adalah kandidat bobot terbuka paling jelas, sedangkan DeepSeek V4 Pro Max layak diuji bila biaya inferensi menjadi batas utama [1][18].

Orang-orang juga bertanya

Apa jawaban singkat untuk "GPT-5.5, Claude Opus 4.7, Kimi K2.6, dan DeepSeek V4: benchmark mana yang paling relevan?"?

Untuk agen coding berbasis terminal, GPT 5.5 memimpin Terminal Bench 2.0; untuk benchmark perbaikan software, Claude Opus 4.7 paling kuat di baris SWE Bench yang dikutip [18][24].

Apa poin penting yang harus divalidasi terlebih dahulu?

Untuk agen coding berbasis terminal, GPT 5.5 memimpin Terminal Bench 2.0; untuk benchmark perbaikan software, Claude Opus 4.7 paling kuat di baris SWE Bench yang dikutip [18][24]. Jangan mencampur GPT 5.5 Pro dengan GPT 5.5 dasar: varian Pro memimpin BrowseComp 90,1% dan Humanity’s Last Exam dengan tools 57,2% saat dilaporkan terpisah [24].

Apa yang harus saya lakukan selanjutnya dalam latihan?

Kimi K2.6 adalah kandidat bobot terbuka paling jelas, sedangkan DeepSeek V4 Pro Max layak diuji bila biaya inferensi menjadi batas utama [1][18].

Topik terkait manakah yang harus saya jelajahi selanjutnya?

Lanjutkan dengan "Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: siapa unggul di benchmark 2026?" untuk sudut pandang lain dan kutipan tambahan.

Buka halaman terkait

Dengan apa saya harus membandingkannya?

Periksa ulang jawaban ini dengan "Northwest vs. Southeast Timber: Mengapa Jawabannya larger; larger?".

Buka halaman terkait

Lanjutkan penelitian Anda

Percakapan penelitian

kamu

Pertanyaan penelitian

Search for the benchmarks of GPT-5.5, Claude Opus 4.7, Kimi K2.6, DeepSeek V4. Compare them to help me understand more about them.

Studio Global AI40 sumber

Jawaban yang dikutip

I found public benchmark data for all four, but not one fully independent, apples-to-apples leaderboard covering GPT-5.5, Claude Opus 4.7, Kimi K2.6, and DeepSeek V4 under the same harness. The practical read is: GPT-5.5 looks strongest for broad agentic coding/computer-use tasks, Claude Opus 4.7 is extremely strong on coding and hard reasoning, Kimi K2.6 is the strongest open-weight option in this group, and DeepSeek V4 looks like the best price/performance play if its reported results hold up across independent testing [4][5][6][13].

Key findings

  • GPT-5.5’s official benchmarks emphasize agentic coding and computer-use: 82.7% on Terminal-Bench 2.0, 58.6% on SWE-Bench Pro, 78.7% on OSWorld-Verified, 84.4% on BrowseComp, and 81.8% on CyberGym [4].

  • GPT-5.5 Pro appears stronger on some harder research/search/math tasks, including 90.1% on BrowseComp, 52.4% on FrontierMath Tier 1–3, and 39.6% on FrontierMath Tier 4 [4].

  • Claude Opus 4.7 is positioned by Anthropic as a premium hybrid reasoning model for coding and agents, with a 1M-token context window and API pricing of $5 per million input tokens and $25 per million output tokens [2]. Third-party benchmark reporting lists Claude Opus 4.7 at 87.6% on SWE-bench Verified and 94.2% on GPQA Diamond [5].

  • Kimi K2.6 is an open-weight multimodal MoE model with 1T total parameters, 32B active parameters, and a 256K-token context window [13]. Its model card reports 80.2% on SWE-Bench Verified, 58.6% on SWE-Bench Pro, 66.7% on Terminal-Bench 2.0, 90.5% on GPQA Diamond, and 54.0% on HLE-Full with tools [13].

  • DeepSeek V4-Pro-Max is reported as a 1.6T-parameter open model with much lower API pricing than GPT-5.5 and Claude Opus 4.7 [6]. Reported comparison data puts DeepSeek V4-Pro-Max at 90.1% on GPQA Diamond, 37.7% on HLE without tools, 48.2% on HLE with tools, and 67.9% on Terminal-Bench 2.0 [6].

Comparison

ModelBest fitNotable reported benchmarksMain caveat
GPT-5.5Best general pick for agentic coding, computer use, research workflows, and tool-heavy tasksTerminal-Bench 2.0: 82.7%; SWE-Bench Pro: 58.6%; OSWorld-Verified: 78.7%; BrowseComp: 84.4%; CyberGym: 81.8% [4]OpenAI’s strongest numbers include internal or vendor-run evals, so independent confirmation matters [4].
GPT-5.5 ProHarder reasoning/search/math where cost is less importantBrowseComp: 90.1%; FrontierMath Tier 1–3: 52.4%; FrontierMath Tier 4: 39.6% [4]Higher-tier “Pro” results are not directly comparable to base GPT-5.5 or open models unless the same effort/budget is used [4].
Claude Opus 4.7Premium coding, long-context enterprise workflows, careful reasoning, and high-reliability agentsSWE-bench Verified: 87.6%; GPQA Diamond: 94.2%; 1M context window [2][5]Some Anthropic benchmark results are presented in release materials or partner/internal evals, and not every benchmark is directly comparable to public leaderboard runs [8].
Kimi K2.6Best open-weight option if you want strong coding/agentic performance and self-hostabilitySWE-Bench Verified: 80.2%; SWE-Bench Pro: 58.6%; Terminal-Bench 2.0: 66.7%; GPQA Diamond: 90.5%; HLE-Full with tools: 54.0% [13]Kimi’s own model card notes different settings and re-evaluations for some comparison scores, so treat cross-model deltas cautiously [13].
DeepSeek V4-Pro-MaxBest value candidate; strong open-model performance with much lower reported API costGPQA Diamond: 90.1%; HLE no tools: 37.7%; HLE with tools: 48.2%; Terminal-Bench 2.0: 67.9% [6]Evidence is newer and less independently settled; I would wait for more third-party validation before treating it as equal to closed frontier models [6].

How to interpret the numbers

  • For software engineering, Claude Opus 4.7’s 87.6% SWE-bench Verified score is the standout among the reported figures I found, while GPT-5.5’s 82.7% Terminal-Bench 2.0 score is the strongest reported command-line/agentic coding number in this set [4][5].

  • For broad tool-using agent tasks, GPT-5.5 looks especially strong because its official release reports high scores across OSWorld-Verified, BrowseComp, Toolathlon, Terminal-Bench 2.0, and CyberGym rather than just one narrow benchmark [4].

  • For open-weight deployment, Kimi K2.6 and DeepSeek V4 are the two to watch: Kimi K2.6 has a strong official benchmark table across coding, reasoning, vision, and agentic tasks, while DeepSeek V4 emphasizes frontier-like performance at much lower cost [6][13].

  • For hard academic/scientific reasoning, Claude Opus 4.7’s reported 94.2% GPQA Diamond leads the figures I found, while GPT-5.5 and DeepSeek V4 are reported lower on GPQA Diamond in the comparison data I found [5][6].

  • For price/performance, DeepSeek V4 appears meaningfully cheaper than GPT-5.5 and Claude Opus 4.7 in reported API pricing, but cheaper inference only matters if its quality is sufficient for your workload [6].

Evidence notes

  • The strongest source for GPT-5.5 is OpenAI’s official GPT-5.5 release page, which includes the benchmark table for Terminal-Bench 2.0, SWE-Bench Pro, OSWorld-Verified, BrowseComp, FrontierMath, Toolathlon, and CyberGym [4].

  • The strongest source for Claude Opus 4.7 positioning, context window, availability, and pricing is Anthropic’s Opus 4.7 product/release material [2][8]. The cleanest text benchmark figures I found for Opus 4.7’s SWE-bench Verified and GPQA Diamond scores came from LLM Stats reporting [5].

  • The strongest source for Kimi K2.6 is Moonshot AI’s Hugging Face model card, which includes architecture details, context length, and the evaluation table [13].

  • The strongest text source I found for DeepSeek V4’s direct comparison against GPT-5.5 and Claude Opus 4.7 was VentureBeat’s launch/benchmark report [6].

Limitations / uncertainty

  • Insufficient evidence for one single, independent, fully apples-to-apples benchmark suite that evaluates all four models with the same prompts, tools, budgets, reasoning effort, and scoring harness.

  • Some numbers are vendor-reported, some are third-party summaries, and some benchmarks use different tool access or reasoning-effort settings, so small score differences should not be overinterpreted [4][8][13].

  • For real buying/deployment decisions, I would run your own 20–50 task eval set with your actual prompts, files, tools, latency targets, and cost constraints.

Summary

If you want the safest high-end general choice, start with GPT-5.5. If your priority is top-tier coding reliability and long-context enterprise work, test Claude Opus 4.7. If you need open weights and strong frontier-adjacent performance, Kimi K2.6 is the most compelling open option. If cost is the constraint and you can tolerate some validation risk, DeepSeek V4 is the one to benchmark first.

Sumber

  • [1] [AINews] Moonshot Kimi K2.6: the world's leading Open Model ...latent.space

    Moonshot’s Kimi K2.6 was the clear release of the day: an open-weight 1T-parameter MoE with 32B active, 384 experts (8 routed + 1 shared), MLA attention, 256K context, native multimodality, and INT4 quantization, with day-0 support in vLLM, OpenRouter, Clou...

  • [6] moonshotai/Kimi-K2.6 - Hugging Facehuggingface.co

    OSWorld-Verified 73.1 75.0 72.7 63.3 Coding Terminal-Bench 2.0 (Terminus-2) 66.7 65.4 65.4 68.5 50.8 SWE-Bench Pro 58.6 57.7 53.4 54.2 50.7 SWE-Bench Multilingual 76.7 77.8 76.9 73.0 SWE-Bench Verified 80.2 80.8 80.6 76.8 SciCode 52.2 56.6 51.9 58.9 48.7 OJ...

  • [11] AI Leaderboard 2026 - Compare Top AI Models & Rankingsllm-stats.com

    19 Image 20: Moonshot AI Kimi K2.6NEW Moonshot AI 1,157 — 90.5% 80.2% 262K $0.95 $4.00 Open Source 20 Image 21: OpenAI GPT-5.2 Codex OpenAI 1,148 812 — — 400K $1.75 $14.00 Proprietary [...] 6 Image 7: Anthropic Claude Opus 4.5 Anthropic 1,614 1,342 87.0% 80...

  • [16] Claude Opus 4.7: Benchmarks, Pricing, Context & What's Newllm-stats.com

    LLM Stats Logo Make AI phone calls with one API call Claude Opus 4.7: Benchmarks, Pricing, Context & What's New Claude Opus 4.7 scores 87.6% on SWE-bench Verified, 94.2% on GPQA, 1M token context, 3.3x higher-resolution vision, new xhigh effort level. $5/$2...

  • [17] Introducing Claude Opus 4.7 - Anthropicanthropic.com

    CyberGym: Opus 4.6’s score has been updated from the originally reported 66.6 to 73.8, as we updated our harness parameters to better elicit cyber capability. SWE-bench Multimodal: We used an internal implementation for both Opus 4.7 and Opus 4.6. Scores ar...

  • [18] SWE-Bench Verified Leaderboard - LLM Statsllm-stats.com

    Model Score Size Context Cost License --- --- --- 1 Anthropic Claude Mythos Preview Anthropic 0.939 — — $25.00 / $125.00 2 Anthropic Claude Opus 4.7 Anthropic 0.876 — 1.0M $5.00 / $25.00 3 Anthropic Claude Opus 4.5 Anthropic 0.809 — 200K $5.00 / $25.00 4 An...

  • [24] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com

    Benchmark DeepSeek-V4-Pro-Max GPT-5.5 GPT-5.5 Pro, where shown Claude Opus 4.7 Best result among these GPQA Diamond 90.1% 93.6% — 94.2% Claude Opus 4.7 Humanity’s Last Exam, no tools 37.7% 41.4% 43.1% 46.9% Claude Opus 4.7 Humanity’s Last Exam, with tools 4...

  • [27] GPT-5.5 Benchmarks 2026: Scores, Rankings & Performancebenchlm.ai

    Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools GPT-5.5 According to BenchLM.ai, GPT-5.5 ranks 5 out of 112 models on the provisional leaderboard with an overall score of 89/100. It also ranks 2 out of 16 on the verified lead...

  • [28] GPT-5.5: Pricing, Benchmarks & Performance - LLM Statsllm-stats.com

    9Image 42GPT-5 mini 0.22 10Image 43o3 0.16 GPQAView → 4 of 10 Image 44: LLM Stats Logo A challenging dataset of 448 multiple-choice questions written by domain experts in biology, physics, and chemistry. Questions are Google-proof and extremely difficult, w...

  • [30] AI Model Benchmarks Apr 2026 | Compare GPT-5, Claude ...lmcouncil.ai

    METR Time Horizons Model Minutes --- 1 Claude Opus 4.6 (unknown thinking) 718.8 ±1815.2 2 GPT-5.2 (high) 352.2 ±335.5 3 GPT-5.3 Codex 349.5 ±333.1 4 Claude Opus 4.5 (no thinking) 293.0 ±239.0 5 Claude Opus 4.5 (16k thinking) 288.9 ±558.2 SWE-bench Verified...

  • [36] GPT-5.5 Doubles the Price, Google Goes Full Agent, DeepSeek V4 ...thecreatorsai.com

    GPT-5.5 is out — $5 per million input, $30 per million output. That's exactly double GPT-5.4 and 20% more than Claude Opus 4.7. OpenAI released ... 21 hours ago

  • [38] Introducing GPT-5.5 - OpenAIopenai.com

    Introducing GPT-5.5, our smartest model yet—faster, more capable, and built for complex tasks like coding, research, and data analysis ... 2 days ago