Membandingkan GPT-5.5, Claude Opus 4.7, Kimi K2.6, dan DeepSeek V4 tidak bisa disederhanakan menjadi satu papan peringkat. Benchmark yang tersedia memakai tugas, mode model, dan sumber yang berbeda. Namun polanya cukup jelas: GPT-5.5 paling menonjol di ARC dan tugas terminal bergaya agen, Claude Opus 4.7 kuat di HLE dan SWE-Bench Pro, Kimi K2.6 kompetitif untuk coding dan skenario open-weight, sedangkan DeepSeek V4 bukan pemimpin skor tertinggi tetapi sangat menarik dari sisi biaya API.[1][
2][
3][
4][
6][
8][
9][
13]
Jawaban cepat: pilih berdasarkan pekerjaan, bukan gengsi model
- GPT-5.5 layak diuji lebih dulu untuk tugas ARC, visual reasoning, dan agen berbasis terminal. DocsBot mencatat 85% pada ARC-AGI-2 untuk GPT-5.5, dibanding 75,8% untuk Claude Opus 4.7; VentureBeat mencatat 82,7% pada Terminal-Bench 2.0 untuk GPT-5.5, dibanding 69,4% untuk Claude dan 67,9% untuk DeepSeek.[
1][
3]
- Claude Opus 4.7 terlihat paling kuat di beberapa benchmark penalaran berat dan software engineering. VentureBeat menempatkan Claude di atas GPT-5.5 dan DeepSeek pada Humanity’s Last Exam, baik tanpa alat maupun dengan alat, sementara DataCamp mencatat 64,3% pada SWE-Bench Pro, di atas 58,6% untuk GPT-5.5 dan 55,4% untuk DeepSeek V4 Pro.[
3][
9]
- Kimi K2.6 adalah kandidat kuat untuk coding dan agentic workload, tetapi lebih sedikit muncul dalam tabel yang benar-benar sejajar dengan tiga model lain. Di Artificial Analysis, Kimi K2.6 mendapat skor 54, di bawah GPT-5.5 medium dengan 57 tetapi di atas Claude Opus 4.7 non-reasoning high dengan 52.[
13]
- DeepSeek V4 lebih tepat dibaca sebagai opsi price-performance. Mashable mencatat harganya US$1,74 per 1 juta token input dan US$3,48 per 1 juta token output, lebih rendah daripada GPT-5.5 di US$5/US$30 dan Claude Opus 4.7 di US$5/US$25.[
2]
Tabel perbandingan benchmark
Tanda — berarti sumber yang tersedia tidak memberikan angka yang benar-benar sebanding untuk model tersebut.
| Benchmark / sumber | GPT-5.5 | Claude Opus 4.7 | Kimi K2.6 | DeepSeek V4 | Makna praktis |
|---|---|---|---|---|---|
| ARC-AGI-2, DocsBot | 85% | 75,8% | — | — | GPT-5.5 unggul 9,2 poin persentase atas Claude.[ |
| ARC-AGI-1, DocsBot | 95% | 93,5% | — | — | GPT-5.5 sedikit di atas Claude.[ |
| Leaderboard Artificial Analysis | 57, GPT-5.5 medium | 52, Claude Opus 4.7 non-reasoning high | 54 | — | Pada irisan ini, GPT-5.5 di atas Kimi dan mode Claude yang tercantum; DeepSeek V4 tidak muncul di cuplikan yang tersedia.[ |
| Humanity’s Last Exam tanpa alat, VentureBeat | 41,4% | 46,9% | — | 37,7% | Claude memimpin di baris dasar yang ditampilkan.[ |
| Humanity’s Last Exam dengan alat, VentureBeat | 52,2%; GPT-5.5 Pro 57,2% | 54,7% | — | 48,2% | Claude di atas GPT-5.5 dasar, tetapi baris GPT-5.5 Pro berada di atas Claude.[ |
| Terminal-Bench 2.0, VentureBeat | 82,7% | 69,4% | — | 67,9% | Ini salah satu kemenangan paling jelas untuk GPT-5.5.[ |
| SWE-Bench Pro, DataCamp | 58,6% | 64,3% | — | 55,4%, DeepSeek V4 Pro | Claude unggul atas GPT-5.5 dan DeepSeek V4 Pro.[ |
| SWE-Bench Verified, Verdent | — | 87,6% | 80,2% | — | Claude di atas Kimi pada irisan coding ini.[ |
| Benchmark coding, AkitaOnRails | 96, GPT-5.5 xHigh/Codex | 97 | 87 | 78, V4 Flash; 69, V4 Pro | Claude dan GPT-5.5 hampir setara; Kimi di atas dua baris DeepSeek V4.[ |
Mengapa tidak ada juara mutlak
Masalah utamanya bukan kurangnya angka, melainkan tidak semua angka mengukur hal yang sama. Artificial Analysis membandingkan GPT-5.5 medium, Kimi K2.6, dan Claude Opus 4.7 non-reasoning high. AkitaOnRails memakai GPT-5.5 xHigh/Codex serta membedakan DeepSeek V4 Flash dan DeepSeek V4 Pro. VentureBeat bahkan memisahkan baris GPT-5.5 dan GPT-5.5 Pro.[13][
8][
3]
Karena itu, angka tertinggi di satu tabel tidak otomatis berarti model terbaik untuk semua pekerjaan. LLM Stats menulis bahwa dari 10 benchmark yang dilaporkan oleh kedua penyedia, Claude Opus 4.7 unggul pada 6 benchmark, sementara GPT-5.5 unggul pada 4. Kemenangan Claude terkonsentrasi pada tes reasoning-heavy dan review-grade, sedangkan kemenangan GPT-5.5 terkonsentrasi pada long-running tool-use dan tugas shell-driven.[4]
Area yang paling kuat untuk GPT-5.5
Sinyal paling jelas untuk GPT-5.5 datang dari ARC dan Terminal-Bench. Pada ARC-AGI-2, GPT-5.5 mencatat 85% dibanding 75,8% untuk Claude Opus 4.7; pada ARC-AGI-1, GPT-5.5 mencatat 95% dibanding 93,5% untuk Claude.[1]
Di Terminal-Bench 2.0, GPT-5.5 mencapai 82,7%, jauh di atas Claude Opus 4.7 dengan 69,4% dan DeepSeek dengan 67,9%.[3] Untuk tim yang banyak menguji agen berbasis terminal, pemakaian alat, atau alur kerja shell, angka ini lebih relevan daripada benchmark umum yang tidak menyentuh cara kerja tersebut.
Artificial Analysis juga menempatkan GPT-5.5 medium di atas dua pesaing yang muncul pada cuplikan yang sama: skor 57 untuk GPT-5.5 medium, 54 untuk Kimi K2.6, dan 52 untuk Claude Opus 4.7 non-reasoning high.[13] Namun ini bukan peringkat universal untuk semua mode model; LLM Stats tetap menunjukkan Claude unggul di sebagian tes reasoning dan software engineering.[
4]
Area yang paling kuat untuk Claude Opus 4.7
Claude Opus 4.7 terlihat paling meyakinkan saat tugasnya menuntut penalaran berat dan pemeriksaan kode yang rumit. Pada Humanity’s Last Exam tanpa alat, VentureBeat mencatat Claude di 46,9%, GPT-5.5 di 41,4%, dan DeepSeek di 37,7%. Dengan alat diaktifkan, Claude berada di 54,7%, GPT-5.5 di 52,2%, dan DeepSeek di 48,2%.[3]
Pada SWE-Bench Pro, DataCamp mencatat 64,3% untuk Claude Opus 4.7, 58,6% untuk GPT-5.5, dan 55,4% untuk DeepSeek V4 Pro.[9] Ini sejalan dengan ringkasan LLM Stats, yang menyebut Claude memimpin GPT-5.5 pada GPQA, HLE tanpa alat, HLE dengan alat, SWE-Bench Pro, MCP Atlas, dan FinanceAgent v1.1.[
4]
Cara membaca Kimi K2.6
Kimi K2.6 sulit dimasukkan ke satu ranking penuh bersama GPT-5.5, Claude Opus 4.7, dan DeepSeek V4 karena ia tidak selalu muncul di tabel yang sama. Dalam cuplikan Artificial Analysis, Kimi K2.6 mencatat skor 54, di bawah GPT-5.5 medium dengan 57, tetapi di atas Claude Opus 4.7 non-reasoning high dengan 52.[13]
Pada benchmark coding AkitaOnRails, Kimi K2.6 mencatat skor 87. Angka itu di bawah Claude Opus 4.7 dengan 97 dan GPT-5.5 xHigh/Codex dengan 96, tetapi di atas DeepSeek V4 Flash dengan 78 dan DeepSeek V4 Pro dengan 69.[8] Dalam perbandingan Verdent untuk SWE-Bench Verified, Claude Opus 4.7 tercatat 87,6%, sedangkan Kimi K2.6 80,2%.[
6]
Nilai pembeda Kimi adalah jalur open-weight. Verdent menulis bahwa bobot K2.6 tersedia di Hugging Face dan dapat dijalankan melalui vLLM, SGLang, atau KTransformers; sumber yang sama menyebut konfigurasi minimal yang layak adalah 4× H100 untuk varian INT4 dengan konteks yang dikurangi.[6] README di Hugging Face juga mencantumkan metrik agentic untuk Kimi K2.6 seperti HLE-Full dengan alat 54,0, BrowseComp 83,2, DeepSearchQA f1-score 92,5, Toolathlon 50,0, dan MCPMark 55,9, tetapi tabel itu terutama membandingkan Kimi dengan GPT-5.4, Claude Opus 4.6, dan Gemini 3.1 Pro, bukan dengan seluruh model dalam ulasan ini.[
25]
Cara membaca DeepSeek V4
Dalam sumber yang tersedia, DeepSeek V4 lebih sering terlihat sebagai model value daripada pemimpin raw score. VentureBeat menempatkan DeepSeek di bawah GPT-5.5 dan Claude Opus 4.7 pada HLE tanpa alat, HLE dengan alat, dan Terminal-Bench 2.0.[3] DataCamp mencatat DeepSeek V4 Pro di 55,4% pada SWE-Bench Pro, di bawah GPT-5.5 dengan 58,6% dan Claude Opus 4.7 dengan 64,3%.[
9]
Gambarannya serupa di AkitaOnRails: DeepSeek V4 Flash mendapat skor 78 dan DeepSeek V4 Pro 69, lebih rendah daripada Kimi K2.6, GPT-5.5 xHigh/Codex, dan Claude Opus 4.7 dalam tabel yang sama.[8]
Tetapi harga mengubah cara menilai produk. Mashable mencatat DeepSeek V4 berbiaya US$1,74 per 1 juta token input dan US$3,48 per 1 juta token output, sementara GPT-5.5 tercatat US$5/US$30 dan Claude Opus 4.7 US$5/US$25.[2] Jadi, DeepSeek V4 bukan pemenang benchmark tertinggi dalam data ini, tetapi tetap pantas diuji ketika biaya per percobaan lebih penting daripada mengejar skor maksimum.
Model mana yang sebaiknya diuji lebih dulu?
- ARC, visual reasoning, dan puzzle abstrak: mulai dari GPT-5.5, karena ia lebih tinggi daripada Claude Opus 4.7 pada ARC-AGI-2 dan ARC-AGI-1 dalam perbandingan DocsBot.[
1]
- Hard reasoning dan tugas bergaya HLE: mulai dari Claude Opus 4.7 jika membandingkan baris model dasar; namun perhatikan bahwa VentureBeat menampilkan GPT-5.5 Pro di atas Claude pada HLE dengan alat.[
3]
- Agen terminal, shell-driven workflow, dan tool-use: mulai dari GPT-5.5, karena Terminal-Bench 2.0 adalah salah satu hasil langsung terkuatnya dalam sumber yang tersedia.[
3][
4]
- SWE-Bench Pro dan software engineering yang berat di review: mulai dari Claude Opus 4.7, karena DataCamp dan LLM Stats sama-sama menunjukkan keunggulan Claude di SWE-Bench Pro.[
9][
4]
- Open-weight atau self-hosted coding/agentic scenario: uji Kimi K2.6 jika kemampuan menjalankan bobot melalui Hugging Face, vLLM, SGLang, atau KTransformers lebih penting daripada akses API saja.[
6]
- Eksperimen volume tinggi dengan anggaran ketat: pertimbangkan DeepSeek V4 jika biaya per token lebih menentukan daripada raw benchmark score tertinggi.[
2][
3][
9]
Kesimpulan
Jika hanya melihat peta benchmark yang tersedia, dua model teratas adalah GPT-5.5 dan Claude Opus 4.7, tetapi kekuatan mereka berbeda. GPT-5.5 lebih menonjol di ARC dan Terminal-Bench, sedangkan Claude Opus 4.7 lebih kuat di HLE dan SWE-Bench Pro.[1][
3][
4][
9]
Kimi K2.6 tetap menarik sebagai kandidat coding dan agentic, terutama ketika jalur open-weight atau self-hosted menjadi kebutuhan, meski perbandingan langsung lintas empat model masih lebih terbatas.[6][
8][
13] DeepSeek V4 lebih rendah pada banyak raw score yang tercantum, tetapi harga API-nya membuatnya relevan untuk pilot price-performance dan eksperimen berskala besar.[
2][
3][
9]




