Jika Anda membandingkan GPT-5.5, Claude Opus 4.7, Kimi K2.6, dan DeepSeek V4 untuk kebutuhan coding agent atau produk berbasis LLM, pertanyaan pertamanya bukan: siapa juara umum? Pertanyaan yang lebih aman adalah: skor mana yang benar-benar bisa dibandingkan dengan ukuran yang sama?
Dalam sumber yang tersedia untuk artikel ini, perbandingan paling kuat adalah GPT-5.5 vs Claude Opus 4.7 karena keduanya muncul dalam tabel evaluasi OpenAI yang sama untuk SWE-Bench Pro dan Terminal-Bench 2.0.[21] Kimi K2.6 punya angka yang menarik, tetapi berasal dari halaman model dan artikel pihak ketiga.[
32][
34] DeepSeek V4 belum memiliki angka benchmark yang cukup dapat dikutip di kumpulan sumber ini, jadi tidak tepat jika dipaksa masuk peringkat numerik.
Tabel perbandingan benchmark
Tanda — berarti sumber yang dipakai artikel ini tidak menyediakan angka yang dapat dikutip, bukan berarti model tersebut tidak mampu mengerjakan tugas tersebut. Skor dari sumber, harness, dan kondisi uji yang berbeda juga sebaiknya tidak dijumlahkan menjadi satu ranking mutlak.
| Model | SWE-Bench Pro | SWE-Bench Verified | Terminal-Bench 2.0 | Data lain yang terlihat | Tingkat bukti dan cara membaca |
|---|---|---|---|---|---|
| GPT-5.5 | 58,6% [ | — | 82,7% [ | Expert-SWE Internal 73,1%; OpenAI memberi catatan bahwa lab lain melihat memorization evidence pada eval ini.[ | A-: SWE-Bench Pro dan Terminal-Bench 2.0 muncul dalam tabel OpenAI yang sama dengan Claude Opus 4.7, sehingga relatif paling bisa dibandingkan langsung. Expert-SWE tetap perlu dibaca konservatif karena merupakan eval internal.[ |
| Claude Opus 4.7 | 64,3% [ | 87,6% [ | 69,4% [ | CursorBench 70%.[ | A-/B: SWE-Bench Pro dan Terminal-Bench 2.0 dapat dibandingkan langsung dengan GPT-5.5 lewat tabel OpenAI.[ |
| Kimi K2.6 | 58,6% [ | 80,2% [ | — | Halaman Hugging Face menggambarkannya sebagai model open-source, native multimodal, dan agentic.[ | B terbatas: angkanya kompetitif, tetapi berasal dari artikel pihak ketiga dan belum muncul dalam tabel resmi lintas model yang sama dengan GPT-5.5 dan Claude Opus 4.7.[ |
| DeepSeek V4 | — | — | — | — | C data tidak cukup: dalam sumber yang tersedia untuk artikel ini, belum ada benchmark DeepSeek V4 yang cukup dapat dikutip untuk dibuat peringkat numerik. |
Benchmark mana yang paling layak diperhatikan?
SWE-Bench Pro: Claude Opus 4.7 unggul atas GPT-5.5
Di tabel evaluasi OpenAI, Claude Opus 4.7 mencatat 64,3% di SWE-Bench Pro, lebih tinggi daripada GPT-5.5 yang berada di 58,6%.[21] Ini termasuk perbandingan yang paling bersih di artikel ini karena kedua model muncul dalam satu tabel yang sama.
Untuk konteks, Vellum membaca selisih ini dalam skenario penyelesaian issue GitHub dunia nyata, yaitu konteks yang relevan bagi tim yang membangun coding agent untuk memperbaiki bug atau mengerjakan perubahan multi-file.[24]
Kimi K2.6 juga dilaporkan mencetak 58,6% di SWE-Bench Pro dalam artikel Kilo AI.[34] Namun, karena angka itu tidak muncul dalam tabel lintas model yang sama dengan GPT-5.5 dan Claude Opus 4.7, posisinya lebih tepat dibaca sebagai sinyal awal, bukan bukti head-to-head yang sepenuhnya setara.
Terminal-Bench 2.0: GPT-5.5 unggul atas Claude Opus 4.7
Untuk Terminal-Bench 2.0, tabel OpenAI menunjukkan GPT-5.5 berada di 82,7%, sedangkan Claude Opus 4.7 berada di 69,4%.[21] Jika pekerjaan Anda lebih dekat ke workflow terminal, command-line, atau agent yang perlu menjalankan langkah teknis secara berurutan, GPT-5.5 pantas masuk daftar uji lebih awal.
Namun, sumber artikel ini tidak menyediakan skor Terminal-Bench 2.0 yang dapat dikutip untuk Kimi K2.6 atau DeepSeek V4. Artinya, benchmark ini belum bisa dipakai untuk membuat ranking empat model secara lengkap.
SWE-Bench Verified: Claude lebih tinggi dari Kimi, tetapi sumbernya tidak satu meja
Claude Opus 4.7 tercatat 87,6% di SWE-Bench Verified dalam ringkasan pihak ketiga; Verdent menandai angka itu sebagai Anthropic-conducted dan menyebut memorization screens applied.[4][
6] Kimi K2.6 tercatat 80,2% di SWE-Bench Verified dalam artikel Kilo AI.[
34]
Secara angka, Claude Opus 4.7 terlihat lebih tinggi. Tetapi karena sumber dan cara pelaporannya berbeda, perbandingan ini tidak sekuat SWE-Bench Pro dan Terminal-Bench 2.0 yang sama-sama muncul di tabel OpenAI untuk GPT-5.5 dan Claude Opus 4.7.[21]
Expert-SWE: berguna sebagai sinyal, bukan dasar ranking utama
GPT-5.5 mencatat 73,1% di Expert-SWE Internal, tetapi OpenAI sendiri menandainya sebagai internal eval dan mencatat bahwa lab lain melihat memorization evidence pada eval tersebut.[21] Karena itu, angka Expert-SWE sebaiknya tidak dijadikan dasar utama untuk menyatakan GPT-5.5 sebagai pemenang umum.
Implikasi untuk memilih model
Jika tugas Anda mirip memperbaiki issue GitHub atau rekayasa perangkat lunak kompleks, Claude Opus 4.7 layak diuji lebih dulu. Dalam data yang paling langsung bisa dibandingkan, Claude Opus 4.7 unggul di SWE-Bench Pro dengan 64,3% dibanding GPT-5.5 di 58,6%.[21] Interpretasi Vellum juga menempatkan benchmark ini dalam konteks real GitHub issue resolution.[
24]
Jika workflow Anda lebih banyak bergantung pada terminal atau eksekusi langkah teknis, GPT-5.5 layak diprioritaskan. Skor 82,7% di Terminal-Bench 2.0 memberi GPT-5.5 keunggulan jelas atas Claude Opus 4.7 yang berada di 69,4% pada benchmark yang sama.[21]
Jika Anda membutuhkan kandidat model terbuka, Kimi K2.6 bisa masuk daftar pendek. Halaman Hugging Face menyebut Kimi K2.6 sebagai model open-source, native multimodal, dan agentic.[32] Artikel Kilo AI juga melaporkan 58,6% di SWE-Bench Pro dan 80,2% di SWE-Bench Verified.[
34] Tetapi untuk keputusan produksi, angka itu sebaiknya divalidasi ulang dengan repositori, bahasa pemrograman, dan alur kerja Anda sendiri.
Jika Anda sedang mengevaluasi DeepSeek V4, pilihan paling aman adalah menunggu benchmark yang dapat dikutip atau menjalankan pengujian sendiri. Dalam sumber yang tersedia untuk artikel ini, belum ada angka yang cukup kuat untuk memasukkannya ke ranking numerik bersama tiga model lain.
Mengapa artikel ini tidak memberi satu juara umum
Membaca benchmark LLM itu mudah menyesatkan jika angka dari sumber berbeda dicampur begitu saja. Artikel ini memakai tiga tingkat pembacaan:
- Benchmark bersama dalam satu tabel: contohnya GPT-5.5 dan Claude Opus 4.7 di SWE-Bench Pro serta Terminal-Bench 2.0 pada tabel OpenAI. Ini adalah data yang paling layak dibandingkan langsung.[
21]
- Ringkasan pihak ketiga atas eval vendor atau partner: contohnya SWE-Bench Verified dan CursorBench untuk Claude Opus 4.7. Tetap berguna, tetapi perlu memperhatikan siapa yang menjalankan evaluasi dan bagaimana datanya dilaporkan.[
4][
6]
- Sinyal awal atau data belum cukup: contohnya Kimi K2.6 yang punya angka kompetitif dari artikel pihak ketiga, serta DeepSeek V4 yang belum punya benchmark yang cukup dapat dikutip dalam sumber artikel ini.[
32][
34]
Kesimpulan yang paling aman: Claude Opus 4.7 unggul atas GPT-5.5 di SWE-Bench Pro, GPT-5.5 unggul atas Claude Opus 4.7 di Terminal-Bench 2.0, Kimi K2.6 terlihat kompetitif tetapi tingkat buktinya lebih rendah, dan DeepSeek V4 sebaiknya dianggap belum cukup data.[21][
32][
34]
Untuk keputusan nyata, jadikan tabel ini sebagai penyaring awal. Setelah itu, uji ulang dengan tugas Anda sendiri: jenis repositori, bahasa pemrograman, test suite, tool calling, latensi, biaya, dan cara model pulih dari kegagalan. Hasil seperti itu biasanya jauh lebih berguna daripada sekadar mencari satu pemenang di semua benchmark.




