Benchmark publik berguna untuk mempersempit pilihan model bahasa besar atau LLM. Namun untuk GPT-5.5, Claude Opus 4.7, DeepSeek V4, dan Kimi K2.6, angka yang tersedia saat ini belum bisa langsung disusun menjadi satu papan skor final. Data yang bisa dirujuk berasal dari halaman peluncuran dan system card OpenAI, dokumentasi API Anthropic, serta model card DeepSeek; sumber-sumber ini bukan hasil uji empat model secara serentak oleh pihak ketiga dengan versi, konfigurasi, dan aturan evaluasi yang sama.[29][
27][
13][
6]
Dengan kata lain: benchmark bisa menjadi saringan awal, bukan vonis terakhir.
Samakan dulu versi modelnya
Agar pembacaan tidak campur aduk, artikel ini membatasi DeepSeek V4 sebagai DS-V4-Pro Max dan Kimi K2.6 sebagai K2.6 Thinking. Keduanya adalah nama kolom yang muncul langsung dalam model card DeepSeek.[6]
Pembedaan ini penting. Di tabel DeepSeek, kolom GPT dan Claude yang muncul adalah GPT-5.4 xHigh dan Opus-4.6 Max, bukan GPT-5.5 dan Claude Opus 4.7 yang menjadi fokus artikel ini.[6] Jadi, tabel DeepSeek tidak bisa dipakai untuk menyimpulkan secara penuh apakah DeepSeek V4-Pro Max mengalahkan GPT-5.5 atau Claude Opus 4.7.
Sementara itu, dokumentasi publik Anthropic untuk Claude Opus 4.7 lebih banyak menjelaskan fitur dan cara pemakaian API, termasuk beta task budgets13]
Titik temu paling aman: Terminal-Bench 2.0
Dalam materi yang tersedia, benchmark yang paling jelas bisa disejajarkan untuk keempat model adalah Terminal-Bench 2.0. Berdasarkan tabel publik yang dikutip, urutannya adalah:
| Model | Terminal-Bench 2.0 | Sumber |
|---|---|---|
| GPT-5.5 | 82,7% | OpenAI dan ringkasan MLQ.ai [ |
| Claude Opus 4.7 | 69,4% | OpenAI [ |
| DeepSeek V4-Pro Max | 67,9% | Model card DeepSeek V4-Pro [ |
| Kimi K2.6 Thinking | 66,7% | Model card DeepSeek V4-Pro [ |
Kesimpulan yang aman dari tabel ini cukup sempit, tetapi berguna: pada Terminal-Bench 2.0, GPT-5.5 unggul jelas, Claude Opus 4.7 berada di posisi kedua, sementara DeepSeek V4-Pro Max dan Kimi K2.6 Thinking berdekatan.[29][
30][
6]
Namun, satu benchmark tidak otomatis berarti satu model akan selalu lebih baik untuk semua kebutuhan—misalnya coding di repositori internal, agen yang memakai banyak tool, penelusuran web, pembuatan dokumen, atau tugas dengan batas biaya dan latensi tertentu. Untuk keputusan produk, hasil ini tetap perlu diuji ulang dalam kondisi yang sama.
GPT-5.5 vs Claude Opus 4.7 menurut tabel OpenAI
Halaman peluncuran OpenAI memuat beberapa benchmark yang membandingkan GPT-5.5 dengan Claude Opus 4.7. Pada item yang dicantumkan di tabel tersebut, skor GPT-5.5 lebih tinggi daripada Claude Opus 4.7.[29]
| Benchmark dalam tabel OpenAI | GPT-5.5 | Claude Opus 4.7 |
|---|---|---|
| Terminal-Bench 2.0 | 82,7% | 69,4% |
| GDPval wins or ties | 84,9% | 80,3% |
| BrowseComp | 84,4% | 79,3% |
| FrontierMath Tier 1–3 | 51,7% | 43,8% |
| FrontierMath Tier 4 | 35,4% | 22,9% |
| CyberGym | 81,8% | 73,1% |
Dari sini, kesimpulan yang dapat dipertanggungjawabkan adalah: di benchmark yang ditampilkan OpenAI, GPT-5.5 berada di atas Claude Opus 4.7.[29] System card OpenAI juga memosisikan GPT-5.5 untuk pekerjaan dunia nyata yang kompleks, termasuk menulis kode, riset online, analisis informasi, membuat dokumen dan spreadsheet, serta berpindah antar-tool untuk menyelesaikan tugas.[
27]
Tetap ada batasannya: ini adalah tabel dalam materi OpenAI, bukan uji independen empat model dengan harness dan pengaturan yang sama.[29]
DeepSeek V4-Pro Max vs Kimi K2.6 Thinking menurut model card DeepSeek
Model card DeepSeek V4-Pro menyediakan perbandingan langsung antara DS-V4-Pro Max dan K2.6 Thinking di sejumlah benchmark.[6] Dalam tabel itu, DeepSeek V4-Pro Max unggul di mayoritas item, tetapi Kimi juga punya dua titik unggul yang jelas.[
6]
| Benchmark dalam model card DeepSeek | DeepSeek V4-Pro Max | Kimi K2.6 Thinking | Unggul di tabel |
|---|---|---|---|
| MMLU-Pro | 87,5 | 87,1 | DeepSeek |
| SimpleQA-Verified | 57,9 | 36,9 | DeepSeek |
| Chinese-SimpleQA | 84,4 | 75,9 | DeepSeek |
| GPQA Diamond | 90,1 | 90,5 | Kimi |
| HLE | 37,7 | 36,4 | DeepSeek |
| LiveCodeBench | 93,5 | 89,6 | DeepSeek |
| HMMT 2026 Feb | 95,2 | 92,7 | DeepSeek |
| IMOAnswerBench | 89,8 | 86,0 | DeepSeek |
| Apex Shortlist | 90,2 | 75,5 | DeepSeek |
| SWE Pro | 55,4 | 58,6 | Kimi |
| Terminal-Bench 2.0 | 67,9 | 66,7 | DeepSeek |
Cara baca yang paling hati-hati: DS-V4-Pro Max lebih tinggi daripada K2.6 Thinking pada mayoritas benchmark yang dicantumkan DeepSeek, tetapi Kimi K2.6 Thinking unggul di GPQA Diamond dan SWE Pro.[6]
Perlu juga melihat besar-kecilnya selisih. Pada MMLU-Pro dan Terminal-Bench 2.0, jaraknya tipis. Untuk keputusan teknis, arah keunggulan saja tidak cukup; jenis tugas, data uji, toleransi error, biaya, dan stabilitas juga perlu masuk pertimbangan.
Mengapa belum bisa dibuat “juara umum” empat model
Kesalahan umum saat membaca benchmark AI adalah mencampur beberapa tabel dari sumber berbeda, lalu menjumlahkannya seolah-olah semua angka berada dalam satu kompetisi yang sama. Untuk empat model ini, pendekatan seperti itu belum didukung data publik.
Ada tiga alasan utama:
- Versi model tidak sama. Tabel OpenAI membandingkan GPT-5.5 dengan Claude Opus 4.7, sedangkan tabel DeepSeek mencantumkan GPT-5.4 xHigh dan Opus-4.6 Max sebagai kolom GPT dan Claude.[
29][
6]
- Sumber dan kerangka uji tidak sama. Data berasal dari halaman peluncuran, system card, dokumentasi API, dan model card vendor—bukan satu pengujian pihak ketiga yang menjalankan keempat model secara seragam.[
29][
27][
13][
6]
- Benchmark mengukur hal berbeda. GDPval, BrowseComp, FrontierMath, CyberGym, MMLU-Pro, GPQA Diamond, SWE Pro, dan Terminal-Bench 2.0 tidak menilai kemampuan yang identik. Tanpa bobot yang jelas, menjumlahkannya menjadi satu skor total justru bisa menutupi perbedaan kebutuhan nyata.[
29][
6]
Jadi, benchmark publik lebih tepat dipakai sebagai peta awal: membantu menentukan model mana yang layak diuji lebih lanjut, bukan langsung menentukan model mana yang harus dipakai.
Cara memakai angka ini untuk memilih model
Untuk tim produk, pendekatan yang lebih praktis adalah membagi evaluasi menjadi tiga lapis.
- Lapisan benchmark bersama. Saat ini, irisan empat model yang paling jelas adalah Terminal-Bench 2.0. Di sana, GPT-5.5 memimpin.[
29][
30][
6]
- Lapisan perbandingan internal vendor. Tabel OpenAI mendukung kesimpulan bahwa GPT-5.5 lebih tinggi dari Claude Opus 4.7 pada item yang dicantumkan. Model card DeepSeek mendukung kesimpulan bahwa DS-V4-Pro Max lebih tinggi dari K2.6 Thinking pada mayoritas item yang dicantumkan.[
29][
6]
- Lapisan uji ulang bisnis. Pecah kebutuhan Anda menjadi coding, agentic workflow, reasoning, retrieval, tool use, latensi, biaya, dan reliability. Lalu jalankan ulang dengan prompt, konteks, akses tool, batas token, dan aturan penilaian yang sama.
Jika produk Anda bergantung pada alur agen yang panjang, fitur task budgets13]
Jika kebutuhan Anda lebih dekat ke coding kompleks, riset online, pembuatan dokumen atau spreadsheet, dan kerja lintas tool, deskripsi GPT-5.5 dalam system card OpenAI lebih langsung berkaitan dengan skenario tersebut.[27] Namun, model yang menang di tabel publik tetap harus diuji di dalam repositori, toolchain, batas izin, dan prosedur pemulihan gagal yang benar-benar Anda pakai.
Kesimpulan paling aman
- Untuk Terminal-Bench 2.0 saja: GPT-5.5 berada di posisi pertama, diikuti Claude Opus 4.7, DeepSeek V4-Pro Max, lalu Kimi K2.6 Thinking.[
29][
30][
6]
- Dalam tabel OpenAI: GPT-5.5 lebih tinggi daripada Claude Opus 4.7 pada benchmark yang dicantumkan.[
29]
- Dalam model card DeepSeek: DS-V4-Pro Max lebih tinggi daripada Kimi K2.6 Thinking pada mayoritas item, tetapi Kimi unggul di GPQA Diamond dan SWE Pro.[
6]
- Untuk ranking mutlak empat model: bukti belum cukup. Belum ada data publik yang menunjukkan uji lengkap oleh pihak ketiga dengan versi, konfigurasi, izin tool, konteks, dan anggaran reasoning yang benar-benar sama untuk keempat model.[
29][
13][
6]




