Grafik benchmark sering membuat empat model ini terlihat seperti satu lomba. Padahal, datanya tidak sepenuhnya setara. Perbandingan bersama terdekat dalam sumber yang dikutip mencakup GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7, dan DeepSeek-V4-Pro-Max; Kimi K2.6 muncul lewat rilis, model card, dan leaderboard Kimi yang terpisah [1][
6][
24]. Jadi pertanyaan yang lebih berguna bukan siapa juara umum, melainkan model mana yang sebaiknya diuji lebih dulu untuk pekerjaan Anda.
Catatan nama juga penting: artikel ini memakai DeepSeek-V4-Pro-Max untuk DeepSeek V4 karena varian itulah yang memiliki baris benchmark dan biaya dalam sumber yang dikutip [18][
24]. GPT-5.5 Pro juga dipisahkan dari GPT-5.5 dasar setiap kali sumber melaporkan hasil yang berbeda [
24].
Ringkasan cepat menurut kebutuhan
- Agen coding yang banyak memakai terminal: GPT-5.5 punya skor Terminal-Bench 2.0 tertinggi dalam perbandingan bersama, yaitu 82,7% [
24].
- Perbaikan software dan bug fixing: Claude Opus 4.7 memimpin baris SWE-Bench Pro yang dikutip dengan 64,3% dan SWE-Bench Verified dengan 87,6% [
18][
24].
- Reasoning sulit tanpa alat bantu: Claude Opus 4.7 memimpin GPQA Diamond dan Humanity’s Last Exam tanpa tools dalam perbandingan bersama [
24].
- Reasoning dengan tools dan tugas browsing: GPT-5.5 Pro memimpin Humanity’s Last Exam dengan tools pada 57,2% dan BrowseComp pada 90,1%, saat varian Pro itu dilaporkan [
24].
- Deployment bobot terbuka: Kimi K2.6 adalah kandidat open-weight paling jelas dalam sumber yang dikutip, dengan deskripsi sebagai model MoE 1 triliun parameter, 32 miliar parameter aktif, dan jendela konteks 256 ribu token [
1].
- Inferensi hosted yang sensitif biaya: DeepSeek-V4-Pro-Max layak masuk daftar uji, karena LLM Stats mencantumkan konteks 1 juta token, 80,6% di SWE-Bench Verified, dan kolom biaya $1,74/$3,48 [
18].
Tabel perbandingan benchmark
Tanda — berarti skor tidak ditemukan dalam sumber yang dikutip untuk model tersebut, bukan berarti nilainya nol. Baris GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7, dan DeepSeek-V4-Pro-Max terutama berasal dari satu perbandingan bersama; angka Kimi K2.6 berasal dari sumber Kimi yang terpisah [1][
6][
24].
| Benchmark | GPT-5.5 | GPT-5.5 Pro | Claude Opus 4.7 | Kimi K2.6 | DeepSeek-V4-Pro-Max |
|---|---|---|---|---|---|
| GPQA Diamond | 93,6% [ | — | 94,2% [ | ≈91% [ | 90,1% [ |
| Humanity’s Last Exam, tanpa tools | 41,4% [ | 43,1% [ | 46,9% [ | — | 37,7% [ |
| Humanity’s Last Exam, dengan tools | 52,2% [ | 57,2% [ | 54,7% [ | 54,0% [ | 48,2% [ |
| Terminal-Bench 2.0 | 82,7% [ | — | 69,4% [ | 66,7% [ | 67,9% [ |
| SWE-Bench Pro | 58,6% [ | — | 64,3% [ | 58,6% [ | 55,4% [ |
| BrowseComp | 84,4% [ | 90,1% [ | 79,3% [ | 83,2% [ | 83,4% [ |
| MCP Atlas / MCPAtlas Public | 75,3% [ | — | 79,1% [ | — | 73,6% [ |
| SWE-Bench Verified | — | — | 87,6% [ | 80,2% [ | 80,6% [ |
Model mana yang sebaiknya diuji lebih dulu?
| Prioritas | Mulai dari | Alasannya |
|---|---|---|
| Agen coding berbasis terminal | GPT-5.5 | Skor Terminal-Bench 2.0 tertinggi dalam perbandingan bersama, 82,7% [ |
| Perbaikan software | Claude Opus 4.7 | Memimpin SWE-Bench Pro dan SWE-Bench Verified di antara model yang dibahas [ |
| Reasoning sulit tanpa tools | Claude Opus 4.7 | Memimpin GPQA Diamond dan Humanity’s Last Exam tanpa tools dalam perbandingan bersama [ |
| Reasoning dengan tools atau browsing | GPT-5.5 Pro | Memimpin Humanity’s Last Exam dengan tools dan BrowseComp saat GPT-5.5 Pro dilaporkan terpisah [ |
| Deployment bobot terbuka | Kimi K2.6 | Disebut sebagai model MoE open-weight 1 triliun parameter, dan model card Hugging Face-nya melaporkan baris benchmark coding yang kuat [ |
| Inferensi hosted dengan biaya ketat | DeepSeek-V4-Pro-Max | LLM Stats mencantumkan konteks 1 juta token, 80,6% di SWE-Bench Verified, dan kolom biaya lebih rendah daripada Claude Opus 4.7 pada leaderboard yang sama [ |
| Kebutuhan konteks panjang | GPT-5.5, Claude Opus 4.7, atau DeepSeek-V4-Pro-Max | Sumber yang dikutip mencantumkan konteks 1 juta token untuk GPT-5.5, Claude Opus 4.7, dan DeepSeek-V4-Pro-Max; Kimi K2.6 dilaporkan sekitar 256 ribu hingga 262 ribu token [ |
Catatan per model
GPT-5.5
OpenAI menggambarkan GPT-5.5 sebagai model untuk tugas kompleks seperti coding, riset, dan analisis data [38]. Dalam perbandingan VentureBeat yang dikutip, GPT-5.5 mencatat 82,7% di Terminal-Bench 2.0, di atas Claude Opus 4.7 pada 69,4% dan DeepSeek-V4-Pro-Max pada 67,9% [
24]. Di tabel yang sama, GPT-5.5 juga mencatat 93,6% di GPQA Diamond, 58,6% di SWE-Bench Pro, dan 84,4% di BrowseComp [
24].
Namun, GPT-5.5 Pro harus dibaca sebagai titik perbandingan terpisah. Dalam tabel yang sama, GPT-5.5 Pro mencapai 90,1% di BrowseComp dan 57,2% di Humanity’s Last Exam dengan tools. Angka itu tidak sebaiknya digabungkan begitu saja dengan GPT-5.5 dasar saat Anda membandingkan biaya, latensi, atau konfigurasi model [24].
Untuk konteks pengadaan, BenchLM mencantumkan GPT-5.5 dengan jendela konteks 1 juta token, sementara satu laporan harga menyebut $5 per satu juta token input dan $30 per satu juta token output [27][
36]. Anggap angka harga itu sebagai sinyal awal yang perlu dicek ulang ke harga provider terbaru sebelum membuat anggaran.
Claude Opus 4.7
Claude Opus 4.7 memiliki sinyal terkuat untuk perbaikan software dalam kelompok ini. LLM Stats mencantumkan 87,6% di SWE-Bench Verified, sementara perbandingan bersama melaporkan 64,3% di SWE-Bench Pro [18][
24]. Model ini juga memimpin baris GPQA Diamond dengan 94,2%, Humanity’s Last Exam tanpa tools dengan 46,9%, dan MCP Atlas dengan 79,1% [
24].
LLM Stats melaporkan jendela konteks 1 juta token dan harga $5/$25 per satu juta token untuk Claude Opus 4.7 [16]. Tetapi ada catatan komparabilitas yang perlu diperhatikan: Anthropic menyebut sebagian hasil benchmark memakai implementasi internal atau parameter harness yang diperbarui, sehingga sebagian skor tidak langsung sebanding dengan skor leaderboard publik [
17].
Kimi K2.6
Kimi K2.6 adalah kandidat bobot terbuka paling kuat dalam materi yang dikutip. Liputan rilis menggambarkannya sebagai model MoE open-weight 1 triliun parameter dengan 32 miliar parameter aktif, 384 experts, multimodalitas native, kuantisasi INT4, dan konteks 256 ribu token [1]. Model card Hugging Face-nya melaporkan 80,2% di SWE-Bench Verified, 58,6% di SWE-Bench Pro, 66,7% di Terminal-Bench 2.0, dan 89,6 di LiveCodeBench v6 [
6].
Liputan rilis yang sama melaporkan 54,0 di Humanity’s Last Exam dengan tools dan 83,2 di BrowseComp untuk Kimi K2.6 [1]. LLM Stats mencantumkan Kimi K2.6 dengan konteks 262 ribu token, kolom harga $0,95/$4,00, dan label Open Source [
11]. Batasannya: angka Kimi tidak berasal dari tabel bersama yang sama dengan GPT-5.5, Claude Opus 4.7, dan DeepSeek-V4-Pro-Max. Jadi selisih skor yang tipis lebih baik diperlakukan sebagai alasan untuk menguji, bukan bukti kemenangan final [
1][
6][
24].
DeepSeek-V4-Pro-Max
DeepSeek-V4-Pro-Max terlihat lebih sebagai kandidat value daripada pemimpin benchmark menyeluruh. LLM Stats mencantumkan ukuran 1,6T, konteks 1 juta token, 80,6% di SWE-Bench Verified, dan kolom biaya $1,74/$3,48 [18]. Dalam perbandingan bersama, model ini mencatat 90,1% di GPQA Diamond, 37,7% di Humanity’s Last Exam tanpa tools, 48,2% di Humanity’s Last Exam dengan tools, 67,9% di Terminal-Bench 2.0, 55,4% di SWE-Bench Pro, 83,4% di BrowseComp, dan 73,6% di MCP Atlas [
24].
Angka tersebut membuat DeepSeek-V4-Pro-Max menarik untuk workload yang sensitif biaya. Namun tabel yang sama menunjukkan GPT-5.5, GPT-5.5 Pro, atau Claude Opus 4.7 memimpin sebagian besar baris benchmark yang dilaporkan. Artinya, DeepSeek tetap perlu divalidasi pada tugas Anda sendiri sebelum dipakai menggantikan model premium di produksi [24].
Sinyal konteks dan harga
Harga dan jendela konteks tidak selalu dilaporkan oleh sumber atau provider yang sama. Gunakan angka berikut sebagai sinyal pengadaan awal, bukan penawaran final.
| Model | Sinyal konteks dan harga yang dikutip | Pembacaan praktis |
|---|---|---|
| GPT-5.5 | BenchLM mencantumkan konteks 1 juta token; satu laporan harga mencantumkan $5 input dan $30 output per satu juta token [ | Opsi hosted premium; cek harga live sebelum membuat anggaran. |
| Claude Opus 4.7 | LLM Stats melaporkan konteks 1 juta token dan harga $5/$25 per satu juta token [ | Opsi premium untuk coding, reasoning, dan konteks panjang. |
| Kimi K2.6 | Liputan rilis melaporkan konteks 256 ribu token; LLM Stats mencantumkan 262 ribu token dan kolom harga $0,95/$4,00 [ | Kandidat open-weight yang kuat; biaya hosted bisa berbeda menurut provider. |
| DeepSeek-V4-Pro-Max | LLM Stats mencantumkan konteks 1 juta token, ukuran 1,6T, 80,6% di SWE-Bench Verified, dan kolom biaya $1,74/$3,48 [ | Kandidat value yang kuat jika kualitasnya bertahan pada workload Anda. |
Mengapa peringkat bisa berbeda-beda
Setiap baris benchmark mengukur kemampuan yang tidak sama. GPQA Diamond dan Humanity’s Last Exam menekankan reasoning sulit; Terminal-Bench 2.0 dan varian SWE-Bench menekankan coding serta kerja software yang agentic; BrowseComp mengukur performa retrieval bergaya browsing dalam perbandingan bersama [24]. Karena itu, sebuah model bisa unggul di satu baris tetapi tertinggal di baris lain.
Bahkan benchmark dengan nama yang sama pun bisa berbeda hasil karena implementasi dan pengaturan evaluasinya berbeda. LLM Stats mencantumkan Claude Opus 4.7 pada 87,6% di SWE-Bench Verified, sementara LMCouncil mencantumkan Claude Opus 4.7 pada 83,5% ± 1,7 dalam setup mereka [18][
30]. Anthropic juga menyatakan bahwa sebagian hasilnya memakai implementasi internal atau parameter harness yang diperbarui, sehingga komparabilitas langsung dengan leaderboard publik terbatas [
17].
Itulah sebabnya jarak satu atau dua poin tidak seharusnya menentukan rollout produksi sendirian. Benchmark publik paling berguna untuk mempersempit shortlist; evaluasi internal Anda tetap harus menjadi penentu akhir.
Cara menguji para finalis
Sebelum memilih satu model, uji dua atau tiga kandidat teratas pada tugas yang mirip dengan pekerjaan nyata Anda.
- Gunakan prompt, file, dan repositori asli. Prompt benchmark jarang menangkap struktur codebase, dokumen, kebijakan, atau perilaku pengguna Anda.
- Samakan lingkungan tools. Hasil agen coding bisa berubah jika model memiliki akses terminal, browsing, retrieval, konteks repositori, atau API internal.
- Ukur biaya dan latensi dengan konfigurasi yang sama. Mode Pro atau effort yang lebih tinggi bisa mengubah kualitas, konsumsi token, dan waktu respons.
- Periksa kegagalan secara manual. Untuk coding, lihat test, diff, maintainability, regresi keamanan, dan dependensi yang mungkin dihalusinasikan.
- Masukkan setidaknya satu penantang berbiaya lebih rendah. Kimi K2.6 dan DeepSeek-V4-Pro-Max layak masuk test set jika bobot terbuka atau biaya inferensi penting bagi Anda [
1][
18].
Kesimpulan
Jika Anda ingin shortlist kelas atas, uji GPT-5.5 dan Claude Opus 4.7 berdampingan: GPT-5.5 punya hasil Terminal-Bench 2.0 terkuat dalam sumber yang dikutip, sementara Claude Opus 4.7 punya hasil SWE-Bench Pro dan SWE-Bench Verified terkuat [18][
24]. Jika Anda membutuhkan bobot terbuka, mulai dari Kimi K2.6 [
1][
6]. Jika batas utamanya biaya, masukkan DeepSeek-V4-Pro-Max, tetapi validasi pada workload sendiri sebelum menganggapnya pengganti langsung untuk opsi premium [
18][
24].




