Tanda — berarti skor tidak ditemukan dalam sumber yang dikutip untuk model tersebut, bukan berarti nilainya nol. Baris GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7, dan DeepSeek-V4-Pro-Max terutama berasal dari satu perbandingan bersama; angka Kimi K2.6 berasal dari sumber Kimi yang terpisah .
OpenAI menggambarkan GPT-5.5 sebagai model untuk tugas kompleks seperti coding, riset, dan analisis data . Dalam perbandingan VentureBeat yang dikutip, GPT-5.5 mencatat 82,7% di Terminal-Bench 2.0, di atas Claude Opus 4.7 pada 69,4% dan DeepSeek-V4-Pro-Max pada 67,9%
. Di tabel yang sama, GPT-5.5 juga mencatat 93,6% di GPQA Diamond, 58,6% di SWE-Bench Pro, dan 84,4% di BrowseComp
.
Namun, GPT-5.5 Pro harus dibaca sebagai titik perbandingan terpisah. Dalam tabel yang sama, GPT-5.5 Pro mencapai 90,1% di BrowseComp dan 57,2% di Humanity’s Last Exam dengan tools. Angka itu tidak sebaiknya digabungkan begitu saja dengan GPT-5.5 dasar saat Anda membandingkan biaya, latensi, atau konfigurasi model .
Untuk konteks pengadaan, BenchLM mencantumkan GPT-5.5 dengan jendela konteks 1 juta token, sementara satu laporan harga menyebut $5 per satu juta token input dan $30 per satu juta token output . Anggap angka harga itu sebagai sinyal awal yang perlu dicek ulang ke harga provider terbaru sebelum membuat anggaran.
Claude Opus 4.7 memiliki sinyal terkuat untuk perbaikan software dalam kelompok ini. LLM Stats mencantumkan 87,6% di SWE-Bench Verified, sementara perbandingan bersama melaporkan 64,3% di SWE-Bench Pro . Model ini juga memimpin baris GPQA Diamond dengan 94,2%, Humanity’s Last Exam tanpa tools dengan 46,9%, dan MCP Atlas dengan 79,1%
.
LLM Stats melaporkan jendela konteks 1 juta token dan harga $5/$25 per satu juta token untuk Claude Opus 4.7 . Tetapi ada catatan komparabilitas yang perlu diperhatikan: Anthropic menyebut sebagian hasil benchmark memakai implementasi internal atau parameter harness yang diperbarui, sehingga sebagian skor tidak langsung sebanding dengan skor leaderboard publik
.
Kimi K2.6 adalah kandidat bobot terbuka paling kuat dalam materi yang dikutip. Liputan rilis menggambarkannya sebagai model MoE open-weight 1 triliun parameter dengan 32 miliar parameter aktif, 384 experts, multimodalitas native, kuantisasi INT4, dan konteks 256 ribu token . Model card Hugging Face-nya melaporkan 80,2% di SWE-Bench Verified, 58,6% di SWE-Bench Pro, 66,7% di Terminal-Bench 2.0, dan 89,6 di LiveCodeBench v6
.
Liputan rilis yang sama melaporkan 54,0 di Humanity’s Last Exam dengan tools dan 83,2 di BrowseComp untuk Kimi K2.6 . LLM Stats mencantumkan Kimi K2.6 dengan konteks 262 ribu token, kolom harga $0,95/$4,00, dan label Open Source
. Batasannya: angka Kimi tidak berasal dari tabel bersama yang sama dengan GPT-5.5, Claude Opus 4.7, dan DeepSeek-V4-Pro-Max. Jadi selisih skor yang tipis lebih baik diperlakukan sebagai alasan untuk menguji, bukan bukti kemenangan final
.
DeepSeek-V4-Pro-Max terlihat lebih sebagai kandidat value daripada pemimpin benchmark menyeluruh. LLM Stats mencantumkan ukuran 1,6T, konteks 1 juta token, 80,6% di SWE-Bench Verified, dan kolom biaya $1,74/$3,48 . Dalam perbandingan bersama, model ini mencatat 90,1% di GPQA Diamond, 37,7% di Humanity’s Last Exam tanpa tools, 48,2% di Humanity’s Last Exam dengan tools, 67,9% di Terminal-Bench 2.0, 55,4% di SWE-Bench Pro, 83,4% di BrowseComp, dan 73,6% di MCP Atlas
.
Angka tersebut membuat DeepSeek-V4-Pro-Max menarik untuk workload yang sensitif biaya. Namun tabel yang sama menunjukkan GPT-5.5, GPT-5.5 Pro, atau Claude Opus 4.7 memimpin sebagian besar baris benchmark yang dilaporkan. Artinya, DeepSeek tetap perlu divalidasi pada tugas Anda sendiri sebelum dipakai menggantikan model premium di produksi .
Harga dan jendela konteks tidak selalu dilaporkan oleh sumber atau provider yang sama. Gunakan angka berikut sebagai sinyal pengadaan awal, bukan penawaran final.
Setiap baris benchmark mengukur kemampuan yang tidak sama. GPQA Diamond dan Humanity’s Last Exam menekankan reasoning sulit; Terminal-Bench 2.0 dan varian SWE-Bench menekankan coding serta kerja software yang agentic; BrowseComp mengukur performa retrieval bergaya browsing dalam perbandingan bersama . Karena itu, sebuah model bisa unggul di satu baris tetapi tertinggal di baris lain.
Bahkan benchmark dengan nama yang sama pun bisa berbeda hasil karena implementasi dan pengaturan evaluasinya berbeda. LLM Stats mencantumkan Claude Opus 4.7 pada 87,6% di SWE-Bench Verified, sementara LMCouncil mencantumkan Claude Opus 4.7 pada 83,5% ± 1,7 dalam setup mereka . Anthropic juga menyatakan bahwa sebagian hasilnya memakai implementasi internal atau parameter harness yang diperbarui, sehingga komparabilitas langsung dengan leaderboard publik terbatas
.
Itulah sebabnya jarak satu atau dua poin tidak seharusnya menentukan rollout produksi sendirian. Benchmark publik paling berguna untuk mempersempit shortlist; evaluasi internal Anda tetap harus menjadi penentu akhir.
Sebelum memilih satu model, uji dua atau tiga kandidat teratas pada tugas yang mirip dengan pekerjaan nyata Anda.
Jika Anda ingin shortlist kelas atas, uji GPT-5.5 dan Claude Opus 4.7 berdampingan: GPT-5.5 punya hasil Terminal-Bench 2.0 terkuat dalam sumber yang dikutip, sementara Claude Opus 4.7 punya hasil SWE-Bench Pro dan SWE-Bench Verified terkuat . Jika Anda membutuhkan bobot terbuka, mulai dari Kimi K2.6
. Jika batas utamanya biaya, masukkan DeepSeek-V4-Pro-Max, tetapi validasi pada workload sendiri sebelum menganggapnya pengganti langsung untuk opsi premium
.
Comments
0 comments