Jawaban pendeknya: belum ada satu pemenang mutlak. Vals AI menampilkan DeepSeek V4 dan GPT-5.5 sebagai entri 23 April 2026, Kimi K2.6 pada 20 April 2026, dan Claude Opus 4.7 pada 16 April 2026, tetapi bahan publik yang tersedia tidak mengevaluasi keempat model itu secara berdampingan dengan benchmark, pengaturan, dan biaya yang sama [19].
Jadi, cara membaca perbandingan ini bukan mencari peringkat 1 sampai 4 yang seolah final, melainkan melihat model mana yang paling kuat untuk kebutuhan tertentu: coding, pekerjaan pengetahuan, agen yang mengoperasikan komputer, penalaran sains, biaya, atau latensi.
Kenapa ranking tunggal sulit dibuat
Benchmark AI pada 2026 bukan satu ujian besar, melainkan kumpulan tes yang mengukur kemampuan berbeda. Kili Technology membedakan MMLU, MMLU-Pro, GPQA Diamond, SWE-Bench, Terminal-Bench, GAIA, WebArena, GDPval, dan evaluasi keselamatan sebagai tolok ukur untuk kemampuan yang tidak sama [8]. Stanford HAI dalam AI Index juga memisahkan kinerja teknis ke beberapa sumbu seperti MMLU, MATH, GPQA Diamond, MMMU, OSWorld, AIME, dan SWE-bench Verified [
13].
Masalah lain: tes pengetahuan umum seperti MMLU makin kurang tajam untuk membedakan model papan atas. Nanonets menjelaskan bahwa MMLU dihitung dengan format 5-shot, dan pada 2026 banyak model teratas sudah berkumpul di atas 88%, sehingga selisihnya kurang bermakna untuk menentukan siapa yang benar-benar lebih baik [22]. Karena itu, sebelum memilih model, pertanyaan yang lebih penting adalah: dipakai untuk apa? [
8][
22]
Ringkasan angka publik yang tersedia
| Model | Angka publik yang terlihat | Area yang tampak kuat | Catatan saat membandingkan |
|---|---|---|---|
| Claude Opus 4.7 | BenchLM 97/100, provisional 2/110; SWE-bench Verified 82,4%; FinanceBench 82,7%; MathVista naik 9,5 poin [ | Coding, leaderboard umum BenchLM, analisis dokumen keuangan, penalaran matematika berbasis visual | Skor research-agent 0,715 dari Anthropic adalah evaluasi internal, sehingga tidak bisa disejajarkan langsung dengan GDPval GPT-5.5 [ |
| GPT-5.5 | BenchLM 89/100, provisional 5/112; GDPval 84,9%; OSWorld-Verified 78,7%; Tau2-bench Telecom 98,0%; Vals Accuracy 67,76% ± 1,79 [ | Pekerjaan pengetahuan, penggunaan komputer, alur layanan pelanggan, tugas agen | OpenAI, BenchLM, dan Vals memakai kerangka evaluasi berbeda [ |
| DeepSeek V4 / V4-Pro-Max | Entri Vals AI 23 April 2026; V4-Pro-Max MMLU-Pro 87,5%, GPQA Diamond 90,1%, GSM8K 92,6% [ | QA sains, matematika, penalaran tingkat tinggi | DataCamp menyajikan angka tersebut sebagai hasil internal DeepSeek, jadi perlu dibedakan dari skor independen [ |
| Kimi K2.6 | BenchLM 85/100, provisional 12/115; Vals Accuracy 63,94% ± 1,97, Latency 373,57 detik, Cost/Test US$0,21; Artificial Analysis Intelligence Index 54, peringkat keseluruhan 4 [ | Open weights, biaya, latensi, efisiensi operasional | Nama Kimi 2.6, Kimi K2.6, dan K2.6 Thinking muncul di sumber berbeda; pastikan konfigurasi yang dibandingkan memang sama [ |
Leaderboard umum: di BenchLM, Claude terlihat paling tinggi
Jika memakai halaman BenchLM yang tersedia untuk tiga model, Claude Opus 4.7 berada di posisi paling tinggi. BenchLM menempatkan Claude Opus 4.7 di peringkat 2 dari 110 model pada provisional leaderboard dengan overall score 97/100, serta peringkat 2 dari 14 model pada verified leaderboard [3].
GPT-5.5 berada di peringkat 5 dari 112 model pada provisional leaderboard BenchLM dengan overall score 89/100, dan peringkat 2 dari 16 model pada verified leaderboard [28]. Kimi 2.6 tercatat di peringkat 12 dari 115 model pada provisional leaderboard BenchLM dengan overall score 85/100, dan halamannya menampilkan 27 skor benchmark publik [
37].
Namun, ini hanya titik referensi dari BenchLM. Jumlah model pembanding pada halaman Claude, GPT-5.5, dan Kimi berbeda, yakni 110, 112, dan 115. Selain itu, dari bahan yang tersedia di sini, belum ada skor BenchLM setara untuk DeepSeek V4 yang bisa diletakkan di tabel yang sama [3][
28][
37].
Coding: angka paling jelas ada pada Claude Opus 4.7
Untuk software engineering, Claude Opus 4.7 punya angka publik yang paling langsung. MindStudio melaporkan Claude Opus 4.7 mencetak 82,4% pada SWE-bench Verified, naik sekitar 11 poin dari Opus 4.6 [2]. Sumber yang sama juga mencatat FinanceBench 82,7% dan kenaikan MathVista sebesar 9,5 poin, yang menunjukkan peningkatan pada analisis dokumen keuangan dan penalaran matematika berbasis visual [
2].
Untuk GPT-5.5, angka resmi yang ditonjolkan OpenAI dalam sumber yang tersedia bukan SWE-bench, melainkan GDPval, OSWorld-Verified, dan Tau2-bench Telecom [29]. Untuk Kimi K2.6, GMI Cloud mengklaim model ini memuncaki SWE-Bench Pro, tetapi cuplikan sumber yang tersedia belum cukup untuk memastikan skor persis dan perbandingan empat model dalam kondisi yang sama [
35]. Pada kumpulan sumber ini, angka DeepSeek V4 yang paling konkret lebih banyak berada di wilayah penalaran dan matematika daripada coding [
15][
16].
Agen kerja dan penggunaan komputer: GPT-5.5 punya indikator resmi yang spesifik
Untuk tugas berbentuk agen kerja, data resmi GPT-5.5 cukup konkret. OpenAI menyatakan GPT-5.5 meraih 84,9% pada GDPval, benchmark yang menguji kemampuan agen menghasilkan pekerjaan pengetahuan yang terspesifikasi di 44 jenis pekerjaan [29]. OpenAI juga melaporkan 78,7% pada OSWorld-Verified, yang mengukur kemampuan model mengoperasikan lingkungan komputer nyata, serta 98,0% pada Tau2-bench Telecom untuk alur kerja layanan pelanggan yang kompleks [
29].
Claude Opus 4.7 juga memiliki data terkait tugas agen. Anthropic menyebut Claude Opus 4.7 mendapat skor 0,715 pada benchmark internal research-agent dan berbagi posisi teratas di enam modul, serta mencetak 0,813 pada modul General Finance dibandingkan 0,767 pada Opus 4.6 [7].
Tetapi angka-angka ini tidak boleh dibaca sebagai satu skala yang sama. Skor GPT-5.5 pada GDPval, OSWorld-Verified, dan Tau2-bench tidak langsung sebanding dengan skor 0,715 Claude pada benchmark internal Anthropic [7][
29].
Penalaran dan pengetahuan: DeepSeek V4-Pro-Max dan Kimi K2.6 Thinking bisa dibandingkan pada sebagian tabel
Angka DeepSeek V4 yang paling spesifik muncul pada konfigurasi V4-Pro-Max. DataCamp menjelaskan bahwa berdasarkan hasil internal DeepSeek, DeepSeek V4-Pro-Max mencatat MMLU-Pro 87,5%, GPQA Diamond 90,1%, dan GSM8K 92,6% [15]. Angka ini berguna sebagai referensi, tetapi karena disebut berbasis hasil internal, bobotnya tidak sama dengan leaderboard independen [
15].
Materi DeepSeek-V4-Pro di Hugging Face juga menampilkan DeepSeek V4-Pro-Max dan Kimi K2.6 Thinking dalam tabel yang sama untuk beberapa benchmark pengetahuan dan penalaran [16].
| Benchmark | DeepSeek V4-Pro-Max | Kimi K2.6 Thinking | Unggul pada tabel ini |
|---|---|---|---|
| MMLU-Pro | 87,5 | 87,1 | DeepSeek V4-Pro-Max |
| SimpleQA-Verified | 57,9 | 36,9 | DeepSeek V4-Pro-Max |
| Chinese-SimpleQA | 84,4 | 75,9 | DeepSeek V4-Pro-Max |
| GPQA Diamond | 90,1 | 90,5 | Kimi K2.6 Thinking |
| HLE | 37,7 | 36,4 | DeepSeek V4-Pro-Max |
Dalam tabel tersebut, DeepSeek V4-Pro-Max unggul atas Kimi K2.6 Thinking pada MMLU-Pro, SimpleQA-Verified, Chinese-SimpleQA, dan HLE, sedangkan Kimi K2.6 Thinking unggul tipis pada GPQA Diamond [16]. Namun, tabel yang sama tidak membandingkan langsung Claude Opus 4.7 dan GPT-5.5; pembandingnya adalah model lain seperti Opus-4.6 Max dan GPT-5.4 xHigh. Jadi tabel ini belum cukup untuk menyimpulkan peringkat penuh empat model [
16].
Biaya dan latensi: Kimi K2.6 menarik untuk dibaca dari sisi operasional
Di Vals AI, GPT-5.5 tercatat dengan Accuracy 67,76% ± 1,79, Latency 409,09 detik, dan Context Window 1 juta token [31]. Kimi K2.6 tercatat dengan Accuracy 63,94% ± 1,97, Latency 373,57 detik, dan Cost/Test US$0,21 [
39]. Jika hanya membandingkan dua entri Vals itu, angka akurasi GPT-5.5 lebih tinggi, sedangkan angka latensi Kimi K2.6 lebih rendah [
31][
39].
Kimi K2.6 juga relevan bagi pengguna yang memperhatikan model open weights. Artificial Analysis menyebut Kimi K2.6 dari Moonshot sebagai leading open weights model, dengan Artificial Analysis Intelligence Index 54 dan peringkat keseluruhan 4 [36]. Namun, Artificial Analysis, Vals, dan BenchLM adalah sistem evaluasi berbeda; skor 54, akurasi Vals 63,94%, dan BenchLM 85/100 tidak boleh dijumlahkan menjadi satu nilai gabungan [
36][
37][
39].
Panduan memilih untuk kebutuhan nyata
- Jika prioritas utama adalah perbaikan kode otomatis dan tugas software engineering, Claude Opus 4.7 layak diperiksa lebih dulu karena angka SWE-bench Verified 82,4% dan BenchLM 97/100 adalah data yang paling jelas dalam bahan publik ini [
2][
3].
- Jika kebutuhan Anda adalah pekerjaan pengetahuan, penggunaan komputer, atau alur layanan pelanggan, indikator resmi GPT-5.5 paling langsung: GDPval 84,9%, OSWorld-Verified 78,7%, dan Tau2-bench Telecom 98,0% [
29].
- Jika fokusnya QA sains, matematika, dan penalaran berat, bandingkan DeepSeek V4-Pro-Max dan Kimi K2.6 Thinking lewat MMLU-Pro, GPQA Diamond, dan HLE, sambil mengingat sebagian angka DeepSeek berasal dari hasil internal [
15][
16].
- Jika open weights, biaya per test, dan latensi penting, Kimi K2.6 perlu masuk daftar uji karena Artificial Analysis menyorotnya sebagai model open weights terdepan dan Vals mencatat US$0,21 per test serta latensi 373,57 detik [
36][
39].
- Jangan bertumpu pada MMLU saja. Pada 2026, model papan atas sudah berkumpul di rentang skor tinggi, sehingga MMLU kurang efektif sebagai pemisah utama [
22].
Kesimpulan
Dengan bukti publik yang tersedia, Claude Opus 4.7 terlihat kuat pada coding dan leaderboard umum BenchLM; GPT-5.5 memiliki indikator resmi yang kuat untuk pekerjaan agen, penggunaan komputer, dan alur layanan pelanggan; DeepSeek V4-Pro-Max menonjol lewat angka penalaran dan matematika; sedangkan Kimi K2.6 menarik dari sisi open weights, biaya, dan latensi [2][
3][
15][
16][
28][
29][
36][
37][
39].
Namun, belum ada dasar yang cukup rapi untuk menetapkan urutan mutlak dari peringkat 1 sampai 4. Untuk keputusan produksi, jadikan benchmark ini sebagai peta awal, lalu lakukan evaluasi sendiri pada tugas yang benar-benar mirip dengan kebutuhan Anda: coding, analisis dokumen keuangan, kontrol browser atau komputer, layanan pelanggan, atau eksekusi agen jangka panjang [8][
22].




