| Tinggi-menengah |
| GPT-5.5 | Sangat kuat untuk reasoning umum. O-Mega melaporkan 92,4% di MMLU, 93,6% di GPQA Diamond, 85,0% di ARC-AGI-2, dan 95,0% di ARC-AGI-1 | Menengah |
| DeepSeek V4 / V4 Pro | Menjanjikan untuk coding dan eksplorasi teknis, tetapi angka yang tersedia bercampur antara V4, V4 Pro, dan V4 Pro High | Menengah-rendah |
| Kimi K2.6 | Ada sinyal awal, termasuk 0,91 di GPQA menurut LLM Stats dan masuk top 10 Quality Index di WhatLLM, tetapi belum cukup untuk perbandingan multi-benchmark yang kuat | Rendah |
Benchmark AI bukan satu jenis ujian. SWE-bench menguji kemampuan model menyelesaikan tugas rekayasa perangkat lunak produksi, dan Vals AI mendeskripsikannya sebagai benchmark untuk menyelesaikan tugas software engineering di lingkungan produksi . SWE-bench Pro perlu dipisahkan dari SWE-bench biasa: paper-nya menyebut varian ini jauh lebih menantang dan dirancang untuk tugas software engineering long-horizon
.
GPQA Diamond berguna untuk mengukur reasoning ilmiah, tetapi tidak lagi selalu memisahkan model frontier dengan jelas. TNW mencatat bahwa pada GPQA Diamond, model seperti Opus 4.7, GPT-5.4 Pro, dan Gemini 3.1 Pro sudah sangat berdekatan sehingga selisihnya masuk wilayah noise pengukuran . MMLU bahkan perlu dibaca lebih hati-hati: Nanonets menyatakan bahwa pada 2026 model papan atas sudah berada di atas 88%, sehingga benchmark ini terlalu jenuh untuk membedakan pemimpin pasar secara halus
.
Asal angka juga penting. Klaim dari lab resmi, leaderboard independen, agregator, dan diskusi komunitas tidak memiliki bobot yang sama. BenchLM, misalnya, menyatakan profil Claude Opus 4.7 dikecualikan dari leaderboard publik karena belum memiliki cukup cakupan benchmark publik non-generated untuk diberi peringkat dengan aman .
Claude Opus 4.7 adalah model dengan dukungan publik paling solid dalam perbandingan ini. Sumber paling kuat berasal dari Anthropic sendiri: perusahaan melaporkan bahwa Opus 4.7 menyamai skor keseluruhan terbaik dalam benchmark internal research-agent dengan 0,715 dan memberikan performa long-context paling konsisten di antara model yang mereka uji . Karena ini evaluasi internal, angkanya tidak boleh diperlakukan sama seperti benchmark independen. Namun, ia tetap memberi sinyal jelas bahwa fokus model ini adalah kerja multi-step.
Sinyal eksternal paling jelas datang dari SWE-bench. Vals AI menempatkan Claude Opus 4.7 di posisi pertama dengan 82,00% pada halaman yang diperbarui 24 April 2026 . Vellum melaporkan 87,6% di SWE-bench Verified dan 64,3% di SWE-bench Pro
. LMCouncil mencantumkan 83,5% ± 1,7 untuk Claude Opus 4.7 di SWE-bench Verified
.
Kesimpulan yang rapi bukan memilih satu angka lalu mengabaikan sisanya. Pembacaan yang lebih aman adalah: Claude berada di zona atas, bahkan memimpin di beberapa sumber software engineering, tetapi SWE-bench, SWE-bench Verified, dan SWE-bench Pro bukan tes yang identik dan dapat berbeda karena metodologi, tanggal, subset, atau konfigurasi .
Di reasoning ilmiah, Claude Opus 4.7 muncul dengan 94,2% di GPQA Diamond menurut O-Mega, Vellum, dan TNW . Namun, karena TNW juga mengingatkan bahwa benchmark ini sudah sangat rapat di antara model frontier, GPQA saja tidak cukup untuk menyatakan Claude sebagai pemenang global
.
GPT-5.5 menonjol pada data reasoning yang tersedia. O-Mega melaporkan 92,4% di MMLU, 93,6% di GPQA Diamond, 85,0% di ARC-AGI-2, dan 95,0% di ARC-AGI-1 . Vellum juga mencantumkan GPT-5.5 dengan 93,6% di GPQA Diamond, sedikit di bawah Claude Opus 4.7 pada tabel tersebut
. BenchLM menempatkannya sebagai model tier atas, dengan skor keseluruhan 89/100 di leaderboard provisional dan peringkat 2 dari 16 di leaderboard verified
.
Catatan utamanya adalah keterlacakan. Dalam sumber yang tersedia untuk perbandingan ini, GPT-5.5 muncul di artikel, agregator, dan halaman benchmark, tetapi tidak ditemukan benchmark card resmi OpenAI yang setara dengan materi resmi Anthropic untuk Claude Opus 4.7. Appwrite menyebut GPT-5.5 dikirim pada 23 April 2026, sementara Vals mencantumkan openai/gpt-5.5 dengan tanggal rilis 23 April 2026 dan Vals Index 67,76% ± 1,79 . Keduanya berguna sebagai konteks, tetapi bukan pengganti benchmark card resmi.
Untuk presentasi eksekutif, GPT-5.5 layak diposisikan sebagai pesaing kelas atas di reasoning umum, terutama berkat angka GPQA dan ARC-AGI. Namun, ia belum layak disebut pemenang global jika standar yang dipakai adalah bukti publik yang homogen di semua model .
DeepSeek adalah kasus yang paling mudah membingungkan karena nama variannya sering bercampur. Sumber yang tersedia bergantian memakai DeepSeek V4, DeepSeek V4 Pro, dan DeepSeek V4 Pro High, sehingga angka dari satu varian tidak boleh otomatis dipindahkan ke varian lain .
Hugging Face menampilkan diskusi komunitas untuk DeepSeek-V4-Pro yang menambahkan hasil evaluasi di GPQA, GSM8K, HLE, MMLU-Pro, SWE-bench Pro, SWE-bench Verified, dan Terminal-Bench 2.0 . BenchLM melaporkan untuk DeepSeek V4 Pro High skor 83,8/100 di kategori Agentic, 88,8/100 di Coding, dan 72,1/100 di Knowledge
. NxCode menyatakan DeepSeek V4 mencapai 81% di SWE-bench dan 97% di Needle-in-a-Haystack pada 1 juta token, tetapi sumber yang sama menekankan bahwa angka 97% itu perlu bertahan dalam pengujian independen agar benar-benar kuat
.
Redreamality memberi sinyal lain yang positif untuk coding murni: LiveCodeBench 93,5 dan Codeforces 3206 untuk DeepSeek V4 . Namun, sumber yang sama merangkum bahwa untuk kerja agentic long-horizon seperti SWE-bench Pro dan Terminal-Bench 2.0, model frontier tertutup masih memimpin
.
Pembacaan praktisnya: DeepSeek V4/V4 Pro patut masuk daftar uji internal, terutama bila tim ingin mengevaluasi opsi teknis dengan kontrol lebih besar. Tetapi berdasarkan sumber ini, bukti publiknya belum sekokoh Claude di SWE-bench dan pada benchmark internal resmi Anthropic .
Kimi K2.6 tidak perlu dihapus dari radar, tetapi juga tidak sebaiknya dipresentasikan seolah-olah punya cakupan setara dengan tiga model lain. LLM Stats mencantumkannya dengan 0,91 di GPQA, dan WhatLLM memasukkannya ke top 10 model berdasarkan Quality Index . Itu menunjukkan ada aktivitas benchmark, tetapi belum cukup untuk membandingkannya secara lengkap dengan Claude Opus 4.7, GPT-5.5, dan DeepSeek V4/V4 Pro.
Yang juga perlu dihindari adalah mengganti diam-diam Kimi K2.6 dengan Kimi K2.5. Simon Willison mencatat hasil Kimi K2.5 pada SWE-bench Verified pada Februari 2026, tetapi data itu berasal dari versi model yang berbeda . Untuk perbandingan yang rapi, Kimi K2.6 sebaiknya diberi label bukti belum cukup atau menunggu validasi multi-benchmark.
Untuk slide eksekutif, pisahkan dua hal: performa dan kualitas bukti. Satu slide bisa menampilkan rekomendasi per use case, slide kedua memuat angka benchmark inti, dan slide ketiga menjelaskan batasan metodologis.
Pesan utamanya sederhana: Claude Opus 4.7 adalah pemimpin yang paling kuat dukungan buktinya untuk coding dan agen; GPT-5.5 adalah rival paling kuat di reasoning umum; DeepSeek V4/V4 Pro adalah alternatif teknis yang menjanjikan tetapi perlu validasi internal; Kimi K2.6 masih menunggu data pembanding yang lebih lengkap.
Ada tiga peringatan yang sebaiknya selalu ditulis. Pertama, jangan mencampur SWE-bench, SWE-bench Verified, dan SWE-bench Pro seolah-olah tesnya sama, karena SWE-bench Pro memang dibuat untuk tugas software long-horizon yang lebih sulit . Kedua, jangan menjadikan MMLU sebagai dasar keputusan utama, karena model papan atas sudah terlalu berdekatan di atas 88%
. Ketiga, beri label pada setiap angka: resmi, leaderboard, agregator, komunitas, atau klaim vendor.
Jika tujuannya memilih model untuk presentasi dengan bukti yang paling mudah dipertanggungjawabkan, Claude Opus 4.7 sebaiknya ditempatkan pertama untuk coding dan agentic workflow berkat kombinasi sumber resmi Anthropic, posisi teratas di Vals SWE-bench, dan hasil kuat di varian SWE-bench dari pihak ketiga . GPT-5.5 layak dipresentasikan sebagai pesaing level atas dalam reasoning, tetapi dengan catatan bahwa angka yang tersedia terutama berasal dari sumber sekunder dan agregator
. DeepSeek V4/V4 Pro pantas diuji, bukan langsung dinobatkan sebagai pemimpin
. Kimi K2.6, untuk saat ini, sebaiknya diberi status bukti belum cukup untuk perbandingan lengkap
.
Comments
0 comments