Menentukan pemenang tunggal antara Claude Opus 4.7, GPT-5.5, DeepSeek V4/V4 Pro, dan Kimi K2.6 bisa menyesatkan. Masalah utamanya bukan hanya angka, tetapi kualitas dan kedalaman sumber. Claude punya kombinasi sumber resmi Anthropic dan leaderboard eksternal yang kuat; GPT-5.5 tampil sangat kompetitif di reasoning, tetapi angka yang tersedia terutama berasal dari agregator dan artikel sekunder; DeepSeek menunjukkan sinyal coding yang menarik, namun sumber sering mencampur V4, V4 Pro, dan V4 Pro High; sementara Kimi K2.6 baru memiliki sinyal benchmark parsial [3][
7][
16][
17][
25][
27].
Putusan singkat
| Model | Bacaan paling aman | Keyakinan bukti |
|---|---|---|
| Claude Opus 4.7 | Kandidat paling kuat untuk coding, agentic workflow, dan tugas multi-step. Anthropic melaporkan 0,715 pada benchmark internal research-agent, dan Vals AI menempatkannya pertama di SWE-bench dengan 82,00% [ | Tinggi-menengah |
| GPT-5.5 | Sangat kuat untuk reasoning umum. O-Mega melaporkan 92,4% di MMLU, 93,6% di GPQA Diamond, 85,0% di ARC-AGI-2, dan 95,0% di ARC-AGI-1 [ | Menengah |
| DeepSeek V4 / V4 Pro | Menjanjikan untuk coding dan eksplorasi teknis, tetapi angka yang tersedia bercampur antara V4, V4 Pro, dan V4 Pro High [ | Menengah-rendah |
| Kimi K2.6 | Ada sinyal awal, termasuk 0,91 di GPQA menurut LLM Stats dan masuk top 10 Quality Index di WhatLLM, tetapi belum cukup untuk perbandingan multi-benchmark yang kuat [ | Rendah |
Tabel benchmark yang paling bisa dibandingkan
| Benchmark atau metrik | Claude Opus 4.7 | GPT-5.5 | DeepSeek V4 / V4 Pro | Kimi K2.6 | Catatan pembacaan |
|---|---|---|---|---|---|
| SWE-bench | 82,00% di Vals AI, diperbarui 24 April 2026 [ | Tidak ada angka sebanding dalam sumber yang tersedia | 81% diklaim NxCode untuk DeepSeek V4 [ | Tidak ada angka sebanding | Sinyal paling bersih mengarah ke Claude. |
| SWE-bench Verified | 87,6% menurut Vellum; 83,5% ± 1,7 menurut LMCouncil [ | Tidak ada angka sebanding | Hugging Face mencantumkan evaluasi komunitas untuk DeepSeek-V4-Pro, tetapi ringkasan yang tersedia tidak menampilkan angka [ | Tidak ada angka sebanding | Angka bisa berbeda karena konfigurasi, tanggal, varian, atau subset. |
| SWE-bench Pro | 64,3% menurut Vellum [ | Tidak ada angka sebanding | Dicantumkan dalam evaluasi komunitas DeepSeek-V4-Pro, tanpa angka terlihat pada ringkasan yang tersedia [ | Tidak ada angka sebanding | Lebih relevan untuk agent software berdurasi panjang. |
| GPQA Diamond | 94,2% menurut O-Mega, Vellum, dan TNW [ | 93,6% menurut O-Mega dan Vellum [ | Disebut dalam suite komunitas, tanpa angka sebanding yang terlihat [ | 0,91 di LLM Stats [ | Claude dan GPT-5.5 terlalu dekat untuk diputuskan hanya dari GPQA. |
| MMLU | Tidak ada angka sebanding | 92,4% menurut O-Mega [ | MMLU-Pro muncul dalam evaluasi komunitas, tanpa angka terlihat [ | Tidak ada angka sebanding | Bobotnya sebaiknya kecil karena MMLU sudah jenuh di model papan atas. |
| ARC-AGI | Tidak ada angka sebanding | ARC-AGI-2: 85,0%; ARC-AGI-1: 95,0% menurut O-Mega [ | Tidak ada angka sebanding | Tidak ada angka sebanding | Menguatkan posisi GPT-5.5 di reasoning, tetapi tetap bergantung pada sumber sekunder. |
| Research-agent / multi-step work | 0,715 di benchmark internal Anthropic [ | Tidak ada angka sebanding | BenchLM melaporkan 83,8/100 di kategori Agentic untuk DeepSeek V4 Pro High [ | Tidak ada angka sebanding | Berguna sebagai arah kemampuan, tetapi metriknya tidak setara. |
| Long context / Needle-in-a-Haystack | Anthropic menyebut Opus 4.7 punya performa long-context paling konsisten di antara model yang mereka uji [ | Tidak ada angka sebanding | NxCode melaporkan 97% pada 1 juta token, dengan catatan perlu validasi independen [ | Tidak ada angka sebanding | Klaim DeepSeek kuat, tetapi belum menjadi kesimpulan final. |
| LiveCodeBench / Codeforces | Tidak ada angka sebanding | Tidak ada angka sebanding | Redreamality melaporkan LiveCodeBench 93,5 dan Codeforces 3206 untuk DeepSeek V4 [ | Tidak ada angka sebanding | Sinyal positif untuk coding murni, tetapi belum menyelesaikan perbandingan agentic. |
Cara membaca benchmark tanpa terjebak angka mentah
Benchmark AI bukan satu jenis ujian. SWE-bench menguji kemampuan model menyelesaikan tugas rekayasa perangkat lunak produksi, dan Vals AI mendeskripsikannya sebagai benchmark untuk menyelesaikan tugas software engineering di lingkungan produksi [17]. SWE-bench Pro perlu dipisahkan dari SWE-bench biasa: paper-nya menyebut varian ini jauh lebih menantang dan dirancang untuk tugas software engineering long-horizon [
38].
GPQA Diamond berguna untuk mengukur reasoning ilmiah, tetapi tidak lagi selalu memisahkan model frontier dengan jelas. TNW mencatat bahwa pada GPQA Diamond, model seperti Opus 4.7, GPT-5.4 Pro, dan Gemini 3.1 Pro sudah sangat berdekatan sehingga selisihnya masuk wilayah noise pengukuran [15]. MMLU bahkan perlu dibaca lebih hati-hati: Nanonets menyatakan bahwa pada 2026 model papan atas sudah berada di atas 88%, sehingga benchmark ini terlalu jenuh untuk membedakan pemimpin pasar secara halus [
1].
Asal angka juga penting. Klaim dari lab resmi, leaderboard independen, agregator, dan diskusi komunitas tidak memiliki bobot yang sama. BenchLM, misalnya, menyatakan profil Claude Opus 4.7 dikecualikan dari leaderboard publik karena belum memiliki cukup cakupan benchmark publik non-generated untuk diberi peringkat dengan aman [14].
Claude Opus 4.7: kasus terkuat untuk coding dan agen
Claude Opus 4.7 adalah model dengan dukungan publik paling solid dalam perbandingan ini. Sumber paling kuat berasal dari Anthropic sendiri: perusahaan melaporkan bahwa Opus 4.7 menyamai skor keseluruhan terbaik dalam benchmark internal research-agent dengan 0,715 dan memberikan performa long-context paling konsisten di antara model yang mereka uji [16]. Karena ini evaluasi internal, angkanya tidak boleh diperlakukan sama seperti benchmark independen. Namun, ia tetap memberi sinyal jelas bahwa fokus model ini adalah kerja multi-step.
Sinyal eksternal paling jelas datang dari SWE-bench. Vals AI menempatkan Claude Opus 4.7 di posisi pertama dengan 82,00% pada halaman yang diperbarui 24 April 2026 [17]. Vellum melaporkan 87,6% di SWE-bench Verified dan 64,3% di SWE-bench Pro [
20]. LMCouncil mencantumkan 83,5% ± 1,7 untuk Claude Opus 4.7 di SWE-bench Verified [
9].
Kesimpulan yang rapi bukan memilih satu angka lalu mengabaikan sisanya. Pembacaan yang lebih aman adalah: Claude berada di zona atas, bahkan memimpin di beberapa sumber software engineering, tetapi SWE-bench, SWE-bench Verified, dan SWE-bench Pro bukan tes yang identik dan dapat berbeda karena metodologi, tanggal, subset, atau konfigurasi [17][
20][
38].
Di reasoning ilmiah, Claude Opus 4.7 muncul dengan 94,2% di GPQA Diamond menurut O-Mega, Vellum, dan TNW [3][
12][
15]. Namun, karena TNW juga mengingatkan bahwa benchmark ini sudah sangat rapat di antara model frontier, GPQA saja tidak cukup untuk menyatakan Claude sebagai pemenang global [
15].
GPT-5.5: sangat kuat di reasoning, tetapi bukti resminya lebih tipis
GPT-5.5 menonjol pada data reasoning yang tersedia. O-Mega melaporkan 92,4% di MMLU, 93,6% di GPQA Diamond, 85,0% di ARC-AGI-2, dan 95,0% di ARC-AGI-1 [3]. Vellum juga mencantumkan GPT-5.5 dengan 93,6% di GPQA Diamond, sedikit di bawah Claude Opus 4.7 pada tabel tersebut [
12]. BenchLM menempatkannya sebagai model tier atas, dengan skor keseluruhan 89/100 di leaderboard provisional dan peringkat 2 dari 16 di leaderboard verified [
6].
Catatan utamanya adalah keterlacakan. Dalam sumber yang tersedia untuk perbandingan ini, GPT-5.5 muncul di artikel, agregator, dan halaman benchmark, tetapi tidak ditemukan benchmark card resmi OpenAI yang setara dengan materi resmi Anthropic untuk Claude Opus 4.7. Appwrite menyebut GPT-5.5 dikirim pada 23 April 2026, sementara Vals mencantumkan openai/gpt-5.5 dengan tanggal rilis 23 April 2026 dan Vals Index 67,76% ± 1,79 [2][
11]. Keduanya berguna sebagai konteks, tetapi bukan pengganti benchmark card resmi.
Untuk presentasi eksekutif, GPT-5.5 layak diposisikan sebagai pesaing kelas atas di reasoning umum, terutama berkat angka GPQA dan ARC-AGI. Namun, ia belum layak disebut pemenang global jika standar yang dipakai adalah bukti publik yang homogen di semua model [3][
6][
12].
DeepSeek V4 / V4 Pro: menarik, tetapi variannya harus dipisahkan
DeepSeek adalah kasus yang paling mudah membingungkan karena nama variannya sering bercampur. Sumber yang tersedia bergantian memakai DeepSeek V4, DeepSeek V4 Pro, dan DeepSeek V4 Pro High, sehingga angka dari satu varian tidak boleh otomatis dipindahkan ke varian lain [25][
26][
27].
Hugging Face menampilkan diskusi komunitas untuk DeepSeek-V4-Pro yang menambahkan hasil evaluasi di GPQA, GSM8K, HLE, MMLU-Pro, SWE-bench Pro, SWE-bench Verified, dan Terminal-Bench 2.0 [25]. BenchLM melaporkan untuk DeepSeek V4 Pro High skor 83,8/100 di kategori Agentic, 88,8/100 di Coding, dan 72,1/100 di Knowledge [
27]. NxCode menyatakan DeepSeek V4 mencapai 81% di SWE-bench dan 97% di Needle-in-a-Haystack pada 1 juta token, tetapi sumber yang sama menekankan bahwa angka 97% itu perlu bertahan dalam pengujian independen agar benar-benar kuat [
26].
Redreamality memberi sinyal lain yang positif untuk coding murni: LiveCodeBench 93,5 dan Codeforces 3206 untuk DeepSeek V4 [30]. Namun, sumber yang sama merangkum bahwa untuk kerja agentic long-horizon seperti SWE-bench Pro dan Terminal-Bench 2.0, model frontier tertutup masih memimpin [
30].
Pembacaan praktisnya: DeepSeek V4/V4 Pro patut masuk daftar uji internal, terutama bila tim ingin mengevaluasi opsi teknis dengan kontrol lebih besar. Tetapi berdasarkan sumber ini, bukti publiknya belum sekokoh Claude di SWE-bench dan pada benchmark internal resmi Anthropic [16][
17][
25][
27].
Kimi K2.6: ada sinyal, tetapi belum cukup untuk ranking penuh
Kimi K2.6 tidak perlu dihapus dari radar, tetapi juga tidak sebaiknya dipresentasikan seolah-olah punya cakupan setara dengan tiga model lain. LLM Stats mencantumkannya dengan 0,91 di GPQA, dan WhatLLM memasukkannya ke top 10 model berdasarkan Quality Index [7][
21]. Itu menunjukkan ada aktivitas benchmark, tetapi belum cukup untuk membandingkannya secara lengkap dengan Claude Opus 4.7, GPT-5.5, dan DeepSeek V4/V4 Pro.
Yang juga perlu dihindari adalah mengganti diam-diam Kimi K2.6 dengan Kimi K2.5. Simon Willison mencatat hasil Kimi K2.5 pada SWE-bench Verified pada Februari 2026, tetapi data itu berasal dari versi model yang berbeda [8]. Untuk perbandingan yang rapi, Kimi K2.6 sebaiknya diberi label bukti belum cukup atau menunggu validasi multi-benchmark.
Rekomendasi berdasarkan kebutuhan
| Kebutuhan | Rekomendasi | Keyakinan | Alasan |
|---|---|---|---|
| Menyelesaikan issue software nyata dan coding agentic | Claude Opus 4.7 | Tinggi-menengah | Memimpin SWE-bench di Vals AI dengan 82,00% dan muncul kuat di SWE-bench Verified serta SWE-bench Pro menurut Vellum [ |
| Tugas multi-step dan research-agent | Claude Opus 4.7 | Menengah | Anthropic melaporkan 0,715 di benchmark internal dan konsistensi long-context terbaik di antara model yang mereka uji [ |
| Reasoning ilmiah ala GPQA | Claude Opus 4.7 atau GPT-5.5 | Menengah | Claude muncul dengan 94,2% dan GPT-5.5 dengan 93,6%; selisih kecil dan GPQA sudah rapat di antara model frontier [ |
| Reasoning umum yang luas | GPT-5.5 | Menengah-rendah | Angka MMLU, GPQA, dan ARC-AGI kuat, tetapi terutama berasal dari O-Mega, Vellum, BenchLM, dan agregator lain [ |
| Eksplorasi teknis atau evaluasi opsi alternatif | DeepSeek V4 / V4 Pro | Menengah-rendah | Ada sinyal dari Hugging Face, BenchLM, NxCode, dan Redreamality, tetapi variannya bercampur dan perlu validasi sendiri [ |
| Ranking kuantitatif lengkap | Jangan perlakukan Kimi K2.6 sebagai pembanding terverifikasi | Rendah | Ada sinyal parsial seperti GPQA 0,91 di LLM Stats, tetapi cakupan sebanding masih kurang [ |
Cara mempresentasikannya tanpa berlebihan
Untuk slide eksekutif, pisahkan dua hal: performa dan kualitas bukti. Satu slide bisa menampilkan rekomendasi per use case, slide kedua memuat angka benchmark inti, dan slide ketiga menjelaskan batasan metodologis.
Pesan utamanya sederhana: Claude Opus 4.7 adalah pemimpin yang paling kuat dukungan buktinya untuk coding dan agen; GPT-5.5 adalah rival paling kuat di reasoning umum; DeepSeek V4/V4 Pro adalah alternatif teknis yang menjanjikan tetapi perlu validasi internal; Kimi K2.6 masih menunggu data pembanding yang lebih lengkap.
Ada tiga peringatan yang sebaiknya selalu ditulis. Pertama, jangan mencampur SWE-bench, SWE-bench Verified, dan SWE-bench Pro seolah-olah tesnya sama, karena SWE-bench Pro memang dibuat untuk tugas software long-horizon yang lebih sulit [38]. Kedua, jangan menjadikan MMLU sebagai dasar keputusan utama, karena model papan atas sudah terlalu berdekatan di atas 88% [
1]. Ketiga, beri label pada setiap angka: resmi, leaderboard, agregator, komunitas, atau klaim vendor.
Kesimpulan
Jika tujuannya memilih model untuk presentasi dengan bukti yang paling mudah dipertanggungjawabkan, Claude Opus 4.7 sebaiknya ditempatkan pertama untuk coding dan agentic workflow berkat kombinasi sumber resmi Anthropic, posisi teratas di Vals SWE-bench, dan hasil kuat di varian SWE-bench dari pihak ketiga [16][
17][
20]. GPT-5.5 layak dipresentasikan sebagai pesaing level atas dalam reasoning, tetapi dengan catatan bahwa angka yang tersedia terutama berasal dari sumber sekunder dan agregator [
3][
6][
12]. DeepSeek V4/V4 Pro pantas diuji, bukan langsung dinobatkan sebagai pemimpin [
25][
26][
27][
30]. Kimi K2.6, untuk saat ini, sebaiknya diberi status bukti belum cukup untuk perbandingan lengkap [
7][
21].




