Kalau Anda sedang memilih model AI untuk produk, riset, atau workflow internal, membaca benchmark seperti membaca papan skor liga bisa menyesatkan. Angkanya penting, tetapi setiap benchmark mengukur hal yang berbeda: penalaran abstrak, kemampuan memakai alat, coding agentic, hingga aspek keselamatan.
Dari sumber yang tersedia, perbandingan paling kuat terutama ada pada GPT-5.5 dan Claude Opus 4.7. DeepSeek V4 dan Kimi K2.6 memang muncul sebagai kandidat serius di kategori model berbobot terbuka atau open-weights, tetapi datanya belum cukup rapi untuk disejajarkan langsung di semua benchmark yang sama [6] [
8] [
14] [
15] [
20] [
21].
Ringkasan cepat: jangan cari satu pemenang universal
Kesimpulan paling aman adalah membaca hasilnya per kebutuhan:
- Penalaran abstrak: GPT-5.5 unggul atas Claude Opus 4.7 pada ARC-AGI-1 Verified dan ARC-AGI-2 Verified dalam tabel OpenAI [
6].
- Agent dan orkestrasi alat: Claude Opus 4.7 memimpin GPT-5.5 di MCP-Atlas, benchmark yang berkaitan dengan keandalan pemanggilan alat dalam skenario kompleks [
14].
- Coding agentic: GPT-5.5 punya sinyal angka paling jelas, yaitu 82,7% di Terminal-Bench 2.0, tetapi sumber yang ada tidak memberi tabel lengkap untuk tiga model lainnya [
15].
- Open-weights: DeepSeek V4 dan Kimi K2.6 relevan untuk dipantau, tetapi belum bisa diperingkat secara bersih melawan GPT-5.5 dan Claude Opus 4.7 pada benchmark yang sama [
8] [
20] [
21].
- Keselamatan dan keamanan siber: skor kemampuan tidak otomatis berarti model lebih aman [
1] [
3] [
19].
Angka yang benar-benar bisa dibandingkan
| Area atau benchmark | GPT-5.5 | Claude Opus 4.7 | DeepSeek V4 | Kimi K2.6 | Cara membacanya |
|---|---|---|---|---|---|
| ARC-AGI-1 Verified | 95,0% [ | 93,5% [ | Tidak ada skor sebanding dalam sumber yang tersedia | Tidak ada skor sebanding dalam sumber yang tersedia | GPT-5.5 unggul 1,5 poin atas Claude Opus 4.7 dalam tabel OpenAI [ |
| ARC-AGI-2 Verified | 85,0% [ | 75,8% [ | Tidak ada skor sebanding dalam sumber yang tersedia | Tidak ada skor sebanding dalam sumber yang tersedia | Keunggulan GPT-5.5 lebih besar di ARC-AGI-2, tetapi metodologi OpenAI tetap perlu diperhatikan [ |
| MCP-Atlas | 75,3% [ | 79,1% [ | Tidak ada skor sebanding dalam sumber yang tersedia | Tidak ada skor sebanding dalam sumber yang tersedia | Claude Opus 4.7 berada di depan GPT-5.5 pada benchmark orkestrasi alat ini [ |
| Terminal-Bench 2.0 / coding agentic | 82,7% dilaporkan [ | Tidak ada skor sebanding dalam sumber yang tersedia | Tidak ada skor sebanding dalam sumber yang tersedia | Tidak ada skor sebanding dalam sumber yang tersedia | Sinyal kuat untuk GPT-5.5, tetapi bukan klasemen lengkap empat model [ |
| Open-weights / Artificial Analysis | Tidak sebanding di sini | Tidak sebanding di sini | DeepSeek V4 Pro Max dilaporkan mencetak 52 di Artificial Analysis Intelligence Index, naik dari 42 untuk V3.2 [ | Artificial Analysis menampilkan analisis berjudul “Kimi K2.6: The new leading open weights model”, tetapi sumber yang tersedia tidak memberi skor yang bisa dipakai di sini [ | Sinyal open-weights penting, tetapi belum menggantikan benchmark bersama [ |
| Keselamatan dan keamanan siber | CoT-Control mencakup lebih dari 13.000 tugas; sumber sekunder juga melaporkan 93% di cyber range dan jailbreak universal yang ditemukan dalam enam jam [ | Tidak ada skor sebanding dalam sumber yang tersedia | Tidak ada skor sebanding dalam sumber yang tersedia | Tidak ada skor sebanding dalam sumber yang tersedia | Ini bukan dasar untuk membuat peringkat keselamatan empat model [ |
Kolom kosong bukan berarti DeepSeek V4 atau Kimi K2.6 lemah. Artinya, sumber yang tersedia di sini belum memberikan skor homogen di benchmark yang sama, dengan pengaturan yang sama, dan tingkat rincian yang sama [8] [
20] [
21].
Penalaran abstrak: GPT-5.5 unggul di ARC-AGI
Pada dua skor ARC-AGI yang dipublikasikan di halaman peluncuran OpenAI, GPT-5.5 mengungguli Claude Opus 4.7. GPT-5.5 mencetak 95,0% di ARC-AGI-1 Verified, dibanding 93,5% untuk Claude Opus 4.7. Di ARC-AGI-2 Verified, GPT-5.5 mencetak 85,0%, sedangkan Claude Opus 4.7 berada di 75,8% [6].
Namun, angka ini tidak membuktikan bahwa GPT-5.5 selalu lebih baik dalam semua skenario. Yang bisa dikatakan: GPT-5.5 menang atas Claude Opus 4.7 pada dua ukuran penalaran abstrak tersebut, dalam tabel OpenAI yang dikutip [6].
Catatan metodologinya penting. OpenAI menyebut evaluasi GPT dijalankan dengan tingkat upaya penalaran “xhigh” di lingkungan riset, sehingga hasilnya bisa sedikit berbeda dari keluaran ChatGPT di lingkungan produksi [6].
Agent dan pemanggilan alat: Claude unggul di MCP-Atlas
Sinyal paling kuat untuk Claude Opus 4.7 datang dari MCP-Atlas. Sebuah analisis sekunder melaporkan skor 79,1% untuk Claude Opus 4.7, dibanding 75,3% untuk GPT-5.5. Keunggulan ini dikaitkan dengan keandalan pemanggilan alat yang lebih baik dalam skenario kompleks dan berantai melalui Model Context Protocol atau MCP [14].
Bagi tim yang membangun agent dengan banyak alat eksternal, poin ini bisa sama pentingnya dengan skor penalaran murni. Jika produk Anda banyak bergantung pada orkestrasi MCP, tool eksternal, dan workflow berantai, sinyal terbaik yang dikutip di sini lebih menguntungkan Claude Opus 4.7 daripada GPT-5.5 pada benchmark spesifik tersebut [14].
Coding agentic: sinyal GPT-5.5 paling jelas, tapi belum sapu bersih
GPT-5.5 dilaporkan mencetak 82,7% di Terminal-Bench 2.0, benchmark yang berkaitan dengan tugas terminal dan coding agentic [15]. Ini adalah skor coding paling mudah dipakai dari sumber yang tersedia untuk perbandingan ini.
Batasannya juga sama pentingnya: sumber yang tersedia tidak memberikan tabel Terminal-Bench 2.0 lengkap untuk Claude Opus 4.7, DeepSeek V4, dan Kimi K2.6. Jadi kesimpulan yang hati-hati adalah GPT-5.5 memiliki sinyal terdokumentasi paling kuat di area ini, bukan bahwa ia pasti mengalahkan tiga model lain dalam semua kondisi coding agentic [15].
DeepSeek V4 dan Kimi K2.6: serius di open-weights, sulit diperingkat di sini
DeepSeek V4 dan Kimi K2.6 layak diperhitungkan di kategori open-weights. Tetapi data yang dikutip tidak memungkinkan adu langsung yang ketat dengan GPT-5.5 dan Claude Opus 4.7 pada ARC-AGI, MCP-Atlas, atau Terminal-Bench 2.0 [8] [
20] [
21].
Untuk DeepSeek, Artificial Analysis menyatakan bahwa rilis DeepSeek V4 membawa DeepSeek kembali ke jajaran model open-weights terdepan [20]. Angka paling spesifik yang tersedia di sini adalah DeepSeek V4 Pro Max dengan skor 52 pada Artificial Analysis Intelligence Index, naik dari 42 untuk DeepSeek V3.2 [
21].
Untuk Kimi K2.6, Artificial Analysis menampilkan analisis berjudul “Kimi K2.6: The new leading open weights model” [8]. Itu sinyal posisi yang kuat, tetapi sumber yang diberikan tidak memuat skor yang cukup untuk membandingkan Kimi K2.6 dengan DeepSeek V4, GPT-5.5, dan Claude Opus 4.7 pada benchmark yang sama [
8] [
21].
Keselamatan dan keamanan siber: kemampuan bukan jaminan aman
System card GPT-5.5 menjelaskan CoT-Control sebagai rangkaian evaluasi berisi lebih dari 13.000 tugas yang dibangun dari benchmark mapan, termasuk GPQA, MMLU-Pro, HLE, BFCL, dan SWE-Bench Verified [3]. Informasi ini membantu memahami evaluasi kontrol penalaran, tetapi tidak memberikan skor perbandingan antara GPT-5.5, Claude Opus 4.7, DeepSeek V4, dan Kimi K2.6 [
3].
Sumber lain melaporkan GPT-5.5 memiliki tingkat keberhasilan 93% di cyber range, sambil menyebut bahwa jailbreak universal ditemukan dalam enam jam red-teaming [1]. Dua informasi ini perlu dibaca bersama: performa tinggi pada tugas siber tidak otomatis membuktikan keselamatan model secara menyeluruh [
1].
Kritik eksternal juga menyoroti bahwa evaluasi keselamatan GPT-5.5 sangat bergantung pada pernyataan OpenAI, sehingga kesimpulan dari informasi yang hanya dipublikasikan oleh penyedia model perlu dibatasi [19].
Pilih model berdasarkan kebutuhan, bukan gengsi benchmark
- Untuk penalaran abstrak terdokumentasi: GPT-5.5 paling kuat dibanding Claude Opus 4.7 pada skor ARC-AGI yang dikutip, dengan catatan bahwa evaluasi GPT memakai upaya penalaran “xhigh” di lingkungan riset [
6].
- Untuk agent multi-alat dan workflow MCP: Claude Opus 4.7 punya skor terbaik yang dikutip di MCP-Atlas, yaitu 79,1% versus 75,3% untuk GPT-5.5 [
14].
- Untuk coding agentic berbasis terminal: GPT-5.5 punya sinyal angka paling jelas, yakni 82,7% di Terminal-Bench 2.0, tetapi perbandingan dengan tiga model lain masih belum lengkap [
15].
- Untuk deployment open-weights: DeepSeek V4 dan Kimi K2.6 layak diuji jika bobot terbuka, kontrol deployment, atau kompromi biaya-kinerja menjadi prioritas; namun data yang dikutip belum memberi cukup skor bersama untuk memutuskan pemenang [
8] [
20] [
21].
- Untuk kasus sensitif keselamatan: pisahkan benchmark kemampuan, hasil siber, dan evaluasi keamanan. Ketiganya tidak membuktikan hal yang sama [
1] [
3] [
19].
Kesimpulan yang tidak boleh ditarik
Jangan menyimpulkan bahwa GPT-5.5 adalah model terbaik untuk semua hal hanya karena ia memimpin Claude Opus 4.7 di skor ARC-AGI yang tersedia [6]. Jangan juga menyimpulkan bahwa Claude Opus 4.7 lebih unggul secara umum hanya karena menang di MCP-Atlas [
14]. Setiap benchmark mengukur jenis tugas yang berbeda.
Jangan pula memaksakan peringkat DeepSeek V4 dan Kimi K2.6 melawan dua model proprietari tanpa benchmark bersama. Sinyal dari Artificial Analysis menunjukkan DeepSeek V4 dan Kimi K2.6 penting dalam ekosistem open-weights, tetapi belum cukup untuk membuat klasemen global dengan metrik yang sama seperti GPT-5.5 dan Claude Opus 4.7 [8] [
20] [
21].
Terakhir, jangan mengubah skor kemampuan menjadi garansi keselamatan. Informasi tentang GPT-5.5 justru menunjukkan bahwa performa siber yang tinggi dapat berjalan berdampingan dengan kekhawatiran soal jailbreak dan independensi evaluasi [1] [
19].
Kesimpulan
Perbandingan paling jujur adalah perbandingan berbasis tugas: GPT-5.5 memimpin Claude Opus 4.7 pada benchmark ARC-AGI yang tersedia dan punya sinyal angka paling jelas untuk coding agentic; Claude Opus 4.7 memimpin di MCP-Atlas; DeepSeek V4 dan Kimi K2.6 tetap merupakan kandidat open-weights penting, tetapi data yang tersedia belum cukup untuk memeringkatnya secara bersih melawan dua model proprietari tersebut [6] [
8] [
14] [
15] [
20] [
21].
Untuk keputusan produk, langkah paling masuk akal bukan mencari “juara umum”. Uji model pada tugas Anda sendiri: penalaran, pemanggilan alat, penulisan kode, biaya, latensi, batasan deployment, dan tingkat risiko yang bisa diterima.




