Membandingkan GPT-5.5, Claude Opus 4.7, DeepSeek V4, dan Kimi K2.6 seolah-olah ada satu klasemen absolut justru mudah menyesatkan. Angka yang tersedia datang dari sumber, tingkat reasoning, dan harness atau cara menjalankan tes yang berbeda. LLM Stats juga mengingatkan bahwa sebagian skor GPT-5.5 dan Claude Opus 4.7 adalah skor yang dilaporkan penyedia pada tier reasoning tinggi; bentuknya bisa dibandingkan, tetapi metodologinya tidak sepenuhnya sama.[3]
Cara baca yang lebih aman: pakai benchmark publik untuk menentukan prioritas uji coba, bukan untuk mengambil keputusan final. Untuk tim produk, engineering, atau data, pertanyaan praktisnya bukan siapa yang paling pintar, melainkan model mana yang paling cocok untuk tugas, risiko error, dan anggaran token Anda.
Rekomendasi cepat: mulai uji dari mana?
| Kebutuhan utama | Coba lebih dulu | Alasan |
|---|---|---|
| Agentic web browsing, otomasi terminal, workflow lintas tool | GPT-5.5 | GPT-5.5 mencetak 84,4% di BrowseComp dan 82,7% di Terminal-Bench 2.0, lebih tinggi daripada angka Claude Opus 4.7 dan DeepSeek-V4-Pro-Max dalam ringkasan VentureBeat.[ |
| Reasoning sulit, review, keputusan dengan toleransi error rendah | Claude Opus 4.7 | Claude Opus 4.7 memimpin di GPQA Diamond 94,2% dan Humanity’s Last Exam no-tools 46,9% dibanding GPT-5.5 dan DeepSeek-V4-Pro-Max pada tabel yang sama.[ |
| Panggilan API volume tinggi dan sensitif biaya | DeepSeek V4 | Harga publik DeepSeek V4 adalah US$1,74 per 1 juta token input dan US$3,48 per 1 juta token output, lebih murah daripada GPT-5.5 dan Claude Opus 4.7 pada metrik harga yang sama.[ |
| Eksperimen coding-agent sumber terbuka dan workflow coding panjang | Kimi K2.6 | DocsBot menggambarkan Kimi K2.6 sebagai model agentic multimodal sumber terbuka dari Moonshot AI dengan konteks 256K, tetapi data publiknya belum lengkap untuk dibandingkan empat model satu meja.[ |
Catatan singkat: token adalah unit teks yang dipakai untuk menghitung biaya API. Jendela konteks adalah seberapa banyak instruksi, dokumen, kode, atau riwayat percakapan yang bisa dibawa model dalam satu panggilan.
Angka inti yang bisa dibandingkan
Nama DeepSeek dalam sumber tidak selalu sama. Sumber harga memakai DeepSeek V4 atau DeepSeek V4 Pro, sementara sebagian benchmark memakai DeepSeek-V4-Pro-Max.[1][
7][
17] Tabel di bawah mempertahankan nama dari sumber agar tidak menyamakan konfigurasi yang mungkin berbeda.
| Metrik | GPT-5.5 | Claude Opus 4.7 | DeepSeek V4 / V4-Pro-Max | Kimi K2.6 |
|---|---|---|---|---|
| Artificial Analysis Intelligence Index | xhigh 60; high 59.[ | Adaptive Reasoning, Max Effort 57.[ | Ringkasan yang tersedia tidak mencantumkan skor setara.[ | Ringkasan yang tersedia tidak mencantumkan skor setara.[ |
| BrowseComp | 84,4%.[ | 79,3%.[ | DeepSeek-V4-Pro-Max 83,4%.[ | Belum terlihat skor empat model satu meja. |
| Terminal-Bench 2.0 | 82,7%.[ | 69,4%.[ | 67,9%.[ | 66,70%, tetapi dari perbandingan lain melawan Claude Opus 4.6 dan GPT-5.4, bukan empat model ini satu meja.[ |
| SWE-Bench Pro | 58,6%.[ | 64,3%.[ | DeepSeek V4 Pro 55,4%.[ | 58,60%, tetapi Verdent mencatat penggunaan Moonshot in-house harness dan pembandingnya bukan GPT-5.5, Claude Opus 4.7, serta DeepSeek V4 dalam satu set yang sama.[ |
| GPQA Diamond | 93,6%.[ | 94,2%.[ | DeepSeek-V4-Pro-Max 90,1%.[ | Belum terlihat skor empat model satu meja. |
| Humanity’s Last Exam, no tools | 41,4%; GPT-5.5 Pro 43,1%.[ | 46,9%.[ | 37,7%.[ | Belum terlihat skor empat model satu meja. |
| Harga API input / output per 1 juta token | US$5 / US$30; jendela konteks 1 juta.[ | US$5 / US$25; jendela konteks 1 juta.[ | US$1,74 / US$3,48; jendela konteks 1 juta.[ | Sumber yang tersedia tidak memberi harga setara; DocsBot menyebut konteks 256K.[ |
1. Untuk leaderboard umum: GPT-5.5 unggul di indeks yang terlihat
Ringkasan Artificial Analysis menempatkan model teratas berdasarkan Intelligence Index sebagai berikut: GPT-5.5 xhigh di 60, GPT-5.5 high di 59, Claude Opus 4.7 Adaptive Reasoning, Max Effort di 57, disusul Gemini 3.1 Pro Preview dan GPT-5.4 xhigh yang juga berada di 57.[2]
Kesimpulan yang bisa ditarik terbatas: pada ringkasan Intelligence Index yang terlihat, GPT-5.5 berada di depan Claude Opus 4.7.[2] Namun, itu belum cukup untuk membuat ranking lengkap empat model, karena ringkasan yang sama tidak menampilkan skor DeepSeek V4 dan Kimi K2.6 dalam metrik setara.[
2]
2. Untuk agent, browsing, dan terminal: GPT-5.5 paling kuat; DeepSeek dekat di browsing
BrowseComp mengukur kemampuan agentic web browsing, terutama pencarian informasi yang sangat terstruktur. Dalam ringkasan VentureBeat, GPT-5.5 mencetak 84,4%, DeepSeek-V4-Pro-Max 83,4%, dan Claude Opus 4.7 79,3%.[7] Artinya, untuk tugas browsing berbasis agent, DeepSeek-V4-Pro-Max sangat dekat dengan GPT-5.5, sementara Claude Opus 4.7 tertinggal dalam tabel tersebut.[
7]
Di Terminal-Bench 2.0, jaraknya lebih besar. VentureBeat mencatat GPT-5.5 di 82,7%, Claude Opus 4.7 di 69,4%, dan DeepSeek di 67,9%.[7] Yahoo/Investing.com juga menjelaskan bahwa Terminal-Bench 2.0 menguji workflow command-line dan mencantumkan GPT-5.5 pada 82,7%.[
31]
Kimi K2.6 punya angka Terminal-Bench 2.0 sebesar 66,70%, tetapi angka itu berasal dari perbandingan Kimi K2.6 dengan Claude Opus 4.6 dan GPT-5.4, bukan dengan GPT-5.5, Claude Opus 4.7, dan DeepSeek V4 dalam satu tabel yang sama.[4]
3. Untuk reasoning dan review: Claude Opus 4.7 lebih meyakinkan
Pada GPQA Diamond, VentureBeat mencatat Claude Opus 4.7 di 94,2%, GPT-5.5 di 93,6%, dan DeepSeek-V4-Pro-Max di 90,1%.[7] Pada Humanity’s Last Exam no-tools, Claude Opus 4.7 juga memimpin dengan 46,9%, di atas GPT-5.5 41,4%, GPT-5.5 Pro 43,1%, dan DeepSeek-V4-Pro-Max 37,7%.[
7]
LLM Stats memberi pembacaan yang senada. Dari 10 benchmark yang dilaporkan kedua penyedia, Claude Opus 4.7 unggul di 6 benchmark dan GPT-5.5 unggul di 4 benchmark; keunggulan Claude terkonsentrasi pada tes reasoning-heavy dan review-grade, sedangkan keunggulan GPT-5.5 muncul pada tes long-running tool-use.[3]
Implikasinya: untuk tugas seperti audit jawaban, analisis keputusan, review teknis, atau kasus yang mahal jika salah, Claude Opus 4.7 layak menjadi kandidat pertama. Namun, tetap uji dengan data dan standar keberhasilan Anda sendiri, karena benchmark publik tidak selalu mewakili konteks produksi.
4. Untuk coding dan SWE: Claude unggul di SWE-Bench Pro, tetapi workflow tool-use perlu dilihat terpisah
DataCamp mencantumkan SWE-Bench Pro: DeepSeek V4 Pro 55,4%, GPT-5.5 58,6%, dan Claude Opus 4.7 64,3%.[17] Yahoo/Investing.com juga mencatat GPT-5.5 di 58,6% pada SWE-Bench Pro, yang menguji penyelesaian issue GitHub.[
31]
Kimi K2.6 menarik untuk coding-agent, tetapi pembacaannya perlu hati-hati. Verdent mencantumkan Kimi K2.6 di 58,60% pada SWE-Bench Pro, 80,20% pada SWE-Bench Verified, dan 89,60% pada LiveCodeBench v6. Namun, sumber yang sama mencatat bahwa angka Kimi K2.6 berasal dari model card resmi Moonshot AI dan SWE-Bench Pro memakai Moonshot in-house harness.[4]
Jadi, kalau fokus Anda adalah perbaikan repository besar, code review, atau coding agent yang bekerja lama, jangan hanya melihat satu angka SWE. Claude Opus 4.7 unggul pada SWE-Bench Pro yang terlihat; GPT-5.5 jauh lebih kuat pada Terminal-Bench 2.0; Kimi K2.6 sebaiknya masuk daftar uji untuk repo, toolchain, dan pola deployment Anda sendiri.[17][
7][
4]
5. Untuk harga dan konteks: DeepSeek V4 paling jelas hemat biaya
Mashable mencantumkan harga API DeepSeek V4 sebesar US$1,74 per 1 juta token input dan US$3,48 per 1 juta token output, dengan jendela konteks 1 juta token. Pada metrik yang sama, GPT-5.5 tercatat US$5 per 1 juta token input dan US$30 per 1 juta token output, sementara Claude Opus 4.7 US$5 per 1 juta token input dan US$25 per 1 juta token output.[1]
DataCamp memakai angka harga yang sama untuk DeepSeek V4 Pro, GPT-5.5, dan Claude Opus 4.7, serta mencantumkan jendela konteks sekitar 1 juta token untuk ketiganya.[17] Dengan angka publik tersebut, DeepSeek V4 jelas lebih murah. Ditambah skor BrowseComp DeepSeek-V4-Pro-Max 83,4% yang mendekati GPT-5.5 84,4%, DeepSeek V4 layak menjadi kandidat awal untuk routing API yang sensitif biaya.[
1][
7][
17]
Untuk Kimi K2.6, sumber yang tersedia tidak memberi harga API dengan metrik setara. DocsBot menyebut Kimi K2.6 memiliki konteks 256K dan memposisikannya untuk long-horizon coding, coding-driven design, autonomous execution, serta swarm-based orchestration.[5]
Cara menerapkan di produk: pakai routing, bukan pemenang tunggal
Untuk sebagian besar tim, pendekatan paling masuk akal bukan memilih satu model untuk semua hal, melainkan membuat lapisan routing dan evaluasi regresi.
- Pakai GPT-5.5 sebagai baseline agentic kelas atas. Angkanya kuat di BrowseComp dan Terminal-Bench 2.0; OpenAI juga mencantumkan GPT-5.5 di GDPval 84,9%, OSWorld-Verified 78,7%, dan Tau2-bench Telecom 98,0% untuk benchmark yang berkaitan dengan pekerjaan pengetahuan dan penggunaan tool.[
7][
23]
- Pakai Claude Opus 4.7 untuk reasoning, review, dan tugas rendah toleransi error. Model ini menonjol di GPQA Diamond, Humanity’s Last Exam no-tools, serta kategori reasoning-heavy dan review-grade menurut LLM Stats.[
7][
3]
- Pakai DeepSeek V4 untuk menekan biaya panggilan API bervolume tinggi. Harga tokennya lebih rendah daripada GPT-5.5 dan Claude Opus 4.7, sementara skor browsing-nya dekat dengan GPT-5.5.[
1][
7]
- Masukkan Kimi K2.6 ke kolam eksperimen coding-agent sumber terbuka. Datanya menjanjikan untuk coding dan agentic workflow, tetapi belum cukup untuk ranking empat model secara adil; uji dengan repository, tool, dan batasan deployment Anda sendiri.[
4][
5]
Agar hasil uji tidak bias, gunakan prompt yang sama, hak akses tool yang sama, panjang konteks yang sama, dan kriteria sukses yang sama. Catat juga biaya input, biaya output, waktu eksekusi, tingkat retry, dan jenis error yang muncul.
Batasan penting
- Tidak semua model diuji satu meja dengan konfigurasi yang sama. GPT-5.5, Claude Opus 4.7, dan DeepSeek-V4-Pro-Max punya beberapa angka dalam ringkasan VentureBeat, sedangkan Kimi K2.6 terutama muncul dalam perbandingan lain melawan Claude Opus 4.6 dan GPT-5.4.[
7][
4]
- Konfigurasi model bisa berbeda. Artificial Analysis membedakan GPT-5.5 xhigh dan high, Claude Opus 4.7 memakai Adaptive Reasoning, Max Effort, sementara VentureBeat memakai nama DeepSeek-V4-Pro-Max.[
2][
7]
- Skor self-reported dan skor pihak ketiga tidak selalu setara. LLM Stats secara eksplisit mengingatkan bahwa sebagian skor GPT-5.5 dan Claude Opus 4.7 dilaporkan penyedia pada tier reasoning tinggi dan tidak sepenuhnya sama metodologinya.[
3]
- Benchmark publik hanya peta awal. BrowseComp condong ke web browsing agentic, Terminal-Bench 2.0 ke workflow command-line, dan SWE-Bench Pro ke penyelesaian issue GitHub; semuanya tidak menggantikan evaluasi pada tugas nyata Anda.[
7][
31]
Kesimpulan
Jika harus memilih urutan uji berdasarkan data publik yang terlihat: mulai dari GPT-5.5 untuk agentic tool-use dan workflow lintas tool; Claude Opus 4.7 untuk reasoning, review, dan keputusan yang mahal jika salah; DeepSeek V4 untuk API berbiaya lebih rendah; dan Kimi K2.6 untuk eksperimen coding-agent sumber terbuka.[2][
3][
1][
4][
5]
Namun keputusan produksi sebaiknya tidak berhenti di leaderboard. Benchmark membantu menentukan siapa yang diuji dulu. Pilihan akhir tetap harus ditentukan oleh skenario produk, biaya token, toleransi error, latensi, dan hasil evaluasi regresi di lingkungan Anda sendiri.[3][
7][
31]




