Perbandingan ini sebaiknya dibaca seperti memilih alat kerja, bukan seperti melihat klasemen liga dengan satu juara. Data yang paling sebanding memuat GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7, dan DeepSeek-V4-Pro-Max dalam satu tabel; Kimi K2.6 harus ditambahkan dari kartu model Hugging Face dan file eval, sehingga tidak adil jika diperlakukan sebagai bagian dari run head-to-head yang sama [6][
25][
37].
Ada satu catatan penting lagi: “DeepSeek V4” tidak selalu merujuk ke varian yang sama di semua sumber. Tabel umum memakai DeepSeek-V4-Pro-Max, sementara angka SWE-Bench Verified di sumber lain merujuk ke DeepSeek V4-Pro, bukan Pro-Max [6][
15]. Jadi kesimpulan yang aman adalah: varian DeepSeek V4 yang berbeda menunjukkan hasil berbeda di sumber berbeda.
Rekomendasi cepat berdasarkan kebutuhan
- Reasoning sulit tanpa tools: mulai dari Claude Opus 4.7. Ia memimpin GPQA Diamond dan Humanity’s Last Exam tanpa tools di tabel utama [
6].
- Tugas agentic di terminal: GPT-5.5 paling menonjol di Terminal-Bench 2.0, dengan 82,7% berbanding 69,4% untuk Claude Opus 4.7 dan 67,9% untuk DeepSeek-V4-Pro-Max [
6].
- Reasoning dengan tools dan browsing: GPT-5.5 Pro memimpin pada baris yang tersedia: 57,2% di HLE dengan tools dan 90,1% di BrowseComp [
6].
- Coding dan eksperimen dengan bobot model: Kimi K2.6 layak diuji terpisah. Kartu modelnya mencantumkan 80,2 di SWE-Bench Verified, 58,6 di SWE-Bench Pro, dan 66,7 di Terminal-Bench 2.0 [
25][
37]. Sumber lain juga menyebut bobot Kimi tersedia di Hugging Face dan dapat dijalankan melalui vLLM, SGLang, atau KTransformers [
7].
- Jika biaya lebih penting daripada posisi pertama: DeepSeek V4 tidak memimpin baris benchmark utama, tetapi sumber mencantumkan harga API US$1,74 per 1 juta token input dan US$3,48 per 1 juta token output, dibanding US$5/US$30 untuk GPT-5.5 dan US$5/US$25 untuk Claude Opus 4.7 [
14][
19].
Tabel ringkas hasil benchmark
| Benchmark | GPT-5.5 | GPT-5.5 Pro | Claude Opus 4.7 | DeepSeek V4 | Kimi K2.6 | Pemimpin menurut data yang tersedia |
|---|---|---|---|---|---|---|
| GPQA Diamond | 93,6% [ | tidak tersedia | 94,2% [ | 90,1% untuk DeepSeek-V4-Pro-Max [ | tidak tersedia | Claude Opus 4.7 [ |
| Humanity’s Last Exam, tanpa tools | 41,4% [ | 43,1% [ | 46,9% [ | 37,7% untuk DeepSeek-V4-Pro-Max [ | tidak tersedia | Claude Opus 4.7 [ |
| Humanity’s Last Exam, dengan tools | 52,2% [ | 57,2% [ | 54,7% [ | 48,2% untuk DeepSeek-V4-Pro-Max [ | tidak tersedia | GPT-5.5 Pro [ |
| Terminal-Bench 2.0 | 82,7% [ | tidak tersedia | 69,4% [ | 67,9% untuk DeepSeek-V4-Pro-Max [ | 66,7 [ | GPT-5.5 [ |
| SWE-Bench Pro / SWE Pro | 58,6% [ | tidak tersedia | 64,3% [ | 55,4% untuk DeepSeek-V4-Pro-Max [ | 58,6 [ | Claude Opus 4.7 [ |
| BrowseComp | 84,4% [ | 90,1% [ | 79,3% [ | 83,4% untuk DeepSeek-V4-Pro-Max [ | tidak tersedia | GPT-5.5 Pro [ |
| MCP Atlas / MCPAtlas Public | 75,3% [ | tidak tersedia | 79,1% [ | 73,6% untuk DeepSeek-V4-Pro-Max [ | tidak tersedia | Claude Opus 4.7 [ |
| SWE-Bench Verified | tidak tersedia | tidak tersedia | 87,6% dalam perbandingan terpisah [ | 80,6% untuk DeepSeek V4-Pro, bukan Pro-Max [ | 80,2 [ | Tidak ada satu baris umum untuk semua model [ |
“Tidak tersedia” berarti angkanya tidak dicantumkan di sumber terkait, bukan berarti model mendapat nilai nol.
Reasoning: Claude kuat tanpa tools, GPT-5.5 Pro naik saat tools dipakai
Untuk GPQA Diamond, selisih Claude Opus 4.7 dan GPT-5.5 tipis: 94,2% melawan 93,6%, sementara DeepSeek-V4-Pro-Max berada di 90,1% [6]. Di Humanity’s Last Exam tanpa tools, jaraknya lebih terasa: Claude Opus 4.7 mencapai 46,9%, dibanding 41,4% untuk GPT-5.5, 43,1% untuk GPT-5.5 Pro, dan 37,7% untuk DeepSeek-V4-Pro-Max [
6].
Namun urutannya berubah ketika tools diizinkan. Pada HLE dengan tools, GPT-5.5 Pro mencatat 57,2%, diikuti Claude Opus 4.7 dengan 54,7%, GPT-5.5 dengan 52,2%, dan DeepSeek-V4-Pro-Max dengan 48,2% [6]. Jadi ringkasnya: Claude tampak lebih kuat untuk reasoning “murni” tanpa tools, sementara GPT-5.5 Pro memimpin pada reasoning yang diperkuat tools di baris HLE yang tersedia [
6].
Coding dan tugas agentic: GPT-5.5 paling jauh di Terminal-Bench
Selisih terbesar GPT-5.5 dalam kumpulan data ini muncul di Terminal-Bench 2.0: 82,7%, jauh di atas Claude Opus 4.7 di 69,4% dan DeepSeek-V4-Pro-Max di 67,9% [6]. Kimi K2.6 tercatat 66,7 di kartu modelnya, dan leaderboard LLM Stats juga mencantumkan 0,667 untuk Kimi K2.6 serta 0,694 untuk Claude Opus 4.7 [
25][
33]. Artinya, untuk skala ini Kimi berada dekat dengan Claude dan DeepSeek, tetapi masih tertinggal jelas dari GPT-5.5 berdasarkan tabel utama [
6][
25][
33].
Untuk SWE-Bench Pro / SWE Pro, pemenangnya berbeda. Claude Opus 4.7 memimpin dengan 64,3%, GPT-5.5 berada di 58,6%, dan DeepSeek-V4-Pro-Max di 55,4% [6]. Kimi K2.6 juga dicantumkan dengan nilai 58,6 di SWE-Bench Pro pada kartu Hugging Face, tetapi angka itu tidak berasal dari run perbandingan yang sama dengan tabel utama [
6][
25].
SWE-Bench Verified sebaiknya tidak diubah menjadi ranking umum untuk semua model. Kimi K2.6 memiliki angka 80,2 dari kartu model dan file eval [25][
37]. Sumber terpisah tentang DeepSeek V4 menyebut Claude Opus 4.7 di 87,6% dan DeepSeek V4-Pro di 80,6%, tetapi tidak memberi baris lengkap untuk GPT-5.5 dan merujuk ke V4-Pro, bukan V4-Pro-Max [
15].
Per model: kekuatan utama masing-masing
GPT-5.5 dan GPT-5.5 Pro
GPT-5.5 paling menonjol di Terminal-Bench 2.0 dengan 82,7%, hasil terbaik pada baris tersebut di tabel utama [6]. GPT-5.5 Pro tidak muncul di semua benchmark, tetapi ketika ada, posisinya kuat: 57,2% di HLE dengan tools dan 90,1% di BrowseComp, keduanya menjadi hasil tertinggi di baris masing-masing [
6].
Jika kebutuhan Anda adalah workflow agentic di terminal, GPT-5.5 layak diuji lebih dulu. Jika tugasnya melibatkan tools, browsing, atau langkah eksternal, GPT-5.5 Pro menjadi kandidat yang lebih menarik berdasarkan data yang tersedia [6].
Claude Opus 4.7
Claude Opus 4.7 memimpin beberapa baris penting di tabel utama: 94,2% di GPQA Diamond, 46,9% di HLE tanpa tools, 64,3% di SWE-Bench Pro / SWE Pro, dan 79,1% di MCP Atlas / MCPAtlas Public [6]. Di sisi lain, Claude tertinggal dari GPT-5.5 di Terminal-Bench 2.0 dan dari GPT-5.5 Pro di HLE dengan tools serta BrowseComp [
6].
Untuk tim yang membutuhkan model pertama untuk reasoning kompleks tanpa tools, atau coding yang dekat dengan pola SWE-Bench Pro, Claude Opus 4.7 terlihat sebagai pilihan terkuat di baris-baris tersebut [6].
Kimi K2.6
Kimi K2.6 tidak bisa diperingkat secara ketat melawan semua model lain karena angkanya dalam artikel ini berasal dari kartu Hugging Face dan file eval terpisah [25][
37]. Namun sebagai kandidat coding, profilnya tetap menarik: kartu model mencantumkan 80,2 di SWE-Bench Verified, 58,6 di SWE-Bench Pro, 76,7 di SWE-Bench Multilingual, 66,7 di Terminal-Bench 2.0, dan 73,1 di OSWorld-Verified [
25][
37].
Daya tarik operasional Kimi adalah ketersediaan bobotnya. Sumber menyebut bobot Kimi K2.6 tersedia di Hugging Face dan model dapat dijalankan lewat vLLM, SGLang, atau KTransformers [7]. Itu tidak otomatis membuat Kimi menjadi pemenang benchmark keseluruhan, tetapi menjadikannya kandidat penting bagi tim yang ingin melakukan eksperimen self-hosted atau lokal [
7][
25].
DeepSeek V4
Di tabel utama, DeepSeek diwakili oleh DeepSeek-V4-Pro-Max [6]. Pada baris yang tersedia, varian ini tidak menempati posisi pertama: 90,1% di GPQA Diamond, 37,7% di HLE tanpa tools, 48,2% di HLE dengan tools, 67,9% di Terminal-Bench 2.0, 55,4% di SWE-Bench Pro / SWE Pro, 83,4% di BrowseComp, dan 73,6% di MCP Atlas / MCPAtlas Public [
6].
Kekuatan DeepSeek V4 dalam kumpulan data ini bukan posisi nomor satu, melainkan harga. Mashable dan DataCamp mencantumkan harga API DeepSeek V4 sebesar US$1,74 per 1 juta token input dan US$3,48 per 1 juta token output; sebagai pembanding, sumber yang sama mencantumkan US$5/US$30 untuk GPT-5.5 dan US$5/US$25 untuk Claude Opus 4.7 [14][
19]. Jika anggaran adalah batas utama, DeepSeek V4 layak masuk evaluasi internal, tetapi tidak tepat disebut pemimpin benchmark berdasarkan tabel ini [
6][
14][
19].
Batasan yang perlu diingat
- Tidak ada satu run umum untuk semua model di semua benchmark. Tabel utama mencakup GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7, dan DeepSeek-V4-Pro-Max; Kimi K2.6 ditambahkan dari sumber terpisah [
6][
25][
37].
- DeepSeek V4 memiliki beberapa varian di sumber berbeda. Tabel utama memakai DeepSeek-V4-Pro-Max, sementara angka SWE-Bench Verified terpisah merujuk ke DeepSeek V4-Pro [
6][
15].
- GPT-5.5 Pro tidak muncul di semua baris. Karena kolom Pro hanya tersedia untuk beberapa benchmark, hasilnya tidak boleh diasumsikan untuk baris yang kosong [
6].
- Kimi K2.6 sebaiknya diuji dengan evaluasi sendiri. Angka Hugging Face berguna, tetapi tidak berasal dari tabel perbandingan yang sama dengan GPT-5.5, Claude Opus 4.7, dan DeepSeek-V4-Pro-Max [
6][
25][
37].
Kesimpulan
Jika hanya melihat baris yang benar-benar sebanding di tabel utama, Claude Opus 4.7 memimpin GPQA Diamond, Humanity’s Last Exam tanpa tools, SWE-Bench Pro, dan MCP Atlas; GPT-5.5 memimpin Terminal-Bench 2.0; sementara GPT-5.5 Pro memimpin HLE dengan tools dan BrowseComp [6]. Kimi K2.6 tampak kuat sebagai kandidat coding dengan bobot yang tersedia, tetapi belum bisa diperingkat ketat melawan semuanya tanpa run perbandingan yang sama [
7][
25][
37]. DeepSeek V4 bukan pemimpin di baris benchmark ini, namun harga API yang lebih rendah membuatnya tetap relevan untuk skenario yang sangat sensitif biaya [
6][
14][
19].




