Saat empat model ini diletakkan berdampingan, godaan terbesarnya adalah langsung mencari pemenang. Masalahnya, angka yang tersedia datang dari sumber, izin penggunaan tool, konfigurasi reasoning effort, dan harness pengujian yang berbeda. Jadi, bukan satu papan skor umum yang paling berguna, melainkan pemilihan berbasis pekerjaan: GPT-5.5 lebih layak diuji dulu untuk alur terminal atau CLI; Claude Opus 4.7 untuk SWE-Bench, visi, dan computer-use; DeepSeek V4-Pro untuk knowledge/math dan jalur model terbuka; Kimi K2.6 untuk agentic multimodal workflow di Cloudflare Workers AI.[27][
4][
1][
5][
64][
36]
Ringkasan angka benchmark yang bisa dikutip
Tabel ini hanya memuat angka yang tersedia dari sumber yang diberikan. Tanda pisah bukan berarti model tersebut lemah di area itu, melainkan tidak ada angka yang bisa dikutip secara setara dalam kumpulan sumber ini. Yang lebih penting: semua angka ini tidak berasal dari satu harness resmi yang sama, sehingga cocok untuk shortlist awal, bukan untuk menetapkan juara absolut.
| Tes atau tugas | GPT-5.5 | Claude Opus 4.7 | Kimi K2.6 | DeepSeek V4-Pro | Cara membaca |
|---|---|---|---|---|---|
| Terminal-Bench 2.0 | 82,7% [ | 69,4% [ | 66,7 [ | 67,9 [ | Dari data yang bisa dikutip, GPT-5.5 paling menonjol untuk workflow command-line. |
| SWE-Bench Pro | 58,6% [ | 64,3% [ | 58,6 [ | 55,4 [ | Claude memimpin angka yang tersedia, tetapi nilainya berasal dari rangkuman sekunder yang mengutip AWS. |
| SWE-Bench Verified / Resolved | — | 87,6% [ | 80,2 [ | 80,6 [ | Claude tertinggi, tetapi tidak ada angka GPT-5.5 yang sebaris dan penamaan benchmark tidak sepenuhnya sama. |
| Graphwalks 256k: BFS / parents | 73,7 / 90,1 [ | 76,9 / 93,6 [ | — | — | Dalam tabel long context OpenAI pada dua baris 256k ini, Claude Opus 4.7 berada di atas GPT-5.5. |
| Graphwalks 1M: BFS / parents | 45,4 / 58,5 [ | — | — | — | Tabel OpenAI menunjukkan performa long context 1 juta token untuk GPT-5.5; kolom pembanding 1M di tabel yang sama diberi label Opus 4.6, sehingga tidak tepat dipakai untuk menilai Opus 4.7. |
| Knowledge dan math | — | — | — | GPQA Diamond 90,1; GSM8K 92,6; MMLU-Pro 87,5; HLE 37,7 [ | DeepSeek V4-Pro memiliki angka kartu model publik paling lengkap untuk kategori ini. |
| Visi, screenshot, computer-use | — | Peningkatan untuk vision-heavy workloads; koordinat piksel 1:1; visual-acuity XBOW 98,5% [ | Cloudflare menyebutnya native multimodal agentic model, tetapi tidak memberi skor visual benchmark yang sama [ | — | Bukti terkuat untuk tugas visual dan UI operation ada pada Claude Opus 4.7. |
Mengapa tidak langsung membuat ranking total?
Pertama, level sumbernya tidak sama. Angka GPT-5.5 untuk Terminal-Bench 2.0 dan SWE-Bench Pro berasal dari laporan media yang menyebut benchmark yang diberikan OpenAI. Angka Claude Opus 4.7 untuk SWE-Bench Pro, SWE-Bench Verified, dan Terminal-Bench 2.0 berasal dari rangkuman sekunder yang mengutip AWS. Sebagian angka Kimi K2.6 dan DeepSeek V4-Pro berasal dari kartu model di Hugging Face.[27][
4][
84][
64]
Kedua, izin tool bisa membalik hasil. Laporan Mashable tentang HLE menunjukkan Claude Opus 4.7 mencetak 46,9% tanpa tool, sedangkan GPT-5.4 Pro 42,7%. Namun dengan tool, GPT-5.4 Pro tercatat 58,7% dan Claude Opus 4.7 54,7%. Ini bukan skor GPT-5.5, tetapi cukup untuk menunjukkan bahwa hasil with tools dan without tools tidak boleh dicampur dalam satu leaderboard.[6]
Ketiga, versi dan biaya ikut menentukan makna angka. DeepSeek V4 tersedia sebagai V4-Pro dan V4-Flash; Yahoo Finance melaporkan V4-Flash sebagai versi yang lebih efisien dan ekonomis, sedangkan angka rinci yang dikutip di sini terutama merujuk DeepSeek-V4-Pro.[57][
64] Artificial Analysis juga membedakan GPT-5.5 berdasarkan effort variant dan menyebut GPT-5.5 xhigh sekitar 20% lebih mahal untuk menjalankan Index mereka dibanding pendahulunya, tetapi 30% lebih murah daripada Claude Opus 4.7 max.[
24]
GPT-5.5: paling jelas untuk terminal dan konteks panjang
Kekuatan GPT-5.5 yang paling jelas dalam kumpulan data ini adalah Terminal-Bench 2.0. Yahoo Finance / Investing.com melaporkan bahwa benchmark yang disediakan OpenAI menempatkan GPT-5.5 pada 82,7% di Terminal-Bench 2.0, tes untuk mengukur command-line workflows. Laporan yang sama mencantumkan GPT-5.5 pada 58,6% di SWE-Bench Pro, benchmark untuk mengevaluasi penyelesaian issue GitHub.[27]
Untuk long context, tabel OpenAI memberi angka yang lebih rinci. GPT-5.5 mencetak 73,7 pada Graphwalks BFS 256k dan 45,4 pada 1M; pada Graphwalks parents, nilainya 90,1 untuk 256k dan 58,5 untuk 1M. Tabel yang sama menunjukkan GPT-5.4 hanya 9,4 pada Graphwalks BFS 1M, sementara GPT-5.5 mencapai 45,4.[21]
Dari sisi evaluasi pihak ketiga, Artificial Analysis menyebut GPT-5.5 sebagai leading AI model baru. Mereka juga menyatakan OpenAI memimpin lima headline evaluations dan berada di posisi kedua setelah Gemini 3.1 Pro Preview pada tiga evaluasi lainnya. Dalam laporan yang sama, GPT-5.5 xhigh disebut memakai sekitar 40% lebih sedikit output tokens dibanding pendahulunya untuk menjalankan Index mereka.[24]
Prioritas uji: CLI automation, terminal agents, pencarian atau penalaran berbasis konteks panjang, dan agentic coding workflow yang sensitif terhadap penggunaan output token.[27][
21][
24]
Claude Opus 4.7: kuat untuk coding, paling jelas untuk visi dan computer-use
Dokumen resmi Anthropic paling tegas menyoroti area visual dan operasi antarmuka. Anthropic mengatakan perubahan pada Claude Opus 4.7 dapat membuka peningkatan performa untuk vision-heavy workloads, terutama computer use, screenshot, artifact, dan document understanding workflows. Dokumen yang sama juga menyebut koordinat model kini 1:1 dengan piksel aktual, sehingga tidak perlu menghitung scale factor.[1]
Halaman peluncuran Anthropic mengutip benchmark visual-acuity dari XBOW: Claude Opus 4.7 mencapai 98,5%, dibanding 54,5% untuk Opus 4.6.[5] Itu membuat bukti Claude Opus 4.7 lebih langsung untuk pekerjaan seperti memahami screenshot, membaca tata letak dokumen, mengoperasikan desktop UI, atau membangun computer-use agent.[
1][
5]
Untuk coding benchmark, sebuah rangkuman menyebut AWS mencatat Claude Opus 4.7 pada 64,3% di SWE-Bench Pro, 87,6% di SWE-Bench Verified, dan 69,4% di Terminal-Bench 2.0.[4] Angka ini membuat Claude memimpin dalam perbandingan SWE-Bench Pro dan Verified/Resolved yang bisa dikutip di sini, tetapi sumbernya masih lebih lemah dibanding tabel benchmark resmi bersama. Sebelum produksi, tim tetap perlu mengujinya ulang pada repo sendiri.
Ada catatan biaya yang penting: dokumentasi Anthropic mengingatkan bahwa gambar beresolusi tinggi memakai lebih banyak token. Jika detail visual tambahan tidak diperlukan, gambar sebaiknya diturunkan resolusinya sebelum dikirim ke Claude untuk menghindari kenaikan token usage.[1]
Prioritas uji: perbaikan issue GitHub, coding agent, pemahaman screenshot atau dokumen, computer-use agents, dan tugas UI yang membutuhkan koordinat piksel presisi.[1][
4][
5]
Kimi K2.6: kandidat agentic multimodal di Workers AI
Cloudflare mencatat bahwa Moonshot AI Kimi K2.6 tersedia di Workers AI pada 20 April 2026 dengan model ID @cf/moonshotai/kimi-k2.6. Cloudflare menyebut ketersediaan ini sebagai Day 0 support melalui kerja sama dengan Moonshot AI.[36]
Dalam sumber yang sama, Kimi K2.6 digambarkan sebagai native multimodal agentic model. Fokus kemampuannya mencakup long-horizon coding, coding-driven design, proactive autonomous execution, dan swarm-based task orchestration. Cloudflare juga menyebut arsitekturnya Mixture-of-Experts dengan total 1 triliun parameter dan 32 miliar parameter aktif per token.[36]
Untuk angka publik, kartu model Hugging Face Kimi K2.6 mencantumkan Terminal-Bench 2.0 sebesar 66,7, SWE-Bench Pro 58,6, dan SWE-Bench Multilingual 76,7.[84] MarkTechPost juga melaporkan Kimi K2.6 pada 80,2 di SWE-Bench Verified.[
45]
Prioritas uji: tim yang sudah memakai Cloudflare Workers AI, long-horizon coding, coding-driven design, multimodal agent workflow, atau orkestrasi banyak agen.[36][
84]
DeepSeek V4-Pro: angka knowledge dan math paling lengkap, narasi model terbuka paling jelas
Dalam sumber yang tersedia, DeepSeek V4 dibagi menjadi V4-Pro dan V4-Flash. Yahoo Finance melaporkan klaim DeepSeek bahwa V4-Pro unggul jauh atas model open-source lain pada world knowledge benchmarks, dan hanya sedikit di bawah model tertutup papan atas Gemini-Pro-3.1. Laporan yang sama menyebut V4-Flash sebagai pilihan yang lebih efisien dan ekonomis.[57]
Kartu model DeepSeek-V4-Pro di Hugging Face memberi kumpulan angka paling lengkap dalam artikel ini untuk knowledge, math, coding, dan terminal: GPQA Diamond 90,1; GSM8K 92,6; HLE 37,7; MMLU-Pro 87,5; SWE-Bench Pro 55,4; SWE-Bench Verified/Resolved 80,6; dan TerminalBench 2.0 67,9.[64]
CNBC melaporkan bahwa DeepSeek mengatakan V4 telah dioptimalkan untuk agent tools populer seperti Claude Code dan OpenClaw. Dalam laporan yang sama, principal AI analyst Counterpoint Wei Sun menilai profil benchmark V4 menunjukkan potensi agent capability yang kuat dengan biaya jauh lebih rendah.[58]
Prioritas uji: organisasi yang memprioritaskan jalur model terbuka, benchmark knowledge dan math, efisiensi biaya untuk agent tooling, atau evaluasi model di lingkungan lokal dan self-managed.[58][
64]
Shortlist berdasarkan tugas
- Terminal automation / command-line agents: uji GPT-5.5 dulu. Dalam data yang bisa dikutip, GPT-5.5 mencetak 82,7% di Terminal-Bench 2.0, di atas Claude Opus 4.7 69,4%, DeepSeek V4-Pro 67,9, dan Kimi K2.6 66,7.[
27][
4][
64][
84]
- Software engineering repair / tugas mirip SWE-Bench Pro: mulai dari Claude Opus 4.7, tetapi wajib uji di repo sendiri. Angka yang tersedia menempatkan Claude Opus 4.7 di 64,3%, GPT-5.5 dan Kimi K2.6 sama-sama 58,6, dan DeepSeek V4-Pro 55,4; namun angka Claude berasal dari sumber sekunder.[
4][
27][
84][
64]
- Screenshot, document understanding, dan computer-use: Claude Opus 4.7 lebih dulu. Dokumentasi Anthropic secara langsung menyebut vision-heavy workflows, computer use, dan koordinat piksel 1:1; halaman peluncurannya juga mengutip hasil visual-acuity XBOW 98,5%.[
1][
5]
- Knowledge/math dan jalur model terbuka: masukkan DeepSeek V4-Pro ke shortlist. Kartu model Hugging Face-nya mencantumkan skor GPQA Diamond, GSM8K, HLE, MMLU-Pro, SWE-Bench, dan TerminalBench 2.0.[
64]
- Multimodal agentic workflow di Workers AI: Kimi K2.6 layak diuji. Cloudflare sudah menyediakan Day 0 support untuk Kimi K2.6 di Workers AI dan memosisikannya sebagai native multimodal agentic model untuk long-horizon coding serta swarm-based task orchestration.[
36]
Sebelum adopsi, ulangi pengujian dengan kondisi yang sama
Kesimpulan internal yang bisa dipertanggungjawabkan harus memakai versi model atau API model ID yang sama, panjang konteks yang sama, izin tool yang sama, reasoning effort yang sama, temperature yang sama, token budget yang sama, dan scoring harness yang sama. Izin tool sangat penting karena laporan HLE menunjukkan with tools dan without tools dapat mengubah posisi relatif model.[6]
Biaya juga harus diuji bersama kemampuan. Artificial Analysis melaporkan GPT-5.5 xhigh sekitar 20% lebih mahal daripada pendahulunya untuk menjalankan Index mereka, tetapi 30% lebih murah daripada Claude Opus 4.7 max, sekaligus memakai sekitar 40% lebih sedikit output tokens dibanding pendahulunya.[24] Di sisi lain, dokumentasi Anthropic mengingatkan bahwa gambar beresolusi tinggi akan memakai lebih banyak token.[
1] Untuk agent produksi, latensi, token usage, keberhasilan tool call, dan kemampuan memperbaiki error sering sama pentingnya dengan satu skor benchmark.
Intinya
Perbandingan paling masuk akal saat ini bukan ranking tunggal, melainkan pemetaan tugas. Untuk Terminal-Bench, GPT-5.5 paling menonjol. Untuk SWE-Bench serta visi dan computer-use, Claude Opus 4.7 punya bukti paling kuat. Untuk knowledge dan math berdasarkan kartu model, DeepSeek V4-Pro paling lengkap. Untuk agentic multimodal coding di Workers AI, Kimi K2.6 layak masuk daftar kandidat.[27][
4][
1][
5][
64][
36]
Peringkat total baru layak dibuat ketika keempat model diuji dalam harness yang sama, dengan versi, izin tool, dan konfigurasi reasoning yang sama. Sampai itu tersedia, pendekatan yang paling aman adalah memilih model berdasarkan pekerjaan nyata yang akan dijalankan.




