Melihat benchmark publik, empat model ini sebaiknya tidak diperlakukan seperti lomba lari dengan satu garis finis. GPT-5.5 dan Claude Opus 4.7 memang punya lebih banyak angka yang muncul dalam tabel perbandingan yang sama. Namun Kimi K2.6 mencampur angka dari model card dan harness terpisah, sementara DeepSeek V4 belum memiliki cukup angka pembanding langsung untuk benchmark coding utama dalam sumber yang tersedia [1][
2][
5][
6].
Jadi pertanyaan yang lebih berguna bukan siapa model paling pintar, melainkan: untuk pekerjaan Anda, model mana yang perlu diuji lebih dulu?
Jawaban cepat berdasarkan jenis pekerjaan
- Agen coding berbasis terminal: GPT-5.5 layak diuji pertama. OpenAI menyatakan GPT-5.5 mencapai 82,7% di Terminal-Bench 2.0, sementara tabel publik menempatkan Claude Opus 4.7 di 69,4% dan Kimi K2.6 di 66,7% [
19][
8][
13][
6].
- Perbaikan kode dan penyelesaian isu GitHub nyata: Claude Opus 4.7 menjadi kandidat awal paling kuat. Angka publik menunjukkan SWE-Bench Pro 64,3% dan SWE-Bench Verified 87,6%, lebih tinggi daripada SWE-Bench Pro GPT-5.5 yang dilaporkan 58,6% [
27][
19].
- Konteks multimodal panjang: Kimi K2.6 pantas masuk daftar uji. Model ini diperkenalkan dengan dukungan input teks, gambar, dan video, serta rute konteks 256k [
7].
- Panggilan API massal yang sensitif biaya: DeepSeek V4 menonjol dari sisi harga. Mashable mencatat harga API per 1 juta token: DeepSeek V4 US$1,74 untuk input dan US$3,48 untuk output; GPT-5.5 US$5 untuk input dan US$30 untuk output; Claude Opus 4.7 US$5 untuk input dan US$25 untuk output [
3].
Tabel benchmark utama
Tanda — berarti angka yang langsung sebanding tidak cukup jelas dalam sumber publik yang tersedia. Itu bukan berarti model tersebut tidak mampu menjalankan tugasnya.
| Benchmark | GPT-5.5 | Claude Opus 4.7 | Kimi K2.6 | DeepSeek V4 | Cara membacanya |
|---|---|---|---|---|---|
| Terminal-Bench 2.0 | 82,7% [ | 69,4% [ | 66,7% [ | — | Untuk alur kerja terminal dan baris perintah, angka publik GPT-5.5 paling tinggi. |
| SWE-Bench Pro | 58,6% [ | 64,3% [ | 58,6% [ | — | Untuk perbaikan kode dan isu GitHub nyata, Claude Opus 4.7 unggul. |
| SWE-Bench Verified | — | 87,6% [ | 80,2% [ | — | Dalam sumber yang tersedia, angka langsung muncul untuk Claude Opus 4.7 dan Kimi K2.6. |
| GPQA Diamond | 93,6% [ | 94,2% [ | — | — | GPT-5.5 dan Claude sangat dekat; angka publik Claude sedikit lebih tinggi. |
| HLE with tools | 52,2% [ | 54,7% [ | 54,0% [ | — | Claude dan Kimi tampak tinggi, tetapi angka Kimi bisa berasal dari kondisi pembanding berbeda [ |
| BrowseComp | 84,4% [ | 79,3% [ | — | — | Untuk evaluasi browsing dan pencarian web, angka publik GPT-5.5 lebih tinggi. |
| OSWorld-Verified | 78,7% [ | 78,0% [ | — | — | Selisih GPT-5.5 dan Claude Opus 4.7 kecil. |
| MCP Atlas | 75,3% [ | 79,1% [ | — | — | Untuk evaluasi integrasi tool dan MCP, Claude Opus 4.7 lebih tinggi. |
GPT-5.5: kuat untuk kerja terminal yang panjang
OpenAI menyebut GPT-5.5 sebagai model agentic coding terkuat mereka saat itu. Pada Terminal-Bench 2.0, GPT-5.5 mencapai 82,7%; pada SWE-Bench Pro, model ini mencapai 58,6% [19]. Menurut OpenAI, Terminal-Bench 2.0 menguji alur kerja command-line kompleks yang membutuhkan perencanaan, iterasi, dan koordinasi tool, sedangkan SWE-Bench Pro menguji kemampuan menyelesaikan isu GitHub dunia nyata [
19].
Bagi tim engineering, ini membuat GPT-5.5 menarik untuk pekerjaan seperti menjalankan sesi terminal panjang, membuat dan memperbaiki file, mengulang perintah shell, mereproduksi kegagalan CI, atau mengoordinasikan beberapa tool dalam sandbox. Namun angka ini tidak berarti GPT-5.5 otomatis unggul di semua tugas coding. Pada SWE-Bench Pro, Claude Opus 4.7 dilaporkan 64,3%, lebih tinggi daripada GPT-5.5 yang 58,6% [19][
27].
Claude Opus 4.7: kandidat kuat untuk perbaikan kode dan review
Claude Opus 4.7 dilaporkan mencapai SWE-Bench Pro 64,3% dan SWE-Bench Verified 87,6% [27]. DataCamp merangkum bahwa Opus 4.7 dievaluasi di 14 benchmark yang mencakup coding, penalaran, penggunaan tool, penggunaan komputer, dan penalaran visual [
27].
Dalam perbandingan yang sama dengan GPT-5.5, Claude Opus 4.7 juga sedikit unggul di GPQA Diamond, yakni 94,2% melawan 93,6%, serta MCP Atlas, yakni 79,1% melawan 75,3% [8][
13]. Sebaliknya, GPT-5.5 lebih tinggi di Terminal-Bench 2.0 dan BrowseComp [
8][
13][
19]. Dengan kata lain, Claude Opus 4.7 lebih tepat dibaca sebagai kandidat awal untuk perbaikan kode, penyelesaian isu, dan pekerjaan review yang menuntut ketelitian, bukan sebagai pemenang mutlak untuk semua otomasi terminal.
Kimi K2.6: menarik untuk input panjang dan multimodal, tetapi kondisi skor perlu dicek
Kimi K2.6 diperkenalkan dengan SWE-Bench Pro 58,6% dan SWE-Bench Verified 80,2%. Panduan lain juga mencantumkan Terminal-Bench 2.0 66,7% dan HLE with tools 54,0% [1][
6]. Namun panduan tersebut menjelaskan bahwa angka K2.6 bersumber dari model card resmi Moonshot AI, dan SWE-Bench Pro diberi catatan sebagai Moonshot in-house harness [
6].
Karena itu, meskipun angka SWE-Bench Pro Kimi K2.6 sama-sama 58,6% seperti GPT-5.5, kita tidak bisa langsung menyimpulkannya sebagai seri sempurna dalam kondisi evaluasi yang identik [1][
6][
19]. Nilai jual Kimi K2.6 lebih jelas pada sisi produk: model ini disebut mendukung input teks, gambar, dan video, serta rute konteks 256k [
7]. Untuk aplikasi yang perlu membaca konteks sangat panjang atau menggabungkan beberapa jenis input, Kimi layak diuji secara terpisah.
DeepSeek V4: harga menarik, tetapi validasi akurasi wajib
Dalam tabel ini, DeepSeek V4 tidak memiliki cukup angka publik yang langsung sebanding untuk Terminal-Bench, SWE-Bench Pro, SWE-Bench Verified, atau GPQA Diamond. Yang tersedia lebih banyak adalah gambaran lain. Artificial Analysis menyebut DeepSeek V4 Pro Max mencetak -10 di AA-Omniscience, naik 11 poin dibanding V3.2, sedangkan V4 Flash Max mencetak -23 [2]. Sumber yang sama melaporkan tingkat halusinasi 94% untuk V4 Pro dan 96% untuk V4 Flash, dengan interpretasi bahwa ketika tidak tahu jawabannya, model hampir selalu tetap menjawab [
2].
Dari sisi arsitektur, DataCamp menjelaskan bahwa DeepSeek V4 menggunakan Mixture of Experts. Model Pro memiliki 1,6 triliun parameter total dengan 49 miliar parameter aktif, sedangkan model Flash memiliki 284 miliar parameter total dengan 13 miliar parameter aktif [4]. Dari sisi biaya, harga API yang dirangkum Mashable jauh lebih rendah daripada GPT-5.5 dan Claude Opus 4.7 [
3].
Artinya, DeepSeek V4 masuk akal untuk dipertimbangkan pada pekerjaan volume besar, alur internal yang bisa diverifikasi, atau evaluasi model open-weight. Tetapi untuk produk yang membutuhkan akurasi tinggi, laporan halusinasi tinggi dan minimnya angka pembanding umum berarti Anda perlu menyiapkan evaluasi sendiri, pemeriksaan pascaproses, dan deteksi kegagalan [2][
3][
4].
Panduan memilih model berdasarkan use case
| Use case | Model yang diuji pertama | Alasan |
|---|---|---|
| Automasi terminal panjang, agen berbasis shell, reproduksi CI | GPT-5.5 | Terminal-Bench 2.0 mencatat GPT-5.5 82,7%, Claude Opus 4.7 69,4%, dan Kimi K2.6 66,7% [ |
| Penyelesaian isu GitHub nyata, perbaikan kode, tugas ala SWE-Bench | Claude Opus 4.7 | Claude Opus 4.7 dilaporkan mencapai SWE-Bench Pro 64,3% dan SWE-Bench Verified 87,6% [ |
| Browsing dan eksplorasi web | GPT-5.5 | BrowseComp mencatat GPT-5.5 84,4% dan Claude Opus 4.7 79,3% [ |
| Integrasi MCP dan orkestrasi tool | Claude Opus 4.7 | MCP Atlas mencatat Claude Opus 4.7 79,1% dan GPT-5.5 75,3% [ |
| Konteks multimodal panjang | Kimi K2.6 | Kimi K2.6 disebut mendukung input teks, gambar, video, dan rute konteks 256k [ |
| Panggilan API massal yang sensitif biaya | DeepSeek V4 | Harga token DeepSeek V4 lebih rendah, tetapi laporan halusinasi tinggi dari Artificial Analysis tetap harus diperhitungkan [ |
Mengapa juara umum belum bisa ditetapkan
Pertama, sumber yang tersedia belum cukup menunjukkan pengujian independen yang menjalankan keempat model dengan prompt, akses tool, anggaran reasoning, dan penilai yang sama. GPT-5.5 dan Claude Opus 4.7 punya lebih banyak perbandingan bersama, tetapi Kimi K2.6 mencampur angka model card dan in-house harness, sedangkan DeepSeek V4 masih kosong pada banyak baris benchmark umum di tabel ini [1][
2][
5][
6].
Kedua, nama benchmark yang sama belum tentu berarti kondisi pengujian sama. Satu rangkuman menyebut skor GPT-5.5 dan Claude Opus 4.7 dapat terlihat sebanding dalam bentuk, tetapi belum tentu identik dalam metodologi [5]. Anthropic juga menyatakan bahwa evaluasi Terminal-Bench 2.0 mereka memakai Terminus-2 harness dan kondisi sumber daya tertentu [
31].
Ketiga, skor benchmark hanya sebagian dari kualitas produk. Dalam implementasi nyata, Anda tetap perlu melihat cara model gagal, tingkat halusinasi, latensi, biaya, stabilitas pemanggilan tool, kebijakan keamanan, dan kemampuan mereproduksi log. ExplainX juga mengingatkan bahwa definisi benchmark, prompt, dan kebijakan tool dapat menggeser skor, sehingga angka publik tidak boleh menggantikan eval harness internal Anda [28].
Kesimpulan
Jika hanya memakai bukti publik saat ini, strategi paling rasional adalah uji GPT-5.5 lebih dulu untuk agen terminal, Claude Opus 4.7 untuk perbaikan kode ala SWE-Bench, Kimi K2.6 untuk konteks multimodal panjang, dan DeepSeek V4 untuk volume besar yang sangat sensitif biaya [19][
27][
7][
3]. Namun pemenang umum empat model ini sebaiknya belum diputuskan. Skor publik dapat berubah karena prompt, akses tool, pengaturan reasoning, dan harness evaluasi yang berbeda [
5][
28][
31].




