Kesalahan paling umum saat membandingkan GPT-5.5, Claude Opus 4.7, DeepSeek V4, dan Kimi K2.6 adalah mencari satu “juara umum”. Data publik justru mengarah ke jawaban yang lebih praktis: pilih berdasarkan pekerjaan.
GPT-5.5 layak menjadi kandidat default untuk performa tinggi dan workflow agentic yang kompleks. Claude Opus 4.7 lebih menarik untuk riset panjang, analisis bertahap, dan pekerjaan yang menuntut disiplin dokumen. DeepSeek V4 unggul dari sisi biaya. Kimi K2.6 menjadi kandidat penting bila Anda membutuhkan bobot terbuka, konteks panjang, dan input gambar atau video.[4][
6][
7][
9]
Ringkasan cepat: mulai uji dari mana?
| Prioritas Anda | Mulai evaluasi dari | Alasan utama |
|---|---|---|
| Kemampuan umum, agentic workflow, coding berbasis terminal | GPT-5.5 | Artificial Analysis memberi GPT-5.5 xHigh skor 60 dan GPT-5.5 High skor 59, di atas Claude Opus 4.7 di 57; VentureBeat merangkum GPT-5.5 mencapai 82,7% di Terminal-Bench 2.0.[ |
| Riset dokumen panjang, analisis multi-langkah, finance, output yang harus rapi dan bisa ditelusuri | Claude Opus 4.7 | Anthropic menyebut Opus 4.7 mencetak skor keseluruhan 0,715 di benchmark internal research-agent dan 0,813 di modul General Finance, naik dari Opus 4.6 di 0,767.[ |
| Throughput tinggi dan anggaran ketat | DeepSeek V4 | Mashable merangkum harga API DeepSeek V4 sebesar 1,74 dolar AS per juta token input dan 3,48 dolar AS per juta token output, lebih rendah dari GPT-5.5 dan Claude Opus 4.7 pada tabel yang sama.[ |
| Bobot terbuka, input gambar/video, konteks panjang 256K | Kimi K2.6 | Artificial Analysis menyebut Kimi K2.6 sebagai model bobot terbuka terdepan baru, dengan dukungan input gambar, input video, dan konteks maksimum 256K.[ |
Mengapa satu leaderboard saja tidak cukup
Saat ini belum ada data publik yang membandingkan keempat model tersebut secara lengkap dari satu evaluator yang sama, pada waktu yang sama, dengan anggaran reasoning yang sama, dan akses tool yang sama. Bukti yang tersedia berasal dari kombinasi halaman vendor, leaderboard pihak ketiga, rangkuman media, dokumentasi API, halaman routing model, dan uji pribadi.[4][
5][
6][
7][
8][
9][
16][
34][
35]
Perbedaan konfigurasi itu penting. Artificial Analysis, misalnya, membedakan GPT-5.5 xHigh, GPT-5.5 High, dan Claude Opus 4.7 Adaptive Reasoning Max Effort. Dokumentasi OpenAI juga mencantumkan GPT-5.5 dengan pilihan reasoning effort dari none, low, medium, high, hingga xhigh.[4][
35]
Artinya, model yang menang di satu benchmark belum tentu paling cocok untuk prompt, toolchain, batas latensi, dan proses review Anda. Untuk tim produk atau engineering, leaderboard sebaiknya dipakai sebagai penyaring awal, bukan sebagai keputusan final.
Angka benchmark yang paling berguna dibaca bersama
| Metrik | GPT-5.5 | Claude Opus 4.7 | DeepSeek V4 / V4 Pro | Kimi K2.6 | Cara membacanya |
|---|---|---|---|---|---|
| Artificial Analysis Intelligence Index | xHigh 60; High 59 [ | 57 [ | Belum ada skor presisi dalam tabel yang sama pada materi ini | AA Intelligence 53,9 menurut rangkuman OpenRouter [ | GPT-5.5 memimpin di indeks umum; Kimi K2.6 kuat untuk kategori bobot terbuka. |
| Terminal-Bench 2.0 | 82,7% [ | 69,4% [ | 67,9% [ | Belum ada skor publik dari sumber yang sama | Keunggulan GPT-5.5 paling jelas pada tugas agentic berbasis terminal. |
| SWE-Bench Pro | 58,6% [ | Data sebanding dari sumber yang sama tidak tersedia dalam materi ini | 55,4% [ | Sebagian materi Kimi membandingkan dengan GPT-5.4 atau Opus 4.6, bukan empat model ini secara langsung [ | GPT-5.5 dan DeepSeek V4 bisa dibandingkan dari satu rangkuman; Kimi perlu dibaca hati-hati lintas sumber. |
| Humanity’s Last Exam, tanpa tool | 41,4%; GPT-5.5 Pro 43,1% [ | 46,9% [ | 37,7% [ | Belum ada skor publik dari sumber yang sama | Claude Opus 4.7 unggul pada setelan ini. |
| Humanity’s Last Exam, dengan tool | 52,2%; GPT-5.5 Pro 57,2% [ | 54,7% [ | 48,2% [ | Belum ada skor publik dari sumber yang sama | Claude di atas GPT-5.5 base, tetapi di bawah GPT-5.5 Pro. |
| BrowseComp | 84,4% [ | Belum ada skor publik dari sumber yang sama | V4 Pro-Max 83,4% [ | 83,2% [ | Untuk browsing dan pemahaman web, GPT-5.5, DeepSeek V4 Pro-Max, dan Kimi K2.6 tampak berdekatan. |
| Subskor Kimi K2.6 di Artificial Analysis | — | — | — | Intelligence 53,9; Coding 47,1; Agentic 66,0 [ | Kemampuan agentic Kimi menarik, tetapi tetap perlu diuji di toolchain nyata. |
GPT-5.5: kandidat default untuk performa tinggi
OpenAI menyatakan GPT-5.5 dan GPT-5.5 Pro tersedia melalui pembaruan 24 April 2026. Dokumentasi API OpenAI menggambarkan gpt-5.5 sebagai model untuk coding dan pekerjaan profesional, dengan konteks 1M, output maksimum 128K, serta dukungan function calling, web search, file search, dan computer use.[25][
35]
Dari benchmark publik, GPT-5.5 paling masuk akal dijadikan baseline performa tinggi. Artificial Analysis menempatkan GPT-5.5 xHigh di skor 60 dan High di 59. VentureBeat merangkum GPT-5.5 di Terminal-Bench 2.0 pada 82,7%, lebih tinggi dari Claude Opus 4.7 di 69,4% dan DeepSeek V4 di 67,9%.[4][
6]
Komprominya adalah biaya. Dokumentasi API OpenAI mencantumkan GPT-5.5 di 5 dolar AS per juta token input dan 30 dolar AS per juta token output. Jika pekerjaan Anda berupa laporan panjang, agent loop berkali-kali, atau output besar, biaya token output bisa menjadi faktor utama.[35]
Cocok diuji lebih dulu untuk: coding agent kompleks, otomasi terminal, riset lintas tool, dan workflow profesional yang menggabungkan function calling, web search, file search, atau computer use.[35]
Claude Opus 4.7: kuat untuk kerja panjang dan disiplin dokumen
Claude Opus 4.7 diposisikan kuat untuk pekerjaan panjang, bertahap, dan membutuhkan output yang rapi. Anthropic menyebut model ini tied for the top overall score di benchmark internal research-agent dengan skor 0,715, serta memiliki performa long-context paling konsisten di antara model yang mereka uji. Pada modul General Finance, Opus 4.7 mencetak 0,813, naik dari Opus 4.6 di 0,767.[7]
Di rangkuman VentureBeat untuk Humanity’s Last Exam, Claude Opus 4.7 memperoleh 46,9% tanpa tool, lebih tinggi dari GPT-5.5 di 41,4% dan DeepSeek V4 di 37,7%. Saat tool diaktifkan, Claude mencetak 54,7%, di atas GPT-5.5 base di 52,2%, tetapi di bawah GPT-5.5 Pro di 57,2%.[6]
Namun Claude bukan pemenang di semua metrik. Pada Terminal-Bench 2.0, GPT-5.5 mencapai 82,7%, jauh di atas Claude Opus 4.7 di 69,4%.[6] Ada juga sumber pihak ketiga yang menyebut Opus 4.7 mencetak 82,4% di SWE-bench Verified, tetapi itu bukan perbandingan empat model dari sumber yang sama, sehingga tidak bisa dicampur begitu saja dengan SWE-Bench Pro atau leaderboard lain.[
1][
6]
Cocok diuji lebih dulu untuk: riset dokumen panjang, analisis materi finansial, pekerjaan yang perlu menyebut dasar data dengan disiplin, serta workflow multi-langkah yang membutuhkan review ketat.[7]
DeepSeek V4: daya tarik terbesar ada di rasio biaya-kualitas
DeepSeek V4 paling menonjol dari sisi harga. Mashable merangkum biaya API DeepSeek V4 di 1,74 dolar AS per juta token input dan 3,48 dolar AS per juta token output. Dalam rangkuman yang sama, GPT-5.5 berada di 5/30 dolar AS, sedangkan Claude Opus 4.7 di 5/25 dolar AS.[3]
Dari sisi performa, DeepSeek V4 terlihat mendekati jajaran terdepan, tetapi tidak memimpin secara menyeluruh dalam rangkuman publik yang tersedia. VentureBeat mencatat DeepSeek V4 memperoleh 37,7% di HLE tanpa tool dan 48,2% dengan tool, di bawah GPT-5.5, GPT-5.5 Pro, dan Claude Opus 4.7 pada metrik yang sama. Di Terminal-Bench 2.0, DeepSeek V4 mencetak 67,9%, dekat dengan Claude Opus 4.7 di 69,4%, tetapi masih jauh dari GPT-5.5 di 82,7%.[6]
Karena itu, DeepSeek V4 lebih tepat dilihat sebagai kandidat utama untuk sistem produksi yang sensitif biaya, bukan sebagai pengganti otomatis untuk semua model frontier tertutup. Pertanyaan praktisnya: apakah kualitasnya sudah melewati ambang yang Anda butuhkan, dan apakah harga token yang lebih rendah cukup untuk menutup biaya retry, review manusia, dan latensi tambahan?[3][
6]
Cocok diuji lebih dulu untuk: batch processing, inferensi volume besar, aplikasi dengan margin tipis, dan sistem yang bisa menerima proses review kualitas demi menekan biaya token.[3]
Kimi K2.6: kandidat bobot terbuka untuk konteks panjang dan multimodal
Kimi K2.6 menarik karena tiga hal: bobot terbuka, multimodal, dan konteks panjang. Artificial Analysis menyebutnya sebagai model bobot terbuka terdepan baru, dengan dukungan native untuk input gambar dan video, output teks, serta panjang konteks maksimum 256K.[9]
OpenRouter mencantumkan Kimi K2.6 dengan Artificial Analysis Intelligence 53,9, Coding 47,1, dan Agentic 66,0. Halaman yang sama juga menampilkan maksimum token 256K dan output maksimum 66K.[5]
Untuk tugas riset web, DocsBot merangkum BrowseComp Kimi K2.6 di 83,2%, sedangkan GPT-5.5 di 84,4%.[8] Angka ini menunjukkan Kimi cukup dekat dengan GPT-5.5 pada rangkuman tersebut. Namun, beberapa materi Kimi K2.6 terutama membandingkannya dengan GPT-5.4 atau Claude Opus 4.6, bukan langsung dengan GPT-5.5, Claude Opus 4.7, dan DeepSeek V4 dalam satu evaluasi seragam.[
14][
15]
Cocok diuji lebih dulu untuk: tim yang membutuhkan ekosistem bobot terbuka, kendali deployment lebih besar, pemrosesan konteks panjang, input gambar atau video, serta workflow yang mencari kompromi antara biaya, kontrol, dan kemampuan.[5][
9]
Biaya dan kapasitas: jangan hanya terpaku pada skor
| Model | Informasi harga dan kapasitas publik | Dampak ke pemilihan |
|---|---|---|
| GPT-5.5 | 5 dolar AS per juta token input, 30 dolar AS per juta token output; konteks 1M; output maksimum 128K; mendukung function calling, web search, file search, dan computer use [ | Cocok untuk tugas kompleks bernilai tinggi, tetapi biaya bisa naik cepat jika output panjang atau agent loop berulang. |
| Claude Opus 4.7 | Mashable merangkum 5 dolar AS per juta token input dan 25 dolar AS per juta token output, dengan konteks 1M [ | Harga output lebih rendah dari GPT-5.5; menarik untuk pekerjaan panjang yang menuntut konsistensi dan disiplin dokumen.[ |
| DeepSeek V4 | Mashable merangkum 1,74 dolar AS per juta token input dan 3,48 dolar AS per juta token output, dengan konteks 1M [ | Kandidat kuat untuk throughput tinggi, batch processing, dan aplikasi yang sangat sensitif biaya. |
| Kimi K2.6 | OpenRouter mencantumkan salah satu rute di 0,7448 dolar AS per juta token input dan 4,655 dolar AS per juta token output; maksimum token 256K dan output maksimum 66K [ | Menarik untuk evaluasi bobot terbuka, konteks panjang, dan input multimodal; harga routing tidak otomatis sama dengan harga semua penyedia.[ |
API price hanya satu bagian dari total biaya. Dalam workflow panjang, Anda juga perlu menghitung token yang terpakai untuk reasoning, tool call, percobaan ulang, logging, dan review manusia. Panduan API OpenAI untuk GPT-5.5 menyarankan workflow yang tool-heavy atau berjalan lama dibandingkan dengan model lain berdasarkan akurasi, konsumsi token, dan latensi end-to-end.[34]
Cara menguji di pekerjaan nyata
Gunakan benchmark publik untuk menyusun shortlist, lalu uji dengan data dan proses Anda sendiri. Minimal, catat empat metrik: tingkat keberhasilan tugas, jenis kegagalan, latensi end-to-end, serta biaya token dan retry. Dokumentasi OpenAI juga menekankan perbandingan akurasi, konsumsi token, dan latensi end-to-end untuk workflow yang berat tool atau berjalan lama.[34]
Uji pribadi bisa menjadi sinyal tambahan, tetapi jangan diperlakukan seperti leaderboard resmi. Dalam tes coding AkitaOnRails pada April 2026, Claude Opus 4.7 mendapat skor 97, GPT-5.5 xHigh Codex 96, Kimi K2.6 87, dan DeepSeek V4 Pro 69. Tabel yang sama mencatat estimasi biaya: Claude Opus 4.7 sekitar 1,10 dolar AS, GPT-5.5 xHigh Codex sekitar 10 dolar AS, Kimi K2.6 sekitar 0,30 dolar AS, dan DeepSeek V4 Pro sekitar 0,50 dolar AS.[16]
Nilai dari uji seperti ini bukan pada klaim “model A pasti lebih baik dari model B”, melainkan pada pengingat bahwa pemilihan model bergantung pada codebase, izin tool, pola prompt, standar review, dan biaya gagal-ulang yang benar-benar Anda hadapi.[16][
34]
Rekomendasi akhir
Jika hanya boleh memilih satu model untuk masuk tahap evaluasi pertama, mulai dari GPT-5.5. Ia memimpin di Artificial Analysis Intelligence Index dan menunjukkan keunggulan jelas di Terminal-Bench 2.0 dalam rangkuman VentureBeat.[4][
6]
Jika pekerjaan Anda lebih mirip riset dokumen panjang, pemrosesan materi finansial, analisis multi-langkah, atau output yang harus disiplin terhadap data, masukkan Claude Opus 4.7 ke tier pertama. Data internal research-agent dari Anthropic dan angka HLE yang dirangkum VentureBeat mendukung kekuatannya di arah tersebut.[6][
7]
Jika kendala utama adalah volume panggilan dan anggaran, DeepSeek V4 adalah kandidat paling layak untuk uji kurva biaya-kualitas. Rangkuman harga publik menunjukkan biaya input dan output-nya jauh lebih rendah dibanding GPT-5.5 dan Claude Opus 4.7.[3]
Jika Anda membutuhkan ekosistem bobot terbuka, input multimodal, atau konteks 256K, Kimi K2.6 layak masuk daftar pendek. Namun, perbandingan langsung yang lengkap dan seragam antara Kimi K2.6, GPT-5.5, Claude Opus 4.7, dan DeepSeek V4 masih terbatas.[5][
8][
9]
Kesimpulan paling aman: pakai benchmark publik untuk menentukan titik awal, lalu biarkan tugas nyata Anda menentukan model produksi. Leaderboard membantu mempersempit pilihan, tetapi tidak bisa menggantikan trade-off kualitas, biaya, dan latensi di lapangan.[34]




