Benchmark model AI sering menggoda untuk dibaca seperti klasemen: siapa nomor satu, siapa tertinggal. Untuk empat model ini, pendekatan itu kurang aman. Bobot datanya tidak sama. OpenAI menerbitkan angka resmi untuk GPT-5.5 di Terminal-Bench 2.0 dan SWE-Bench Pro [24]. DeepSeek, lewat changelog API resminya, terutama mengonfirmasi ketersediaan V4-Pro dan V4-Flash [
25]. Sementara itu, angka pembanding paling langsung untuk Claude Opus 4.7 dan Kimi K2.6 dalam sumber yang digunakan di sini lebih banyak berasal dari analisis pihak ketiga [
4][
6].
Ringkasan cepat: pakai untuk apa?
- Coding dan perbaikan issue GitHub: Claude Opus 4.7 terlihat lebih kuat daripada GPT-5.5 pada angka SWE-Bench, SWE-Bench Verified, dan CursorBench yang dikutip oleh LushBinary [
4].
- Terminal-agent dan computer use: GPT-5.5 punya dasar paling jelas, termasuk 82,7% di Terminal-Bench 2.0 dalam publikasi OpenAI [
24].
- Coding-agent yang sensitif biaya: Kimi K2.6 digambarkan CodeRouter sebagai pemenang biaya/kualitas dengan harga US$0,60 untuk input dan US$4,00 untuk output per 1 juta token [
6].
- DeepSeek V4: V4-Pro dan V4-Flash sudah tersedia melalui DeepSeek API, tetapi sumber yang dipakai di sini belum memberikan matriks benchmark resmi empat model melawan Kimi K2.6, Claude Opus 4.7, dan GPT-5.5 [
25].
Yang benar-benar bisa disimpulkan dari sumber
OpenAI menjelaskan Terminal-Bench 2.0 sebagai benchmark untuk workflow command-line kompleks yang membutuhkan perencanaan, iterasi, dan koordinasi tool; GPT-5.5 mencapai 82,7% pada benchmark itu menurut OpenAI [24]. Pada SWE-Bench Pro, yang mengevaluasi penyelesaian issue GitHub dunia nyata, OpenAI mencatat GPT-5.5 di 58,6% [
24].
DeepSeek mendokumentasikan bahwa V4-Pro dan V4-Flash dapat dipakai lewat antarmuka OpenAI ChatCompletions maupun antarmuka Anthropic, dengan parameter model deepseek-v4-pro dan deepseek-v4-flash [25]. Ini bukti ketersediaan API, bukan bukti bahwa DeepSeek V4 menang di benchmark tertentu.
Untuk Claude Opus 4.7 dan Kimi K2.6, angka langsung dalam artikel ini perlu dibaca lebih hati-hati: LushBinary menyediakan nilai Claude-vs-GPT, sedangkan CodeRouter memberi klaim harga dan penempatan Kimi K2.6 serta DeepSeek V4 [4][
6].
Tabel benchmark yang ada di sumber
Catatan: Belum ada angka sebanding berarti sumber yang dipakai di sini tidak menyediakan nilai yang cukup kuat dan langsung sebanding untuk kombinasi model-benchmark tersebut.
| Benchmark / kriteria | DeepSeek V4 | Kimi K2.6 | Claude Opus 4.7 | GPT-5.5 |
|---|---|---|---|---|
| SWE-Bench Pro | Belum ada angka sebanding | setara GPT-5.5 menurut CodeRouter [ | 64,3% [ | 58,6% [ |
| SWE-Bench Verified | Belum ada angka sebanding | Belum ada angka sebanding | 87,6% [ | sekitar 85% [ |
| Terminal-Bench 2.0 | Belum ada angka sebanding | Belum ada angka sebanding | sekitar 72% [ | 82,7% [ |
| GDPval / knowledge work | Belum ada angka sebanding | Belum ada angka sebanding | sekitar 78% [ | 84,9% [ |
| OSWorld-Verified / computer use | Belum ada angka sebanding | Belum ada angka sebanding | sekitar 65% [ | 78,7% [ |
| GPQA Diamond | Belum ada angka sebanding | Belum ada angka sebanding | 94,2% [ | sekitar 93% [ |
| CursorBench | Belum ada angka sebanding | Belum ada angka sebanding | 70% [ | sekitar 65% [ |
| Tau2-bench Telecom | Belum ada angka sebanding | Belum ada angka sebanding | sekitar 90% [ | 98,0% [ |
| Vision & Document Arena | Belum ada angka sebanding | Belum ada angka sebanding | peringkat 1 menurut laporan Arena yang dikutip AINews [ | Belum ada angka sebanding |
| Harga / konteks | V4 Flash: US$0,14 input / US$0,28 output per 1 juta token dan konteks 1 juta token [ | US$0,60 input / US$4,00 output per 1 juta token [ | Belum ada angka di sumber ini | Belum ada angka di sumber ini |
Coding: Claude Opus 4.7 unggul di angka yang tersedia
Jika fokusnya adalah coding, terutama memperbaiki bug atau issue di repository, data yang tersedia lebih mengarah ke Claude Opus 4.7. LushBinary mencatat Claude Opus 4.7 di 64,3% pada SWE-Bench Pro, dibandingkan 58,6% untuk GPT-5.5; angka GPT-5.5 sebesar 58,6% itu juga muncul dalam publikasi resmi OpenAI [4][
24]. Claude Opus 4.7 juga berada di depan GPT-5.5 pada SWE-Bench Verified dan CursorBench menurut sumber pihak ketiga yang sama [
4].
Kimi K2.6 tetap menarik untuk coding karena CodeRouter menempatkannya pada level GPT-5.5 di SWE-Bench Pro sambil menyebut harga token yang rendah [6]. Bagi tim yang menjalankan banyak agent-run, draft, atau retry, selisih biaya per 1 juta token bisa menjadi faktor penting. Namun, klaim biaya/kualitas tetap perlu dibuktikan dengan evaluasi internal pada kode dan workflow sendiri.
Untuk DeepSeek V4, sumber resmi DeepSeek yang dipakai di sini belum memberi angka coding-benchmark. Yang sudah jelas adalah V4-Pro dan V4-Flash tersedia di API [25].
Terminal-agent dan computer use: GPT-5.5 paling kuat buktinya
Untuk tugas yang melibatkan terminal, shell command, dan orkestrasi tool, GPT-5.5 punya bukti publik paling kuat. OpenAI menyebut 82,7% pada Terminal-Bench 2.0, benchmark yang menguji workflow command-line kompleks dengan perencanaan, iterasi, dan koordinasi tool [24]. Dalam perbandingan LushBinary, Claude Opus 4.7 ditempatkan sekitar 72% pada benchmark yang sama [
4].
Sumber pihak ketiga yang sama juga lebih menguntungkan GPT-5.5 pada metrik knowledge work dan computer use: 84,9% di GDPval dibanding sekitar 78% untuk Claude Opus 4.7, serta 78,7% di OSWorld-Verified dibanding sekitar 65% untuk Claude Opus 4.7 [4]. Jadi, untuk workflow yang dekat dengan terminal-agent, tool-calling, dan penggunaan komputer, GPT-5.5 adalah titik awal yang paling kuat berdasarkan angka yang tersedia.
Vision dan dokumen: sinyal positif paling jelas ada pada Claude
Untuk tugas vision dan dokumen, sumber yang tersedia tidak menyediakan tabel lengkap empat model. Sinyal paling jelas adalah untuk Claude Opus 4.7: laporan Arena yang dikutip Latent Space/AINews menyebut Claude Opus 4.7 berada di peringkat 1 Vision & Document Arena [1].
LLM Stats juga melaporkan bahwa Claude Opus 4.7 dapat memproses gambar hingga 2.576 piksel pada sisi panjang, atau sekitar 3,75 megapiksel; GPT-5.5 disebut mendukung input gambar dan diberi nilai MMMU-Pro 81,2% tanpa tool serta 83,2% dengan tool [5]. Angka ini membantu membaca posisi Claude terhadap GPT-5.5, tetapi belum menggantikan uji empat arah yang setara dengan Kimi K2.6 dan DeepSeek V4.
Harga-kinerja: Kimi K2.6 dan DeepSeek V4 Flash layak masuk daftar uji
Argumen harga paling jelas dalam sumber ini ada pada Kimi K2.6. CodeRouter menyebut Kimi K2.6 sebagai pemenang biaya/kualitas dengan harga US$0,60 untuk input dan US$4,00 untuk output per 1 juta token [6].
DeepSeek V4 Flash dalam sumber yang sama ditampilkan sebagai opsi workhorse murah dengan US$0,14 untuk input dan US$0,28 untuk output per 1 juta token, serta konteks 1 juta token [6]. Dokumentasi resmi DeepSeek juga mengonfirmasi bahwa V4-Pro dan V4-Flash tersedia lewat antarmuka API saat ini [
25].
Namun, harga murah bukan berarti otomatis menang di benchmark. Dalam produksi, yang paling penting adalah biaya per hasil yang diterima: berapa kali model harus mencoba ulang, seberapa parah kesalahannya, dan berapa banyak kerja manusia yang diperlukan untuk memperbaiki output.
Cara menguji empat model ini secara adil
Untuk keputusan produksi, jangan hanya mengandalkan papan skor publik. Buat set evaluasi kecil dari tugas nyata: issue dari codebase sendiri, dokumen yang benar-benar dipakai, atau workflow agent yang memang akan dijalankan. Ukur bukan cuma jawaban pertama, tetapi juga biaya per hasil yang diterima, kebutuhan retry, tingkat kesalahan, waktu jalan, dan stabilitas.
Pisahkan pula nilai resmi vendor dari data pihak ketiga. Dalam perbandingan ini, GPT-5.5 punya angka resmi OpenAI untuk Terminal-Bench 2.0 dan SWE-Bench Pro [24]. DeepSeek V4 punya bukti resmi ketersediaan API [
25]. Sementara itu, pernyataan pembanding paling kuat untuk Claude Opus 4.7 dan Kimi K2.6 di sini terutama berasal dari sumber pihak ketiga [
4][
6].
Kesimpulan
Tidak ada pemenang mutlak. Claude Opus 4.7 memimpin pada angka coding yang dikutip, GPT-5.5 paling kuat buktinya untuk terminal-agent dan computer use, Kimi K2.6 membawa narasi harga-kinerja paling jelas, dan DeepSeek V4 adalah kandidat API yang sudah tersedia tetapi perlu diukur dalam eval sendiri [4][
24][
6][
25].




