Kalau hasil benchmark dibaca seperti klasemen bola, kesimpulannya bisa menyesatkan. Data yang tersedia tidak menjalankan GPT-5.5, Claude Opus 4.7, DeepSeek V4, dan Kimi K2.6 dalam satu tes independen yang seragam. Angkanya datang dari potongan benchmark, varian model, serta analisis vendor atau pihak kedua yang tidak selalu memakai konfigurasi sama [2][
3][
7][
21].
Gambaran besarnya tetap cukup jelas: GPT-5.5 memiliki posisi keseluruhan paling kuat dalam data yang bisa dibandingkan; Claude Opus 4.7 sangat kuat untuk coding dan beberapa tes pengetahuan; DeepSeek V4 menonjol karena performanya dekat dengan model teratas tetapi harga API-nya jauh lebih rendah; sementara Kimi K2.6 menarik secara teknis, tetapi belum punya cukup angka langsung untuk diranking setara [1][
2][
3][
7][
22][
24].
Jawaban singkat yang paling adil
GPT-5.5 adalah all-rounder paling kuat berdasarkan bukti yang tersedia. Dalam potongan Artificial Analysis, GPT-5.5 xhigh mencetak 60 poin, GPT-5.5 high 59 poin, dan Claude Opus 4.7 57 poin [2]. Di BrowseComp, GPT-5.5 berada di 84,4%, sedikit di atas DeepSeek V4 di 83,4% dan Claude Opus 4.7 di 79,3% [
3].
Claude Opus 4.7 paling menonjol untuk sebagian pekerjaan software dan pengetahuan. Claude unggul di SWE-Bench Pro dengan 64,3% dibanding GPT-5.5 di 58,6%, serta unggul tipis di GPQA Diamond dengan 94,2% dibanding 93,6% [22][
24]. Namun di Terminal-Bench 2.0, GPT-5.5 berbalik unggul jauh: 82,7% melawan 69,4% untuk Claude Opus 4.7 [
22][
24].
DeepSeek V4 adalah penantang dari sisi harga-kinerja. VentureBeat menyebut DeepSeek V4 mencapai 83,4% di BrowseComp, hanya satu poin persentase di bawah GPT-5.5 dan di atas Claude Opus 4.7 [3]. Mashable mengutip harga API DeepSeek V4 sebesar US$1,74 per 1 juta token input dan US$3,48 per 1 juta token output, dibanding US$5/US$30 untuk GPT-5.5 dan US$5/US$25 untuk Claude Opus 4.7 [
1].
Kimi K2.6 belum bisa dimasukkan ke ranking angka yang sama. DocsBot menggambarkan Kimi K2.6 sebagai model open-source, native multimodal, dan agentic dengan arsitektur 1T-parameter-MoE, 32B parameter aktif, serta konteks 256K [7]. Namun sumber yang tersedia belum memberikan cukup angka benchmark langsung melawan GPT-5.5, Claude Opus 4.7, dan DeepSeek V4 [
7].
Perbandingan utama
| Model | Klaim terkuat yang didukung data | Angka penting dari sumber | Cara membacanya |
|---|---|---|---|
| GPT-5.5 | Memimpin potongan Artificial Analysis Intelligence Index [ | Intelligence Index: 60 xhigh, 59 high [ | Titik awal terbaik jika butuh model serba bisa, tetapi bukan pemenang di semua tes |
| Claude Opus 4.7 | Sangat kuat untuk SWE-Bench, GPQA, dan beberapa tugas agentic [ | Intelligence Index: 57 [ | Menarik untuk coding, review, penalaran pengetahuan, dan beberapa tugas finansial |
| DeepSeek V4 | Hampir menyamai GPT-5.5 di BrowseComp [ | BrowseComp: 83,4% [ | Kuat jika biaya dan performa riset web lebih penting daripada status juara umum |
| Kimi K2.6 | Diposisikan sebagai model terbuka, multimodal, agentic, dan berkonteks panjang [ | 1T-parameter-MoE, 32B parameter aktif, konteks 256K menurut DocsBot [ | Layak diuji secara teknis, tetapi belum cukup data untuk perbandingan numerik langsung |
Mengapa benchmark ini bukan papan skor final
Keterbatasan utamanya adalah konsistensi data. Dalam perbandingan model frontier terkait, DataCamp mengingatkan bahwa angka benchmark bisa bersifat vendor-reported dan memakai konfigurasi harness yang berbeda [21]. Artinya, selisih beberapa poin tidak selalu otomatis berarti satu model pasti lebih baik di semua situasi.
Varian model juga tidak selalu sama. Artificial Analysis menampilkan GPT-5.5 xhigh, GPT-5.5 high, dan Claude Opus 4.7 dengan Adaptive Reasoning dan Max Effort [2]. VentureBeat mengacu pada DeepSeek-V4-Pro-Max [
3]. Perbedaan seperti ini bisa berpengaruh besar, terutama di tugas reasoning, coding, dan agentic yang sensitif terhadap effort, tool use, serta cara benchmark dijalankan.
Jadi pertanyaan yang lebih berguna bukan hanya: model mana nomor satu? Pertanyaan praktisnya: untuk beban kerja apa model itu paling terbukti kuat?
Performa umum: GPT-5.5 memimpin Intelligence Index yang tersedia
Indikator umum paling jelas dalam sumber yang tersedia adalah potongan Artificial Analysis Intelligence Index. Di sana, GPT-5.5 xhigh berada di posisi pertama dengan 60 poin, GPT-5.5 high berada di posisi kedua dengan 59 poin, dan Claude Opus 4.7 dengan Adaptive Reasoning dan Max Effort berada di posisi ketiga dengan 57 poin [2].
Angka ini mendukung keunggulan GPT-5.5 atas Claude Opus 4.7 dalam indeks tersebut [2]. Namun potongan yang sama tidak memberi nilai lengkap yang bisa langsung dikutip untuk DeepSeek V4 dan Kimi K2.6 dalam perbandingan empat model yang bersih [
2][
7].
BrowseComp: DeepSeek V4 menempel ketat GPT-5.5
BrowseComp adalah perbandingan tiga arah paling jelas antara GPT-5.5, Claude Opus 4.7, dan DeepSeek V4 dalam sumber yang tersedia. VentureBeat mengutip 90,1% untuk GPT-5.5 Pro, 84,4% untuk GPT-5.5, 83,4% untuk DeepSeek V4, dan 79,3% untuk Claude Opus 4.7 [3].
| Model atau varian | Skor BrowseComp | Catatan |
|---|---|---|
| GPT-5.5 Pro | 90,1% | Jelas paling tinggi dalam potongan ini [ |
| GPT-5.5 | 84,4% | Sedikit di atas DeepSeek V4 [ |
| DeepSeek V4 | 83,4% | Hanya 1,0 poin persentase di bawah GPT-5.5 [ |
| Claude Opus 4.7 | 79,3% | Di bawah GPT-5.5 dan DeepSeek V4 pada tes ini [ |
| Kimi K2.6 | Tidak ada angka langsung yang sebanding dalam sumber yang tersedia | Belum adil untuk diranking [ |
VentureBeat juga menilai DeepSeek-V4-Pro-Max belum menumbangkan GPT-5.5 atau Claude Opus 4.7 secara keseluruhan pada benchmark yang bisa dibandingkan langsung [3]. Bacaan yang lebih tepat: DeepSeek V4 sangat dekat dengan GPT-5.5 di BrowseComp, tetapi satu benchmark kuat belum cukup untuk menyatakan kemenangan umum [
3].
Coding dan software engineering: Claude menang SWE, GPT menang Terminal
Untuk coding, tidak ada juara tunggal. Claude Opus 4.7 unggul di SWE-Bench Pro dengan 64,3%, sementara GPT-5.5 berada di 58,6% [22][
24]. Vellum juga menyebut Claude Opus 4.7 mencapai 87,6% di SWE-Bench Verified [
20]. Namun di Terminal-Bench 2.0, GPT-5.5 unggul jauh dengan 82,7% dibanding 69,4% untuk Claude Opus 4.7 [
22][
24].
| Benchmark | GPT-5.5 | Claude Opus 4.7 | Kesimpulan |
|---|---|---|---|
| SWE-Bench Pro | 58,6% | 64,3% | Claude unggul [ |
| SWE-Bench Verified | Tidak ada angka GPT-5.5 langsung yang dikutip dalam sumber tersedia | 87,6% | Nilai Claude kuat, tetapi bukan perbandingan empat model lengkap [ |
| Terminal-Bench 2.0 | 82,7% | 69,4% | GPT-5.5 unggul jelas [ |
Untuk DeepSeek V4 dan Kimi K2.6, sumber yang tersedia belum cukup untuk mengisi tabel coding yang setara. VentureBeat menyebut DeepSeek V4 mendekati model teratas pada beberapa benchmark yang bisa dibandingkan, tetapi angka paling jelas dalam potongan sumber adalah BrowseComp [3]. Untuk Kimi K2.6, DocsBot lebih banyak memberi detail arsitektur dan kemampuan umum, bukan matriks benchmark lengkap melawan tiga model lain [
7].
Reasoning dan pengetahuan: saling salip tergantung tes
Pada tes pengetahuan dan reasoning, GPT-5.5 dan Claude Opus 4.7 sangat berdekatan. Di GPQA Diamond, Vellum mencantumkan GPT-5.5 di 93,6% dan Claude Opus 4.7 di 94,2% [22]. Mashable mencantumkan angka GPQA Diamond yang sama, lalu menambahkan Humanity’s Last Exam: tanpa tools, GPT-5.5 unggul 40,6% melawan 31,2%; dengan tools, Claude Opus 4.7 unggul tipis 54,7% melawan 52,2% [
8].
| Benchmark | GPT-5.5 | Claude Opus 4.7 | Pemenang dalam angka tersedia |
|---|---|---|---|
| GPQA Diamond | 93,6% | 94,2% | Claude Opus 4.7 tipis [ |
| Humanity’s Last Exam | 40,6% | 31,2% | GPT-5.5 [ |
| Humanity’s Last Exam dengan tools | 52,2% | 54,7% | Claude Opus 4.7 tipis [ |
Artinya, untuk pertanyaan pengetahuan sulit, pilihan model sebaiknya tidak hanya didasarkan pada satu angka. Setup tools, jenis soal, dan cara evaluasi bisa mengubah urutan pemenang [8][
21].
Tugas profesional dan agentic: hasilnya campuran
Di benchmark profesional dan agentic, polanya juga tidak satu arah. Vellum mencantumkan GPT-5.5 di 84,9% untuk GDPval dibanding 80,3% untuk Claude Opus 4.7; 78,7% untuk OSWorld-Verified dibanding 78,0%; serta 75,3% untuk MCP Atlas dibanding 79,1% untuk Claude [22]. OpenAI mencantumkan FinanceAgent v1.1 di 60,0% untuk GPT-5.5 dan 64,4% untuk Claude Opus 4.7 [
24].
| Benchmark | GPT-5.5 | Claude Opus 4.7 | Kesimpulan |
|---|---|---|---|
| GDPval | 84,9% | 80,3% | GPT-5.5 unggul [ |
| OSWorld-Verified | 78,7% | 78,0% | GPT-5.5 unggul tipis [ |
| MCP Atlas | 75,3% | 79,1% | Claude Opus 4.7 unggul [ |
| FinanceAgent v1.1 | 60,0% | 64,4% | Claude Opus 4.7 unggul [ |
Anthropic juga merujuk benchmark internal research-agent, dengan Claude Opus 4.7 disebut berbagi skor keseluruhan tertinggi 0,715 pada enam modul dan meraih 0,813 di modul General Finance dibanding 0,767 untuk Opus 4.6 [6]. Karena benchmark ini internal dan tidak mencakup keempat model secara seimbang dalam data yang tersedia, lebih tepat dibaca sebagai sinyal kekuatan agentic Claude, bukan ranking independen empat model [
6].
Harga API dan konteks: DeepSeek V4 paling mencolok
Untuk penggunaan produksi, satu atau dua poin benchmark bukan satu-satunya pertimbangan. Harga API dihitung per token, yaitu satuan pemrosesan teks yang dipakai dalam penagihan model. Mashable mengutip DeepSeek V4 di US$1,74 per 1 juta token input dan US$3,48 per 1 juta token output, dengan konteks 1 juta token [1]. Sumber yang sama mengutip GPT-5.5 di US$5 per 1 juta token input dan US$30 per 1 juta token output; Claude Opus 4.7 di US$5 input dan US$25 output per 1 juta token; keduanya juga dengan konteks 1 juta token [
1].
| Model | Harga input per 1 juta token | Harga output per 1 juta token | Konteks dalam sumber |
|---|---|---|---|
| DeepSeek V4 | US$1,74 | US$3,48 | 1 juta token [ |
| GPT-5.5 | US$5 | US$30 | 1 juta token [ |
| Claude Opus 4.7 | US$5 | US$25 | 1 juta token [ |
| Kimi K2.6 | Tidak ada harga yang cukup kuat dalam sumber tersedia | Tidak ada harga yang cukup kuat dalam sumber tersedia | 256K token menurut DocsBot [ |
Perbedaan ini penting bila aplikasi memproses dokumen panjang, banyak percakapan, atau output besar. Dalam angka yang dikutip, DeepSeek V4 jauh lebih murah daripada GPT-5.5 dan Claude Opus 4.7, sambil tetap mencetak 83,4% di BrowseComp [1][
3].
Kimi K2.6: jangan dianggap kalah, tetapi datanya belum lengkap
Kimi K2.6 adalah kasus khusus. DocsBot menyebutnya sebagai model open-source, native multimodal, dan agentic dari Moonshot AI, dengan arsitektur 1T-parameter-MoE, 32B parameter aktif, konteks 256K, serta orkestrasi agent sampai 300 sub-agent dan 4.000 langkah terkoordinasi [7]. Ini membuatnya menarik untuk eksperimen coding panjang, desain berbasis coding, dan workflow agentic [
7].
Namun detail teknis tidak sama dengan bukti benchmark langsung. Dalam sumber yang tersedia, belum ada angka yang cukup lengkap untuk menempatkan Kimi K2.6 secara adil di tabel yang sama dengan GPT-5.5, Claude Opus 4.7, dan DeepSeek V4 [7]. Kesimpulan yang paling aman: Kimi layak diuji, tetapi belum layak dipaksa masuk ranking numerik empat arah.
Pilih model berdasarkan kebutuhan
| Jika prioritas Anda adalah … | Titik awal yang paling masuk akal | Alasannya |
|---|---|---|
| Performa umum paling kuat berdasarkan bukti tersedia | GPT-5.5 | Memimpin potongan Intelligence Index dan berada di atas Claude Opus 4.7 serta sedikit di atas DeepSeek V4 di BrowseComp [ |
| Software engineering yang mirip SWE-Bench | Claude Opus 4.7 | Unggul di SWE-Bench Pro dan disebut mencapai 87,6% di SWE-Bench Verified [ |
| Tugas terminal, computer use, dan eksekusi agentic tertentu | GPT-5.5 | Unggul jauh di Terminal-Bench 2.0 serta lebih tinggi dari Claude di GDPval dan OSWorld-Verified [ |
| Riset web dengan biaya API rendah | DeepSeek V4 | Mencapai 83,4% di BrowseComp dan punya harga API yang dikutip jauh lebih rendah [ |
| Eksperimen model terbuka multimodal-agentic | Kimi K2.6 | Disebut open-source, native multimodal, agentic, dan memiliki konteks 256K, tetapi belum punya basis benchmark langsung yang lengkap [ |
Kesimpulan
Kesimpulan paling kuat bukan bahwa satu model menyapu bersih semua kategori. GPT-5.5 adalah all-rounder paling terbukti dalam sumber yang tersedia karena memimpin potongan Artificial Analysis, kuat di BrowseComp, dan mencatat hasil tinggi di beberapa benchmark profesional [2][
3][
22][
24]. Claude Opus 4.7 tetap menjadi model papan atas, terutama untuk SWE-Bench Pro, SWE-Bench Verified, GPQA Diamond, dan beberapa tugas finansial-agentic [
20][
22][
24]. DeepSeek V4 adalah kandidat harga-kinerja paling menarik karena mendekati GPT-5.5 di BrowseComp dengan harga API yang jauh lebih rendah dalam angka yang dikutip [
1][
3]. Kimi K2.6 sebaiknya diperlakukan sebagai model teknis yang menjanjikan, tetapi belum bisa dinilai setara tanpa benchmark dan harga yang langsung sebanding [
7].




