Kalau hanya melihat tabel benchmark, adu GPT-5.5, Claude Opus 4.7, DeepSeek V4, dan Kimi K2.6 tampak seperti lomba dengan satu pemenang. Kenyataannya tidak sesederhana itu. Tabel bersama yang paling kuat mencakup GPT-5.5, GPT-5.5 Pro bila tersedia, Claude Opus 4.7, dan DeepSeek-V4-Pro-Max; sementara Kimi K2.6 lebih sering muncul di perbandingan terpisah, sehingga tidak selalu apel dengan apel di semua kategori [4][
11][
13].
Cara paling aman membacanya: mulai dari jenis pekerjaan Anda. Untuk sains dan tanya jawab ahli tanpa tool, Claude lebih kuat. Untuk terminal, operasi OS, matematika frontier, dan browsing versi Pro, GPT-5.5 punya beberapa kemenangan jelas. Untuk biaya, DeepSeek V4 patut diuji. Untuk Kimi K2.6, sinyalnya menarik, tetapi perlu pengujian ulang dengan harness yang sama.
Pemenang cepat per kategori
| Kebutuhan kerja | Pilihan dengan dukungan data terkuat | Alasannya |
|---|---|---|
| Reasoning sains | Claude Opus 4.7 | 94,2% di GPQA Diamond, di atas GPT-5.5 pada 93,6% dan DeepSeek-V4-Pro-Max pada 90,1% [ |
| Reasoning ahli tanpa tool | Claude Opus 4.7 | 46,9% di Humanity’s Last Exam tanpa tool, di atas GPT-5.5 Pro 43,1%, GPT-5.5 41,4%, dan DeepSeek-V4-Pro-Max 37,7% [ |
| Reasoning ujian dengan tool | GPT-5.5 Pro | 57,2% di Humanity’s Last Exam with tools, di atas Claude Opus 4.7 pada 54,7% [ |
| Terminal dan komputasi agentic | GPT-5.5 | 82,7% di Terminal-Bench 2.0, jauh di atas Claude Opus 4.7 69,4% dan DeepSeek-V4-Pro-Max 67,9% [ |
| Operasi OS | GPT-5.5 | 78,7% di OSWorld-Verified versus Claude Opus 4.7 pada 78,0% [ |
| Matematika frontier | GPT-5.5 | 51,7% di FrontierMath Tiers 1–3 versus Claude Opus 4.7 pada 43,8% [ |
| Software engineering dalam tabel bersama | Claude Opus 4.7 | 64,3% di SWE-Bench Pro / SWE Pro, di atas GPT-5.5 58,6% dan DeepSeek-V4-Pro-Max 55,4% [ |
| Browsing | GPT-5.5 Pro | 90,1% di BrowseComp, di atas GPT-5.5 84,4%, DeepSeek-V4-Pro-Max 83,4%, dan Claude Opus 4.7 79,3% [ |
| Workflow tool publik ala MCP | Claude Opus 4.7 | 79,1% di MCP Atlas / MCPAtlas Public, di atas GPT-5.5 75,3% dan DeepSeek-V4-Pro-Max 73,6% [ |
| Vision dan analisis dokumen | Claude Opus 4.7 | Dilaporkan nomor 1 di Vision & Document Arena, termasuk menang di subkategori diagram, homework, dan OCR [ |
| Evaluasi sensitif biaya | DeepSeek V4 | VentureBeat menyebut DeepSeek V4 mendekati state-of-the-art dengan biaya sekitar seperenam Opus 4.7 dan GPT-5.5, tetapi klaim biaya tetap perlu divalidasi pada workload sendiri [ |
| Perbandingan empat arah paling tidak bersih | Kimi K2.6 | Skor Kimi berguna, tetapi bukti yang dikutip sebagian besar berasal dari perbandingan terpisah, bukan tabel bersama yang sama [ |
Tabel benchmark utama
| Benchmark / kemampuan | GPT-5.5 | GPT-5.5 Pro | Claude Opus 4.7 | DeepSeek V4 / V4 Pro Max | Kimi K2.6 | Bacaan paling aman |
|---|---|---|---|---|---|---|
| GPQA Diamond | 93,6% [ | Tidak dilaporkan | 94,2% [ | 90,1% untuk DeepSeek-V4-Pro-Max [ | Tidak dilaporkan | Claude memimpin tabel bersama [ |
| Humanity’s Last Exam, tanpa tool | 41,4% [ | 43,1% [ | 46,9% [ | 37,7% untuk DeepSeek-V4-Pro-Max [ | Tidak dilaporkan | Claude memimpin tabel bersama [ |
| Humanity’s Last Exam, dengan tool | 52,2% [ | 57,2% [ | 54,7% [ | 48,2% untuk DeepSeek-V4-Pro-Max [ | 54,0% dalam perbandingan Kimi terpisah [ | GPT-5.5 Pro memimpin tabel bersama [ |
| Terminal-Bench 2.0 | 82,7% [ | Tidak dilaporkan | 69,4% [ | 67,9% untuk DeepSeek-V4-Pro-Max [ | 66,7% dalam perbandingan Kimi terpisah [ | GPT-5.5 memimpin [ |
| SWE-Bench Pro / SWE Pro | 58,6% [ | Tidak dilaporkan | 64,3% [ | 55,4% untuk DeepSeek-V4-Pro-Max [ | 58,6% dalam perbandingan Kimi terpisah [ | Claude memimpin tabel bersama [ |
| BrowseComp | 84,4% [ | 90,1% [ | 79,3% [ | 83,4% untuk DeepSeek-V4-Pro-Max [ | 83,2% dalam perbandingan Kimi vs DeepSeek [ | GPT-5.5 Pro memimpin tabel bersama [ |
| MCP Atlas / MCPAtlas Public | 75,3% [ | Tidak dilaporkan | 79,1% [ | 73,6% untuk DeepSeek-V4-Pro-Max [ | Tidak dilaporkan | Claude memimpin [ |
| OSWorld-Verified | 78,7% [ | Tidak dilaporkan | 78,0% [ | Tidak dilaporkan | Tidak dilaporkan | GPT-5.5 unggul tipis atas Claude [ |
| FrontierMath Tiers 1–3 | 51,7% [ | Tidak dilaporkan | 43,8% [ | Tidak dilaporkan | Tidak dilaporkan | GPT-5.5 memimpin Claude [ |
| Vision & Document Arena | Tidak dilaporkan | Tidak dilaporkan | Dilaporkan nomor 1 secara keseluruhan [ | Tidak dilaporkan | Tidak dilaporkan | Hanya Claude yang punya hasil dikutip [ |
| AIME 2026 | Tidak dilaporkan | Tidak dilaporkan | Tidak dilaporkan | Tidak tersedia dalam tabel Kimi vs DeepSeek yang dikutip [ | 96,4% dalam Thinking mode [ | Sinyal Kimi berguna, bukan ranking empat arah [ |
| APEX Agents | Tidak dilaporkan | Tidak dilaporkan | Tidak dilaporkan | Tidak tersedia dalam tabel Kimi vs DeepSeek yang dikutip [ | 27,9% dalam Thinking mode [ | Sinyal Kimi berguna, bukan ranking empat arah [ |
| Context window | Tidak dilaporkan | Tidak dilaporkan | 1.000k token dalam satu perbandingan Artificial Analysis [ | 1.000k token untuk DeepSeek V4 Pro dalam perbandingan yang sama [ | Tidak dilaporkan | Claude dan DeepSeek V4 Pro seimbang dalam konfigurasi itu [ |
Baris yang mencampur sumber harus dibaca hati-hati. Skor Kimi yang muncul dalam perbandingan berfokus Kimi tetap berguna, tetapi bobotnya tidak sekuat hasil dari tabel bersama dan harness yang sama dengan GPT-5.5, Claude Opus 4.7, dan DeepSeek-V4-Pro-Max [4][
11][
13].
GPT-5.5: paling menonjol untuk terminal, OS, matematika, dan tool
Kemenangan paling jelas GPT-5.5 ada di Terminal-Bench 2.0: 82,7% versus Claude Opus 4.7 pada 69,4% dan DeepSeek-V4-Pro-Max pada 67,9% dalam tabel bersama [4][
5]. Selisih ini termasuk yang paling besar dalam kumpulan benchmark yang dikutip.
GPT-5.5 juga unggul atas Claude Opus 4.7 di OSWorld-Verified, tetapi tipis: 78,7% berbanding 78,0% [5]. Di FrontierMath Tiers 1–3, selisihnya lebih terasa: 51,7% untuk GPT-5.5 versus 43,8% untuk Claude [
5].
Jika tool dan browsing menjadi inti pekerjaan, GPT-5.5 Pro mengubah peta. Model ini memimpin Humanity’s Last Exam with tools dengan 57,2%, di atas Claude Opus 4.7 54,7%, GPT-5.5 52,2%, dan DeepSeek-V4-Pro-Max 48,2% [4]. GPT-5.5 Pro juga memimpin BrowseComp dengan 90,1%, di atas GPT-5.5 84,4%, DeepSeek-V4-Pro-Max 83,4%, dan Claude Opus 4.7 79,3% [
4].
Namun GPT-5.5 bukan pemenang di semua tes reasoning. Claude Opus 4.7 unggul tipis di GPQA Diamond, 94,2% versus 93,6%, dalam tabel bersama [4]. Ada pula hasil domain khusus GPT-5.5 seperti 91,7% di Harvey BigLaw Bench, 88,5% di benchmark internal investment banking, dan 80,5% di BixBench; tetapi hasil itu tidak boleh dibaca sebagai kemenangan empat arah karena kutipan yang tersedia tidak melaporkan skor setara untuk Claude Opus 4.7, DeepSeek V4, dan Kimi K2.6 [
7].
Claude Opus 4.7: kuat untuk reasoning tanpa tool dan dokumen
Claude Opus 4.7 punya profil reasoning tanpa tool paling kuat dalam tabel bersama utama. Model ini memimpin GPQA Diamond dengan 94,2% dan Humanity’s Last Exam tanpa tool dengan 46,9% [4]. Dalam tabel yang sama, Claude juga memimpin SWE-Bench Pro / SWE Pro dengan 64,3% dan MCP Atlas / MCPAtlas Public dengan 79,1% [
4].
Area yang lebih lemah dalam data yang dikutip adalah operasi bergaya terminal. GPT-5.5 unggul lebih dari 13 poin atas Claude di Terminal-Bench 2.0, 82,7% versus 69,4%, dan juga unggul di OSWorld-Verified serta FrontierMath Tiers 1–3 [4][
5].
Untuk multimodal dan dokumen, Claude punya sinyal paling kuat. Satu sumber melaporkan Claude Opus 4.7 sebagai nomor 1 di Vision & Document Arena, naik 4 poin dari Opus 4.6 di Document Arena, serta menang di subkategori diagram, homework, dan OCR [1]. Tetapi sumber yang sama tidak memberikan skor Vision & Document Arena yang sebanding untuk GPT-5.5, DeepSeek V4, atau Kimi K2.6, jadi ini mendukung kekuatan Claude di dokumen, bukan ranking multimodal empat arah yang lengkap [
1].
DeepSeek V4: kompetitif, tetapi keunggulan utama yang dikutip adalah biaya
Ada beberapa label DeepSeek dalam sumber. Tabel bersama memakai DeepSeek-V4-Pro-Max, sementara perbandingan Artificial Analysis menyebut DeepSeek V4 Pro dengan context window 1.000k token [4][
3]. Label-label ini tidak otomatis bisa dianggap sama.
Dalam tabel bersama utama, DeepSeek-V4-Pro-Max kompetitif tetapi tidak memimpin satu pun baris. Skornya adalah 90,1% di GPQA Diamond, 37,7% di Humanity’s Last Exam tanpa tool, 48,2% di Humanity’s Last Exam dengan tool, 67,9% di Terminal-Bench 2.0, 55,4% di SWE-Bench Pro / SWE Pro, 83,4% di BrowseComp, dan 73,6% di MCP Atlas / MCPAtlas Public [4].
Klaim produk DeepSeek yang paling kuat dalam sumber adalah biaya-kinerja. VentureBeat menggambarkan DeepSeek V4 sebagai model dengan intelligence mendekati state-of-the-art pada biaya sekitar seperenam Opus 4.7 dan GPT-5.5 [4]. Itu alasan bagus untuk mengujinya pada workload sensitif biaya, tetapi bukan alasan untuk melewati validasi kualitas di pekerjaan nyata.
Untuk penyaringan long-context, satu perbandingan Artificial Analysis mencantumkan DeepSeek V4 Pro dan Claude Opus 4.7 sama-sama memiliki context window 1.000k token [3]. Artinya keduanya setara pada konfigurasi yang dicantumkan itu, bukan klaim umum untuk semua mode DeepSeek atau Claude [
3].
Kimi K2.6: skor menjanjikan, tetapi perbandingan langsungnya kurang rapi
Kimi K2.6 adalah model yang paling sulit ditempatkan secara bersih dalam perbandingan ini karena tidak masuk tabel bersama utama melawan GPT-5.5, Claude Opus 4.7, dan DeepSeek-V4-Pro-Max [4]. Satu perbandingan berfokus Kimi melaporkan K2.6 pada 58,6% di SWE-Bench Pro, 80,2% di SWE-Bench Verified, 66,7% di Terminal-Bench 2.0, 54,0% di Humanity’s Last Exam with tools, dan 89,6% di LiveCodeBench v6 [
13]. Sumber itu menyebut angka K2.6 berasal dari model card resmi Moonshot AI, tetapi kelompok pembanding utamanya adalah Claude Opus 4.6 dan GPT-5.4, bukan persis empat model dalam artikel ini [
13].
Perbandingan Kimi vs DeepSeek lain melaporkan Kimi K2.6 pada 96,4% di AIME 2026 dalam Thinking mode, 27,9% di APEX Agents dalam Thinking mode, dan 83,2% di BrowseComp dengan Thinking mode serta context management [11]. Dalam sumber yang sama, DeepSeek-V4 Pro tercatat 83,4% di BrowseComp, sementara nilai DeepSeek untuk AIME 2026 dan APEX Agents tidak tersedia [
11].
Jadi, Kimi layak diuji, terutama untuk coding, agentic task, matematika, dan browsing. Namun materi yang dikutip belum cukup untuk menyusun ranking menyeluruh yang bersih terhadap GPT-5.5 dan Claude Opus 4.7 di suite benchmark yang sama [11][
13].
Model mana yang sebaiknya dites dulu?
- Uji GPT-5.5 lebih dulu untuk agent berbasis terminal, tugas operasi OS, dan pekerjaan mirip FrontierMath; model ini memimpin hasil Terminal-Bench 2.0, OSWorld-Verified, dan FrontierMath yang dikutip [
4][
5].
- Uji GPT-5.5 Pro lebih dulu jika reasoning dengan tool atau browsing adalah kebutuhan utama; model ini memimpin Humanity’s Last Exam with tools dan BrowseComp dalam tabel bersama [
4].
- Uji Claude Opus 4.7 lebih dulu untuk reasoning sains ala GPQA, tanya jawab ahli tanpa tool, software engineering ala SWE-Bench Pro, workflow MCP-style, dan pekerjaan multimodal yang berat dokumen [
4][
1].
- Uji DeepSeek V4 lebih dulu jika biaya-kinerja adalah batasan utama dan Anda bisa menjalankan pemeriksaan kualitas sendiri; keunggulan yang dikutip adalah performa mendekati frontier dengan biaya sekitar seperenam Opus 4.7 dan GPT-5.5 [
4].
- Uji Kimi K2.6 lebih dulu jika Anda memang ingin mengevaluasi skor coding, agentic, matematika, dan browsing yang dilaporkan; bandingkan dengan prompt, tool, batas konteks, target latensi, dan aturan scoring yang sama seperti model lain [
11][
13].
Catatan penting sebelum memakai angka benchmark
Ini bukan leaderboard universal. Sumber mencampur varian base dan Pro, termasuk GPT-5.5, GPT-5.5 Pro, DeepSeek-V4-Pro-Max, DeepSeek V4 Pro, Claude Opus 4.7, dan Kimi K2.6 [3][
4][
11][
13]. Sebagian hasil juga dilaporkan vendor; OpenAI mencatat evaluasi GPT untuk ARC dijalankan dengan reasoning effort
xhigh dalam lingkungan riset yang bisa berbeda dari produksi ChatGPT [5][
8].
Selisih tipis sebaiknya dianggap sebagai arah, bukan vonis. Keunggulan Claude atas GPT-5.5 di GPQA Diamond hanya 0,6 poin, dan keunggulan GPT-5.5 atas Claude di OSWorld-Verified hanya 0,7 poin [4][
5]. Selisih besar lebih berguna untuk keputusan awal: GPT-5.5 unggul lebih dari 13 poin atas Claude di Terminal-Bench 2.0, dan unggul 7,9 poin di FrontierMath [
5].
Kesimpulan praktisnya: tidak ada satu pemenang tunggal di antara GPT-5.5, Claude Opus 4.7, DeepSeek V4, dan Kimi K2.6. Pilih kategori benchmark yang paling mirip dengan pekerjaan nyata Anda, lalu jalankan evaluasi ulang pada model yang benar-benar bisa Anda deploy.




