Claude Opus 4.7 memimpin GPQA Diamond dengan 94,2% dan Humanity’s Last Exam tanpa tool dengan 46,9%, sedangkan GPT 5.5 memimpin Terminal Bench 2.0 dengan 82,7% [4][5]. GPT 5.5 Pro menjadi pilihan terkuat di hasil yang dikutip untuk reasoning dengan tool dan browsing: 57,2% di Humanity’s Last Exam with tools dan 90,1...

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs DeepSeek V4 vs Kimi K2.6: Benchmark Winners by Category. Article summary: No single model wins across the available 2026 benchmark evidence: Claude Opus 4.7 leads GPQA Diamond at 94.2% and Humanity’s Last Exam without tools at 46.9%, GPT 5.5 leads Terminal Bench 2.0 at 82.7%, and GPT 5.5 Pr.... Topic tags: ai, llm benchmarks, openai, anthropic, deepseek. Reference image context from search candidates: Reference image 1: visual subject "Kimi K2.6 ties GPT-5.5 on SWE-bench Pro at 5–6x lower cost — with agent swarms, 13-hour autonomous runs, and open weights. In practice it is the first open-source model that can su" source context "Kimi K2.6: The Complete Developer Guide (2026) - Codersera" Reference image 2: visual subject "# Kimi K2.6 vs DeepSeek V4 vs GPT-5.5 vs Claude Opus 4.7: Which S
Kalau hanya melihat tabel benchmark, adu GPT-5.5, Claude Opus 4.7, DeepSeek V4, dan Kimi K2.6 tampak seperti lomba dengan satu pemenang. Kenyataannya tidak sesederhana itu. Tabel bersama yang paling kuat mencakup GPT-5.5, GPT-5.5 Pro bila tersedia, Claude Opus 4.7, dan DeepSeek-V4-Pro-Max; sementara Kimi K2.6 lebih sering muncul di perbandingan terpisah, sehingga tidak selalu apel dengan apel di semua kategori .
Cara paling aman membacanya: mulai dari jenis pekerjaan Anda. Untuk sains dan tanya jawab ahli tanpa tool, Claude lebih kuat. Untuk terminal, operasi OS, matematika frontier, dan browsing versi Pro, GPT-5.5 punya beberapa kemenangan jelas. Untuk biaya, DeepSeek V4 patut diuji. Untuk Kimi K2.6, sinyalnya menarik, tetapi perlu pengujian ulang dengan harness yang sama.
Baris yang mencampur sumber harus dibaca hati-hati. Skor Kimi yang muncul dalam perbandingan berfokus Kimi tetap berguna, tetapi bobotnya tidak sekuat hasil dari tabel bersama dan harness yang sama dengan GPT-5.5, Claude Opus 4.7, dan DeepSeek-V4-Pro-Max .
Kemenangan paling jelas GPT-5.5 ada di Terminal-Bench 2.0: 82,7% versus Claude Opus 4.7 pada 69,4% dan DeepSeek-V4-Pro-Max pada 67,9% dalam tabel bersama . Selisih ini termasuk yang paling besar dalam kumpulan benchmark yang dikutip.
GPT-5.5 juga unggul atas Claude Opus 4.7 di OSWorld-Verified, tetapi tipis: 78,7% berbanding 78,0% . Di FrontierMath Tiers 1–3, selisihnya lebih terasa: 51,7% untuk GPT-5.5 versus 43,8% untuk Claude
.
Jika tool dan browsing menjadi inti pekerjaan, GPT-5.5 Pro mengubah peta. Model ini memimpin Humanity’s Last Exam with tools dengan 57,2%, di atas Claude Opus 4.7 54,7%, GPT-5.5 52,2%, dan DeepSeek-V4-Pro-Max 48,2% . GPT-5.5 Pro juga memimpin BrowseComp dengan 90,1%, di atas GPT-5.5 84,4%, DeepSeek-V4-Pro-Max 83,4%, dan Claude Opus 4.7 79,3%
.
Namun GPT-5.5 bukan pemenang di semua tes reasoning. Claude Opus 4.7 unggul tipis di GPQA Diamond, 94,2% versus 93,6%, dalam tabel bersama . Ada pula hasil domain khusus GPT-5.5 seperti 91,7% di Harvey BigLaw Bench, 88,5% di benchmark internal investment banking, dan 80,5% di BixBench; tetapi hasil itu tidak boleh dibaca sebagai kemenangan empat arah karena kutipan yang tersedia tidak melaporkan skor setara untuk Claude Opus 4.7, DeepSeek V4, dan Kimi K2.6
.
Claude Opus 4.7 punya profil reasoning tanpa tool paling kuat dalam tabel bersama utama. Model ini memimpin GPQA Diamond dengan 94,2% dan Humanity’s Last Exam tanpa tool dengan 46,9% . Dalam tabel yang sama, Claude juga memimpin SWE-Bench Pro / SWE Pro dengan 64,3% dan MCP Atlas / MCPAtlas Public dengan 79,1%
.
Area yang lebih lemah dalam data yang dikutip adalah operasi bergaya terminal. GPT-5.5 unggul lebih dari 13 poin atas Claude di Terminal-Bench 2.0, 82,7% versus 69,4%, dan juga unggul di OSWorld-Verified serta FrontierMath Tiers 1–3 .
Untuk multimodal dan dokumen, Claude punya sinyal paling kuat. Satu sumber melaporkan Claude Opus 4.7 sebagai nomor 1 di Vision & Document Arena, naik 4 poin dari Opus 4.6 di Document Arena, serta menang di subkategori diagram, homework, dan OCR . Tetapi sumber yang sama tidak memberikan skor Vision & Document Arena yang sebanding untuk GPT-5.5, DeepSeek V4, atau Kimi K2.6, jadi ini mendukung kekuatan Claude di dokumen, bukan ranking multimodal empat arah yang lengkap
.
Ada beberapa label DeepSeek dalam sumber. Tabel bersama memakai DeepSeek-V4-Pro-Max, sementara perbandingan Artificial Analysis menyebut DeepSeek V4 Pro dengan context window 1.000k token . Label-label ini tidak otomatis bisa dianggap sama.
Dalam tabel bersama utama, DeepSeek-V4-Pro-Max kompetitif tetapi tidak memimpin satu pun baris. Skornya adalah 90,1% di GPQA Diamond, 37,7% di Humanity’s Last Exam tanpa tool, 48,2% di Humanity’s Last Exam dengan tool, 67,9% di Terminal-Bench 2.0, 55,4% di SWE-Bench Pro / SWE Pro, 83,4% di BrowseComp, dan 73,6% di MCP Atlas / MCPAtlas Public .
Klaim produk DeepSeek yang paling kuat dalam sumber adalah biaya-kinerja. VentureBeat menggambarkan DeepSeek V4 sebagai model dengan intelligence mendekati state-of-the-art pada biaya sekitar seperenam Opus 4.7 dan GPT-5.5 . Itu alasan bagus untuk mengujinya pada workload sensitif biaya, tetapi bukan alasan untuk melewati validasi kualitas di pekerjaan nyata.
Untuk penyaringan long-context, satu perbandingan Artificial Analysis mencantumkan DeepSeek V4 Pro dan Claude Opus 4.7 sama-sama memiliki context window 1.000k token . Artinya keduanya setara pada konfigurasi yang dicantumkan itu, bukan klaim umum untuk semua mode DeepSeek atau Claude
.
Kimi K2.6 adalah model yang paling sulit ditempatkan secara bersih dalam perbandingan ini karena tidak masuk tabel bersama utama melawan GPT-5.5, Claude Opus 4.7, dan DeepSeek-V4-Pro-Max . Satu perbandingan berfokus Kimi melaporkan K2.6 pada 58,6% di SWE-Bench Pro, 80,2% di SWE-Bench Verified, 66,7% di Terminal-Bench 2.0, 54,0% di Humanity’s Last Exam with tools, dan 89,6% di LiveCodeBench v6
. Sumber itu menyebut angka K2.6 berasal dari model card resmi Moonshot AI, tetapi kelompok pembanding utamanya adalah Claude Opus 4.6 dan GPT-5.4, bukan persis empat model dalam artikel ini
.
Perbandingan Kimi vs DeepSeek lain melaporkan Kimi K2.6 pada 96,4% di AIME 2026 dalam Thinking mode, 27,9% di APEX Agents dalam Thinking mode, dan 83,2% di BrowseComp dengan Thinking mode serta context management . Dalam sumber yang sama, DeepSeek-V4 Pro tercatat 83,4% di BrowseComp, sementara nilai DeepSeek untuk AIME 2026 dan APEX Agents tidak tersedia
.
Jadi, Kimi layak diuji, terutama untuk coding, agentic task, matematika, dan browsing. Namun materi yang dikutip belum cukup untuk menyusun ranking menyeluruh yang bersih terhadap GPT-5.5 dan Claude Opus 4.7 di suite benchmark yang sama .
Ini bukan leaderboard universal. Sumber mencampur varian base dan Pro, termasuk GPT-5.5, GPT-5.5 Pro, DeepSeek-V4-Pro-Max, DeepSeek V4 Pro, Claude Opus 4.7, dan Kimi K2.6 . Sebagian hasil juga dilaporkan vendor; OpenAI mencatat evaluasi GPT untuk ARC dijalankan dengan reasoning effort
xhigh dalam lingkungan riset yang bisa berbeda dari produksi ChatGPT .
Selisih tipis sebaiknya dianggap sebagai arah, bukan vonis. Keunggulan Claude atas GPT-5.5 di GPQA Diamond hanya 0,6 poin, dan keunggulan GPT-5.5 atas Claude di OSWorld-Verified hanya 0,7 poin . Selisih besar lebih berguna untuk keputusan awal: GPT-5.5 unggul lebih dari 13 poin atas Claude di Terminal-Bench 2.0, dan unggul 7,9 poin di FrontierMath
.
Kesimpulan praktisnya: tidak ada satu pemenang tunggal di antara GPT-5.5, Claude Opus 4.7, DeepSeek V4, dan Kimi K2.6. Pilih kategori benchmark yang paling mirip dengan pekerjaan nyata Anda, lalu jalankan evaluasi ulang pada model yang benar-benar bisa Anda deploy.
Studio Global AI
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
Claude Opus 4.7 memimpin GPQA Diamond dengan 94,2% dan Humanity’s Last Exam tanpa tool dengan 46,9%, sedangkan GPT 5.5 memimpin Terminal Bench 2.0 dengan 82,7% [4][5].
Claude Opus 4.7 memimpin GPQA Diamond dengan 94,2% dan Humanity’s Last Exam tanpa tool dengan 46,9%, sedangkan GPT 5.5 memimpin Terminal Bench 2.0 dengan 82,7% [4][5]. GPT 5.5 Pro menjadi pilihan terkuat di hasil yang dikutip untuk reasoning dengan tool dan browsing: 57,2% di Humanity’s Last Exam with tools dan 90,1% di BrowseComp [4].
DeepSeek V4 paling menarik dari sisi biaya kinerja, sementara Kimi K2.6 punya skor menjanjikan tetapi belum sebersih tiga model lain untuk perbandingan empat arah yang sama [4][11][13].
Loading comments...
Comments
0 comments