Tabel berikut hanya memasangkan Claude Opus 4.7 dan GPT-5.5 pada benchmark yang sama. Hasil GPT-5.5 Pro hanya disebut saat sumber menampilkannya sebagai varian terpisah .
OpenAI memakai SWE-Bench Pro Public dalam tabel head-to-head GPT-5.5 vs Claude Opus 4.7 . Itu tidak sama dengan SWE-bench Verified. BenchLM menjelaskan SWE-bench Verified sebagai subset human-verified dari SWE-bench yang menguji model menyelesaikan issue GitHub nyata dari repositori Python populer seperti Django, Flask, dan scikit-learn
.
Artinya, angka Claude 64,3% di SWE-Bench Pro Public tidak boleh langsung dibandingkan dengan angka Claude di SWE-bench Verified dari leaderboard lain . Nama benchmark, harness, tanggal evaluasi, dan konfigurasi model perlu dicocokkan dulu.
Vellum menempatkan Claude Opus 4.7 di 94,2% dan GPT-5.5 di 93,6% pada GPQA Diamond . The Next Web juga melaporkan Claude Opus 4.7 94,2%, GPT-5.4 Pro 94,4%, dan Gemini 3.1 Pro 94,3%, lalu menyebut selisih model-model tersebut berada dalam noise
. Untuk memilih model produksi, GPQA berguna sebagai sinyal reasoning umum, tetapi kurang cukup sebagai penentu tunggal.
Pada SWE-bench Verified, angka Claude Opus 4.7 tidak identik antar-sumber. BenchLM melaporkan Claude Opus 4.7 Adaptive 87,6% per 24 April 2026 . LLM Stats juga mencantumkan 87,6%
. Namun LM Council menampilkan Claude Opus 4.7 max 83,5% ±1,7
, sementara MindStudio menyebut 82,4%
.
Perbedaan ini tidak otomatis berarti salah satu sumber keliru. Biasanya, perbedaan dapat muncul dari konfigurasi model, harness evaluasi, tanggal pengujian, dan cara leaderboard memperlakukan retry atau reasoning mode. Untuk tim engineering, angka publik sebaiknya dipakai sebagai shortlist awal, bukan pengganti evaluasi pada repositori dan workflow sendiri.
Sinyal terkuat Claude Opus 4.7 ada pada coding repair dan agent yang memakai banyak tool. Dalam tabel OpenAI, Claude mengungguli GPT-5.5 pada SWE-Bench Pro Public, 64,3% vs 58,6%, dan pada FinanceAgent v1.1, 64,4% vs 60,0% . Vellum juga melaporkan Claude unggul di MCP Atlas, 79,1% vs GPT-5.5 75,3%
.
Anthropic sendiri menyoroti evaluasi partner yang relevan untuk agentic workflows. Dalam launch note Claude Opus 4.7, Anthropic mengutip Hebbia yang melihat kenaikan dua digit pada akurasi tool calls dan planning di orchestrator agents, serta Rakuten-SWE-Bench yang melaporkan Opus 4.7 menyelesaikan tiga kali lebih banyak production tasks daripada Opus 4.6 dengan kenaikan dua digit pada Code Quality dan Test Quality . Itu sinyal produk yang berguna, tetapi tetap berbeda dari evaluasi independen pada workload internal.
Kesimpulan praktisnya: jika prioritas Anda adalah autonomous repo repair, MCP, atau workflow multi-tool yang panjang, Claude Opus 4.7 layak diuji lebih dulu. Namun, hasil publik tetap perlu divalidasi pada test suite, permission model, dan pola tool call yang benar-benar dipakai tim Anda.
Keunggulan GPT-5.5 paling jelas terlihat di Terminal-Bench 2.0. OpenAI melaporkan GPT-5.5 mencapai 82,7%, dibanding Claude Opus 4.7 69,4% dan Gemini 3.1 Pro 68,5% . Dalam tabel yang sama, GPT-5.5 juga berada di atas Claude pada GDPval wins/ties, 84,9% vs 80,3%, dan OfficeQA Pro, 54,1% vs 43,6%
.
Vellum menambahkan konteks untuk computer-use, search, dan reasoning. GPT-5.5 sedikit di atas Claude pada OSWorld-Verified, 78,7% vs 78,0%; lebih tinggi di BrowseComp, 84,4% vs 79,3%; dan lebih tinggi di FrontierMath T1–3, 51,7% vs 43,8% . Untuk BrowseComp, Vellum juga melaporkan GPT-5.5 Pro di 90,1%
.
Di coding, gambarnya campuran. GPT-5.5 sangat kuat di Terminal-Bench 2.0, tetapi tertinggal dari Claude Opus 4.7 pada SWE-Bench Pro Public dalam tabel OpenAI . OpenAI System Card juga menjelaskan CoT-Control untuk GPT-5.5, yaitu suite evaluasi dengan lebih dari 13.000 task dari benchmark seperti GPQA, MMLU-Pro, HLE, BFCL, dan SWE-Bench Verified
. Namun, sumber itu tidak memberikan perbandingan langsung dengan DeepSeek V4 atau Kimi K2.6
.
Untuk DeepSeek V4, sumber yang tersedia tidak memberikan angka benchmark langsung. Data terdekat justru menyebut DeepSeek V3.2: MangoMind menempatkan DeepSeek V3.2 di rekomendasi coding April 2026 dengan 89,2% SWE-bench, di bawah Claude Opus 4.6 93,2% dan GPT-5.4 Pro 91,1% . Angka DeepSeek V3.2 tidak bisa dipakai untuk menyimpulkan performa DeepSeek V4.
Untuk Kimi K2.6, situasinya sama. Stanford HAI menyebut KimiK2.5 berada dalam kelompok model 70%–76% pada SWE-bench Verified per Februari 2026 . Siliconflow mencantumkan Kimi K2 Thinking dengan GPQA 84,5 dan SWE Bench 71,3
. Keduanya bukan Kimi K2.6, sehingga hanya berguna sebagai konteks ekosistem Kimi, bukan bukti benchmark langsung untuk model yang ditanyakan.
Jika hanya memakai bukti head-to-head yang tersedia, GPT-5.5 adalah kandidat paling kuat untuk terminal/CLI agent, browser/search, office tasks, dan beberapa benchmark matematika . Claude Opus 4.7 adalah kandidat paling kuat untuk SWE-Bench Pro Public, MCP/tool orchestration, dan FinanceAgent v1.1
.
DeepSeek V4 dan Kimi K2.6 belum bisa diperingkatkan secara adil melawan keduanya berdasarkan sumber ini. Data yang tersedia menyebut versi lain, yaitu DeepSeek V3.2, KimiK2.5, dan Kimi K2 Thinking, sehingga klaim bahwa DeepSeek V4 atau Kimi K2.6 mengalahkan Claude Opus 4.7 atau GPT-5.5 belum didukung oleh angka benchmark langsung di kumpulan sumber ini .
Comments
0 comments