Benchmark AI 2026 mudah menyesatkan jika empat nama model dimasukkan ke satu leaderboard tanpa memastikan benchmark dan versi modelnya sama. Dalam sumber yang tersedia, perbandingan paling kuat adalah Claude Opus 4.7 vs GPT-5.5, karena keduanya muncul pada benchmark yang sama di tabel OpenAI dan Vellum [5][
2]. Untuk DeepSeek V4 dan Kimi K2.6, belum ada angka langsung di sumber ini; data terdekat justru merujuk ke DeepSeek V3.2, KimiK2.5, dan Kimi K2 Thinking [
1][
13][
6].
Temuan utama
- GPT-5.5 terlihat paling kuat untuk terminal/CLI, office/professional tasks, browser/search, dan beberapa eval matematika dalam data yang tersedia [
5][
2].
- Claude Opus 4.7 terlihat lebih kuat untuk SWE-Bench Pro Public, MCP/tool orchestration, dan FinanceAgent v1.1 dalam benchmark yang sama [
5][
2].
- DeepSeek V4 dan Kimi K2.6 belum bisa diranking secara adil melawan Claude Opus 4.7 atau GPT-5.5 berdasarkan sumber ini, karena angka yang tersedia menyebut versi lain [
1][
13][
6].
Angka benchmark yang benar-benar sebanding
Tabel berikut hanya memasangkan Claude Opus 4.7 dan GPT-5.5 pada benchmark yang sama. Hasil GPT-5.5 Pro hanya disebut saat sumber menampilkannya sebagai varian terpisah [2].
| Kebutuhan produk | Benchmark | Hasil yang dilaporkan | Pembacaan |
|---|---|---|---|
| Coding repair | SWE-Bench Pro Public | Claude Opus 4.7 64,3% vs GPT-5.5 58,6% [ | Claude unggul pada benchmark ini. |
| Terminal/CLI agent | Terminal-Bench 2.0 | GPT-5.5 82,7% vs Claude Opus 4.7 69,4% [ | GPT-5.5 unggul paling jelas di kategori terminal. |
| Professional work | GDPval; OfficeQA Pro | GPT-5.5 84,9% vs Claude 80,3% di GDPval; GPT-5.5 54,1% vs Claude 43,6% di OfficeQA Pro [ | GPT-5.5 lebih kuat pada dua metrik kerja profesional ini. |
| Finance agent | FinanceAgent v1.1 | Claude 64,4% vs GPT-5.5 60,0% [ | Claude unggul pada eval finance agent ini. |
| Computer/browser tasks | OSWorld-Verified; BrowseComp | GPT-5.5 78,7% vs Claude 78,0% di OSWorld; GPT-5.5 84,4% dan GPT-5.5 Pro 90,1% vs Claude 79,3% di BrowseComp [ | Hampir imbang di OSWorld; GPT-5.5 lebih tinggi di BrowseComp. |
| Tool orchestration | MCP Atlas | Claude 79,1% vs GPT-5.5 75,3% [ | Claude lebih kuat untuk skenario tool-heavy/MCP. |
| Science dan math reasoning | GPQA Diamond; FrontierMath T1–3 | Claude 94,2% vs GPT-5.5 93,6% di GPQA; GPT-5.5 51,7% dan GPT-5.5 Pro 52,4% vs Claude 43,8% di FrontierMath [ | GPQA sangat rapat; GPT-5.5 unggul di FrontierMath. |
Cara membaca benchmark ini tanpa salah simpul
1. Jangan campur SWE-Bench Pro dengan SWE-bench Verified
OpenAI memakai SWE-Bench Pro Public dalam tabel head-to-head GPT-5.5 vs Claude Opus 4.7 [5]. Itu tidak sama dengan SWE-bench Verified. BenchLM menjelaskan SWE-bench Verified sebagai subset human-verified dari SWE-bench yang menguji model menyelesaikan issue GitHub nyata dari repositori Python populer seperti Django, Flask, dan scikit-learn [
21].
Artinya, angka Claude 64,3% di SWE-Bench Pro Public tidak boleh langsung dibandingkan dengan angka Claude di SWE-bench Verified dari leaderboard lain [5][
21]. Nama benchmark, harness, tanggal evaluasi, dan konfigurasi model perlu dicocokkan dulu.
2. GPQA Diamond sudah kurang membedakan model frontier
Vellum menempatkan Claude Opus 4.7 di 94,2% dan GPT-5.5 di 93,6% pada GPQA Diamond [2]. The Next Web juga melaporkan Claude Opus 4.7 94,2%, GPT-5.4 Pro 94,4%, dan Gemini 3.1 Pro 94,3%, lalu menyebut selisih model-model tersebut berada dalam noise [
17]. Untuk memilih model produksi, GPQA berguna sebagai sinyal reasoning umum, tetapi kurang cukup sebagai penentu tunggal.
3. Leaderboard pihak ketiga bisa berbeda
Pada SWE-bench Verified, angka Claude Opus 4.7 tidak identik antar-sumber. BenchLM melaporkan Claude Opus 4.7 Adaptive 87,6% per 24 April 2026 [21]. LLM Stats juga mencantumkan 87,6% [
18]. Namun LM Council menampilkan Claude Opus 4.7 max 83,5% ±1,7 [
10], sementara MindStudio menyebut 82,4% [
14].
Perbedaan ini tidak otomatis berarti salah satu sumber keliru. Biasanya, perbedaan dapat muncul dari konfigurasi model, harness evaluasi, tanggal pengujian, dan cara leaderboard memperlakukan retry atau reasoning mode. Untuk tim engineering, angka publik sebaiknya dipakai sebagai shortlist awal, bukan pengganti evaluasi pada repositori dan workflow sendiri.
Claude Opus 4.7: paling menonjol untuk repo repair dan tool orchestration
Sinyal terkuat Claude Opus 4.7 ada pada coding repair dan agent yang memakai banyak tool. Dalam tabel OpenAI, Claude mengungguli GPT-5.5 pada SWE-Bench Pro Public, 64,3% vs 58,6%, dan pada FinanceAgent v1.1, 64,4% vs 60,0% [5]. Vellum juga melaporkan Claude unggul di MCP Atlas, 79,1% vs GPT-5.5 75,3% [
2].
Anthropic sendiri menyoroti evaluasi partner yang relevan untuk agentic workflows. Dalam launch note Claude Opus 4.7, Anthropic mengutip Hebbia yang melihat kenaikan dua digit pada akurasi tool calls dan planning di orchestrator agents, serta Rakuten-SWE-Bench yang melaporkan Opus 4.7 menyelesaikan tiga kali lebih banyak production tasks daripada Opus 4.6 dengan kenaikan dua digit pada Code Quality dan Test Quality [19]. Itu sinyal produk yang berguna, tetapi tetap berbeda dari evaluasi independen pada workload internal.
Kesimpulan praktisnya: jika prioritas Anda adalah autonomous repo repair, MCP, atau workflow multi-tool yang panjang, Claude Opus 4.7 layak diuji lebih dulu. Namun, hasil publik tetap perlu divalidasi pada test suite, permission model, dan pola tool call yang benar-benar dipakai tim Anda.
GPT-5.5: paling kuat untuk terminal, browser/search, office, dan math dalam data ini
Keunggulan GPT-5.5 paling jelas terlihat di Terminal-Bench 2.0. OpenAI melaporkan GPT-5.5 mencapai 82,7%, dibanding Claude Opus 4.7 69,4% dan Gemini 3.1 Pro 68,5% [5]. Dalam tabel yang sama, GPT-5.5 juga berada di atas Claude pada GDPval wins/ties, 84,9% vs 80,3%, dan OfficeQA Pro, 54,1% vs 43,6% [
5].
Vellum menambahkan konteks untuk computer-use, search, dan reasoning. GPT-5.5 sedikit di atas Claude pada OSWorld-Verified, 78,7% vs 78,0%; lebih tinggi di BrowseComp, 84,4% vs 79,3%; dan lebih tinggi di FrontierMath T1–3, 51,7% vs 43,8% [2]. Untuk BrowseComp, Vellum juga melaporkan GPT-5.5 Pro di 90,1% [
2].
Di coding, gambarnya campuran. GPT-5.5 sangat kuat di Terminal-Bench 2.0, tetapi tertinggal dari Claude Opus 4.7 pada SWE-Bench Pro Public dalam tabel OpenAI [5]. OpenAI System Card juga menjelaskan CoT-Control untuk GPT-5.5, yaitu suite evaluasi dengan lebih dari 13.000 task dari benchmark seperti GPQA, MMLU-Pro, HLE, BFCL, dan SWE-Bench Verified [
26]. Namun, sumber itu tidak memberikan perbandingan langsung dengan DeepSeek V4 atau Kimi K2.6 [
26].
DeepSeek V4 dan Kimi K2.6: belum ada bukti langsung di sumber ini
Untuk DeepSeek V4, sumber yang tersedia tidak memberikan angka benchmark langsung. Data terdekat justru menyebut DeepSeek V3.2: MangoMind menempatkan DeepSeek V3.2 di rekomendasi coding April 2026 dengan 89,2% SWE-bench, di bawah Claude Opus 4.6 93,2% dan GPT-5.4 Pro 91,1% [1]. Angka DeepSeek V3.2 tidak bisa dipakai untuk menyimpulkan performa DeepSeek V4.
Untuk Kimi K2.6, situasinya sama. Stanford HAI menyebut KimiK2.5 berada dalam kelompok model 70%–76% pada SWE-bench Verified per Februari 2026 [13]. Siliconflow mencantumkan Kimi K2 Thinking dengan GPQA 84,5 dan SWE Bench 71,3 [
6]. Keduanya bukan Kimi K2.6, sehingga hanya berguna sebagai konteks ekosistem Kimi, bukan bukti benchmark langsung untuk model yang ditanyakan.
Rekomendasi evaluasi untuk tim produk
| Jika kebutuhan utama Anda adalah... | Model yang sebaiknya diuji lebih dulu | Dasar bukti | Caveat |
|---|---|---|---|
| Terminal/CLI coding agent | GPT-5.5 | Terminal-Bench 2.0: GPT-5.5 82,7% vs Claude 69,4% [ | Uji ulang pada shell environment, permission model, dan CI/CD internal. |
| Autonomous repo repair | Claude Opus 4.7, lalu GPT-5.5 sebagai pembanding | SWE-Bench Pro Public: Claude 64,3% vs GPT-5.5 58,6% [ | Jangan campur dengan SWE-bench Verified tanpa mencocokkan harness [ |
| MCP atau multi-tool orchestration | Claude Opus 4.7 | MCP Atlas: Claude 79,1% vs GPT-5.5 75,3% [ | Validasi pada tool schema, retry logic, dan access policy Anda sendiri. |
| Browser/search agent | GPT-5.5 atau GPT-5.5 Pro | BrowseComp: GPT-5.5 84,4%, GPT-5.5 Pro 90,1%, Claude 79,3% [ | Jangan samakan BrowseComp dengan seluruh kebutuhan riset internal. |
| Finance/professional workflow | Split test Claude dan GPT-5.5 | Claude unggul di FinanceAgent v1.1, tetapi GPT-5.5 unggul di GDPval dan OfficeQA Pro [ | MindStudio menekankan bahwa jarak dari skor benchmark finance ke tool produksi sering terletak pada infrastruktur end-to-end, bukan hanya intelligence model [ |
| Scientific reasoning umum | Jangan memilih dari GPQA saja | Skor GPQA Diamond Claude dan GPT-5.5 sangat rapat di Vellum [ | Gunakan evaluasi domain-specific, terutama jika tugasnya berbeda dari soal benchmark. |
Kesimpulan
Jika hanya memakai bukti head-to-head yang tersedia, GPT-5.5 adalah kandidat paling kuat untuk terminal/CLI agent, browser/search, office tasks, dan beberapa benchmark matematika [5][
2]. Claude Opus 4.7 adalah kandidat paling kuat untuk SWE-Bench Pro Public, MCP/tool orchestration, dan FinanceAgent v1.1 [
5][
2].
DeepSeek V4 dan Kimi K2.6 belum bisa diperingkatkan secara adil melawan keduanya berdasarkan sumber ini. Data yang tersedia menyebut versi lain, yaitu DeepSeek V3.2, KimiK2.5, dan Kimi K2 Thinking, sehingga klaim bahwa DeepSeek V4 atau Kimi K2.6 mengalahkan Claude Opus 4.7 atau GPT-5.5 belum didukung oleh angka benchmark langsung di kumpulan sumber ini [1][
13][
6].




