Untuk data yang benar benar head to head, GPT 5.5 unggul di Terminal Bench 2.0, 82,7% vs 69,4%, sementara Claude Opus 4.7 unggul di SWE Bench Pro Public, 64,3% vs 58,6%; DeepSeek V4 dan Kimi K2.6 belum punya angka ben... Tidak ada juara universal: Claude lebih kuat di MCP Atlas dan FinanceAgent, sedangkan GPT 5.5 le...

Create a landscape editorial hero image for this Studio Global article: Claude Opus 4.7 vs GPT-5.5: Benchmark 2026 dan Status DeepSeek V4/Kimi K2.6. Article summary: Bukti terkuat hanya mendukung head to head Claude Opus 4.7 vs GPT 5.5: GPT 5.5 unggul di Terminal Bench 2.0 (82.7% vs 69.4%), sedangkan Claude unggul di SWE Bench Pro (64.3% vs 58.6%); DeepSeek V4 dan Kimi K2.6 belum.... Topic tags: ai, ai benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). . [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watc
Benchmark AI 2026 mudah menyesatkan jika empat nama model dimasukkan ke satu leaderboard tanpa memastikan benchmark dan versi modelnya sama. Dalam sumber yang tersedia, perbandingan paling kuat adalah Claude Opus 4.7 vs GPT-5.5, karena keduanya muncul pada benchmark yang sama di tabel OpenAI dan Vellum [5][
2]. Untuk DeepSeek V4 dan Kimi K2.6, belum ada angka langsung di sumber ini; data terdekat justru merujuk ke DeepSeek V3.2, KimiK2.5, dan Kimi K2 Thinking [
1][
13][
6].
Studio Global AI
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
Untuk data yang benar benar head to head, GPT 5.5 unggul di Terminal Bench 2.0, 82,7% vs 69,4%, sementara Claude Opus 4.7 unggul di SWE Bench Pro Public, 64,3% vs 58,6%; DeepSeek V4 dan Kimi K2.6 belum punya angka ben...
Untuk data yang benar benar head to head, GPT 5.5 unggul di Terminal Bench 2.0, 82,7% vs 69,4%, sementara Claude Opus 4.7 unggul di SWE Bench Pro Public, 64,3% vs 58,6%; DeepSeek V4 dan Kimi K2.6 belum punya angka ben... Tidak ada juara universal: Claude lebih kuat di MCP Atlas dan FinanceAgent, sedangkan GPT 5.5 lebih kuat di BrowseComp, GDPval, OfficeQA Pro, dan FrontierMath dalam tabel yang tersedia [2][5].
GPQA Diamond kurang tajam sebagai pembeda model frontier karena skornya sangat rapat; Vellum menempatkan Claude di 94,2% dan GPT 5.5 di 93,6%, sementara The Next Web menyebut selisih model frontier sejenis berada dala...
Lanjutkan dengan "Panduan Revisi Ujian Kepolisian Hong Kong: ICAC, Wewenang Polisi, dan Akuntabilitas" untuk sudut pandang lain dan kutipan tambahan.
Open related pagePeriksa ulang jawaban ini dengan "Claude Opus 4.7 vs GPT-5.5 vs DeepSeek V4 vs Kimi K2.6: siapa unggul di benchmark 2026?".
Open related page5. Monthly Updates AI moves fast. We re-test all models monthly and publish updated rankings to reflect the latest releases. 🎯 Quick Recommendations Best AI for Coding (April 2026) 1. •Claude Opus 4.6 - 93.2% SWE-bench 2. •GPT-5.4 Pro - 91.1% SWE-bench 3....
Benchmark GPT-5.5 GPT-5.5 Pro GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro --- --- --- Terminal-Bench 2.0 82.7% — 75.1% 69.4% 68.5% SWE-Bench Pro 58.6% — 57.7% 64.3% 54.2% Expert-SWE (Internal) 73.1% — 68.5% — — GDPval 84.9% 82.3% 83.0% 80.3% 67.3% OSWorld-Verifi...
Evaluations Coding EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaude Opus 4.7Gemini 3.1 Pro SWE-Bench Pro (Public) 58.6%57.7%--64.3%54.2% Terminal-Bench 2.0 82.7%75.1%--69.4%68.5% Expert-SWE (Internal)73.1%68.5%---- Labs have noted evidence of memorization(op...
Model GRIND (%) AIME (%) GPQA (%) SWE Bench (%) MATH 500 (%) BFCL (%) Alder Polyglot (%) --- --- --- --- Kimi K2 Thinking — — 84.5 71.3 — — — GPT 5.1 — — 88.1 76.3 — — — Claude Haiku 4.5 — — 73 73.3 — — — GPT-5 — — 87.3 74.9 — — 88 Claude Opus 4.1 — — 80.9...
Tabel berikut hanya memasangkan Claude Opus 4.7 dan GPT-5.5 pada benchmark yang sama. Hasil GPT-5.5 Pro hanya disebut saat sumber menampilkannya sebagai varian terpisah [2].
| Kebutuhan produk | Benchmark | Hasil yang dilaporkan | Pembacaan |
|---|---|---|---|
| Coding repair | SWE-Bench Pro Public | Claude Opus 4.7 64,3% vs GPT-5.5 58,6% [ | Claude unggul pada benchmark ini. |
| Terminal/CLI agent | Terminal-Bench 2.0 | GPT-5.5 82,7% vs Claude Opus 4.7 69,4% [ | GPT-5.5 unggul paling jelas di kategori terminal. |
| Professional work | GDPval; OfficeQA Pro | GPT-5.5 84,9% vs Claude 80,3% di GDPval; GPT-5.5 54,1% vs Claude 43,6% di OfficeQA Pro [ | GPT-5.5 lebih kuat pada dua metrik kerja profesional ini. |
| Finance agent | FinanceAgent v1.1 | Claude 64,4% vs GPT-5.5 60,0% [ | Claude unggul pada eval finance agent ini. |
| Computer/browser tasks | OSWorld-Verified; BrowseComp | GPT-5.5 78,7% vs Claude 78,0% di OSWorld; GPT-5.5 84,4% dan GPT-5.5 Pro 90,1% vs Claude 79,3% di BrowseComp [ | Hampir imbang di OSWorld; GPT-5.5 lebih tinggi di BrowseComp. |
| Tool orchestration | MCP Atlas | Claude 79,1% vs GPT-5.5 75,3% [ | Claude lebih kuat untuk skenario tool-heavy/MCP. |
| Science dan math reasoning | GPQA Diamond; FrontierMath T1–3 | Claude 94,2% vs GPT-5.5 93,6% di GPQA; GPT-5.5 51,7% dan GPT-5.5 Pro 52,4% vs Claude 43,8% di FrontierMath [ | GPQA sangat rapat; GPT-5.5 unggul di FrontierMath. |
OpenAI memakai SWE-Bench Pro Public dalam tabel head-to-head GPT-5.5 vs Claude Opus 4.7 [5]. Itu tidak sama dengan SWE-bench Verified. BenchLM menjelaskan SWE-bench Verified sebagai subset human-verified dari SWE-bench yang menguji model menyelesaikan issue GitHub nyata dari repositori Python populer seperti Django, Flask, dan scikit-learn [
21].
Artinya, angka Claude 64,3% di SWE-Bench Pro Public tidak boleh langsung dibandingkan dengan angka Claude di SWE-bench Verified dari leaderboard lain [5][
21]. Nama benchmark, harness, tanggal evaluasi, dan konfigurasi model perlu dicocokkan dulu.
Vellum menempatkan Claude Opus 4.7 di 94,2% dan GPT-5.5 di 93,6% pada GPQA Diamond [2]. The Next Web juga melaporkan Claude Opus 4.7 94,2%, GPT-5.4 Pro 94,4%, dan Gemini 3.1 Pro 94,3%, lalu menyebut selisih model-model tersebut berada dalam noise [
17]. Untuk memilih model produksi, GPQA berguna sebagai sinyal reasoning umum, tetapi kurang cukup sebagai penentu tunggal.
Pada SWE-bench Verified, angka Claude Opus 4.7 tidak identik antar-sumber. BenchLM melaporkan Claude Opus 4.7 Adaptive 87,6% per 24 April 2026 [21]. LLM Stats juga mencantumkan 87,6% [
18]. Namun LM Council menampilkan Claude Opus 4.7 max 83,5% ±1,7 [
10], sementara MindStudio menyebut 82,4% [
14].
Perbedaan ini tidak otomatis berarti salah satu sumber keliru. Biasanya, perbedaan dapat muncul dari konfigurasi model, harness evaluasi, tanggal pengujian, dan cara leaderboard memperlakukan retry atau reasoning mode. Untuk tim engineering, angka publik sebaiknya dipakai sebagai shortlist awal, bukan pengganti evaluasi pada repositori dan workflow sendiri.
Sinyal terkuat Claude Opus 4.7 ada pada coding repair dan agent yang memakai banyak tool. Dalam tabel OpenAI, Claude mengungguli GPT-5.5 pada SWE-Bench Pro Public, 64,3% vs 58,6%, dan pada FinanceAgent v1.1, 64,4% vs 60,0% [5]. Vellum juga melaporkan Claude unggul di MCP Atlas, 79,1% vs GPT-5.5 75,3% [
2].
Anthropic sendiri menyoroti evaluasi partner yang relevan untuk agentic workflows. Dalam launch note Claude Opus 4.7, Anthropic mengutip Hebbia yang melihat kenaikan dua digit pada akurasi tool calls dan planning di orchestrator agents, serta Rakuten-SWE-Bench yang melaporkan Opus 4.7 menyelesaikan tiga kali lebih banyak production tasks daripada Opus 4.6 dengan kenaikan dua digit pada Code Quality dan Test Quality [19]. Itu sinyal produk yang berguna, tetapi tetap berbeda dari evaluasi independen pada workload internal.
Kesimpulan praktisnya: jika prioritas Anda adalah autonomous repo repair, MCP, atau workflow multi-tool yang panjang, Claude Opus 4.7 layak diuji lebih dulu. Namun, hasil publik tetap perlu divalidasi pada test suite, permission model, dan pola tool call yang benar-benar dipakai tim Anda.
Keunggulan GPT-5.5 paling jelas terlihat di Terminal-Bench 2.0. OpenAI melaporkan GPT-5.5 mencapai 82,7%, dibanding Claude Opus 4.7 69,4% dan Gemini 3.1 Pro 68,5% [5]. Dalam tabel yang sama, GPT-5.5 juga berada di atas Claude pada GDPval wins/ties, 84,9% vs 80,3%, dan OfficeQA Pro, 54,1% vs 43,6% [
5].
Vellum menambahkan konteks untuk computer-use, search, dan reasoning. GPT-5.5 sedikit di atas Claude pada OSWorld-Verified, 78,7% vs 78,0%; lebih tinggi di BrowseComp, 84,4% vs 79,3%; dan lebih tinggi di FrontierMath T1–3, 51,7% vs 43,8% [2]. Untuk BrowseComp, Vellum juga melaporkan GPT-5.5 Pro di 90,1% [
2].
Di coding, gambarnya campuran. GPT-5.5 sangat kuat di Terminal-Bench 2.0, tetapi tertinggal dari Claude Opus 4.7 pada SWE-Bench Pro Public dalam tabel OpenAI [5]. OpenAI System Card juga menjelaskan CoT-Control untuk GPT-5.5, yaitu suite evaluasi dengan lebih dari 13.000 task dari benchmark seperti GPQA, MMLU-Pro, HLE, BFCL, dan SWE-Bench Verified [
26]. Namun, sumber itu tidak memberikan perbandingan langsung dengan DeepSeek V4 atau Kimi K2.6 [
26].
Untuk DeepSeek V4, sumber yang tersedia tidak memberikan angka benchmark langsung. Data terdekat justru menyebut DeepSeek V3.2: MangoMind menempatkan DeepSeek V3.2 di rekomendasi coding April 2026 dengan 89,2% SWE-bench, di bawah Claude Opus 4.6 93,2% dan GPT-5.4 Pro 91,1% [1]. Angka DeepSeek V3.2 tidak bisa dipakai untuk menyimpulkan performa DeepSeek V4.
Untuk Kimi K2.6, situasinya sama. Stanford HAI menyebut KimiK2.5 berada dalam kelompok model 70%–76% pada SWE-bench Verified per Februari 2026 [13]. Siliconflow mencantumkan Kimi K2 Thinking dengan GPQA 84,5 dan SWE Bench 71,3 [
6]. Keduanya bukan Kimi K2.6, sehingga hanya berguna sebagai konteks ekosistem Kimi, bukan bukti benchmark langsung untuk model yang ditanyakan.
| Jika kebutuhan utama Anda adalah... | Model yang sebaiknya diuji lebih dulu | Dasar bukti | Caveat |
|---|---|---|---|
| Terminal/CLI coding agent | GPT-5.5 | Terminal-Bench 2.0: GPT-5.5 82,7% vs Claude 69,4% [ | Uji ulang pada shell environment, permission model, dan CI/CD internal. |
| Autonomous repo repair | Claude Opus 4.7, lalu GPT-5.5 sebagai pembanding | SWE-Bench Pro Public: Claude 64,3% vs GPT-5.5 58,6% [ | Jangan campur dengan SWE-bench Verified tanpa mencocokkan harness [ |
| MCP atau multi-tool orchestration | Claude Opus 4.7 | MCP Atlas: Claude 79,1% vs GPT-5.5 75,3% [ | Validasi pada tool schema, retry logic, dan access policy Anda sendiri. |
| Browser/search agent | GPT-5.5 atau GPT-5.5 Pro | BrowseComp: GPT-5.5 84,4%, GPT-5.5 Pro 90,1%, Claude 79,3% [ | Jangan samakan BrowseComp dengan seluruh kebutuhan riset internal. |
| Finance/professional workflow | Split test Claude dan GPT-5.5 | Claude unggul di FinanceAgent v1.1, tetapi GPT-5.5 unggul di GDPval dan OfficeQA Pro [ | MindStudio menekankan bahwa jarak dari skor benchmark finance ke tool produksi sering terletak pada infrastruktur end-to-end, bukan hanya intelligence model [ |
| Scientific reasoning umum | Jangan memilih dari GPQA saja | Skor GPQA Diamond Claude dan GPT-5.5 sangat rapat di Vellum [ | Gunakan evaluasi domain-specific, terutama jika tugasnya berbeda dari soal benchmark. |
Jika hanya memakai bukti head-to-head yang tersedia, GPT-5.5 adalah kandidat paling kuat untuk terminal/CLI agent, browser/search, office tasks, dan beberapa benchmark matematika [5][
2]. Claude Opus 4.7 adalah kandidat paling kuat untuk SWE-Bench Pro Public, MCP/tool orchestration, dan FinanceAgent v1.1 [
5][
2].
DeepSeek V4 dan Kimi K2.6 belum bisa diperingkatkan secara adil melawan keduanya berdasarkan sumber ini. Data yang tersedia menyebut versi lain, yaitu DeepSeek V3.2, KimiK2.5, dan Kimi K2 Thinking, sehingga klaim bahwa DeepSeek V4 atau Kimi K2.6 mengalahkan Claude Opus 4.7 atau GPT-5.5 belum didukung oleh angka benchmark langsung di kumpulan sumber ini [1][
13][
6].
Panduan Ujian Kepolisian Hong Kong: ICAC, Kekuasaan Polisi, dan Batasnya
METR Time Horizons Model Minutes --- 1 Claude Opus 4.6 (unknown thinking) 718.8 ±1815.2 2 GPT-5.2 (high) 352.2 ±335.5 3 GPT-5.3 Codex 349.5 ±333.1 4 Claude Opus 4.5 (no thinking) 293.0 ±239.0 5 Claude Opus 4.5 (16k thinking) 288.9 ±558.2 SWE-bench Verified...
On SWE-bench Verified, top models are tightly clustered in the low-to-mid 70s (Figure 2.5.1). As of February 2026, Claude 4.5 Opus (high reasoning) led at approximately 76.8%, with several others including KimiK2.5, GPT-5.2, and Gemini 3 Flash (high reasoni...
This matters for teams evaluating Opus 4.7 for production use because the model’s capability gains are only useful if they’re integrated into something that works end-to-end. The gap between “this model scores 82.7% on FinanceBench” and “we have a deployed...
On graduate-level reasoning, measured by GPQA Diamond, the field has converged. Opus 4.7 scores 94.2%, GPT-5.4 Pro scores 94.4%, and Gemini 3.1 Pro scores 94.3%. The differences are within noise. The frontier models have effectively saturated this benchmark...
LLM Stats Logo Make AI phone calls with one API call Claude Opus 4.7: Benchmarks, Pricing, Context & What's New Claude Opus 4.7 scores 87.6% on SWE-bench Verified, 94.2% on GPQA, 1M token context, 3.3x higher-resolution vision, new xhigh effort level. $5/$2...
Image 15: logo In our evals, we saw a double-digit jump in accuracy of tool calls and planning in our core orchestrator agents. As users leverage Hebbia to plan and execute on use cases like retrieval, slide creation, or document generation, Claude Opus 4.7...
Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools Software Engineering Benchmark Verified (SWE-bench Verified) A curated, human-verified subset of SWE-bench that tests models on resolving real GitHub issues from popular open-so...
We measure GPT-5.5’s controllability by running CoT-Control, an evaluation suite described in (Yueh-Han, 2026 ) that tracks the model’s ability to follow user instructions about their CoT. CoT-Control includes over 13,000 tasks built from established benchm...