उत्तरप्रकाशित28 अप्रैल 2026Last edited 6 मई 202613 स्रोत

GPT-5.5 vs Claude Opus 4.7: Benchmark dan Panduan Memilih Model

Tidak ada pemenang universal: GPT 5.5 unggul di Terminal Bench 2.0 dan FrontierMath, sementara Claude Opus 4.7 unggul di SWE Bench Pro dan MCP Atlas. Untuk coding, SWE Bench Verified nyaris seri; sinyal yang lebih kuat adalah SWE Bench Pro, tempat Claude Opus 4.7 unggul 5,7 poin.

Studio Global AI के साथ खोजें और तथ्यों की जांच करें डिस्कवर से और अधिक ब्राउज़ करें

17K0

GPT-5.5 और Claude Opus 4.7 की benchmark तुलना दिखाता editorial AI visual — GPT-5.5 बनाम Claude Opus 4.7: Benchmarks में कौन आगे हैAI-generated editorial illustration for the GPT-5.5 vs Claude Opus 4.7 benchmark comparison.
AI संकेत
Create a landscape editorial hero image for this Studio Global article: GPT-5.5 बनाम Claude Opus 4.7: Benchmarks में कौन आगे है?. Article summary: कोई universal winner नहीं है: GPT 5.5 Terminal Bench 2.0 पर 82.7% और FrontierMath Tier 4 पर 35.4% दिखता है, जबकि Claude Opus 4.7 SWE Bench Pro पर 64.3% और MCP Atlas में 77.3–79.1% से आगे है; निर्णय workload पर निर्भर.... Topic tags: ai, llm, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "# OpenAI’s GPT-5.5 vs Claude Opus 4.7: Which is better? OpenAI released its latest model, GPT-5.5, on April 23, just a week after Anthropic introduced Claude Opus 4.7. **Spoiler al" source context "OpenAI's GPT-5.5 vs Claude Opus 4.7: Which is better? - Yahoo Tech" Reference image 2: visual subject "Compare their benchmark scores, pricing, and real-world performance before you commit. If you’re cho
openai.com

Kesimpulan paling praktis dari perbandingan GPT-5.5 dan Claude Opus 4.7 bukanlah mencari satu pemenang untuk semua hal. Angka benchmark lebih tepat dibaca sebagai petunjuk jenis pekerjaan yang cocok. LLM Stats juga membingkainya begitu: hasil benchmark tidak memilih juara universal, melainkan memilih workload ^[2].

Dalam data yang tersedia, GPT-5.5 terlihat kuat untuk eksekusi bergaya terminal, matematika berat, dan riset web ala BrowseComp. Claude Opus 4.7 terlihat lebih unggul untuk software engineering yang lebih sulit dan orkestrasi tool/API melalui MCP ^[21]^[27]^[28]^[32].

Ringkasan benchmark

Benchmark / area	GPT-5.5	Claude Opus 4.7	Cara membacanya
SWE-Bench Verified	88,7%	87,6%	Nyaris seri; keunggulan 1,1 poin untuk GPT-5.5 belum cukup menjadi penentu utama ^[1]^[18].
SWE-Bench Pro	58,6%	64,3%	Claude unggul jelas pada tugas software-engineering yang lebih berat ^[32].
Terminal-Bench 2.0	82,7%	69,4% dilaporkan	GPT-5.5 unggul untuk eksekusi berbasis terminal, tetapi angka publik Opus tidak seragam di semua sumber ^[1]^[18]^[27].
MCP Atlas	75,3%	77,3–79,1%	Claude lebih kuat untuk tool-calling dan orkestrasi tool ^[21]^[27]^[32].
FrontierMath Tier 1–3	51,7%	43,8%	GPT-5.5 unggul untuk reasoning matematika ^[28].
FrontierMath Tier 4	35,4%	22,9%	Pada tier matematika yang lebih sulit, GPT-5.5 masih unggul ^[28].
GPQA Diamond	93,6%	94,2%	Hampir imbang; Claude sedikit di depan ^[28].
Humanity's Last Exam, tanpa tool	41,4%	46,9%	Claude unggul pada evaluasi reasoning umum tanpa tool ^[28].
Humanity's Last Exam, dengan tool	52,2%	54,7%	Claude masih unggul tipis saat tool dipakai ^[28].
BrowseComp	84,4%	79,3%	GPT-5.5 lebih kuat pada riset web bergaya BrowseComp ^[5]^[27].

Dua baris perlu dibaca dengan ekstra hati-hati. Untuk Terminal-Bench 2.0, LLM Stats dan beberapa ringkasan lain memberi Claude Opus 4.7 skor 69,4%, tetapi ada perbandingan yang hanya menampilkan skor GPT-5.5 sebesar 82,7% tanpa angka publik Opus ^[1]^[18]^[27]. Untuk MCP Atlas, snapshot publik BenchLM menampilkan Claude Opus 4.7 di 77,3% dan GPT-5.5 di 75,3%, sementara laporan lain mengutip 79,1% vs 75,3% ^[21]^[27]^[32]. Arah besarnya tetap sama: GPT-5.5 lebih meyakinkan untuk eksekusi terminal; Claude Opus 4.7 lebih meyakinkan untuk orkestrasi tool.

Untuk coding: jangan berhenti di SWE-Bench Verified

SWE-Bench menguji kemampuan model menyelesaikan issue GitHub nyata, sedangkan varian Pro dirancang lebih sulit ^[17]. Di SWE-Bench Verified, GPT-5.5 mencatat 88,7% dan Claude Opus 4.7 87,6%, sehingga hasilnya lebih mirip seri praktis daripada kemenangan telak ^[1]^[18].

Sinyal yang lebih berguna untuk kerja coding berat datang dari SWE-Bench Pro. Di benchmark ini, Claude Opus 4.7 dilaporkan mencapai 64,3%, sementara GPT-5.5 berada di 58,6%—selisih 5,7 poin untuk Claude ^[32]. Tingkat kesulitannya juga berbeda jauh: satu overview menyebut SWE-Bench Verified berisi 500 task dari 12 repository Python, sedangkan SWE-Bench Pro berisi 1.865 task dari 41 repository dengan Python, Go, TypeScript, dan JavaScript; rata-rata file yang berubah naik dari sekitar 1 menjadi 4,1 file ^[22].

Implikasinya cukup jelas. Jika pekerjaan Anda berupa perbaikan bug multi-file, pembenahan pull request, refactoring, atau agent coding untuk produksi, Claude Opus 4.7 layak diuji lebih dulu. Perbandingan coding dari MindStudio juga menyebut Opus 4.7 lebih kuat pada tugas yang membutuhkan reasoning arsitektural di codebase besar ^[3].

Agent dan tool: GPT-5.5 kuat di terminal, Claude kuat di orkestrasi

Untuk workflow yang banyak berjalan di shell, CLI, atau lingkungan terminal, GPT-5.5 punya argumen kuat. Terminal-Bench 2.0 melaporkan GPT-5.5 di 82,7% dan Claude Opus 4.7 di 69,4% ^[18]^[27]. Namun karena sebagian perbandingan publik tidak menampilkan angka Opus secara lengkap, hasil ini lebih aman dibaca sebagai sinyal arah, bukan kebenaran leaderboard yang final ^[1].

Di sisi lain, Claude lebih menarik untuk agent yang harus mengoordinasikan banyak tool. MCP Atlas adalah benchmark untuk tool-calling melalui integrasi Model Context Protocol dan tool eksternal ^[21]. Snapshot publik BenchLM menempatkan Claude Opus 4.7 di 77,3% dan GPT-5.5 di 75,3% ^[21]. Laporan lain menulis perbandingannya sebagai 79,1% vs 75,3% ^[27]^[32]. Jika agent Anda harus memanggil beberapa API, layanan, dan tool secara berurutan, Claude Opus 4.7 tampak sebagai titik awal yang lebih baik.

Reasoning dan riset: matematika tidak sama dengan ujian umum

Reasoning jangan diperlakukan sebagai satu kategori besar. Pada tabel OpenAI, GPT-5.5 mencapai 51,7% di FrontierMath Tier 1–3, sementara Claude Opus 4.7 43,8%. Di FrontierMath Tier 4, GPT-5.5 mencatat 35,4% dan Claude 22,9% ^[28]. Untuk reasoning yang sangat matematika-sentris, GPT-5.5 unggul cukup jelas.

Namun GPQA Diamond dan Humanity's Last Exam memberi sinyal berbeda. GPQA Diamond praktis imbang: GPT-5.5 93,6% dan Claude Opus 4.7 94,2% ^[28]. Pada Humanity's Last Exam, Claude dilaporkan unggul: 46,9% vs 41,4% tanpa tool, dan 54,7% vs 52,2% dengan tool ^[28].

Untuk riset web bergaya BrowseComp, GPT-5.5 terlihat lebih kuat. Skor yang dilaporkan adalah 84,4% untuk GPT-5.5 dan 79,3% untuk Claude Opus 4.7 ^[5]^[27]. Jadi, untuk otomasi riset berbasis browsing, GPT-5.5 bisa menjadi kandidat uji pertama.

Pilih GPT-5.5 jika...

Workflow Anda banyak melibatkan eksekusi terminal, otomasi shell, agent berbasis CLI, atau pekerjaan komputer langkah demi langkah; GPT-5.5 unggul dalam perbandingan Terminal-Bench 2.0 yang tersedia ^[18]^[27].
Beban kerja Anda mirip reasoning matematika berat; GPT-5.5 memimpin di FrontierMath Tier 1–3 dan Tier 4 ^[28].
Anda membutuhkan riset web atau analisis berbasis browsing ala BrowseComp; GPT-5.5 dilaporkan 84,4% dibanding Claude Opus 4.7 di 79,3% ^[5]^[27].

Pilih Claude Opus 4.7 jika...

Fokus utama Anda adalah perubahan codebase kompleks, bug fixing multi-file, atau tugas engineering berat seperti SWE-Bench Pro; Claude unggul 64,3% vs 58,6% ^[32].
Anda membangun agent yang banyak memakai MCP, API, atau orkestrasi tool; snapshot MCP Atlas menempatkan Claude Opus 4.7 di atas GPT-5.5 ^[21]^[27]^[32].
Workflow Anda bergantung pada reasoning arsitektural di codebase besar; MindStudio menilai Opus 4.7 kuat untuk reasoning arsitektural lintas codebase besar ^[3].

Cara membaca benchmark sebelum deployment

Jangan menjadikan angka benchmark sebagai keputusan produksi yang final. Anthropic, dalam catatan rilis Claude Opus 4.7, menyebut adanya perubahan harness, implementasi internal, dan pembaruan metodologi; beberapa skor juga tidak langsung sebanding dengan skor leaderboard publik ^[19]. Di sisi GPT-5.5, ringkasan untuk builder juga menandai bahwa beberapa skor benchmark masih merupakan angka yang dilaporkan OpenAI dan belum memiliki replikasi pihak ketiga yang luas ^[31].

Langkah paling aman adalah menjalankan evaluasi internal kecil: pakai ticket terbaru, repository nyata, tool chain yang memang digunakan tim, prompt produksi, serta kriteria lulus/gagal yang jelas. Benchmark adalah kompas; pilihan model tetap harus mengikuti workload, toleransi latensi, biaya kegagalan, dan cara tim Anda menggunakan tool.

Verdict

Jika Anda butuh default untuk otomasi umum, eksekusi terminal, reasoning matematika, dan riset web bergaya BrowseComp, GPT-5.5 tampak sebagai titik awal yang lebih kuat ^[27]^[28]. Jika hasil utama yang Anda kejar adalah coding berat, agent coding produksi, atau orkestrasi multi-tool, Claude Opus 4.7 adalah kandidat yang lebih kuat ^[21]^[32]. Ringkasnya: GPT-5.5 unggul di eksekusi luas dan matematika; Claude Opus 4.7 unggul di software-engineering sulit dan workflow agent berbasis tool.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI के साथ खोजें और तथ्यों की जांच करें

मुख्य निष्कर्ष

Tidak ada pemenang universal: GPT 5.5 unggul di Terminal Bench 2.0 dan FrontierMath, sementara Claude Opus 4.7 unggul di SWE Bench Pro dan MCP Atlas.
Untuk coding, SWE Bench Verified nyaris seri; sinyal yang lebih kuat adalah SWE Bench Pro, tempat Claude Opus 4.7 unggul 5,7 poin.
Leaderboard sebaiknya dipakai sebagai kompas, bukan keputusan final. Uji kedua model dengan repo, prompt, tool chain, dan kriteria sukses Anda sendiri.

लोग पूछते भी हैं

"GPT-5.5 vs Claude Opus 4.7: Benchmark dan Panduan Memilih Model" का संक्षिप्त उत्तर क्या है?

Tidak ada pemenang universal: GPT 5.5 unggul di Terminal Bench 2.0 dan FrontierMath, sementara Claude Opus 4.7 unggul di SWE Bench Pro dan MCP Atlas.

सबसे पहले सत्यापित करने योग्य मुख्य बिंदु क्या हैं?

मुझे अभ्यास में आगे क्या करना चाहिए?

Leaderboard sebaiknya dipakai sebagai kompas, bukan keputusan final. Uji kedua model dengan repo, prompt, tool chain, dan kriteria sukses Anda sendiri.

मुझे आगे किस संबंधित विषय का पता लगाना चाहिए?

अन्य कोण और अतिरिक्त उद्धरणों के लिए "Claude Security पब्लिक बीटा: Anthropic का AI कोड-सुरक्षा स्कैनर क्या करता है" के साथ जारी रखें।

संबंधित पृष्ठ खोलें

मुझे इसकी तुलना किससे करनी चाहिए?

इस उत्तर को "Grok 4.3 API: 1M context, सस्ती token pricing और xAI की वॉइस रणनीति" के सामने क्रॉस-चेक करें।

संबंधित पृष्ठ खोलें

अपना शोध जारी रखें

IT Consulting Orange County CA, IT Services, IT Outsourcing - Technijian. # Anthropic Claude Security for Enterprise: What You Need to Know. Anthropic has officially opened Claude

Claude Security पब्लिक बीटा: Anthropic का AI कोड-सुरक्षा स्कैनर क्या करता है

Claude Security पब्लिक बीटा: AI से कंपनी के कोड में कमजोरियां कैसे खोजेगा Anthropic

抽象 AI 介面顯示 Grok 4.3 API、1M context、token 價格與語音波形

Grok 4.3 API: 1M context, सस्ती token pricing और xAI की वॉइस रणनीति

Xiaomi Q5 शायद MIX 5 नहीं: नया संकेत Xiaomi 18 सीरीज़ की ओर

Metas KI-Altersprüfung: Neue Regeln für Jugendliche in EU, USA und Brasilien

Meta की AI उम्र जांच: Instagram और Facebook पर किशोरों के लिए क्या बदलेगा

Meta की नई AI उम्र जांच: Instagram और Facebook पर किशोरों के नियम बदलेंगे

अनुसंधान वार्तालाप

आप26 अप्रैल 2026

शोध प्रश्न

बेंचमार्क रिपोर्ट के आधार पर GPT-5.5 और Claude Opus 4.7 की तुलना करें।

Studio Global AI26 अप्रैल 202636 स्रोत

उद्धृत उत्तर

GPT-5.5 कुल मिलाकर reasoning, terminal/agent execution और कई academic benchmarks में आगे दिखता है, जबकि Claude Opus 4.7 कठिन software-engineering और multi-tool orchestration में मजबूत है। इसलिए “बेहतर” मॉडल use case पर निर्भर है: general reasoning/terminal tasks के लिए GPT-5.5, और complex coding/agentic tool workflows के लिए Opus 4.7 बेहतर विकल्प दिखता है।

Coding: मिश्रित नतीजा
- SWE-Bench Verified में GPT-5.5 को मामूली बढ़त दी गई है: 88.7% बनाम Claude Opus 4.7 का 87.6% ^[7].
- SWE-Bench Pro में Claude Opus 4.7 स्पष्ट रूप से आगे है: 64.3% बनाम GPT-5.5 का 58.6% ^[7]^[6].
- Opus 4.7 के लिए रिपोर्टों में SWE-bench Pro पर Opus 4.6 से 53.4% से 64.3% तक सुधार बताया गया है, यानी कठिन real-world coding tasks में बड़ा लाभ ^[3]^[6].
Terminal / agent execution
- Terminal-Bench 2.0 में GPT-5.5 को 82.7% और Opus 4.7 को 69.4% बताया गया है, इसलिए shell/terminal-style execution tasks में GPT-5.5 मजबूत दिखता है ^[12]^[7].
- कुछ रिपोर्टों में GPT-5.5 के लिए Terminal-Bench 2.0 score 82.7% है, लेकिन Opus के public number को लेकर स्रोतों में असंगति है; इसलिए इस benchmark को थोड़ी सावधानी से पढ़ना चाहिए ^[7]^[12].
Tool use और orchestration
- MCP Atlas जैसे tool-integration benchmark में Claude Opus 4.7 को 79.1% बनाम GPT-5.5 का 75.3% बताया गया है, इसलिए multi-tool/API orchestration में Opus 4.7 आगे दिखता है ^[10]^[2].
- Vellum की रिपोर्ट भी Opus 4.7 को MCP-Atlas पर 77.3% के साथ production-agent workflows के लिए मजबूत बताती है ^[3].
Academic / reasoning
- OpenAI की GPT-5.5 रिपोर्ट में FrontierMath Tier 1–3 पर GPT-5.5 को 51.7% और Claude Opus 4.7 को 43.8% बताया गया है ^[15]^[7].
- उसी रिपोर्ट में FrontierMath Tier 4 पर GPT-5.5 को 35.4% और Claude Opus 4.7 को 22.9% बताया गया है ^[15]^[7].
- GPQA Diamond में दोनों बहुत करीब हैं: GPT-5.5 93.6% और Claude Opus 4.7 94.2% ^[15]^[7].
निष्कर्ष
- GPT-5.5 चुनें अगर आपको broad reasoning, math-heavy tasks, terminal automation, या general-purpose high-performance assistant चाहिए।
- Claude Opus 4.7 चुनें अगर आपका मुख्य काम complex codebase changes, SWE-Bench Pro जैसे कठिन coding tasks, या multi-tool enterprise agents हैं।
- स्वतंत्र, समान harness पर चले benchmarks कम उपलब्ध हैं; official lab numbers और third-party summaries को सीधे “अंतिम सत्य” न मानकर workload-specific testing से validate करना बेहतर होगा।

सूत्र

[1] GPT-5.5 vs Claude Opus 4.7: 2026 Frontier Showdown (Benchmarks)tokenmix.ai
Head-to-Head: The Numbers That Matter Benchmark GPT-5.5 Claude Opus 4.7 Winner --- --- SWE-Bench Verified 88.7% 87.6% GPT-5.5 by 1.1 SWE-Bench Pro 58.6% 64.3% Opus 4.7 by 5.7 MMLU 92.4% 91% GPT-5.5 Terminal-Bench 2.0 82.7% — GPT-5.5 (no public Opus number)...
[2] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com
Within seven days, I had two new frontier models to compare against the workloads I run for LLM Stats:Claude Opus 4.7shipped on April 16, 2026, andGPT-5.5 on April 23. Both land at the same input price. Both ship 1M-token context. Both pitch significantly b...
[3] GPT-5.5 vs Claude Opus 4.7: Real-World Coding Performance ...mindstudio.ai
SWE-Bench and Coding Tasks On SWE-Bench Verified — the standard benchmark for evaluating real GitHub issue resolution — both models score competitively at the top of the 2026 leaderboard. GPT-5.5 holds a slight edge on problems requiring precise tool use an...
[5] OpenAI's GPT-5.5 vs Claude Opus 4.7: Which is better? | Mashablemashable.com
Thanks for signing up! SWE-Bench Pro: GPT-5.5 scored 58.6; Opus 4.7 scored 64.3 percent Terminal-Bench 2.0: GPT-5.5 scored 82.7 percent; Opus 4.7 scored 69.4 percent Humanity's Last Exam: GPT-5.5 scored 40.6 percent; Opus 4.7 scored 31.2 percent\ Humanity's...
[17] Claude Opus 4.7: Anthropic's New Best (Available) Modeldatacamp.com
SWE-bench tests a model's ability to resolve real GitHub issues in open-source Python repositories. Pro is a harder variant with more complex issues. The 10.9-point gain over Opus 4.6 on SWE-bench Pro is the largest improvement in this release (percentage p...
[18] Claude Opus 4.7: Benchmarks, Pricing, Context & What's Newllm-stats.com
Benchmarks Agentic coding Benchmark Opus 4.7 Opus 4.6 Delta --- --- SWE-bench Verified 87.6% 80.8% +6.8 SWE-bench Pro 64.3% 53.4% +10.9 Terminal-Bench 2.0 69.4% 65.4% +4.0 The jump on SWE-bench Pro (+10.9 points) is larger than on SWE-bench Verified, sugges...
[19] Introducing Claude Opus 4.7 - Anthropicanthropic.com
CyberGym: Opus 4.6’s score has been updated from the originally reported 66.6 to 73.8, as we updated our harness parameters to better elicit cyber capability. SWE-bench Multimodal: We used an internal implementation for both Opus 4.7 and Opus 4.6. Scores ar...
[21] MCP Atlas Benchmark 2026: 13 model averages | BenchLM.aibenchlm.ai
Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools MCP Atlas A benchmark for tool-calling over Model Context Protocol integrations and external tools. Benchmark score on MCP Atlas — April 23, 2026 BenchLM mirrors the published s...
[22] SWE-Bench Pro Leaderboard (2026): Why 46% Beats 81%morphllm.com
Dimension SWE-Bench Verified SWE-Bench Pro --- Tasks 500 1,865 Repositories 12 (all Python) 41 (Python, Go, TS, JS) Avg lines changed 11 (median: 4) 107.4 Avg files changed 1 4.1 Top score (Mar 2026) 80.9% (Claude Opus 4.5) 59% (agent systems) Contamination...
[27] GPT-5.5: The Honest Take on OpenAI's Response to Opus ...alexlavaee.me
Benchmark GPT-5.5 GPT-5.4 Opus 4.7 Gemini 3.1 Pro --- --- Terminal-Bench 2.0 82.7% 75.1% 69.4% 68.5% SWE-Bench Pro (public)\ 58.6% 57.7% 64.3% 54.2% Expert-SWE (OpenAI internal) 73.1% 68.5% — — OSWorld-Verified 78.7% 75.0% 78.0% — MCP Atlas (tool use) 75.3%...
[28] Introducing GPT-5.5 - OpenAIopenai.com
Academic EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaudeOpus 4.7Gemini 3.1 Pro GeneBench 25.0%19.0%33.2%25.6%-- FrontierMath Tier 1–3 51.7%47.6%52.4%50.0%43.8%36.9% FrontierMath Tier 4 35.4%27.1%39.6%38.0%22.9%16.7% BixBench 80.5%74.0%---- GPQA Diamond 93.6%...
[31] What Is GPT-5.5 for Builders in 2026? | WaveSpeedAI Blogwavespeed.ai
Item Status --- Release date: April 23, 2026 Confirmed — OpenAI official Live in ChatGPT (Plus/Pro/Business/Enterprise) Confirmed — OpenAI official Live in Codex (Plus/Pro/Business/Enterprise/Edu/Go) Confirmed — OpenAI official 400K context in Codex Confirm...
[32] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai
SWE-bench Pro: the coding crown stays with Anthropic Claude Opus 4.7 scores 64.3% versus GPT-5.5's 58.6% — a 5.7-point gap on real GitHub issue resolution. OpenAI's system card includes an asterisk noting "evidence of memorization" from other labs on this e...

ट्रेंडिंग डिस्कवर

उत्तरप्रकाशित28 अप्रैल 2026Last edited 6 मई 202613 स्रोत

GPT-5.5 vs Claude Opus 4.7: Benchmark dan Panduan Memilih Model

Studio Global AI के साथ खोजें और तथ्यों की जांच करें डिस्कवर से और अधिक ब्राउज़ करें

17K0

Ringkasan benchmark

Benchmark / area	GPT-5.5	Claude Opus 4.7	Cara membacanya
SWE-Bench Verified	88,7%	87,6%	Nyaris seri; keunggulan 1,1 poin untuk GPT-5.5 belum cukup menjadi penentu utama ^[1]^[18].
SWE-Bench Pro	58,6%	64,3%	Claude unggul jelas pada tugas software-engineering yang lebih berat ^[32].
Terminal-Bench 2.0	82,7%	69,4% dilaporkan	GPT-5.5 unggul untuk eksekusi berbasis terminal, tetapi angka publik Opus tidak seragam di semua sumber ^[1]^[18]^[27].
MCP Atlas	75,3%	77,3–79,1%	Claude lebih kuat untuk tool-calling dan orkestrasi tool ^[21]^[27]^[32].
FrontierMath Tier 1–3	51,7%	43,8%	GPT-5.5 unggul untuk reasoning matematika ^[28].
FrontierMath Tier 4	35,4%	22,9%	Pada tier matematika yang lebih sulit, GPT-5.5 masih unggul ^[28].
GPQA Diamond	93,6%	94,2%	Hampir imbang; Claude sedikit di depan ^[28].
Humanity's Last Exam, tanpa tool	41,4%	46,9%	Claude unggul pada evaluasi reasoning umum tanpa tool ^[28].
Humanity's Last Exam, dengan tool	52,2%	54,7%	Claude masih unggul tipis saat tool dipakai ^[28].
BrowseComp	84,4%	79,3%	GPT-5.5 lebih kuat pada riset web bergaya BrowseComp ^[5]^[27].

Untuk coding: jangan berhenti di SWE-Bench Verified

Agent dan tool: GPT-5.5 kuat di terminal, Claude kuat di orkestrasi

Reasoning dan riset: matematika tidak sama dengan ujian umum

Pilih GPT-5.5 jika...

Workflow Anda banyak melibatkan eksekusi terminal, otomasi shell, agent berbasis CLI, atau pekerjaan komputer langkah demi langkah; GPT-5.5 unggul dalam perbandingan Terminal-Bench 2.0 yang tersedia ^[18]^[27].
Beban kerja Anda mirip reasoning matematika berat; GPT-5.5 memimpin di FrontierMath Tier 1–3 dan Tier 4 ^[28].
Anda membutuhkan riset web atau analisis berbasis browsing ala BrowseComp; GPT-5.5 dilaporkan 84,4% dibanding Claude Opus 4.7 di 79,3% ^[5]^[27].

Pilih Claude Opus 4.7 jika...

Fokus utama Anda adalah perubahan codebase kompleks, bug fixing multi-file, atau tugas engineering berat seperti SWE-Bench Pro; Claude unggul 64,3% vs 58,6% ^[32].
Anda membangun agent yang banyak memakai MCP, API, atau orkestrasi tool; snapshot MCP Atlas menempatkan Claude Opus 4.7 di atas GPT-5.5 ^[21]^[27]^[32].
Workflow Anda bergantung pada reasoning arsitektural di codebase besar; MindStudio menilai Opus 4.7 kuat untuk reasoning arsitektural lintas codebase besar ^[3].

Cara membaca benchmark sebelum deployment

Verdict

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI के साथ खोजें और तथ्यों की जांच करें

मुख्य निष्कर्ष

Tidak ada pemenang universal: GPT 5.5 unggul di Terminal Bench 2.0 dan FrontierMath, sementara Claude Opus 4.7 unggul di SWE Bench Pro dan MCP Atlas.
Untuk coding, SWE Bench Verified nyaris seri; sinyal yang lebih kuat adalah SWE Bench Pro, tempat Claude Opus 4.7 unggul 5,7 poin.
Leaderboard sebaiknya dipakai sebagai kompas, bukan keputusan final. Uji kedua model dengan repo, prompt, tool chain, dan kriteria sukses Anda sendiri.

लोग पूछते भी हैं

"GPT-5.5 vs Claude Opus 4.7: Benchmark dan Panduan Memilih Model" का संक्षिप्त उत्तर क्या है?

Tidak ada pemenang universal: GPT 5.5 unggul di Terminal Bench 2.0 dan FrontierMath, sementara Claude Opus 4.7 unggul di SWE Bench Pro dan MCP Atlas.

सबसे पहले सत्यापित करने योग्य मुख्य बिंदु क्या हैं?

मुझे अभ्यास में आगे क्या करना चाहिए?

Leaderboard sebaiknya dipakai sebagai kompas, bukan keputusan final. Uji kedua model dengan repo, prompt, tool chain, dan kriteria sukses Anda sendiri.

मुझे आगे किस संबंधित विषय का पता लगाना चाहिए?

संबंधित पृष्ठ खोलें

मुझे इसकी तुलना किससे करनी चाहिए?

संबंधित पृष्ठ खोलें

अपना शोध जारी रखें

Claude Security पब्लिक बीटा: Anthropic का AI कोड-सुरक्षा स्कैनर क्या करता है

Claude Security पब्लिक बीटा: AI से कंपनी के कोड में कमजोरियां कैसे खोजेगा Anthropic

Grok 4.3 API: 1M context, सस्ती token pricing और xAI की वॉइस रणनीति

Xiaomi Q5 शायद MIX 5 नहीं: नया संकेत Xiaomi 18 सीरीज़ की ओर

Meta की AI उम्र जांच: Instagram और Facebook पर किशोरों के लिए क्या बदलेगा

Meta की नई AI उम्र जांच: Instagram और Facebook पर किशोरों के नियम बदलेंगे

अनुसंधान वार्तालाप

आप26 अप्रैल 2026

शोध प्रश्न

बेंचमार्क रिपोर्ट के आधार पर GPT-5.5 और Claude Opus 4.7 की तुलना करें।

Studio Global AI26 अप्रैल 202636 स्रोत

उद्धृत उत्तर

Coding: मिश्रित नतीजा
- SWE-Bench Verified में GPT-5.5 को मामूली बढ़त दी गई है: 88.7% बनाम Claude Opus 4.7 का 87.6% ^[7].
- SWE-Bench Pro में Claude Opus 4.7 स्पष्ट रूप से आगे है: 64.3% बनाम GPT-5.5 का 58.6% ^[7]^[6].
- Opus 4.7 के लिए रिपोर्टों में SWE-bench Pro पर Opus 4.6 से 53.4% से 64.3% तक सुधार बताया गया है, यानी कठिन real-world coding tasks में बड़ा लाभ ^[3]^[6].
Terminal / agent execution
- Terminal-Bench 2.0 में GPT-5.5 को 82.7% और Opus 4.7 को 69.4% बताया गया है, इसलिए shell/terminal-style execution tasks में GPT-5.5 मजबूत दिखता है ^[12]^[7].
- कुछ रिपोर्टों में GPT-5.5 के लिए Terminal-Bench 2.0 score 82.7% है, लेकिन Opus के public number को लेकर स्रोतों में असंगति है; इसलिए इस benchmark को थोड़ी सावधानी से पढ़ना चाहिए ^[7]^[12].
Tool use और orchestration
- MCP Atlas जैसे tool-integration benchmark में Claude Opus 4.7 को 79.1% बनाम GPT-5.5 का 75.3% बताया गया है, इसलिए multi-tool/API orchestration में Opus 4.7 आगे दिखता है ^[10]^[2].
- Vellum की रिपोर्ट भी Opus 4.7 को MCP-Atlas पर 77.3% के साथ production-agent workflows के लिए मजबूत बताती है ^[3].
Academic / reasoning
- OpenAI की GPT-5.5 रिपोर्ट में FrontierMath Tier 1–3 पर GPT-5.5 को 51.7% और Claude Opus 4.7 को 43.8% बताया गया है ^[15]^[7].
- उसी रिपोर्ट में FrontierMath Tier 4 पर GPT-5.5 को 35.4% और Claude Opus 4.7 को 22.9% बताया गया है ^[15]^[7].
- GPQA Diamond में दोनों बहुत करीब हैं: GPT-5.5 93.6% और Claude Opus 4.7 94.2% ^[15]^[7].
निष्कर्ष
- GPT-5.5 चुनें अगर आपको broad reasoning, math-heavy tasks, terminal automation, या general-purpose high-performance assistant चाहिए।
- Claude Opus 4.7 चुनें अगर आपका मुख्य काम complex codebase changes, SWE-Bench Pro जैसे कठिन coding tasks, या multi-tool enterprise agents हैं।
- स्वतंत्र, समान harness पर चले benchmarks कम उपलब्ध हैं; official lab numbers और third-party summaries को सीधे “अंतिम सत्य” न मानकर workload-specific testing से validate करना बेहतर होगा।

सूत्र

[1] GPT-5.5 vs Claude Opus 4.7: 2026 Frontier Showdown (Benchmarks)tokenmix.ai
Head-to-Head: The Numbers That Matter Benchmark GPT-5.5 Claude Opus 4.7 Winner --- --- SWE-Bench Verified 88.7% 87.6% GPT-5.5 by 1.1 SWE-Bench Pro 58.6% 64.3% Opus 4.7 by 5.7 MMLU 92.4% 91% GPT-5.5 Terminal-Bench 2.0 82.7% — GPT-5.5 (no public Opus number)...
[2] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com
Within seven days, I had two new frontier models to compare against the workloads I run for LLM Stats:Claude Opus 4.7shipped on April 16, 2026, andGPT-5.5 on April 23. Both land at the same input price. Both ship 1M-token context. Both pitch significantly b...
[3] GPT-5.5 vs Claude Opus 4.7: Real-World Coding Performance ...mindstudio.ai
SWE-Bench and Coding Tasks On SWE-Bench Verified — the standard benchmark for evaluating real GitHub issue resolution — both models score competitively at the top of the 2026 leaderboard. GPT-5.5 holds a slight edge on problems requiring precise tool use an...
[5] OpenAI's GPT-5.5 vs Claude Opus 4.7: Which is better? | Mashablemashable.com
Thanks for signing up! SWE-Bench Pro: GPT-5.5 scored 58.6; Opus 4.7 scored 64.3 percent Terminal-Bench 2.0: GPT-5.5 scored 82.7 percent; Opus 4.7 scored 69.4 percent Humanity's Last Exam: GPT-5.5 scored 40.6 percent; Opus 4.7 scored 31.2 percent\ Humanity's...
[17] Claude Opus 4.7: Anthropic's New Best (Available) Modeldatacamp.com
SWE-bench tests a model's ability to resolve real GitHub issues in open-source Python repositories. Pro is a harder variant with more complex issues. The 10.9-point gain over Opus 4.6 on SWE-bench Pro is the largest improvement in this release (percentage p...
[18] Claude Opus 4.7: Benchmarks, Pricing, Context & What's Newllm-stats.com
Benchmarks Agentic coding Benchmark Opus 4.7 Opus 4.6 Delta --- --- SWE-bench Verified 87.6% 80.8% +6.8 SWE-bench Pro 64.3% 53.4% +10.9 Terminal-Bench 2.0 69.4% 65.4% +4.0 The jump on SWE-bench Pro (+10.9 points) is larger than on SWE-bench Verified, sugges...
[19] Introducing Claude Opus 4.7 - Anthropicanthropic.com
CyberGym: Opus 4.6’s score has been updated from the originally reported 66.6 to 73.8, as we updated our harness parameters to better elicit cyber capability. SWE-bench Multimodal: We used an internal implementation for both Opus 4.7 and Opus 4.6. Scores ar...
[21] MCP Atlas Benchmark 2026: 13 model averages | BenchLM.aibenchlm.ai
Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools MCP Atlas A benchmark for tool-calling over Model Context Protocol integrations and external tools. Benchmark score on MCP Atlas — April 23, 2026 BenchLM mirrors the published s...
[22] SWE-Bench Pro Leaderboard (2026): Why 46% Beats 81%morphllm.com
Dimension SWE-Bench Verified SWE-Bench Pro --- Tasks 500 1,865 Repositories 12 (all Python) 41 (Python, Go, TS, JS) Avg lines changed 11 (median: 4) 107.4 Avg files changed 1 4.1 Top score (Mar 2026) 80.9% (Claude Opus 4.5) 59% (agent systems) Contamination...
[27] GPT-5.5: The Honest Take on OpenAI's Response to Opus ...alexlavaee.me
Benchmark GPT-5.5 GPT-5.4 Opus 4.7 Gemini 3.1 Pro --- --- Terminal-Bench 2.0 82.7% 75.1% 69.4% 68.5% SWE-Bench Pro (public)\ 58.6% 57.7% 64.3% 54.2% Expert-SWE (OpenAI internal) 73.1% 68.5% — — OSWorld-Verified 78.7% 75.0% 78.0% — MCP Atlas (tool use) 75.3%...
[28] Introducing GPT-5.5 - OpenAIopenai.com
Academic EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaudeOpus 4.7Gemini 3.1 Pro GeneBench 25.0%19.0%33.2%25.6%-- FrontierMath Tier 1–3 51.7%47.6%52.4%50.0%43.8%36.9% FrontierMath Tier 4 35.4%27.1%39.6%38.0%22.9%16.7% BixBench 80.5%74.0%---- GPQA Diamond 93.6%...
[31] What Is GPT-5.5 for Builders in 2026? | WaveSpeedAI Blogwavespeed.ai
Item Status --- Release date: April 23, 2026 Confirmed — OpenAI official Live in ChatGPT (Plus/Pro/Business/Enterprise) Confirmed — OpenAI official Live in Codex (Plus/Pro/Business/Enterprise/Edu/Go) Confirmed — OpenAI official 400K context in Codex Confirm...
[32] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai
SWE-bench Pro: the coding crown stays with Anthropic Claude Opus 4.7 scores 64.3% versus GPT-5.5's 58.6% — a 5.7-point gap on real GitHub issue resolution. OpenAI's system card includes an asterisk noting "evidence of memorization" from other labs on this e...

ट्रेंडिंग डिस्कवर

उत्तरप्रकाशित28 अप्रैल 2026Last edited 6 मई 202613 स्रोत

GPT-5.5 vs Claude Opus 4.7: Benchmark dan Panduan Memilih Model

Studio Global AI के साथ खोजें और तथ्यों की जांच करें डिस्कवर से और अधिक ब्राउज़ करें

17K0

Ringkasan benchmark

Benchmark / area	GPT-5.5	Claude Opus 4.7	Cara membacanya
SWE-Bench Verified	88,7%	87,6%	Nyaris seri; keunggulan 1,1 poin untuk GPT-5.5 belum cukup menjadi penentu utama ^[1]^[18].
SWE-Bench Pro	58,6%	64,3%	Claude unggul jelas pada tugas software-engineering yang lebih berat ^[32].
Terminal-Bench 2.0	82,7%	69,4% dilaporkan	GPT-5.5 unggul untuk eksekusi berbasis terminal, tetapi angka publik Opus tidak seragam di semua sumber ^[1]^[18]^[27].
MCP Atlas	75,3%	77,3–79,1%	Claude lebih kuat untuk tool-calling dan orkestrasi tool ^[21]^[27]^[32].
FrontierMath Tier 1–3	51,7%	43,8%	GPT-5.5 unggul untuk reasoning matematika ^[28].
FrontierMath Tier 4	35,4%	22,9%	Pada tier matematika yang lebih sulit, GPT-5.5 masih unggul ^[28].
GPQA Diamond	93,6%	94,2%	Hampir imbang; Claude sedikit di depan ^[28].
Humanity's Last Exam, tanpa tool	41,4%	46,9%	Claude unggul pada evaluasi reasoning umum tanpa tool ^[28].
Humanity's Last Exam, dengan tool	52,2%	54,7%	Claude masih unggul tipis saat tool dipakai ^[28].
BrowseComp	84,4%	79,3%	GPT-5.5 lebih kuat pada riset web bergaya BrowseComp ^[5]^[27].

Untuk coding: jangan berhenti di SWE-Bench Verified

Agent dan tool: GPT-5.5 kuat di terminal, Claude kuat di orkestrasi

Reasoning dan riset: matematika tidak sama dengan ujian umum

Pilih GPT-5.5 jika...

Workflow Anda banyak melibatkan eksekusi terminal, otomasi shell, agent berbasis CLI, atau pekerjaan komputer langkah demi langkah; GPT-5.5 unggul dalam perbandingan Terminal-Bench 2.0 yang tersedia ^[18]^[27].
Beban kerja Anda mirip reasoning matematika berat; GPT-5.5 memimpin di FrontierMath Tier 1–3 dan Tier 4 ^[28].
Anda membutuhkan riset web atau analisis berbasis browsing ala BrowseComp; GPT-5.5 dilaporkan 84,4% dibanding Claude Opus 4.7 di 79,3% ^[5]^[27].

Pilih Claude Opus 4.7 jika...

Fokus utama Anda adalah perubahan codebase kompleks, bug fixing multi-file, atau tugas engineering berat seperti SWE-Bench Pro; Claude unggul 64,3% vs 58,6% ^[32].
Anda membangun agent yang banyak memakai MCP, API, atau orkestrasi tool; snapshot MCP Atlas menempatkan Claude Opus 4.7 di atas GPT-5.5 ^[21]^[27]^[32].
Workflow Anda bergantung pada reasoning arsitektural di codebase besar; MindStudio menilai Opus 4.7 kuat untuk reasoning arsitektural lintas codebase besar ^[3].

Cara membaca benchmark sebelum deployment

Verdict

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI के साथ खोजें और तथ्यों की जांच करें

मुख्य निष्कर्ष

Tidak ada pemenang universal: GPT 5.5 unggul di Terminal Bench 2.0 dan FrontierMath, sementara Claude Opus 4.7 unggul di SWE Bench Pro dan MCP Atlas.
Untuk coding, SWE Bench Verified nyaris seri; sinyal yang lebih kuat adalah SWE Bench Pro, tempat Claude Opus 4.7 unggul 5,7 poin.
Leaderboard sebaiknya dipakai sebagai kompas, bukan keputusan final. Uji kedua model dengan repo, prompt, tool chain, dan kriteria sukses Anda sendiri.

लोग पूछते भी हैं

"GPT-5.5 vs Claude Opus 4.7: Benchmark dan Panduan Memilih Model" का संक्षिप्त उत्तर क्या है?

Tidak ada pemenang universal: GPT 5.5 unggul di Terminal Bench 2.0 dan FrontierMath, sementara Claude Opus 4.7 unggul di SWE Bench Pro dan MCP Atlas.

सबसे पहले सत्यापित करने योग्य मुख्य बिंदु क्या हैं?

मुझे अभ्यास में आगे क्या करना चाहिए?

Leaderboard sebaiknya dipakai sebagai kompas, bukan keputusan final. Uji kedua model dengan repo, prompt, tool chain, dan kriteria sukses Anda sendiri.

मुझे आगे किस संबंधित विषय का पता लगाना चाहिए?

संबंधित पृष्ठ खोलें

मुझे इसकी तुलना किससे करनी चाहिए?

संबंधित पृष्ठ खोलें

अपना शोध जारी रखें

अनुसंधान वार्तालाप

आप26 अप्रैल 2026

शोध प्रश्न

बेंचमार्क रिपोर्ट के आधार पर GPT-5.5 और Claude Opus 4.7 की तुलना करें।

Studio Global AI26 अप्रैल 202636 स्रोत

उद्धृत उत्तर

Coding: मिश्रित नतीजा
- SWE-Bench Verified में GPT-5.5 को मामूली बढ़त दी गई है: 88.7% बनाम Claude Opus 4.7 का 87.6% ^[7].
- SWE-Bench Pro में Claude Opus 4.7 स्पष्ट रूप से आगे है: 64.3% बनाम GPT-5.5 का 58.6% ^[7]^[6].
- Opus 4.7 के लिए रिपोर्टों में SWE-bench Pro पर Opus 4.6 से 53.4% से 64.3% तक सुधार बताया गया है, यानी कठिन real-world coding tasks में बड़ा लाभ ^[3]^[6].
Terminal / agent execution
- Terminal-Bench 2.0 में GPT-5.5 को 82.7% और Opus 4.7 को 69.4% बताया गया है, इसलिए shell/terminal-style execution tasks में GPT-5.5 मजबूत दिखता है ^[12]^[7].
- कुछ रिपोर्टों में GPT-5.5 के लिए Terminal-Bench 2.0 score 82.7% है, लेकिन Opus के public number को लेकर स्रोतों में असंगति है; इसलिए इस benchmark को थोड़ी सावधानी से पढ़ना चाहिए ^[7]^[12].
Tool use और orchestration
- MCP Atlas जैसे tool-integration benchmark में Claude Opus 4.7 को 79.1% बनाम GPT-5.5 का 75.3% बताया गया है, इसलिए multi-tool/API orchestration में Opus 4.7 आगे दिखता है ^[10]^[2].
- Vellum की रिपोर्ट भी Opus 4.7 को MCP-Atlas पर 77.3% के साथ production-agent workflows के लिए मजबूत बताती है ^[3].
Academic / reasoning
- OpenAI की GPT-5.5 रिपोर्ट में FrontierMath Tier 1–3 पर GPT-5.5 को 51.7% और Claude Opus 4.7 को 43.8% बताया गया है ^[15]^[7].
- उसी रिपोर्ट में FrontierMath Tier 4 पर GPT-5.5 को 35.4% और Claude Opus 4.7 को 22.9% बताया गया है ^[15]^[7].
- GPQA Diamond में दोनों बहुत करीब हैं: GPT-5.5 93.6% और Claude Opus 4.7 94.2% ^[15]^[7].
निष्कर्ष
- GPT-5.5 चुनें अगर आपको broad reasoning, math-heavy tasks, terminal automation, या general-purpose high-performance assistant चाहिए।
- Claude Opus 4.7 चुनें अगर आपका मुख्य काम complex codebase changes, SWE-Bench Pro जैसे कठिन coding tasks, या multi-tool enterprise agents हैं।
- स्वतंत्र, समान harness पर चले benchmarks कम उपलब्ध हैं; official lab numbers और third-party summaries को सीधे “अंतिम सत्य” न मानकर workload-specific testing से validate करना बेहतर होगा।

सूत्र

[1] GPT-5.5 vs Claude Opus 4.7: 2026 Frontier Showdown (Benchmarks)tokenmix.ai
Head-to-Head: The Numbers That Matter Benchmark GPT-5.5 Claude Opus 4.7 Winner --- --- SWE-Bench Verified 88.7% 87.6% GPT-5.5 by 1.1 SWE-Bench Pro 58.6% 64.3% Opus 4.7 by 5.7 MMLU 92.4% 91% GPT-5.5 Terminal-Bench 2.0 82.7% — GPT-5.5 (no public Opus number)...
[2] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com
Within seven days, I had two new frontier models to compare against the workloads I run for LLM Stats:Claude Opus 4.7shipped on April 16, 2026, andGPT-5.5 on April 23. Both land at the same input price. Both ship 1M-token context. Both pitch significantly b...
[3] GPT-5.5 vs Claude Opus 4.7: Real-World Coding Performance ...mindstudio.ai
SWE-Bench and Coding Tasks On SWE-Bench Verified — the standard benchmark for evaluating real GitHub issue resolution — both models score competitively at the top of the 2026 leaderboard. GPT-5.5 holds a slight edge on problems requiring precise tool use an...
[5] OpenAI's GPT-5.5 vs Claude Opus 4.7: Which is better? | Mashablemashable.com
Thanks for signing up! SWE-Bench Pro: GPT-5.5 scored 58.6; Opus 4.7 scored 64.3 percent Terminal-Bench 2.0: GPT-5.5 scored 82.7 percent; Opus 4.7 scored 69.4 percent Humanity's Last Exam: GPT-5.5 scored 40.6 percent; Opus 4.7 scored 31.2 percent\ Humanity's...
[17] Claude Opus 4.7: Anthropic's New Best (Available) Modeldatacamp.com
SWE-bench tests a model's ability to resolve real GitHub issues in open-source Python repositories. Pro is a harder variant with more complex issues. The 10.9-point gain over Opus 4.6 on SWE-bench Pro is the largest improvement in this release (percentage p...
[18] Claude Opus 4.7: Benchmarks, Pricing, Context & What's Newllm-stats.com
Benchmarks Agentic coding Benchmark Opus 4.7 Opus 4.6 Delta --- --- SWE-bench Verified 87.6% 80.8% +6.8 SWE-bench Pro 64.3% 53.4% +10.9 Terminal-Bench 2.0 69.4% 65.4% +4.0 The jump on SWE-bench Pro (+10.9 points) is larger than on SWE-bench Verified, sugges...
[19] Introducing Claude Opus 4.7 - Anthropicanthropic.com
CyberGym: Opus 4.6’s score has been updated from the originally reported 66.6 to 73.8, as we updated our harness parameters to better elicit cyber capability. SWE-bench Multimodal: We used an internal implementation for both Opus 4.7 and Opus 4.6. Scores ar...
[21] MCP Atlas Benchmark 2026: 13 model averages | BenchLM.aibenchlm.ai
Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools MCP Atlas A benchmark for tool-calling over Model Context Protocol integrations and external tools. Benchmark score on MCP Atlas — April 23, 2026 BenchLM mirrors the published s...
[22] SWE-Bench Pro Leaderboard (2026): Why 46% Beats 81%morphllm.com
Dimension SWE-Bench Verified SWE-Bench Pro --- Tasks 500 1,865 Repositories 12 (all Python) 41 (Python, Go, TS, JS) Avg lines changed 11 (median: 4) 107.4 Avg files changed 1 4.1 Top score (Mar 2026) 80.9% (Claude Opus 4.5) 59% (agent systems) Contamination...
[27] GPT-5.5: The Honest Take on OpenAI's Response to Opus ...alexlavaee.me
Benchmark GPT-5.5 GPT-5.4 Opus 4.7 Gemini 3.1 Pro --- --- Terminal-Bench 2.0 82.7% 75.1% 69.4% 68.5% SWE-Bench Pro (public)\ 58.6% 57.7% 64.3% 54.2% Expert-SWE (OpenAI internal) 73.1% 68.5% — — OSWorld-Verified 78.7% 75.0% 78.0% — MCP Atlas (tool use) 75.3%...
[28] Introducing GPT-5.5 - OpenAIopenai.com
Academic EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaudeOpus 4.7Gemini 3.1 Pro GeneBench 25.0%19.0%33.2%25.6%-- FrontierMath Tier 1–3 51.7%47.6%52.4%50.0%43.8%36.9% FrontierMath Tier 4 35.4%27.1%39.6%38.0%22.9%16.7% BixBench 80.5%74.0%---- GPQA Diamond 93.6%...
[31] What Is GPT-5.5 for Builders in 2026? | WaveSpeedAI Blogwavespeed.ai
Item Status --- Release date: April 23, 2026 Confirmed — OpenAI official Live in ChatGPT (Plus/Pro/Business/Enterprise) Confirmed — OpenAI official Live in Codex (Plus/Pro/Business/Enterprise/Edu/Go) Confirmed — OpenAI official 400K context in Codex Confirm...
[32] Everything You Need to Know About GPT-5.5 - Vellumvellum.ai
SWE-bench Pro: the coding crown stays with Anthropic Claude Opus 4.7 scores 64.3% versus GPT-5.5's 58.6% — a 5.7-point gap on real GitHub issue resolution. OpenAI's system card includes an asterisk noting "evidence of memorization" from other labs on this e...