| SWE-Bench Pro | 58.6% | 64.3% | कठिन software-engineering tasks में Claude की साफ बढ़त [ |
| Terminal-Bench 2.0 | 82.7% | 69.4% reported | Terminal-oriented execution में GPT-5.5 आगे दिखता है, लेकिन Opus public score पर sources uniform नहीं हैं [ |
| MCP Atlas | 75.3% | 77.3-79.1% | Tool-calling और orchestration में Claude आगे दिखता है [ |
| FrontierMath Tier 1-3 | 51.7% | 43.8% | Math-heavy reasoning में GPT-5.5 मजबूत [ |
| FrontierMath Tier 4 | 35.4% | 22.9% | कठिन math tier पर भी GPT-5.5 आगे [ |
| GPQA Diamond | 93.6% | 94.2% | लगभग tie; Claude हल्का आगे [ |
| Humanity's Last Exam, no tools | 41.4% | 46.9% | Broad exam-style reasoning में Claude आगे [ |
| Humanity's Last Exam, with tools | 52.2% | 54.7% | Tools setting में भी Claude की छोटी बढ़त [ |
| BrowseComp | 84.4% | 79.3% | BrowseComp-style research में GPT-5.5 आगे reported है [ |
दो rows को extra caution के साथ पढ़ना चाहिए. Terminal-Bench 2.0 पर LLM Stats और अन्य summaries Opus 4.7 को 69.4% देते हैं, जबकि एक comparison GPT-5.5 का 82.7% दिखाकर Opus का public number नहीं देता [1][
18][
27]. MCP Atlas में BenchLM की public snapshot Claude Opus 4.7 को 77.3% और GPT-5.5 को 75.3% दिखाती है, जबकि अन्य reports Claude के लिए 79.1% cite करती हैं [
21][
27][
32]. Directional takeaway फिर भी स्थिर है: terminal-style execution में GPT-5.5 मजबूत दिखता है; MCP/tool orchestration में Claude Opus 4.7 मजबूत दिखता है.
SWE-bench models की real GitHub issues resolve करने की क्षमता test करता है, और Pro variant को ज्यादा कठिन बताया गया है [17]. SWE-Bench Verified पर GPT-5.5 88.7% और Claude Opus 4.7 87.6% पर हैं, इसलिए यह practical tie जैसा दिखता है [
1][
18].
Harder coding signal SWE-Bench Pro से आता है. इस benchmark पर Claude Opus 4.7 64.3% और GPT-5.5 58.6% reported है, यानी Claude की 5.7-point lead है [32]. SWE-Bench Pro का task mix भी ज्यादा demanding है: एक overview के अनुसार Verified set में 500 tasks और 12 Python repositories हैं, जबकि Pro set में 1,865 tasks और 41 repositories हैं, जिनमें Python, Go, TypeScript और JavaScript शामिल हैं; average files changed भी Verified के करीब 1 से Pro में 4.1 तक बढ़ता है [
22].
Practical implication साफ है: अगर आपका काम multi-file bug fixing, pull-request repair, refactoring या production coding agents जैसा है, तो Claude Opus 4.7 को पहले test करना चाहिए. MindStudio की coding comparison भी Opus 4.7 को large codebases में broader architectural reasoning वाले tasks पर मजबूत बताती है [3].
Terminal-heavy workflows में GPT-5.5 का case मजबूत है. Terminal-Bench 2.0 पर GPT-5.5 के लिए 82.7% और Claude Opus 4.7 के लिए 69.4% reported है [18][
27]. लेकिन क्योंकि कुछ public comparisons Opus का number नहीं देते, इस result को exact leaderboard truth के बजाय directional signal की तरह पढ़ना बेहतर है [
1].
Tool orchestration में Claude का case बेहतर है. MCP Atlas tool-calling over Model Context Protocol integrations और external tools का benchmark है [21]. BenchLM की public snapshot Claude Opus 4.7 को 77.3% और GPT-5.5 को 75.3% दिखाती है [
21]. दूसरी reporting यही comparison 79.1% vs 75.3% के रूप में देती है [
27][
32]. अगर आपका agent कई APIs, services और tools को sequence में call करता है, तो Claude Opus 4.7 बेहतर starting point है.
Reasoning को एक single category मानना misleading होगा. OpenAI की GPT-5.5 table में FrontierMath Tier 1-3 पर GPT-5.5 51.7% और Claude Opus 4.7 43.8% है; FrontierMath Tier 4 पर GPT-5.5 35.4% और Claude 22.9% पर है [28]. Math-heavy reasoning में GPT-5.5 की बढ़त साफ दिखती है.
लेकिन GPQA Diamond और Humanity's Last Exam अलग signal देते हैं. GPQA Diamond पर दोनों लगभग बराबर हैं: GPT-5.5 93.6% और Claude Opus 4.7 94.2% [28]. Humanity's Last Exam में Claude आगे reported है: no-tools setting में 46.9% vs GPT-5.5 का 41.4%, और tools setting में 54.7% vs GPT-5.5 का 52.2% [
28].
BrowseComp-style research में GPT-5.5 आगे दिखता है: reported score 84.4% है, जबकि Claude Opus 4.7 79.3% पर है [5][
27]. इसलिए browsing-heavy research automation के लिए GPT-5.5 बेहतर first test हो सकता है.
Published benchmark numbers को final production truth न मानें. Anthropic अपने Claude Opus 4.7 release notes में harness changes, internal implementations और methodology updates का उल्लेख करता है, और बताता है कि कुछ scores public leaderboard scores से directly comparable नहीं हैं [19]. GPT-5.5 पर एक builder-focused summary भी कुछ benchmark scores को OpenAI-reported मानते हुए third-party replication की कमी flag करती है [
31].
Deployment decision के लिए छोटा internal eval चलाना बेहतर है: अपने recent tickets, repositories, tool chains, prompts और pass/fail criteria पर दोनों models को test करें. Leaderboard direction देता है; model choice आपके workload, latency tolerance, tooling और failure cost से तय होनी चाहिए.
अगर आपको general automation, terminal execution, math-heavy reasoning और BrowseComp-style research के लिए default चाहिए, तो GPT-5.5 बेहतर starting point दिखता है [27][
28]. अगर आपका मुख्य outcome hard coding, production coding agents या multi-tool orchestration है, तो Claude Opus 4.7 ज्यादा मजबूत candidate है [
21][
32]. सबसे सुरक्षित निष्कर्ष यही है: GPT-5.5 broad execution और math में मजबूत है; Claude Opus 4.7 hard software-engineering और tool-agent workflows में आगे है.
SWE-bench tests a model's ability to resolve real GitHub issues in open-source Python repositories. Pro is a harder variant with more complex issues. The 10.9-point gain over Opus 4.6 on SWE-bench Pro is the largest improvement in this release (percentage p...
Benchmarks Agentic coding Benchmark Opus 4.7 Opus 4.6 Delta --- --- SWE-bench Verified 87.6% 80.8% +6.8 SWE-bench Pro 64.3% 53.4% +10.9 Terminal-Bench 2.0 69.4% 65.4% +4.0 The jump on SWE-bench Pro (+10.9 points) is larger than on SWE-bench Verified, sugges...
CyberGym: Opus 4.6’s score has been updated from the originally reported 66.6 to 73.8, as we updated our harness parameters to better elicit cyber capability. SWE-bench Multimodal: We used an internal implementation for both Opus 4.7 and Opus 4.6. Scores ar...
Core Rankings Specialized Use Cases Dashboards Directories Guides & Lists Tools MCP Atlas A benchmark for tool-calling over Model Context Protocol integrations and external tools. Benchmark score on MCP Atlas — April 23, 2026 BenchLM mirrors the published s...
Dimension SWE-Bench Verified SWE-Bench Pro --- Tasks 500 1,865 Repositories 12 (all Python) 41 (Python, Go, TS, JS) Avg lines changed 11 (median: 4) 107.4 Avg files changed 1 4.1 Top score (Mar 2026) 80.9% (Claude Opus 4.5) 59% (agent systems) Contamination...
Benchmark GPT-5.5 GPT-5.4 Opus 4.7 Gemini 3.1 Pro --- --- Terminal-Bench 2.0 82.7% 75.1% 69.4% 68.5% SWE-Bench Pro (public)\ 58.6% 57.7% 64.3% 54.2% Expert-SWE (OpenAI internal) 73.1% 68.5% — — OSWorld-Verified 78.7% 75.0% 78.0% — MCP Atlas (tool use) 75.3%...
Academic EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaudeOpus 4.7Gemini 3.1 Pro GeneBench 25.0%19.0%33.2%25.6%-- FrontierMath Tier 1–3 51.7%47.6%52.4%50.0%43.8%36.9% FrontierMath Tier 4 35.4%27.1%39.6%38.0%22.9%16.7% BixBench 80.5%74.0%---- GPQA Diamond 93.6%...
Item Status --- Release date: April 23, 2026 Confirmed — OpenAI official Live in ChatGPT (Plus/Pro/Business/Enterprise) Confirmed — OpenAI official Live in Codex (Plus/Pro/Business/Enterprise/Edu/Go) Confirmed — OpenAI official 400K context in Codex Confirm...
SWE-bench Pro: the coding crown stays with Anthropic Claude Opus 4.7 scores 64.3% versus GPT-5.5's 58.6% — a 5.7-point gap on real GitHub issue resolution. OpenAI's system card includes an asterisk noting "evidence of memorization" from other labs on this e...
Comments
0 comments