| Tools के साथ exam reasoning | GPT-5.5 Pro | Humanity’s Last Exam with tools पर 57.2%, Claude Opus 4.7 के 54.7% से आगे |
| Terminal और agentic computing | GPT-5.5 | Terminal-Bench 2.0 पर 82.7%, Claude Opus 4.7 के 69.4% और DeepSeek-V4-Pro-Max के 67.9% से आगे |
| OS operation | GPT-5.5 | OSWorld-Verified पर 78.7%, Claude Opus 4.7 के 78.0% से थोड़ा आगे |
| Frontier math | GPT-5.5 | FrontierMath Tiers 1–3 पर 51.7%, Claude Opus 4.7 के 43.8% से आगे |
| Shared table में software engineering | Claude Opus 4.7 | SWE-Bench Pro / SWE Pro पर 64.3%, GPT-5.5 के 58.6% और DeepSeek-V4-Pro-Max के 55.4% से आगे |
| Browsing | GPT-5.5 Pro | BrowseComp पर 90.1%, GPT-5.5 के 84.4%, DeepSeek-V4-Pro-Max के 83.4% और Claude Opus 4.7 के 79.3% से आगे |
| MCP-style public tool workflow | Claude Opus 4.7 | MCP Atlas / MCPAtlas Public पर 79.1%, GPT-5.5 के 75.3% और DeepSeek-V4-Pro-Max के 73.6% से आगे |
| Vision और document analysis | Claude Opus 4.7 | Vision & Document Arena में #1 report हुआ, diagram, homework और OCR subcategories में wins के साथ |
| सबसे कम साफ चार-तरफा तुलना | Kimi K2.6 | Kimi के reported scores उपयोगी हैं, पर cited evidence मुख्यतः अलग comparisons से आता है, मुख्य GPT-5.5 / Claude / DeepSeek table से नहीं |
जिन rows में अलग-अलग sources मिलाए गए हैं, उन्हें सावधानी से पढ़ना चाहिए। Kimi का अलग comparison में reported score useful signal है, लेकिन वह उतना मजबूत evidence नहीं है जितना एक ही shared table और एक जैसे test setup में GPT-5.5, Claude Opus 4.7 और DeepSeek-V4-Pro-Max के साथ निकला result .
GPT-5.5 की सबसे साफ जीत Terminal-Bench 2.0 में दिखती है: 82.7%, जबकि Claude Opus 4.7 69.4% और DeepSeek-V4-Pro-Max 67.9% पर है . इस sourced benchmark set में यह सबसे बड़े gaps में से एक है।
OSWorld-Verified में भी GPT-5.5, Claude Opus 4.7 से आगे है, लेकिन margin बहुत छोटा है: 78.7% बनाम 78.0% . FrontierMath Tiers 1–3 में अंतर ज्यादा साफ है: GPT-5.5 51.7% पर है और Claude 43.8% पर
.
जहां tools या web browsing central हों, वहां GPT-5.5 Pro picture बदल देता है। Humanity’s Last Exam with tools में GPT-5.5 Pro 57.2% पर है, Claude Opus 4.7 54.7%, GPT-5.5 52.2% और DeepSeek-V4-Pro-Max 48.2% पर हैं . BrowseComp में भी GPT-5.5 Pro 90.1% के साथ आगे है; GPT-5.5 84.4%, DeepSeek-V4-Pro-Max 83.4% और Claude Opus 4.7 79.3% पर हैं
.
लेकिन GPT-5.5 हर reasoning test में नहीं जीतता। GPQA Diamond में Claude Opus 4.7, GPT-5.5 को मामूली अंतर से हराता है: 94.2% बनाम 93.6% . एक अलग GPT-5.5 guide में GPT-5.5-only domain results भी दिए गए हैं, जैसे Harvey BigLaw Bench पर 91.7%, internal investment-banking benchmark पर 88.5% और BixBench पर 80.5%; पर इन्हें चार-तरफा जीत नहीं माना जा सकता, क्योंकि उसी excerpt में Claude Opus 4.7, DeepSeek V4 और Kimi K2.6 के समान scores नहीं दिए गए
.
Claude Opus 4.7 का no-tools reasoning profile मुख्य shared table में सबसे मजबूत है। यह GPQA Diamond पर 94.2% और Humanity’s Last Exam without tools पर 46.9% के साथ आगे है . उसी table में Claude SWE-Bench Pro / SWE Pro पर 64.3% और MCP Atlas / MCPAtlas Public पर 79.1% के साथ भी lead करता है
.
Claude की cited weakness terminal-style operation में दिखती है। GPT-5.5 Terminal-Bench 2.0 में Claude से 13 points से ज्यादा आगे है: 82.7% बनाम 69.4% . GPT-5.5 OSWorld-Verified और FrontierMath Tiers 1–3 में भी Claude से आगे है
.
Claude का सबसे मजबूत multimodal और document signal Vision & Document Arena से आता है। एक source के अनुसार Claude Opus 4.7 ने Vision & Document Arena में #1 position ली, Document Arena में Opus 4.6 से 4 points बेहतर हुआ, और diagram, homework तथा OCR subcategories में wins दर्ज किए . हालांकि उसी source में GPT-5.5, DeepSeek V4 या Kimi K2.6 के comparable numeric Vision & Document Arena scores नहीं दिए गए; इसलिए यह Claude की document strength को support करता है, लेकिन पूरी चार-तरफा multimodal ranking नहीं बनाता
.
DeepSeek के लिए sources में एक से अधिक labels मिलते हैं। Shared benchmark table DeepSeek-V4-Pro-Max report करती है, जबकि Artificial Analysis comparison DeepSeek V4 Pro के लिए 1,000k-token context window दिखाता है . इन labels को अपने-आप interchangeable मानना ठीक नहीं होगा।
मुख्य shared table में DeepSeek-V4-Pro-Max competitive है, लेकिन कोई row lead नहीं करता। इसके scores हैं: GPQA Diamond पर 90.1%, Humanity’s Last Exam without tools पर 37.7%, Humanity’s Last Exam with tools पर 48.2%, Terminal-Bench 2.0 पर 67.9%, SWE-Bench Pro / SWE Pro पर 55.4%, BrowseComp पर 83.4% और MCP Atlas / MCPAtlas Public पर 73.6% .
DeepSeek का सबसे मजबूत cited product claim benchmark win नहीं, बल्कि cost-performance है। VentureBeat DeepSeek V4 को Opus 4.7 और GPT-5.5 की तुलना में लगभग एक-छठी लागत पर near state-of-the-art intelligence देने वाला बताता है . यह cost-sensitive workloads के लिए test करने की वजह है, लेकिन अपने workload पर quality, latency और total cost validate किए बिना इसे final decision नहीं बनाना चाहिए।
Long-context screening के लिए एक Artificial Analysis comparison DeepSeek V4 Pro और Claude Opus 4.7 दोनों को 1,000k-token context window के साथ list करता है . यह सिर्फ उन listed configurations में parity दिखाता है, हर DeepSeek या Claude mode पर broader claim नहीं
.
इस set में Kimi K2.6 को साफ rank करना सबसे मुश्किल है, क्योंकि यह GPT-5.5, Claude Opus 4.7 और DeepSeek-V4-Pro-Max वाली मुख्य shared table में शामिल नहीं है . एक Kimi-focused comparison K2.6 को SWE-Bench Pro पर 58.6%, SWE-Bench Verified पर 80.2%, Terminal-Bench 2.0 पर 66.7%, Humanity’s Last Exam with tools पर 54.0% और LiveCodeBench v6 पर 89.6% report करता है
. उसी source के अनुसार K2.6 numbers Moonshot AI official model card से आते हैं, लेकिन comparison set मुख्यतः Claude Opus 4.6 और GPT-5.4 के साथ है, न कि यहां की exact चार-तरफा lineup के साथ
.
एक अलग Kimi vs DeepSeek comparison Kimi K2.6 को AIME 2026 में Thinking mode पर 96.4%, APEX Agents में Thinking mode पर 27.9% और BrowseComp में Thinking mode तथा context management के साथ 83.2% report करता है . उसी source में DeepSeek-V4 Pro BrowseComp पर 83.4% list है, जबकि AIME 2026 और APEX Agents के लिए DeepSeek values उपलब्ध नहीं हैं
.
इसलिए Kimi coding, agentic और browsing workloads के लिए test करने लायक है, लेकिन sourced material GPT-5.5 और Claude Opus 4.7 के खिलाफ उसी benchmark suite में साफ overall ranking support नहीं करता .
यह universal leaderboard नहीं है। Sources base और Pro variants को mix करती हैं, जिनमें GPT-5.5, GPT-5.5 Pro, DeepSeek-V4-Pro-Max, DeepSeek V4 Pro, Claude Opus 4.7 और Kimi K2.6 शामिल हैं . कुछ results vendor-reported भी हैं, और OpenAI ने अपने GPT ARC evaluations के बारे में note किया कि वे reasoning effort xhigh के साथ research environment में run हुए, जिससे production ChatGPT में output थोड़ा अलग हो सकता है
.
Close margins को directional signal की तरह पढ़ना बेहतर है। Claude का GPQA Diamond lead GPT-5.5 पर सिर्फ 0.6 points है, और GPT-5.5 का OSWorld-Verified lead Claude पर सिर्फ 0.7 points है . बड़े gaps ज्यादा actionable हैं: GPT-5.5 का Terminal-Bench 2.0 lead Claude पर 13 points से ज्यादा है, और FrontierMath lead 7.9 points है
.
Practical bottom line: GPT-5.5, Claude Opus 4.7, DeepSeek V4 और Kimi K2.6 में कोई एक absolute winner नहीं है। अपने real workload से मिलता-जुलता benchmark देखिए, फिर उन्हीं models पर अपनी evaluation दोहराइए जिन्हें आप सच में deploy कर सकते हैं।
Comments
0 comments