Claude Opus 4.6 का सबसे मजबूत मामला SWE-Bench Verified से आता है। cited reports में इसका Verified score 79.2%, 79.4% या 80.8% के आसपास बताया गया है ।
GPT-5.3-Codex को पढ़ना थोड़ा मुश्किल है, क्योंकि reports अलग SWE-Bench lines इस्तेमाल करती हैं। एक GPT-5.4 analysis GPT-5.3-Codex को SWE-Bench Pro पर 56.8% दिखाता है, जबकि Opus-vs-Codex comparisons GPT-5.3-Codex को SWE-Bench Pro Public पर 78.2% बताते हैं । यह scores को average करने का निमंत्रण नहीं है; उलटा, यह चेतावनी है कि variants अलग हैं। कई sources साफ कहते हैं कि SWE-Bench Verified और SWE-Bench Pro Public को सीधे comparable नहीं मानना चाहिए
।
GPT-5.4 की OpenAI-on-OpenAI coding बढ़त इन sources में छोटी है: same GPT-5.4-focused analysis में यह SWE-Bench Pro पर 57.7% है, जबकि GPT-5.3-Codex 56.8% है । एक अन्य summary भी GPT-5.4 के 57.7% SWE-Bench Pro Public signal को सामने रखते हुए broader Claude-vs-GPT comparison को apples-to-apples result set नहीं मानती
।
Terminal-Bench 2.0 को पढ़ते समय खास सावधानी चाहिए, क्योंकि public leaderboard isolated base-model scores की जगह agent/model pairs दिखाता है । उसी leaderboard में GPT-5.3-Codex SageAgent के साथ 78.4%, Droid के साथ 77.3% और Simple Codex के साथ 75.1% दिखता है
। Claude Opus 4.6 ForgeCode के साथ 79.8%, Capy के साथ 75.3% और Terminus 2 के साथ 62.9% दिखता है
।
यह फर्क इतना बड़ा है कि winner बदल सकता है। GPT-5.4-focused comparison Terminal-Bench 2.0 पर GPT-5.3-Codex को Claude Opus 4.6 से आगे दिखाता है, 77.3% बनाम 65.4% । लेकिन public leaderboard में ForgeCode/Claude Opus 4.6 entry 79.8% पर है, जो SageAgent/GPT-5.3-Codex की 78.4% entry से ऊपर है
। इसलिए terminal-agent evaluations में model बदलने से पहले harness, tools और agent setup को constant रखना जरूरी है।
अगर आपका proxy metric SWE-Bench Verified है, तो इन sources में Claude Opus 4.6 सबसे सुरक्षित first test लगता है। इसके reported Verified scores करीब 79% से 81% तक cluster करते हैं: GPT-5.4 analysis में 79.2%, Opus-vs-Codex comparisons में 79.4%, और अन्य benchmark roundups में 80.8% ।
इसका मतलब यह नहीं कि Opus 4.6 हर coding workload में winner है। Terminal-Bench पर इसकी कहानी mixed है: कुछ comparison reports 65.4% बताती हैं, जबकि public leaderboard में Opus 4.6 ForgeCode के साथ 79.8% और Terminus 2 के साथ 62.9% दिखता है । यानी repository repair में इसे पहले आजमाना समझदारी है, लेकिन इसे universal coding champion कहना evidence से ज्यादा बड़ा दावा होगा।
जहां काम Terminal-Bench-style agentic shell workflows जैसा हो, GPT-5.3-Codex का OpenAI case मजबूत दिखता है। comparison reports इसे Terminal-Bench 2.0 पर 77.3% बताती हैं, और public leaderboard में GPT-5.3-Codex SageAgent के साथ 78.4%, Droid के साथ 77.3% और Simple Codex के साथ 75.1% दिखता है ।
SWE-Bench पर इसे judge करते समय ज्यादा सावधानी चाहिए। कुछ reports GPT-5.3-Codex को SWE-Bench Pro Public पर 78.2% दिखाती हैं, जबकि दूसरी line SWE-Bench Pro पर 56.8% बताती है । चूंकि sources variants को सीधे interchangeable नहीं मानते, GPT-5.3-Codex को उसी SWE-Bench variant और evaluation setup में compare करें जिसे आप सचमुच इस्तेमाल करने वाले हैं
।
इस benchmark set में GPT-5.4 कोई coding blowout नहीं दिखता। same-source comparison में इसका SWE-Bench Pro score GPT-5.3-Codex से थोड़ा ऊपर है, 57.7% बनाम 56.8%, लेकिन Terminal-Bench 2.0 पर यह नीचे है, 75.1% बनाम 77.3% ।
GPT-5.4 का ज्यादा अलग datapoint tool use से जुड़ा है। analysis के अनुसार tool search सभी tool definitions को context में भरने के बजाय जरूरत पड़ने पर load करता है, जिससे MCP token usage 47% घटता है । tool-heavy coding agents के लिए यह systems-level फायदा हो सकता है, पर इसे SWE-Bench या Terminal-Bench accuracy जीत के बराबर नहीं पढ़ना चाहिए
।
SWE-Bench Verified-style repository bug fixing के लिए Claude Opus 4.6 से शुरू करें, terminal-agent मुकाबले में GPT-5.3-Codex को जरूर रखें, और GPT-5.4 को तब test करें जब आपको latest OpenAI line या tool-search efficiency, खासकर MCP-heavy setup, evaluate करनी हो । सुरक्षित verdict यही है: coding में winner model के नाम से कम और benchmark variant, agent harness और आपके असली workload से ज्यादा तय होता है
।
Comments
0 comments