असल software engineering अक्सर isolated code generation नहीं होती। आपको मौजूदा architecture समझना पड़ता है, बदलावों को कई files में track करना पड़ता है, tests और regressions संभालने पड़ते हैं, और कई rounds की debugging में context खोना नहीं चाहिए। Emergent का तर्क है कि coding performance को सिर्फ generation quality से नहीं, बल्कि multi-step repository-level work को pressure में संभालने की क्षमता से परखना चाहिए। इसी संदर्भ में वह Claude Code with Opus 4.6 को complex debugging, multi-file reasoning और high-risk changes के लिए चुनता है।
Emergent यह भी कहता है कि Claude Code बड़े codebases में context बनाए रखता है और iterative debugging में degrade हुए बिना काम करता है। यही वजह है कि real repo work—जहां एक छोटे edit का असर कई modules पर पड़ सकता है—में Claude Code/Opus को practical default मानने का आधार मजबूत है।
Benchmark side पर भी Claude का case तब मजबूत होता है जब tooling को control किया जाता है। Awesome Agents बताता है कि custom scaffolding के साथ GPT-5.4 SWE-bench Pro में आगे है, लेकिन Scale SEAL के standardized SWE-bench Pro evaluation में, जहां agent tooling सभी models के लिए समान रखी जाती है, Claude Opus 4.5/4.6 आगे निकलता है। Teams के लिए यह फर्क अहम है, क्योंकि कई बार model से ज्यादा उसके आसपास बना agent framework नतीजा बदल देता है।
अगर आपकी टीम OpenAI/Codex-style workflow पर चलती है, या आप custom agent scaffolding बनाकर model को task solve करवाते हैं, तो GPT-5.x Codex को गंभीरता से test करना चाहिए। Awesome Agents के अनुसार GPT-5.4 custom agent scaffolding के साथ SWE-bench Pro पर 57.7% तक पहुंचता है। वही source SWE-bench Pro को original benchmark का कठिन variant बताता है, जिसमें 41 repositories से लिए गए 1,865 tasks शामिल हैं।
SWE-bench leaderboard source में GPT-5-2 Codex की दिखाई गई entry 72.80 पर listed है। यह benchmark-driven teams के लिए मजबूत signal है, लेकिन अकेले इससे अंतिम फैसला नहीं निकलता, क्योंकि उपलब्ध evidence यह भी दिखाता है कि scaffolding बदलने से ranking बदल सकती है।
Gemini भी shortlist से बाहर रखने लायक नहीं है, खासकर जब आपकी evaluation SWE-bench leaderboard पर आधारित हो। SWE-bench leaderboard source की दिखाई गई entries में Gemini 3 Flash high reasoning 75.80 पर listed है, जो उसी snippet में GPT-5-2 Codex की 72.80 entry से ऊपर है।
इससे Gemini को benchmark-led evaluation में जरूर test करना चाहिए। हालांकि public leaderboard score अपने-आप यह साबित नहीं करता कि वही model आपके private codebase, permissions, test suite, review standards और agent tooling में भी सबसे अच्छा होगा। उपलब्ध evidence में tooling और benchmark setup का असर साफ दिखता है।
AI coding rankings अक्सर उलझी हुई लगती हैं, क्योंकि वे एक ही चीज़ नहीं मापतीं।
सीधा मतलब: public rankings shortlist बनाने में मदद करती हैं, लेकिन आपकी team का final decision आपके अपने codebase पर होना चाहिए।
Controlled trial चलाइए। हर candidate को वही repository, वही instructions, वही permissions, वही time limit और वही review process दीजिए। अगर setup बदलता रहेगा, तो आप model की तुलना नहीं, toolchain की तुलना कर रहे होंगे।
एक practical evaluation set में ये tasks रखें:
Model और agent framework को अलग-अलग track करें। उपलब्ध evidence दिखाता है कि custom और standardized scaffolding में leader बदल सकता है।
Scoring करते समय सिर्फ “answer सही दिख रहा है या नहीं” न देखें। यह देखें कि tests pass हुए या नहीं, explanation सही है या नहीं, model ने context संभाला या नहीं, बदलाव जरूरत से ज्यादा तो नहीं किए, और human reviewer को कितना extra काम करना पड़ा। Production code में ये signals अक्सर एक leaderboard number से ज्यादा काम के होते हैं।
सबसे कठिन real-world coding work के लिए उपलब्ध evidence में Claude Code with Opus-class models सबसे अच्छा supported default है। Benchmark-focused evaluation में GPT-5.x Codex और Gemini को जरूर शामिल करें: GPT-5.4 custom scaffolding के साथ SWE-bench Pro पर 57.7% reported है, और SWE-bench source में Gemini 3 Flash 75.80 पर दिखाई देता है।
सबसे सुरक्षित निष्कर्ष यह है कि एक model हमेशा नहीं जीतता। मुश्किल repo-level engineering के लिए Claude Code/Opus से शुरू करें, benchmark-driven shortlist में GPT-5.x Codex और Gemini को रखें, और अंतिम फैसला अपने codebase पर controlled tests चलाकर करें।
Comments
0 comments