| Expert-SWE Internal 73.1%; OpenAI ने लिखा कि अन्य लैब्स ने इस eval पर memorization evidence देखा। |
| A-: SWE-Bench Pro और Terminal-Bench 2.0 में Claude Opus 4.7 के साथ सीधे तुलना योग्य। Expert-SWE internal eval है, इसलिए सावधानी से पढ़ें। |
| DeepSeek V4 | — | — | — | — | C, डेटा अपर्याप्त: उपलब्ध स्रोतों में उद्धृत करने योग्य DeepSeek V4 बेंचमार्क नहीं मिला, इसलिए संख्यात्मक तुलना नहीं की गई। |
OpenAI की GPT-5.5 मूल्यांकन तालिका में Claude Opus 4.7 का SWE-Bench Pro स्कोर 64.3% है, जबकि GPT-5.5 का 58.6%। यह इस लेख की सबसे मजबूत सीधी तुलना में से एक है, क्योंकि दोनों स्कोर एक ही तालिका में हैं।
Kimi K2.6 के लिए Kilo AI का तीसरे-पक्ष लेख SWE-Bench Pro पर 58.6% बताता है, जो कागज पर GPT-5.5 के बराबर दिखता है। लेकिन यह संख्या GPT-5.5 और Claude Opus 4.7 वाली उसी OpenAI तालिका में नहीं है, इसलिए इसे कठोर बराबरी के बजाय एक उपयोगी संकेत समझना बेहतर है।
इसी OpenAI तालिका में GPT-5.5 का Terminal-Bench 2.0 स्कोर 82.7% है, जबकि Claude Opus 4.7 का 69.4%। अगर आपका उपयोग-क्षेत्र टर्मिनल, कमांड-लाइन टूल्स, स्क्रिप्ट चलाने या कोडिंग एजेंट के execution environment जैसा है, तो GPT-5.5 को शुरुआती टेस्ट सूची में रखना समझदारी होगी।
हालांकि Kimi K2.6 और DeepSeek V4 के लिए यहां उद्धृत करने योग्य Terminal-Bench 2.0 स्कोर उपलब्ध नहीं है। इसलिए इस कॉलम में चारों मॉडलों की पूरी रैंकिंग बनाना अभी संभव नहीं है।
Claude Opus 4.7 का SWE-Bench Verified स्कोर 87.6% तीसरे-पक्ष Claude Opus 4.7 बेंचमार्क सारांशों में मिलता है। Verdent ने इस संख्या को Anthropic-conducted बताया और memorization screens applied नोट किया। Kimi K2.6 का SWE-Bench Verified स्कोर 80.2% Kilo AI के तीसरे-पक्ष लेख से आता है।
दोनों आंकड़े ध्यान देने लायक हैं, लेकिन OpenAI की एक ही तालिका वाले SWE-Bench Pro और Terminal-Bench 2.0 जितनी साफ apples-to-apples तुलना नहीं देते।
GPT-5.5 का Expert-SWE Internal स्कोर 73.1% है, लेकिन OpenAI खुद इसे internal eval के रूप में चिह्नित करता है और लिखता है कि अन्य लैब्स ने इस eval पर memorization evidence देखा है। इसलिए Expert-SWE को GPT-5.5 की क्षमता का संकेत माना जा सकता है, पर चार मॉडलों की कुल रैंकिंग का मुख्य आधार नहीं।
अगर आपका काम GitHub issues, multi-file bugs या जटिल सॉफ्टवेयर इंजीनियरिंग जैसा है, तो Claude Opus 4.7 को पहले टेस्ट करें। उपलब्ध सबसे साफ SWE-Bench Pro तुलना में Claude Opus 4.7 64.3% पर है और GPT-5.5 58.6% पर। Vellum भी इस तुलना को real GitHub issue resolution के संदर्भ में पढ़ता है।
अगर आपका workflow टर्मिनल-आधारित coding agent जैसा है, तो GPT-5.5 को प्राथमिकता दें। Terminal-Bench 2.0 पर GPT-5.5 का 82.7% स्कोर Claude Opus 4.7 के 69.4% से ऊपर है। इसका अर्थ यह नहीं कि GPT-5.5 हर coding task में बेहतर है; यह सिर्फ बताता है कि इस खास benchmark पर इसका लाभ स्पष्ट है।
अगर आपको open-source उम्मीदवार चाहिए, तो Kimi K2.6 को shortlist में रखें। Hugging Face पेज Kimi K2.6 को open-source, native multimodal agentic model बताता है, और Kilo AI का लेख SWE-Bench Pro 58.6% तथा SWE-Bench Verified 80.2% देता है। लेकिन इन स्कोर को GPT-5.5 और Claude Opus 4.7 की आधिकारिक एक-तालिका तुलना के बराबर वजन न दें; अपने काम के टेस्ट सेट पर फिर से चलाकर देखें।
अगर आप DeepSeek V4 पर विचार कर रहे हैं, तो इंतजार या अपनी टेस्टिंग ही सुरक्षित रास्ता है। इस लेख के उपलब्ध स्रोतों में DeepSeek V4 के लिए सत्यापनीय बेंचमार्क संख्या नहीं मिली। उसे खाली छोड़ना, बिना आधार के रैंकिंग देने से बेहतर है।
LLM बेंचमार्क में एक ही गलती बार-बार होती है: अलग स्रोतों के आंकड़ों को जोड़कर एक बड़ा स्कोर बना देना। यहां तीन स्तरों में सोचना बेहतर है:
इस आधार पर नतीजा साफ है: Claude Opus 4.7 SWE-Bench Pro में GPT-5.5 से आगे है, और GPT-5.5 Terminal-Bench 2.0 में Claude Opus 4.7 से आगे है। Kimi K2.6 के SWE-Bench स्कोर प्रतिस्पर्धी दिखते हैं, लेकिन साक्ष्य स्तर कम मजबूत है।
DeepSeek V4 को फिलहाल डेटा-अपर्याप्त श्रेणी में रखना चाहिए।
अंतिम फैसला अपनी वास्तविक जरूरतों पर करें: आपके repositories कैसे हैं, कौन-सी programming languages हैं, tests कैसे चलते हैं, tool calling कितनी चाहिए, latency और लागत कितनी स्वीकार्य है, और असफल होने पर model कैसे recover करता है। बेंचमार्क shortlist बनाने के लिए अच्छे हैं; production model चुनने के लिए अपना controlled eval जरूरी है।
Comments
0 comments