| मॉडल | सार्वजनिक स्रोतों में दिखने वाले मुख्य आंकड़े | कहाँ मजबूत संकेत मिलता है | तुलना में सावधानी |
|---|
BenchLM पर जिन तीन मॉडलों के आंकड़े यहाँ उपलब्ध हैं, उनमें Claude Opus 4.7 सबसे ऊपर दिखता है। BenchLM के अनुसार Claude Opus 4.7 provisional leaderboard में 110 मॉडलों में #2 और overall score 97/100 पर है; verified leaderboard में भी यह 14 मॉडलों में #2 बताया गया है .
GPT-5.5 के लिए BenchLM provisional leaderboard में 112 मॉडलों में #5 और overall score 89/100 दिखाता है; verified leaderboard में वह 16 मॉडलों में #2 है . Kimi 2.6 को BenchLM provisional leaderboard में 115 मॉडलों में #12, overall score 85/100 और 27 प्रकाशित बेंचमार्क स्कोरों के साथ दिखाया गया है
.
लेकिन यह सिर्फ BenchLM की तस्वीर है। तुलना-समूह भी समान नहीं हैं—कहीं 110 मॉडल, कहीं 112, कहीं 115। इसी सेट में DeepSeek V4 का वैसा ही BenchLM स्कोर उपलब्ध नहीं है, इसलिए इस आधार पर चारों की अंतिम रैंकिंग निकालना सही नहीं होगा .
सॉफ्टवेयर इंजीनियरिंग और कोडिंग वाले काम में Claude Opus 4.7 का सार्वजनिक आंकड़ा सबसे सीधा है। MindStudio के अनुसार Claude Opus 4.7 ने SWE-bench Verified पर 82.4% स्कोर किया, जो Opus 4.6 से लगभग 11 अंक ऊपर है . वही स्रोत FinanceBench में 82.7% प्रदर्शन बताता है और विज़न-संबंधी सुधारों में MathVista में 9.5 अंक की बढ़त का उल्लेख करता है
.
GPT-5.5 के लिए OpenAI की उपलब्ध आधिकारिक सामग्री में सामने रखे गए मुख्य आंकड़े SWE-bench नहीं, बल्कि GDPval, OSWorld-Verified और Tau2-bench Telecom हैं . Kimi K2.6 के बारे में GMI Cloud सामग्री SWE-Bench Pro में शीर्ष प्रदर्शन का दावा करती है, लेकिन उपलब्ध स्निपेट से सटीक स्कोर और चारों मॉडलों की समान-स्थितियों वाली तुलना तय नहीं की जा सकती
. DeepSeek V4 के लिए इस स्रोत-समूह में कोडिंग की तुलना में तर्क और गणित से जुड़े आंकड़े ज्यादा स्पष्ट रूप से मिलते हैं
.
ज्ञान-कार्य, कंप्यूटर-यूज़ और ग्राहक-सहायता जैसे एजेंट-वर्कफ़्लो में GPT-5.5 के आंकड़े सबसे स्पष्ट रूप से सामने आते हैं। OpenAI के अनुसार GPT-5.5 ने GDPval पर 84.9% स्कोर किया; GDPval 44 पेशों में अच्छी तरह निर्दिष्ट ज्ञान-कार्य आउटपुट तैयार करने की क्षमता को परखता है . OpenAI यह भी बताता है कि GPT-5.5 ने OSWorld-Verified पर 78.7% स्कोर किया, जो वास्तविक कंप्यूटर वातावरण चलाने की क्षमता मापता है, और Tau2-bench Telecom पर 98.0% हासिल किया, जो जटिल ग्राहक-सेवा वर्कफ़्लो को टेस्ट करता है
.
Claude Opus 4.7 के पास भी एजेंट-टाइप कार्यों के संकेत हैं। Anthropic के अनुसार उसके आंतरिक research-agent benchmark में Claude Opus 4.7 ने छह मॉड्यूल में कुल 0.715 स्कोर के साथ संयुक्त शीर्ष स्थान हासिल किया; General Finance मॉड्यूल में उसने Opus 4.6 के 0.767 की तुलना में 0.813 स्कोर किया .
लेकिन यहाँ बहुत सावधानी जरूरी है। GPT-5.5 का GDPval/OSWorld/Tau2-bench और Claude Opus 4.7 का Anthropic आंतरिक research-agent benchmark एक ही पैमाना नहीं हैं . इसलिए GPT-5.5 के 84.9% और Claude के 0.715 को आमने-सामने रखकर विजेता घोषित करना गलत होगा।
DeepSeek V4 के सबसे स्पष्ट सार्वजनिक आंकड़े V4-Pro-Max सेटिंग में मिलते हैं। DataCamp बताता है कि DeepSeek के आंतरिक परिणामों के अनुसार DeepSeek V4-Pro-Max ने MMLU-Pro पर 87.5%, GPQA Diamond पर 90.1% और GSM8K गणित बेंचमार्क पर 92.6% स्कोर किया . ये आंकड़े उपयोगी संकेत हैं, लेकिन DataCamp स्वयं इन्हें आंतरिक परिणामों पर आधारित बताता है; इसलिए इन्हें स्वतंत्र तीसरे-पक्ष परीक्षण जैसा नहीं पढ़ना चाहिए
.
Hugging Face पर DeepSeek-V4-Pro सामग्री में DeepSeek V4-Pro-Max और Kimi K2.6 Thinking कुछ ज्ञान और तर्क बेंचमार्क में साथ-साथ दिखते हैं . उपलब्ध तालिका के आधार पर तुलना इस तरह है:
| बेंचमार्क | DeepSeek V4-Pro-Max | Kimi K2.6 Thinking | इस तालिका में बढ़त |
|---|---|---|---|
| MMLU-Pro | 87.5 | 87.1 | DeepSeek V4-Pro-Max |
| SimpleQA-Verified | 57.9 | 36.9 | DeepSeek V4-Pro-Max |
| Chinese-SimpleQA | 84.4 | 75.9 | DeepSeek V4-Pro-Max |
| GPQA Diamond | 90.1 | 90.5 | Kimi K2.6 Thinking |
| HLE | 37.7 | 36.4 | DeepSeek V4-Pro-Max |
इस तालिका में DeepSeek V4-Pro-Max MMLU-Pro, SimpleQA-Verified, Chinese-SimpleQA और HLE पर Kimi K2.6 Thinking से आगे है, जबकि Kimi K2.6 Thinking GPQA Diamond में मामूली बढ़त दिखाता है . फिर भी यह चारों मॉडलों की पूरी तुलना नहीं है, क्योंकि इसी तालिका में Claude Opus 4.7 और GPT-5.5 नहीं, बल्कि Opus-4.6 Max और GPT-5.4 xHigh जैसे अलग मॉडल शामिल हैं
.
Vals AI में GPT-5.5 के लिए Accuracy 67.76% ± 1.79, Latency 409.09s और Context Window 1M दिखाया गया है . Kimi K2.6 के लिए Accuracy 63.94% ± 1.97, Latency 373.57s और Cost/Test $0.21 दिखता है
. इन दो Vals रिकॉर्डों को साथ देखें तो Accuracy के प्रकाशित मान में GPT-5.5 आगे है, जबकि Latency के प्रकाशित मान में Kimi K2.6 कम समय लेता दिखता है
.
Kimi K2.6 का एक अलग महत्व ओपन-वेट्स श्रेणी में है। Artificial Analysis ने Moonshot के Kimi K2.6 को leading open weights model कहा और Artificial Analysis Intelligence Index 54 के साथ कुल #4 स्थान दिखाया . लेकिन यहाँ भी वही नियम लागू है: Artificial Analysis, Vals और BenchLM अलग-अलग मूल्यांकन प्रणालियाँ हैं। Kimi का 54, Vals का 63.94% और BenchLM का 85/100 जोड़कर कोई संयुक्त स्कोर बनाना उचित नहीं होगा
.
सार्वजनिक प्रमाणों के आधार पर Claude Opus 4.7 को कोडिंग और BenchLM समग्र लीडरबोर्ड में मजबूत संकेत मिलता है। GPT-5.5 ज्ञान-कार्य, कंप्यूटर-यूज़ और एजेंट वर्कफ़्लो में सबसे स्पष्ट आधिकारिक आंकड़ों के साथ आता है। DeepSeek V4-Pro-Max तर्क, विज्ञान और गणित से जुड़े बेंचमार्क में मजबूत उम्मीदवार दिखता है। Kimi K2.6 ओपन-वेट्स, लागत और latency जैसे संचालन-सम्बंधी पहलुओं में अलग जगह बनाता है .
लेकिन चारों मॉडलों की पक्की 1 से 4 रैंकिंग घोषित करना अभी जल्दबाजी होगी। बेहतर तरीका यह है कि इन बेंचमार्कों को शॉर्टलिस्ट बनाने की शुरुआत मानें, फिर अपने वास्तविक काम—कोडिंग, वित्तीय दस्तावेज़ विश्लेषण, ब्राउज़र या कंप्यूटर नियंत्रण, ग्राहक सहायता, लंबे एजेंट रन, latency budget और लागत—पर समान प्रॉम्प्ट व समान डेटा के साथ अलग से परीक्षण करें .
Comments
0 comments