Grok 4.3 और DeepSeek V4 की तुलना थोड़ी कठिन है क्योंकि इनके लिए प्रकाशित बेंचमार्क कम मानकीकृत या कम पारदर्शी हैं।
कोडिंग प्रदर्शन आज के AI मॉडलों के लिए सबसे महत्वपूर्ण क्षेत्रों में से एक बन चुका है।
इस श्रेणी में Claude Opus 4.7 का संकेत सबसे स्पष्ट है। SWE‑Bench Pro पर 64.3% का स्कोर यह दिखाता है कि यह मॉडल अलग‑अलग प्रोग्रामिंग भाषाओं में वास्तविक GitHub समस्याओं को हल करने में मजबूत है।
GPT‑5.5 इसी बेंचमार्क पर थोड़ा पीछे है—58.6%—लेकिन यह व्यापक इंजीनियरिंग वर्कफ़्लो में बहुत अच्छा प्रदर्शन करता है। उदाहरण के लिए Terminal‑Bench 2.0, जो कमांड‑लाइन ऑटोमेशन और टूल समन्वय को मापता है, उसमें GPT‑5.5 82.7% के साथ आगे है।
Gemini 3.5 Flash ने SWE‑Bench Pro पर 55.1% स्कोर किया है। फ्लैगशिप मॉडल के मुकाबले यह थोड़ा कम है, लेकिन एक तेज़ inference‑tier मॉडल के लिए यह उल्लेखनीय परिणाम है।
Grok 4.3 के कोडिंग मेट्रिक्स अलग प्रकार के बेंचमार्क से आते हैं, जैसे IFBench पर 81% और τ²‑Bench telecom tasks पर 98%। ये परिणाम अच्छे हैं, लेकिन SWE‑Bench या Terminal‑Bench जैसे व्यापक उद्योग मानकों से सीधे तुलना करना मुश्किल है।
DeepSeek V4 के लिए कोडिंग बेंचमार्क अभी सीमित हैं। कई रिपोर्टें आंतरिक परीक्षण या लीक पर आधारित हैं जिन्हें स्वतंत्र रूप से दोहराया नहीं गया है, इसलिए उनकी विश्वसनीय तुलना कठिन है।
नए AI बेंचमार्क यह भी देखते हैं कि कोई मॉडल कितनी अच्छी तरह कई टूल्स का उपयोग करके बहु‑चरण कार्य पूरा कर सकता है।
Google के अनुसार Gemini 3.5 Flash इस क्षेत्र के कई परीक्षणों में आगे है। उदाहरण के लिए MCP Atlas पर 83.6% और Toolathlon पर 56.5% स्कोर—दोनों बेंचमार्क मल्टी‑टूल ऑर्केस्ट्रेशन और वास्तविक वर्कफ़्लो को मापते हैं।
OpenAI का GPT‑5.5 भी इसी प्रकार के कामों में मजबूत है। GDPval नामक बेंचमार्क—जो अलग‑अलग पेशों के ज्ञान‑आधारित कार्यों का परीक्षण करता है—में यह 84.9% “wins or ties” दिखाता है।
Claude Opus 4.7 भी कंप्यूटर‑यूज़ टेस्ट में अच्छा प्रदर्शन करता है। OSWorld‑Verified पर 78.0% स्कोर यह दर्शाता है कि मॉडल डेस्कटॉप इंटरफेस और सॉफ्टवेयर टूल्स के साथ प्रभावी ढंग से काम कर सकता है।
बेंचमार्क स्कोर ही सब कुछ नहीं बताते—वास्तविक उपयोग में स्पीड, लागत और कॉन्टेक्स्ट विंडो भी महत्वपूर्ण हैं।
Grok 4.3 का फोकस लंबे कॉन्टेक्स्ट और लागत दक्षता पर है। xAI के दस्तावेज़ों के अनुसार इसमें 1‑मिलियन टोकन का कॉन्टेक्स्ट विंडो है और कीमत लगभग $1.25 प्रति मिलियन इनपुट टोकन और $2.50 प्रति मिलियन आउटपुट टोकन बताई गई है।
Gemini 3.5 Flash को तेज़ inference के लिए डिज़ाइन किया गया है। कई विश्लेषण इसे पारंपरिक फ्लैगशिप मॉडलों से काफी तेज़ बताते हैं, जबकि यह कई एजेंटिक बेंचमार्क में प्रतिस्पर्धी बना रहता है।
DeepSeek के मॉडल आम तौर पर ओपन‑वेट या कम‑लागत डिप्लॉयमेंट रणनीति पर ध्यान देते हैं, जिससे कंपनियाँ उन्हें अपने स्वयं के सर्वर या इंफ्रास्ट्रक्चर पर चलाना पसंद करती हैं।
DeepSeek V4 का सबसे विश्वसनीय स्वतंत्र मूल्यांकन अमेरिकी National Institute of Standards and Technology (NIST) के CAISI कार्यक्रम से आता है।
इस मूल्यांकन के अनुसार DeepSeek V4 सॉफ्टवेयर इंजीनियरिंग, साइबर कार्य और गणित सहित कई क्षेत्रों में परीक्षण किया गया सबसे सक्षम चीनी मॉडल है। लेकिन इसकी क्षमता अभी भी अग्रणी वैश्विक मॉडलों से लगभग आठ महीने पीछे बताई गई है।
रिपोर्ट यह भी बताती है कि DeepSeek द्वारा स्वयं प्रकाशित बेंचमार्क परिणाम स्वतंत्र CAISI माप से अधिक मजबूत दिखाई देते हैं, जो यह दिखाता है कि निष्पक्ष परीक्षण कितने महत्वपूर्ण हैं।
AI मॉडलों की सीधी रैंकिंग बनाना अभी भी मुश्किल है, क्योंकि:
इसलिए किसी एक “1 से 5 तक” की सख्त रैंकिंग को सावधानी से देखना चाहिए।
मौजूदा सार्वजनिक साक्ष्य के आधार पर मोटे तौर पर यह तस्वीर बनती है:
व्यावहारिक रूप से “सबसे अच्छा” मॉडल आपके काम पर निर्भर करता है—कोडिंग एजेंट, रिसर्च असिस्टेंट, लंबा कॉन्टेक्स्ट विश्लेषण या कम‑लागत inference—हर उपयोग‑मामले में अलग मॉडल बेहतर साबित हो सकता है।
Comments
0 comments