यहाँ “डेटा उपलब्ध नहीं” का मतलब यह नहीं है कि मॉडल ने शून्य स्कोर किया। इसका मतलब सिर्फ इतना है कि संबंधित स्रोत में उस मॉडल के लिए वह आंकड़ा नहीं दिया गया।
GPQA Diamond में Claude Opus 4.7 और GPT-5.5 के बीच अंतर बहुत बड़ा नहीं है: Claude 94.2% पर है और GPT-5.5 93.6% पर, जबकि DeepSeek-V4-Pro-Max 90.1% पर है । लेकिन Humanity’s Last Exam बिना tools में Claude की बढ़त साफ दिखती है: Claude Opus 4.7 का स्कोर 46.9% है, GPT-5.5 का 41.4%, GPT-5.5 Pro का 43.1% और DeepSeek-V4-Pro-Max का 37.7%
।
तस्वीर तब बदलती है जब HLE में tools की अनुमति मिलती है। इस लाइन में GPT-5.5 Pro 57.2% के साथ आगे है; Claude Opus 4.7 54.7%, GPT-5.5 52.2% और DeepSeek-V4-Pro-Max 48.2% पर हैं । इसलिए सबसे साफ निष्कर्ष यह है: शुद्ध reasoning में Claude Opus 4.7 मजबूत दिखता है, जबकि tool-augmented reasoning में उपलब्ध HLE लाइन पर GPT-5.5 Pro आगे है
।
इस तुलना में GPT-5.5 की सबसे बड़ी बढ़त Terminal-Bench 2.0 पर दिखती है। उसका स्कोर 82.7% है, जबकि Claude Opus 4.7 69.4% और DeepSeek-V4-Pro-Max 67.9% पर हैं । Kimi K2.6 के मॉडल कार्ड में Terminal-Bench 2.0 पर 66.7 दिया गया है, और LLM Stats leaderboard भी Kimi K2.6 के लिए 0.667 तथा Claude Opus 4.7 के लिए 0.694 दिखाता है
। यानी इस scale पर Kimi, Claude और DeepSeek के आसपास है, लेकिन GPT-5.5 से साफ पीछे है
।
SWE-Bench Pro / SWE Pro में कहानी अलग है। Claude Opus 4.7 64.3% के साथ आगे है; GPT-5.5 58.6% और DeepSeek-V4-Pro-Max 55.4% पर हैं । Kimi K2.6 के Hugging Face कार्ड में भी SWE-Bench Pro के लिए 58.6 दिया गया है, लेकिन यह उसी साझा comparison run की पंक्ति नहीं है जिससे GPT-5.5, Claude और DeepSeek की तुलना ली गई है
।
SWE-Bench Verified को चारों मॉडलों की साफ ranking में बदलना ठीक नहीं होगा। Kimi K2.6 के लिए मॉडल कार्ड और eval फ़ाइल में 80.2 दिया गया है । DeepSeek V4 पर अलग overview Claude Opus 4.7 के लिए 87.6% और DeepSeek V4-Pro के लिए 80.6% बताता है, लेकिन वह GPT-5.5 की पूरी पंक्ति नहीं देता और DeepSeek-V4-Pro-Max के बजाय V4-Pro की बात करता है
।
GPT-5.5 Terminal-Bench 2.0 में सबसे अलग चमकता है: 82.7% इस पंक्ति में साझा तालिका का सबसे अच्छा परिणाम है । GPT-5.5 Pro हर पंक्ति में मौजूद नहीं है, लेकिन जहाँ उसका डेटा है, वह शीर्ष पर आता है—HLE with tools में 57.2% और BrowseComp में 90.1%
।
व्यावहारिक तौर पर, GPT-5.5 को terminal-based agentic workflows के लिए पहले test करना चाहिए। अगर काम में tools, browsing या बाहरी actions के साथ reasoning शामिल है, तो GPT-5.5 Pro को पहले shortlist करना बेहतर दिखता है ।
Claude Opus 4.7 साझा तालिका की कई पंक्तियों में आगे है: GPQA Diamond में 94.2%, HLE बिना tools में 46.9%, SWE-Bench Pro / SWE Pro में 64.3% और MCP Atlas / MCPAtlas Public में 79.1% । हालांकि Terminal-Bench 2.0 में वह GPT-5.5 से पीछे है, और HLE with tools तथा BrowseComp में GPT-5.5 Pro उससे आगे है
।
अगर आपका उपयोग case बिना tools वाली कठिन reasoning, गहरे technical सवाल या SWE-Bench Pro जैसी coding चुनौतियों के करीब है, तो Claude Opus 4.7 उपलब्ध डेटा के आधार पर मजबूत पहला उम्मीदवार है ।
Kimi K2.6 को बाकी तीनों के साथ बिल्कुल समान scoreboard पर rank नहीं किया जा सकता, क्योंकि इस लेख में उसके नंबर Hugging Face मॉडल कार्ड और eval फ़ाइल से आते हैं, न कि मुख्य साझा तालिका से । फिर भी coding candidate के रूप में वह ध्यान देने लायक है: मॉडल कार्ड SWE-Bench Verified पर 80.2, SWE-Bench Pro पर 58.6, SWE-Bench Multilingual पर 76.7, Terminal-Bench 2.0 पर 66.7 और OSWorld-Verified पर 73.1 बताता है
।
Kimi की operational appeal यह है कि एक स्रोत उसके weights को Hugging Face पर उपलब्ध बताता है और vLLM, SGLang या KTransformers के जरिए चलाने की बात करता है । यह Kimi को साझा benchmark table का विजेता नहीं बनाता, लेकिन उन टीमों के लिए अलग से test करने लायक बनाता है जिन्हें self-hosted या स्थानीय deployment प्रयोग चाहिए
।
मुख्य साझा तालिका में DeepSeek को DeepSeek-V4-Pro-Max variant के रूप में दिखाया गया है । उपलब्ध पंक्तियों में वह किसी benchmark में पहले स्थान पर नहीं आता: GPQA Diamond में 90.1%, HLE बिना tools में 37.7%, HLE with tools में 48.2%, Terminal-Bench 2.0 में 67.9%, SWE-Bench Pro / SWE Pro में 55.4%, BrowseComp में 83.4% और MCP Atlas / MCPAtlas Public में 73.6%
।
DeepSeek V4 की ताकत इस dataset में absolute performance lead नहीं, बल्कि लागत है। Mashable और DataCamp ने DeepSeek V4 की API pricing $1.74 प्रति 10 लाख input tokens और $3.48 प्रति 10 लाख output tokens बताई है; तुलना में GPT-5.5 के लिए $5/$30 और Claude Opus 4.7 के लिए $5/$25 दिए गए हैं । अगर आपका bottleneck budget है, तो DeepSeek V4 को अपने internal eval में शामिल करना बनता है—लेकिन इसे इस benchmark table का leader कहना सही नहीं होगा
।
अगर केवल साझा benchmark table की तुलनीय पंक्तियों को देखें, तो Claude Opus 4.7 GPQA Diamond, Humanity’s Last Exam बिना tools, SWE-Bench Pro और MCP Atlas में आगे है; GPT-5.5 Terminal-Bench 2.0 में आगे है; और GPT-5.5 Pro HLE with tools तथा BrowseComp में आगे है । Kimi K2.6 coding के लिए मजबूत और weights-available उम्मीदवार दिखता है, लेकिन उसे बाकी मॉडलों के खिलाफ सख्ती से rank करने के लिए common run नहीं है
। DeepSeek V4 इन benchmark लाइनों में leader नहीं है, फिर भी कम published API pricing के कारण cost-sensitive scenarios में उसे जरूर test करना चाहिए
।
Comments
0 comments