| SWE-Bench Pro | 60.6 | 55.4 | 58.6 |
| SWE-Bench Multilingual | 78.3 | — | 76.7 |
| Terminal-Bench 2.0-Terminus | 69.7 | 67.9 | 66.7 |
| LiveCodeBench (Pass@1) | — | 93.5 | 89.6 |
| Codeforces Rating | — | 3206 | — |
| SciCode | 53.5 | — | — |
| MCP-Mark | 60.8 | — | — |
DeepSeek की कीमत पर ध्यान दें: DeepSeek ने 31 मई, 2026 तक 75% की लॉन्च छूट चलाई, जिससे Pro की कीमत $0.435/$0.87 इनपुट/आउटपुट हो गई। छूट के बाद की मानक दरें $1.74/$3.48 हैं
। DeepSeek ने बाद में इस 75% की कटौती को स्थायी बना दिया है
, इसलिए ऊपर दी गई तालिका स्थायी रूप से घटी हुई दरों को दर्शाती है।
कोडिंग और एजेंटिक बेंचमार्क — ये तीनों मॉडल SWE-Bench Verified (रेंज: 80.2–80.6) पर एक-दूसरे के बेहद करीब हैं। Qwen3.7-Max Terminal-Bench 2.0 (69.7) और SWE-Pro (60.6) पर आगे है, जबकि DeepSeek V4 Pro Max LiveCodeBench (93.5) और Codeforces (3206 रेटिंग) पर हावी है — जो अब तक के किसी भी परीक्षित मॉडल के सबसे मजबूत कोडिंग स्कोर हैं । Kimi K2.6 SWE-Bench Pro (58.6) में शीर्ष पर है और टूल-संवर्धित मूल्यांकन (HLE, टूल के साथ 54.0) में अग्रणी है
।
तर्कशक्ति — Qwen3.7-Max गणित प्रतियोगिताओं (HMMT 97.1%, GPQA Diamond 92.4%) पर सर्वोच्च स्कोर करता है । DeepSeek HMMT (95.2%) और HLE (37.7%) पर थोड़ा पीछे है
। Kimi K2.6 HLE-विद-टूल्स (54.0) और DeepSearchQA (92.5 F1) में आगे है, जिसका अर्थ है कि यह शुद्ध गणित के बजाय रिट्रीवल-संवर्धित और मल्टी-स्टेप टूल-उपयोग परिदृश्यों में उत्कृष्ट है
।
कीमत और मूल्य — DeepSeek V4 Pro खुद होस्टिंग के लिए ओपन वेट के साथ $0.87/आउटपुट (स्थायी छूट के बाद) पर अब तक का सबसे सस्ता विकल्प है । Qwen3.7-Max $7.50/आउटपुट पर सबसे महंगा है, हालाँकि अलीबाबा बैच और कैश छूट प्रदान करता है
। Kimi K2.6 $4.00/आउटपुट पर इनके बीच में बैठता है लेकिन केवल 256K कॉन्टेक्स्ट प्रदान करता है जबकि बाकी दो 1M प्रदान करते हैं
।
महत्वपूर्ण चेतावनी (NIST CAISI मूल्यांकन): मई 2026 के एक NIST CAISI मूल्यांकन में पाया गया कि DeepSeek V4 Pro के स्व-रिपोर्टेड बेंचमार्क स्वतंत्र, गैर-सार्वजनिक मूल्यांकनों की तुलना में उसकी क्षमता को बढ़ा-चढ़ाकर दिखाते हैं, जो बताता है कि यह Claude Opus 4.6 के बजाय GPT-5 (अगस्त 2025) के करीब हो सकता है । यह चेतावनी Qwen3.7-Max या Kimi K2.6 पर लागू नहीं होती, क्योंकि उसी रिपोर्ट में CAISI द्वारा उनके स्कोर का सीधे मूल्यांकन नहीं किया गया था।
Comments
0 comments