Claude Mythos Preview के बारे में सबसे ज्यादा उद्धृत किया जाने वाला आंकड़ा है: SWE-bench पर 93.9% [1][
2]. पहली नजर में यह बहुत बड़ा स्कोर लगता है, लेकिन इसे सही संदर्भ में पढ़ना जरूरी है। SWE-bench मुख्य रूप से सॉफ्टवेयर इंजीनियरिंग, कोड सुधार और repository-आधारित tasks जैसी चीजों को जांचता है; यह किसी AI मॉडल की हर संभावित क्षमता की परीक्षा नहीं है [
1].
93.9% क्यों महत्वपूर्ण है
Claude Mythos Preview के लिए रिपोर्ट किया गया केंद्रीय benchmark स्कोर SWE-bench पर 93.9% है [1][
2]. अगर आपका काम codebase समझने, bugs ठीक करने, tests चलाने या programming agent बनाने से जुड़ा है, तो यह आंकड़ा उपयोगी शुरुआती संकेत देता है [
1].
लेकिन यहां एक बारीक बात है। SWE-bench पर ऊंचे स्कोर अक्सर तब मिलते हैं जब मॉडल सिर्फ chat window में जवाब नहीं दे रहा होता, बल्कि agent की तरह काम कर रहा होता है—यानी वह files पढ़ सकता है, code चला सकता है, test results देख सकता है और कई बार कोशिश करके समाधान सुधार सकता है [1]. इसलिए 93.9% को केवल “मॉडल कितना होशियार है” की संख्या नहीं, बल्कि “मॉडल + tools + evaluation setup” का नतीजा भी समझना चाहिए।
यह स्कोर क्या नहीं बताता
93.9% का मतलब यह नहीं है कि Claude Mythos Preview हर क्षेत्र में 93.9% बेहतर या सफल है। SWE-bench software tasks पर केंद्रित benchmark है; यह अपने-आप reasoning, safety, deployment availability, operating cost, multimodal क्षमता या non-coding tasks में प्रदर्शन का पूरा माप नहीं देता [1].
किसी भी AI benchmark की तुलना करते समय सबसे जरूरी नियम यही है: समान benchmark और समान conditions में तुलना करें। अगर एक model को files access, code execution और multiple iterations की सुविधा मिली है, और दूसरे model को नहीं, तो दोनों के numbers को सीधे आमने-सामने रखना भ्रामक हो सकता है [1].
Claude Mythos Preview के रिपोर्ट किए गए benchmarks
| क्षेत्र | रिपोर्ट किया गया नतीजा | इसे कैसे पढ़ें |
|---|---|---|
| Software / SWE-bench | 93.9% | coding, bug fixing और software-agent workflows के लिए सबसे साफ संकेत [ |
| Cybersecurity capability | 83.1% बनाम Claude Opus 4.6 का 66.6% | साइबरसुरक्षा क्षमता से जुड़ी तुलना; यह SWE-bench जैसा परीक्षण नहीं है [ |
| Cybench | 100% | साइबरसुरक्षा challenges पर आधारित benchmark के रूप में रिपोर्ट किया गया; इसे सामान्य AI score न मानें [ |
| व्यापक benchmark set | 18 में से 17 benchmarks में बढ़त | Anthropic data पर आधारित aggregated claim के रूप में रिपोर्ट; इसे general ranking बनाने से पहले breakdown देखना जरूरी है [ |
Software और cybersecurity को अलग-अलग पढ़ें
Claude Mythos Preview के cybersecurity numbers अलग श्रेणी के संकेत हैं। एक स्रोत के अनुसार Mythos Preview ने cybersecurity capability benchmarks में 83.1% स्कोर किया, जबकि Claude Opus 4.6 का स्कोर 66.6% बताया गया [3]. एक अन्य स्रोत ने Cybench पर Mythos के 100% success rate का दावा किया है, जिसे cybersecurity challenges वाला benchmark बताया गया है [
5].
यह संदर्भ इसलिए महत्वपूर्ण है क्योंकि उपलब्ध Anthropic-linked सामग्री भी cybersecurity पर ज्यादा केंद्रित दिखती है। Anthropic Red Team ने Claude Mythos Preview की cybersecurity capabilities का assessment प्रकाशित किया है, और Project Glasswing में model के साथ vulnerabilities और exploits की पहचान पर काम शामिल है [13][
24]. सुरक्षा टीमों के लिए यह बड़ा संकेत हो सकता है, लेकिन इसे SWE-bench score के साथ मिलाकर एक ही “कुल अंक” की तरह नहीं पढ़ना चाहिए।
व्यावहारिक takeaway
अगर आपका use case ऐसा AI agent है जो repository पर काम करता है, code बदलता है, tests चलाता है और गलती सुधारते हुए iterate करता है, तो SWE-bench पर 93.9% Claude Mythos Preview को समझने की सबसे प्रासंगिक संख्या है [1][
2].
अगर आपका use case vulnerability analysis, security review या exploit research जैसा है, तो cybersecurity benchmarks और Anthropic Red Team/Project Glasswing से जुड़ा संदर्भ अधिक उपयोगी होगा [3][
5][
13][
24].
संक्षेप में: Claude Mythos Preview का सबसे चर्चित benchmark SWE-bench है, जहां उसका स्कोर 93.9% रिपोर्ट किया गया है [1][
2]. लेकिन समझदारी इसी में है कि इसे software-engineering tasks के मजबूत संकेत के रूप में पढ़ा जाए—न कि हर domain में स्वतः श्रेष्ठता के अंतिम प्रमाण के रूप में।




