Claude Mythos Preview को सिर्फ एक और Claude मॉडल समझना जल्दबाज़ी होगी। Anthropic के Claude API docs में इसे Project Glasswing के तहत defensive cybersecurity workflows के लिए अलग research-preview model बताया गया है; access invitation-only है और self-serve sign-up उपलब्ध नहीं है।[13] इसलिए इसके benchmark scores ध्यान खींचते हैं, पर उन्हें किसी आम, सबके लिए उपलब्ध product model के public leaderboard score की तरह पढ़ना ठीक नहीं होगा।
नीचे के ठोस अंक मुख्य रूप से third-party reports से दिखते हैं—जैसे W&B, R&D World, llm-stats और Authmind—जो Anthropic data, system-card evaluations या अपनी summaries का हवाला देते हैं।[6][
9][
25][
27]
प्रमुख benchmark scores
| क्षेत्र | Benchmark | Claude Mythos Preview का reported score | संदर्भ |
|---|---|---|---|
| Coding | SWE-bench Verified | 93.9%[ | W&B ने Claude Opus 4.6 के लिए 80.8% बताया।[ |
| Multilingual coding | SWE-bench Multilingual | 87.3%[ | W&B ने Opus 4.6 के लिए 77.8% बताया।[ |
| Multimodal | Internal multimodal evaluation | 59.0%[ | W&B ने Opus 4.6 के लिए 27.1% बताया।[ |
| Cybersecurity | Cybench | pass@1 = 1.00[ | Authmind के अनुसार Cybench 40 CTF challenges वाला public benchmark है; Opus 4.6 का score 0.89 बताया गया।[ |
| Cybersecurity | CyberGym | 0.83[ | Authmind CyberGym को 1,507 real open-source tasks पर targeted vulnerability reproduction की evaluation बताता है; Opus 4.6 का score 0.67 बताया गया।[ |
| Reasoning | GPQA Diamond | 94.6%[ | llm-stats ने Opus 4.6 के लिए 91.3% बताया।[ |
| Reasoning | Humanity’s Last Exam | बिना tools 56.8% / tools के साथ 64.7%[ | llm-stats ने Opus 4.6 के लिए 40.0% और 53.1% बताया।[ |
| Terminal agents | Terminal-Bench configuration | 92.1%[ | llm-stats इस score को Terminus-2 harness, maximum adaptive thinking, प्रति task 1M-token budget, 4-hour timeouts और Terminal-Bench 2.1 updates से जोड़ता है।[ |
| Multitask knowledge | MMMLU | 92.7[ | R&D World ने लिखा कि यह Gemini 3.1 Pro की 92.6–93.6 range से overlap करता है और 17-of-18 leadership claim में अकेला outlier था।[ |
आधिकारिक तौर पर क्या साफ है
सबसे मजबूत आधिकारिक आधार मॉडल की स्थिति है: Claude Mythos Preview, Anthropic के अनुसार, Project Glasswing के तहत defensive cybersecurity workflows के लिए अलग research-preview model है, जिसका access invitation-only है और कोई self-serve sign-up नहीं है।[13]
Anthropic की Project Glasswing page Mythos Preview को general-purpose frontier model और coding तथा agentic tasks के लिए अपना सबसे सक्षम model बताती है।[16] उसी page पर Anthropic cybersecurity strength को broader software capability से जोड़ता है: जो model complex software को गहराई से समझ और modify कर सकता है, वह vulnerabilities खोजने और ठीक करने में भी उपयोगी हो सकता है।[
16]
System Card source भी Claude Mythos Preview को Anthropic का नया large language model यानी frontier AI model बताती है, जिसकी capabilities software engineering, reasoning, computer use, knowledge work और research assistance जैसे क्षेत्रों में बताई गई हैं।[18]
यानी official sources मॉडल की positioning और capability areas को support करते हैं; लेकिन ऊपर दिए गए बहुत-से exact score numbers इस source set में मुख्य रूप से third-party reports के जरिए दिखाई देते हैं।[6][
9][
25][
27]
93.9% SWE-bench headline क्यों बनता है
सबसे चमकदार single number SWE-bench Verified पर 93.9% है। W&B ने Claude Mythos Preview के लिए यह score report किया और उसी संदर्भ में Claude Opus 4.6 का comparison score 80.8% बताया।[6] Software teams के लिए यह natural headline है, क्योंकि coding-oriented AI agents को अक्सर ऐसे ही repair और engineering-style tasks पर परखा जाता है।
SWE-bench Multilingual पर भी reported number ऊंचा है: W&B ने Mythos Preview के लिए 87.3% और Opus 4.6 के लिए 77.8% बताया।[6] इससे संकेत मिलता है कि मजबूती सिर्फ एक English-centric coding setup तक सीमित नहीं दिखती।
फिर भी, 93.9% का मतलब यह नहीं कि मॉडल हर repository, हर toolchain और हर review process में वैसा ही प्रदर्शन करेगा। Claude Mythos के मामले में एक और व्यावहारिक दिक्कत है: Anthropic के अनुसार external teams इसे सामान्य self-serve route से test नहीं कर सकते।[13]
Cybersecurity numbers मजबूत हैं, पर context खास है
Cybersecurity side पर numbers और भी ध्यान खींचते हैं। Authmind ने Claude Mythos Preview के लिए Cybench पर perfect pass@1 = 1.00 बताया; वहीं Cybench को 40 CTF challenges वाला public benchmark बताया गया है।[27] CTF यानी Capture the Flag—security competition-style tasks, जिनमें systems या code की कमजोरियों को समझना पड़ता है।
CyberGym पर Authmind ने Mythos Preview का score 0.83 बताया और इसे 1,507 real open-source software tasks पर targeted vulnerability reproduction की evaluation कहा।[27]
ये scores Anthropic की official positioning से मेल खाते हैं: API docs में Mythos Preview को Project Glasswing के तहत defensive cybersecurity workflows के लिए research preview कहा गया है।[13] Project Glasswing page भी cybersecurity performance को complex software समझने, बदलने और vulnerabilities find/fix करने की व्यापक क्षमता से जोड़ता है।[
16]
लेकिन benchmark का task-form याद रखना जरूरी है। CTF challenges और vulnerability reproduction बहुत उपयोगी signals हैं, पर वे किसी organization की अपनी security policies, tool restrictions, audit requirements और accountability framework की जगह नहीं ले सकते।
Reasoning, multimodal और terminal-agent scores कैसे पढ़ें
Reasoning side पर भी strong reported scores हैं। llm-stats ने GPQA Diamond पर 94.6%, Humanity’s Last Exam पर tools के बिना 56.8% और tools के साथ 64.7% बताया।[25] HLE में tools के साथ और बिना tools अलग-अलग score देना अहम है, क्योंकि tool access benchmark comparisons को काफी बदल सकता है।
Terminal-Bench के लिए configuration खुद score जितनी ही महत्वपूर्ण है। llm-stats ने 92.1% report किया, लेकिन साथ में बताया कि setup में Terminus-2 harness, maximum adaptive thinking, प्रति task 1M-token budget, extended 4-hour timeouts और Terminal-Bench 2.1 updates शामिल थे।[25] Agent benchmarks में time, context window, tools और token budget सिर्फ छोटी technical details नहीं होते—वे result को materially प्रभावित कर सकते हैं।
Multimodal score को भी सावधानी से पढ़ना चाहिए। W&B ने Mythos Preview के लिए internal multimodal evaluation में 59.0% और Opus 4.6 के लिए 27.1% बताया।[6] llm-stats ने यह भी note किया कि SWE-bench Multimodal internal implementation इस्तेमाल करता है और उसके scores public leaderboard results से सीधे comparable नहीं हैं।[
25]
ये scores normal leaderboard जैसे क्यों नहीं हैं
चार वजहें सबसे अहम हैं:
-
सीमित access: Claude Mythos Preview, Anthropic के अनुसार, invitation-only research-preview model है और self-serve sign-up उपलब्ध नहीं है।[
13] इससे सामान्य developer teams के लिए independent reproduction मुश्किल हो जाता है।
-
Sources mixed हैं: official sources इस source set में model status, positioning और capability areas को साफ करते हैं।[
13][
16][
18] कई exact score numbers third-party reports से सामने आते हैं।[
6][
9][
25][
27]
-
Internal या special configurations: multimodal score internal evaluation के रूप में report हुआ है।[
6] Terminal-Bench score specific harness, maximum thinking, बड़े token budget और लंबी timeouts के साथ जुड़ा है।[
25]
-
Task-specific meaning: Authmind के अनुसार Cybench 40 CTF challenges पर आधारित है, जबकि CyberGym 1,507 real open-source tasks पर vulnerability reproduction evaluate करता है।[
27] ये important हैं, लेकिन सीमित task classes हैं।
नतीजा
Reported benchmarks में Claude Mythos Preview असाधारण रूप से मजबूत दिखता है: SWE-bench Verified पर 93.9%, SWE-bench Multilingual पर 87.3%, internal multimodal evaluation में 59.0%, CyberGym पर 0.83 और Cybench पर pass@1 = 1.00।[6][
27]
लेकिन बड़ा takeaway सिर्फ score की ऊंचाई नहीं है। Anthropic इसे Project Glasswing के लिए invitation-only research preview बताता है, कोई सामान्य self-serve product model नहीं।[13] इसलिए इन numbers को coding, agentic workflows और defensive cybersecurity में मजबूत capability signal की तरह पढ़ना चाहिए—पूरी तरह public, independently reproducible leaderboard ranking की तरह नहीं।




