Anthropic की अपनी red-team report इससे भी आगे जाती है। उसमें कहा गया है कि Mythos cybersecurity tasks में मजबूत प्रदर्शन करता है, real open-source codebases में zero-day vulnerabilities खोज सकता है, closed-source software पर exploits reverse-engineer कर सकता है और N-day vulnerabilities यानी ज्ञात लेकिन व्यापक रूप से patch न हुई खामियों को working exploits में बदल सकता है . हालांकि उसी report में यह भी कहा गया है कि सार्वजनिक विवरण सीमित हैं, क्योंकि मिली vulnerabilities में 99% से अधिक तब तक patch नहीं हुई थीं; इसलिए बाहरी पाठक उन अधिकांश उदाहरणों की स्वतंत्र जाँच नहीं कर सकते
.
सस्ते-model वाली दलील यह नहीं है कि छोटे open-weight systems Mythos जैसे autonomous agents के बराबर हैं। असली बात यह है कि cyber capability एक जैसी सीढ़ी पर नहीं बढ़ती; कोई model कुछ tasks में कमजोर हो सकता है, लेकिन narrow और well-scoped vulnerability analysis में चौंकाने वाला काम कर सकता है। Aisle के परीक्षणों में छोटे और सस्ते open-weight models ने selected Mythos showcase vulnerabilities पर, relevant code isolated होने के बाद, काफी समान analysis recover किया .
Tom’s Hardware ने announcement के बाद चली बहस को इसी तरह summarize किया: Mythos शायद cybersecurity के लिए सबसे मजबूत overall AI models में हो, लेकिन कुछ exploit-finding और patching tasks पर सस्ते models भी मिलते-जुलते नतीजे दे सकते हैं; reliability और uptime पर सवाल फिर भी बने रहते हैं .
यही फर्क अहम है। किसी अलग किए गए code-analysis result को match कर लेना, network में autonomously navigate करने, कई steps chain करने, vulnerability exploit करने और simulated intrusion पूरा करने जैसा नहीं है। सार्वजनिक evidence Mythos की बढ़त को सबसे ज्यादा इन्हीं लंबे, agentic workflows में support करता है .
उपलब्ध evidence का बेहतर अर्थ यह है कि बात सिर्फ base model की नहीं है। Model के साथ cyber-specific scaffolding—tools, execution environment, access, context selection, prompting और expert review—भी उतने ही निर्णायक हो सकते हैं। Aisle ने साफ कहा कि moat यानी टिकाऊ प्रतिस्पर्धी बढ़त model alone में नहीं, बल्कि उस system में है जिसमें गहरी security expertise built-in होती है . AISI की evaluation भी setup की अहमियत दिखाती है, क्योंकि Mythos का सबसे मजबूत observed behavior controlled conditions में दिखा, जहाँ उसे निर्देश और network access मिला था
.
Access भी इस कहानी का हिस्सा है। Bain के अनुसार Claude Mythos Preview एक frontier model है जिसकी cybersecurity capabilities इतनी गंभीर मानी गईं कि Anthropic ने इसकी release को Project Glasswing नाम के vetted partner program तक सीमित रखा . इसलिए व्यावहारिक तुलना सिर्फ यह नहीं है कि कौन-सी public API सस्ती है; सवाल यह है कि उपलब्ध models, tools और expertise के साथ वही workflow कितनी दूर तक दोहराया जा सकता है
.
फिलहाल Mythos, low-cost APIs और open-weight models के बीच identical conditions में कोई साफ public apples-to-apples price-performance benchmark नहीं है। AISI ने Mythos को controlled settings में evaluate किया और उसे prior frontier progress से जोड़ा . Anthropic ने detailed लेकिन developer-authored red-team evidence दिया
. Aisle ने selected showcase vulnerabilities पर सीमित counter-test पेश किया
. ये तीनों स्रोत संबंधित लेकिन अलग-अलग सवालों का जवाब देते हैं।
एक सही तुलना के लिए tool access, code context, network permissions, attempts की संख्या, compute budget, exploit-execution rules और human review को बराबर रखना होगा। इसके बिना किसी भी दिशा में बहुत मजबूत दावा करना जल्दबाजी होगा .
Claude Mythos की cyber capabilities उन जगहों पर असाधारण लगती हैं जहाँ autonomy, planning और multi-step execution जरूरी हैं। लेकिन सार्वजनिक record यह साबित नहीं करता कि इसकी underlying cybersecurity reasoning सस्ते models के लिए पूरी तरह inaccessible है। ज्यादा सुरक्षित निष्कर्ष यह है कि Mythos complex cyber workflows में वास्तविक बढ़त रखता है, जबकि lower-cost models मजबूत tooling और expert oversight के साथ bounded analysis के कई हिस्से संभाल सकते हैं .
Comments
0 comments