उत्तरप्रकाशित3 माह पहलेLast edited 2 माह पहले17 स्रोत

Claude Mythos Preview और 93.9% SWE-bench स्कोर: इसे कैसे पढ़ें

Claude Mythos Preview का सबसे चर्चित आंकड़ा SWE bench पर 93.9% है, जो सॉफ्टवेयर इंजीनियरिंग और कोड संबंधी कार्यों के लिए महत्वपूर्ण है [1][2]. यह स्कोर मॉडल की सामान्य बुद्धिमत्ता, सुरक्षा, लागत, उपलब्धता या हर तरह के काम में प्रदर्शन का समग्र प्रमाण नहीं है [1].

Studio Global AI के साथ खोजें और तथ्यों की जांच करें और ट्रेंडिंग पेज देखें

Ilustración de un panel de benchmark de IA con código y métricas para Claude Mythos Preview — Benchmark de Claude Mythos Preview: 93,9% en SWE-bench, explicadoImagen editorial generada por IA para representar un benchmark de código.
AI संकेत
Create a landscape editorial hero image for this Studio Global article: Benchmark de Claude Mythos Preview: 93,9% en SWE-bench, explicado. Article summary: Claude Mythos Preview se reporta con 93,9% en SWE bench; es la cifra más citada para rendimiento en software, pero SWE bench no es una nota general del modelo [1][2].. Topic tags: ai, anthropic, claude, ai benchmarks, coding. Reference image context from search candidates: Reference image 1: visual subject "# Claude Mythos Preview Benchmarks – The AI That Scored 93.9% on SWE-bench and Still Won’t Be Released. On April 7, 2026, Anthropic quietly released something extraordinary — and t" source context "Claude Mythos Preview Benchmarks - The AI That Scored 93.9% on SWE-bench and Still Won't Be Released - Kingy AI" Reference image 2: visual subject "A Tweet from Ramez Naam, American technologist and science fiction writer, citing Epoch A
openai.com

Claude Mythos Preview के बारे में सबसे ज्यादा उद्धृत किया जाने वाला आंकड़ा है: SWE-bench पर 93.9% . पहली नजर में यह बहुत बड़ा स्कोर लगता है, लेकिन इसे सही संदर्भ में पढ़ना जरूरी है। SWE-bench मुख्य रूप से सॉफ्टवेयर इंजीनियरिंग, कोड सुधार और repository-आधारित tasks जैसी चीजों को जांचता है; यह किसी AI मॉडल की हर संभावित क्षमता की परीक्षा नहीं है .

93.9% क्यों महत्वपूर्ण है

Claude Mythos Preview के लिए रिपोर्ट किया गया केंद्रीय benchmark स्कोर SWE-bench पर 93.9% है . अगर आपका काम codebase समझने, bugs ठीक करने, tests चलाने या programming agent बनाने से जुड़ा है, तो यह आंकड़ा उपयोगी शुरुआती संकेत देता है .

लेकिन यहां एक बारीक बात है। SWE-bench पर ऊंचे स्कोर अक्सर तब मिलते हैं जब मॉडल सिर्फ chat window में जवाब नहीं दे रहा होता, बल्कि agent की तरह काम कर रहा होता है—यानी वह files पढ़ सकता है, code चला सकता है, test results देख सकता है और कई बार कोशिश करके समाधान सुधार सकता है . इसलिए 93.9% को केवल “मॉडल कितना होशियार है” की संख्या नहीं, बल्कि “मॉडल + tools + evaluation setup” का नतीजा भी समझना चाहिए।

यह स्कोर क्या नहीं बताता

93.9% का मतलब यह नहीं है कि Claude Mythos Preview हर क्षेत्र में 93.9% बेहतर या सफल है। SWE-bench software tasks पर केंद्रित benchmark है; यह अपने-आप reasoning, safety, deployment availability, operating cost, multimodal क्षमता या non-coding tasks में प्रदर्शन का पूरा माप नहीं देता .

किसी भी AI benchmark की तुलना करते समय सबसे जरूरी नियम यही है: समान benchmark और समान conditions में तुलना करें। अगर एक model को files access, code execution और multiple iterations की सुविधा मिली है, और दूसरे model को नहीं, तो दोनों के numbers को सीधे आमने-सामने रखना भ्रामक हो सकता है .

Claude Mythos Preview के रिपोर्ट किए गए benchmarks

क्षेत्र	रिपोर्ट किया गया नतीजा	इसे कैसे पढ़ें
Software / SWE-bench	93.9%	coding, bug fixing और software-agent workflows के लिए सबसे साफ संकेत .
Cybersecurity capability	83.1% बनाम Claude Opus 4.6 का 66.6%	साइबरसुरक्षा क्षमता से जुड़ी तुलना; यह SWE-bench जैसा परीक्षण नहीं है .
Cybench	100%	साइबरसुरक्षा challenges पर आधारित benchmark के रूप में रिपोर्ट किया गया; इसे सामान्य AI score न मानें .
व्यापक benchmark set	18 में से 17 benchmarks में बढ़त	Anthropic data पर आधारित aggregated claim के रूप में रिपोर्ट; इसे general ranking बनाने से पहले breakdown देखना जरूरी है .

Software और cybersecurity को अलग-अलग पढ़ें

Claude Mythos Preview के cybersecurity numbers अलग श्रेणी के संकेत हैं। एक स्रोत के अनुसार Mythos Preview ने cybersecurity capability benchmarks में 83.1% स्कोर किया, जबकि Claude Opus 4.6 का स्कोर 66.6% बताया गया . एक अन्य स्रोत ने Cybench पर Mythos के 100% success rate का दावा किया है, जिसे cybersecurity challenges वाला benchmark बताया गया है .

यह संदर्भ इसलिए महत्वपूर्ण है क्योंकि उपलब्ध Anthropic-linked सामग्री भी cybersecurity पर ज्यादा केंद्रित दिखती है। Anthropic Red Team ने Claude Mythos Preview की cybersecurity capabilities का assessment प्रकाशित किया है, और Project Glasswing में model के साथ vulnerabilities और exploits की पहचान पर काम शामिल है . सुरक्षा टीमों के लिए यह बड़ा संकेत हो सकता है, लेकिन इसे SWE-bench score के साथ मिलाकर एक ही “कुल अंक” की तरह नहीं पढ़ना चाहिए।

व्यावहारिक takeaway

अगर आपका use case ऐसा AI agent है जो repository पर काम करता है, code बदलता है, tests चलाता है और गलती सुधारते हुए iterate करता है, तो SWE-bench पर 93.9% Claude Mythos Preview को समझने की सबसे प्रासंगिक संख्या है .

अगर आपका use case vulnerability analysis, security review या exploit research जैसा है, तो cybersecurity benchmarks और Anthropic Red Team/Project Glasswing से जुड़ा संदर्भ अधिक उपयोगी होगा .

संक्षेप में: Claude Mythos Preview का सबसे चर्चित benchmark SWE-bench है, जहां उसका स्कोर 93.9% रिपोर्ट किया गया है . लेकिन समझदारी इसी में है कि इसे software-engineering tasks के मजबूत संकेत के रूप में पढ़ा जाए—न कि हर domain में स्वतः श्रेष्ठता के अंतिम प्रमाण के रूप में।

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI के साथ खोजें और तथ्यों की जांच करें

लोग पूछते भी हैं