studioglobal
الأكثر رواجًا في الاكتشاف
الإجاباتمنشور7 المصادر

أرقام Claude Mythos: 93.9٪ في SWE-bench… ولماذا لا تكفي للمقارنة

أبرز رقم متداول لـ Claude Mythos Preview هو 93.9٪ على SWE bench Verified، لكنه نموذج معاينة بحثية محدود الوصول ضمن Project Glasswing وليس منتجاً متاحاً للجميع. تشمل الأرقام الأخرى 87.3٪ على SWE bench Multilingual، و59.0٪ في تقييم متعدد الوسائط داخلي، و0.83 على CyberGym، وpass@1 = 1.00 على Cybench.

17K0
Abstrakte KI-Benchmark-Grafik zu Claude Mythos Preview mit Code- und Score-Elementen
Claude Mythos Benchmarks: 93,9 % SWE-bench und was dahinterstecktSymbolbild: Die Debatte um Claude Mythos dreht sich weniger um einen einzelnen Score als um die Vergleichbarkeit der Evaluationsbedingungen.
موجّه الذكاء الاصطناعي

Create a landscape editorial hero image for this Studio Global article: Claude Mythos Benchmarks: 93,9 % SWE-bench und was dahintersteckt. Article summary: Claude Mythos Preview wird vor allem durch 93,9 % auf SWE bench Verified auffällig; weitere berichtete Werte sind 87,3 % auf SWE bench Multilingual und 59,0 % in einer internen multimodalen Evaluation.. Topic tags: ai, anthropic, claude, benchmarks, coding. Reference image context from search candidates: Reference image 1: visual subject "# Claude Mythos Preview Benchmarks – The AI That Scored 93.9% on SWE-bench and Still Won’t Be Released. On April 7, 2026, Anthropic quietly released something extraordinary — and t" source context "Claude Mythos Preview Benchmarks - The AI That Scored 93.9% on ..." Reference image 2: visual subject "A score of 93.9% means Claude Mythos correctly resolved approximately 470 of those 500 real-world GitH

openai.com

من السهل أن تختصر قصة Claude Mythos Preview في رقم واحد: 93.9٪ على SWE-bench Verified. لكن هذه القراءة ستكون ناقصة. فـ Anthropic لا تعرض Mythos كإصدار عادي من عائلة Claude يمكن لأي مطور تجربته فوراً، بل تسجله في وثائق Claude API كنموذج معاينة بحثية منفصل لسير عمل الأمن السيبراني الدفاعي ضمن Project Glasswing، مع وصول بالدعوات فقط ومن دون تسجيل ذاتي.[13]

لذلك، الأرقام مهمة فعلاً، لكنها لا تُقرأ مثل نتائج نموذج متاح على لوحة ترتيب عامة. السؤال الأدق هو: ماذا تقيس هذه الأرقام؟ ومن نشرها؟ وهل يمكن إعادة اختبارها بالشروط نفسها؟

أبرز الأرقام المتداولة

معظم القيم الرقمية الدقيقة في هذه المجموعة من المصادر تظهر عبر جهات خارجية تلخص بيانات Anthropic أو بطاقة النظام أو تقاريرها الخاصة، لا عبر جدول رسمي واحد متاح للجميع.[6][9][25][27]

المجالالاختبارقيمة Claude Mythos Preview المبلّغ عنهاكيف نقرأها؟
البرمجةSWE-bench Verified93.9٪W&B تضعها مقابل 80.8٪ لـ Claude Opus 4.6.[6]
البرمجة متعددة اللغاتSWE-bench Multilingual87.3٪W&B تذكر 77.8٪ لـ Claude Opus 4.6.[6]
متعدد الوسائطتقييم داخلي متعدد الوسائط59.0٪W&B تصف التقييم بأنه داخلي، وتذكر 27.1٪ لـ Claude Opus 4.6.[6]
الأمن السيبرانيCybenchpass@1 = 1.00Authmind تصف Cybench بأنه معيار عام يضم 40 تحدياً من نوع CTF، وتذكر 0.89 لـ Claude Opus 4.6.[27]
الأمن السيبرانيCyberGym0.83Authmind تصف CyberGym كتقييم لإعادة إنتاج ثغرات محددة عبر 1,507 مهمة حقيقية من برمجيات مفتوحة المصدر، وتذكر 0.67 لـ Claude Opus 4.6.[27]
الاستدلالGPQA Diamond94.6٪llm-stats تذكر 91.3٪ لـ Claude Opus 4.6.[25]
الاستدلالHumanity’s Last Exam، من دون أدوات / مع أدوات56.8٪ / 64.7٪llm-stats تذكر 40.0٪ من دون أدوات و53.1٪ مع أدوات لـ Claude Opus 4.6.[25]
وكلاء الطرفيةإعداد Terminal-Bench92.1٪llm-stats تربط الرقم بإعداد يشمل Terminus-2 harness، وأقصى مستوى من التفكير التكيفي، وميزانية مليون توكن لكل مهمة، ومهل اختبار موسعة إلى 4 ساعات، وتحديثات Terminal-Bench 2.1.[25]
معرفة متعددة المهامMMMLU92.7R&D World تذكر أن هذا الرقم يتداخل مع نطاق Gemini 3.1 Pro البالغ 92.6 إلى 93.6، وأنه الاستثناء الوحيد في ادعاء تصدر Mythos لـ 17 من 18 معياراً.[9]

ما الذي تؤكده Anthropic رسمياً؟

الأمر الأكثر وضوحاً في المصادر الرسمية هو وضع النموذج نفسه. وفق وثائق Anthropic، فإن Claude Mythos Preview نموذج معاينة بحثية منفصل مخصص لسير عمل الأمن السيبراني الدفاعي ضمن Project Glasswing، والوصول إليه بالدعوات فقط ولا توجد آلية تسجيل ذاتي.[13]

صفحة Project Glasswing لدى Anthropic تصف Claude Mythos Preview أيضاً بأنه نموذج حدودي عام، وبأنه أقوى نماذج Anthropic في البرمجة والمهام الوكيلية. وتربط الشركة قوته في الأمن السيبراني بقدرته الأوسع على فهم البرمجيات المعقدة وتعديلها، وبالتالي العثور على الثغرات وإصلاحها.[16]

أما مصدر بطاقة النظام المتاح في هذه المجموعة فيصف Claude Mythos Preview بأنه نموذج لغوي كبير جديد ونموذج حدودي، مع قدرات في هندسة البرمجيات والاستدلال واستخدام الحاسوب والعمل المعرفي والمساعدة البحثية.[18] بعبارة أخرى: المصادر الرسمية تدعم تموضع النموذج ومجالات قوته، بينما كثير من الأرقام التفصيلية الظاهرة هنا تأتي عبر مصادر طرف ثالث.[6][9][25][27]

لماذا أصبح رقم 93.9٪ هو العنوان الأبرز؟

لدى فرق البرمجة، رقم SWE-bench Verified هو الأكثر جذباً للانتباه. W&B تنسب إلى Claude Mythos Preview نتيجة 93.9٪ على هذا الاختبار، مقابل 80.8٪ لـ Claude Opus 4.6.[6] والسبب أن SWE-bench قريب من نوع المهام التي تهم مطوري البرمجيات: فهم مستودعات كود، إصلاح عيوب، والتعامل مع سياق برمجي لا يقتصر على سؤال قصير وجواب مباشر.

الرقم متعدد اللغات يعزز الصورة نفسها. فعلى SWE-bench Multilingual، تذكر W&B أن Mythos Preview وصل إلى 87.3٪ مقابل 77.8٪ لـ Opus 4.6.[6] هذا يوحي بأن القوة ليست محصورة في إعداد برمجي واحد باللغة الإنجليزية.

لكن ذلك لا يعني أن النموذج سيحقق الأداء نفسه في كل مستودع، أو مع كل أدوات بناء واختبار، أو داخل كل عملية مراجعة كود. وهناك قيد عملي أكبر: Anthropic لا تتيح Mythos Preview كتجربة ذاتية مفتوحة، بل كنموذج معاينة بحثية محدود الوصول.[13]

الأمن السيبراني: أرقام قوية داخل سياق خاص

الأرقام الأمنية لافتة أيضاً. Authmind تذكر أن Claude Mythos Preview حقق نتيجة كاملة على Cybench بقيمة pass@1 = 1.00، وتصف Cybench بأنه معيار عام مبني على 40 تحدياً من نوع CTF عبر مسابقات رئيسية.[27] وفي CyberGym، تذكر Authmind نتيجة 0.83، وتصف التقييم بأنه يختبر وكلاء الذكاء الاصطناعي في إعادة إنتاج ثغرات محددة عبر 1,507 مهمة حقيقية من مشاريع مفتوحة المصدر.[27]

هذا ينسجم مع تموضع Anthropic الرسمي: في وثائق Claude API، يظهر Mythos Preview كنموذج معاينة بحثية لسير عمل الأمن السيبراني الدفاعي ضمن Project Glasswing.[13] وعلى صفحة Project Glasswing، تربط Anthropic الأداء الأمني بالقدرة الأعم على فهم البرمجيات المعقدة وتعديلها والعثور على الثغرات أو إصلاحها.[16]

لكن طبيعة المهمة هنا مهمة جداً. تحديات CTF وإعادة إنتاج الثغرات هي بيئات اختبار محددة، وليست نسخة كاملة من واقع مؤسسة لديها سياسات أمن، قيود أدوات، مسارات موافقة، ومسؤوليات قانونية. لذلك تصلح هذه النتائج كإشارة قوية إلى القدرة، لا كبديل عن اختبار داخلي مضبوط.

الاستدلال، تعدد الوسائط، ووكلاء الطرفية

بعيداً عن البرمجة والأمن، تذكر llm-stats أرقاماً قوية في الاستدلال: 94.6٪ على GPQA Diamond، و56.8٪ على Humanity’s Last Exam من دون أدوات، و64.7٪ مع الأدوات.[25] الفصل بين النتيجتين في Humanity’s Last Exam مهم؛ لأن السماح للنموذج باستخدام أدوات يمكن أن يغير مستوى الأداء ويجعل المقارنات المباشرة أقل بساطة.

في Terminal-Bench، لا يكفي ذكر الرقم وحده. llm-stats تذكر نتيجة 92.1٪، لكنها تربطها بإعداد محدد: Terminus-2 harness، وأقصى مستوى من التفكير التكيفي، وميزانية مليون توكن لكل مهمة، ومهل اختبار موسعة إلى 4 ساعات، وتحديثات Terminal-Bench 2.1.[25] هذه ليست تفاصيل هامشية؛ ففي اختبارات الوكلاء، الوقت، والسياق، والأدوات، وميزانية التوكنات قد تصنع فرقاً كبيراً.

أما الرقم متعدد الوسائط فيحتاج إلى الحذر نفسه. W&B تذكر 59.0٪ في تقييم داخلي متعدد الوسائط لـ Mythos Preview مقابل 27.1٪ لـ Opus 4.6.[6] كما تشير llm-stats إلى أن SWE-bench Multimodal يستخدم تنفيذاً داخلياً، وأن نتائجه ليست قابلة للمقارنة مباشرة مع نتائج لوحات الترتيب العامة.[25]

لماذا لا تُقرأ هذه النتائج كلوحة ترتيب عادية؟

هناك أربعة قيود رئيسية:

  1. الوصول محدود: Claude Mythos Preview، وفق Anthropic، نموذج معاينة بحثية بالدعوات فقط ولا يملك مسار تسجيل ذاتي.[13] وهذا يجعل إعادة الاختبار المستقلة أصعب على فرق التطوير العادية.

  2. المصادر مختلطة: المصادر الرسمية المتاحة هنا تثبت وضع النموذج ومجالات قدرته العامة.[13][16][18] أما كثير من الأرقام التفصيلية فتظهر عبر مصادر طرف ثالث.[6][9][25][27]

  3. بعض الاختبارات داخلية أو بإعدادات خاصة: التقييم متعدد الوسائط موصوف كتقييم داخلي.[6] وTerminal-Bench مذكور بإعداد محدد يشمل harness معيناً، وتفكيراً تكيفياً بأقصى مستوى، وميزانية توكنات كبيرة، ومهلاً زمنية طويلة.[25]

  4. كل معيار يقيس نوعاً محدداً من المهام: Cybench يضم 40 تحدياً من نوع CTF، بينما CyberGym يركز على إعادة إنتاج ثغرات عبر 1,507 مهمة من برمجيات مفتوحة المصدر.[27] هذه مهام مهمة، لكنها لا تغطي كل سيناريو ممكن.

الخلاصة

Claude Mythos Preview يبدو، وفق الأرقام المبلّغ عنها، نموذجاً شديد القوة: 93.9٪ على SWE-bench Verified، و87.3٪ على SWE-bench Multilingual، و59.0٪ في تقييم داخلي متعدد الوسائط، و0.83 على CyberGym، وpass@1 = 1.00 على Cybench.[6][27]

لكن أهم ما ينبغي تذكره ليس ارتفاع الأرقام وحده. Claude Mythos Preview، بحسب Anthropic، نموذج معاينة بحثية محدود الوصول ضمن Project Glasswing، وليس نموذجاً قياسياً متاحاً للجميع.[13] لذلك فالأفضل قراءة هذه النتائج كإشارة قوية إلى قدرات متقدمة في البرمجة والوكلاء والأمن السيبراني الدفاعي، لا كترتيب عام يمكن إعادة إنتاجه بسهولة من أي فريق على أي مشروع.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

ابحث وتحقق من الحقائق مع Studio Global AI

الوجبات السريعة الرئيسية

  • أبرز رقم متداول لـ Claude Mythos Preview هو 93.9٪ على SWE bench Verified، لكنه نموذج معاينة بحثية محدود الوصول ضمن Project Glasswing وليس منتجاً متاحاً للجميع.
  • تشمل الأرقام الأخرى 87.3٪ على SWE bench Multilingual، و59.0٪ في تقييم متعدد الوسائط داخلي، و0.83 على CyberGym، وpass@1 = 1.00 على Cybench.
  • النتائج تشير إلى قدرات قوية في البرمجة والوكلاء والأمن السيبراني الدفاعي، لكن المقارنة محدودة بسبب الاعتماد على مصادر طرف ثالث، وإعدادات اختبار خاصة، وغياب الوصول الذاتي للنموذج.

يسأل الناس أيضا

ما هي الإجابة المختصرة على "أرقام Claude Mythos: 93.9٪ في SWE-bench… ولماذا لا تكفي للمقارنة"؟

أبرز رقم متداول لـ Claude Mythos Preview هو 93.9٪ على SWE bench Verified، لكنه نموذج معاينة بحثية محدود الوصول ضمن Project Glasswing وليس منتجاً متاحاً للجميع.

ما هي النقاط الأساسية التي يجب التحقق منها أولاً؟

أبرز رقم متداول لـ Claude Mythos Preview هو 93.9٪ على SWE bench Verified، لكنه نموذج معاينة بحثية محدود الوصول ضمن Project Glasswing وليس منتجاً متاحاً للجميع. تشمل الأرقام الأخرى 87.3٪ على SWE bench Multilingual، و59.0٪ في تقييم متعدد الوسائط داخلي، و0.83 على CyberGym، وpass@1 = 1.00 على Cybench.

ماذا يجب أن أفعل بعد ذلك في الممارسة العملية؟

النتائج تشير إلى قدرات قوية في البرمجة والوكلاء والأمن السيبراني الدفاعي، لكن المقارنة محدودة بسبب الاعتماد على مصادر طرف ثالث، وإعدادات اختبار خاصة، وغياب الوصول الذاتي للنموذج.

ما هو الموضوع ذو الصلة الذي يجب أن أستكشفه بعد ذلك؟

تابع مع "Claude Security من Anthropic: شرح النسخة التجريبية لفحص ثغرات الشيفرة بالذكاء الاصطناعي" لزاوية أخرى واستشهادات إضافية.

فتح الصفحة ذات الصلة

ما الذي يجب أن أقارنه بهذا؟

تحقق من هذه الإجابة مقابل "Grok 4.3 API: مليون توكن وسعر منخفض… كيف تراهن xAI على النماذج والصوت؟".

فتح الصفحة ذات الصلة

مواصلة البحث الخاص بك

محادثة بحثية

أنت

سؤال بحثي

Was sind die Benchmarks von Claude Mythos?

Studio Global AI30 المصادر

إجابة مستشهد بها

Claude Mythos hat laut den vorliegenden Belegen vor allem öffentlich diskutierte Benchmark-Werte für Coding-, multimodale und mehrsprachige Aufgaben. Die belastbarste Information ist jedoch eingeschränkt: Anthropic beschreibt Claude Mythos Preview als ein separates Research-Preview-Modell für defensive Cybersecurity-Workflows mit Einladungspflicht, nicht als allgemein verfügbares Standardmodell.[1]

Verfügbare Benchmark-Angaben

  • SWE-bench: 93,9% werden in mehreren Drittquellen als Benchmark-Wert für Claude Mythos genannt.[3][5]

  • Multimodal: 59,0% werden als interner multimodaler Evaluationswert für Mythos Preview genannt, gegenüber 27,1% für Opus 4.6.[4]

  • SWE-bench Multilingual: 87,3% werden für Mythos Preview genannt.[4]

  • Terminal-Bench 2.0: Eine Drittquelle erwähnt, dass Terminal-Bench 2.0 mit Terminus-2-Harness, maximalem adaptivem Thinking und einem 1M-Token-Budget pro Aufgabe ausgeführt wurde, nennt im vorliegenden Ausschnitt aber keinen konkreten Score.[7]

Einordnung und Unsicherheit

  • Anthropic selbst bestätigt in den verfügbaren Belegen die Existenz und den eingeschränkten Zugang von Claude Mythos Preview, aber der bereitgestellte offizielle Ausschnitt enthält keine konkreten Benchmark-Zahlen.[1]

  • Die konkreten Scores stammen in den vorliegenden Belegen überwiegend aus Drittquellen oder Snippets, nicht aus vollständig zitierbaren offiziellen Benchmark-Tabellen.[3][4][5]

  • Daher gilt: Insufficient evidence für eine vollständig verifizierte, offizielle Benchmark-Liste von Claude Mythos anhand der bereitgestellten Quellen.

المصادر

  • [6] Claude Mythos Benchmark Scores | ml-news – Weights & Biases - Wandbwandb.ai

    Image 66 Multimodal and multilingual capabilities The model’s improvements extend to multimodal and multilingual tasks. Internal multimodal evaluations show Mythos Preview scoring 59.0% compared to Opus 4.6’s 27.1%, indicating superior handling of diverse i...

  • [9] Claude Mythos leads 17 of 18 benchmarks Anthropic ... - R&D Worldrdworldonline.com

    Research & Development World Claude Mythos leads 17 of 18 benchmarks Anthropic measured. Muse Spark put Meta back in the frontier club, and OpenAI’s ‘Spud’ model is reportedly near launch By Brian Buntz Anthropic is not planning on publicly releasing it, bu...

  • [13] Models overview - Claude API Docsdocs.anthropic.com

    Models overview - Claude API Docs . Claude Mythos Preview is offered separately as a research preview model for defensive cybersecurity workflows as part of Project Glasswing. Access is invitation-only and there is no self-serve sign-up. Models with the sam...

  • [16] Project Glasswing - Anthropicanthropic.com

    01 /08 Claude Mythos Preview Claude Mythos Preview is a general-purpose frontier model from Anthropic, our most capable yet for coding and agentic tasks. Its strength in cybersecurity is a direct result of that broader capability: a model that can deeply un...

  • [18] [PDF] Claude Mythos Preview System Card - Anthropicwww-cdn.anthropic.com

    Red Teaming benchmark for tool use​ 232 8.3.2.2 Robustness against adaptive attackers across surfaces​ 233 8.3.2.2.1 Coding​ 233 8.3.2.2.2 Computer use​ 234 8.3.2.2.3 Browser use​ 235 8.4 Per-question automated welfare interview results​ 236 8.5 Blocklist u...

  • [25] Claude Mythos Preview: Benchmarks, Pricing & Project Glasswingllm-stats.com

    \SWE-bench Multimodal uses an internal implementation; scores are not directly comparable to public leaderboard results. Terminal-Bench 2.0 was run with the Terminus-2 harness, adaptive thinking at maximum effort, and a 1M token budget per task. With extend...

  • [27] When a Lab Withholds Its Best Model: What the Claude Mythos System Card Signals for Cybersecurityauthmind.com

    On Cybench (a public benchmark drawing from 40 CTF challenges across four major competitions), Claude Mythos Preview achieved a perfect pass@1 score of 1.00. Claude Opus 4.6, the prior generation, scored 0.89. On CyberGym, which evaluates AI agents on targe...