studioglobal
ค้นพบเทรนด์
คำตอบเผยแพร่แล้ว7 แหล่งที่มา

Claude Mythos Benchmark: คะแนนเด่นและข้อจำกัดที่ต้องรู้

คะแนนที่สะดุดตาที่สุดคือ 93.9% บน SWE bench Verified แต่ Anthropic ระบุว่า Claude Mythos Preview เป็น Research Preview ใน Project Glasswing ที่เข้าถึงได้ด้วยคำเชิญเท่านั้น[13] มีรายงานคะแนนอื่น เช่น 87.3% บน SWE bench Multilingual, 59.0% ในการประเมิน multimodal ภายใน, 0.83 บน CyberGym และ pass@1 = 1.00 บน Cybench[6]...

17K0
Abstrakte KI-Benchmark-Grafik zu Claude Mythos Preview mit Code- und Score-Elementen
Claude Mythos Benchmarks: 93,9 % SWE-bench und was dahinterstecktSymbolbild: Die Debatte um Claude Mythos dreht sich weniger um einen einzelnen Score als um die Vergleichbarkeit der Evaluationsbedingungen.
AI พรอมต์

Create a landscape editorial hero image for this Studio Global article: Claude Mythos Benchmarks: 93,9 % SWE-bench und was dahintersteckt. Article summary: Claude Mythos Preview wird vor allem durch 93,9 % auf SWE bench Verified auffällig; weitere berichtete Werte sind 87,3 % auf SWE bench Multilingual und 59,0 % in einer internen multimodalen Evaluation.. Topic tags: ai, anthropic, claude, benchmarks, coding. Reference image context from search candidates: Reference image 1: visual subject "# Claude Mythos Preview Benchmarks – The AI That Scored 93.9% on SWE-bench and Still Won’t Be Released. On April 7, 2026, Anthropic quietly released something extraordinary — and t" source context "Claude Mythos Preview Benchmarks - The AI That Scored 93.9% on ..." Reference image 2: visual subject "A score of 93.9% means Claude Mythos correctly resolved approximately 470 of those 500 real-world GitH

openai.com

Claude Mythos Preview ไม่ได้เป็นแค่โมเดล Claude อีกตัวที่ถูกนำไปวางบนลีดเดอร์บอร์ดสาธารณะ Anthropic ระบุในเอกสาร Claude API ว่าโมเดลนี้เป็น Research Preview แยกต่างหาก สำหรับเวิร์กโฟลว์ไซเบอร์ซีเคียวริตี้เชิงป้องกันใน Project Glasswing โดยเข้าถึงได้ด้วยคำเชิญเท่านั้น และไม่มีการสมัครใช้งานแบบ self-serve[13]

ดังนั้นตัวเลข benchmark ของ Claude Mythos จึงน่าสนใจมาก แต่ต้องอ่านด้วยบริบท: นี่ไม่ใช่โมเดลผลิตภัณฑ์ที่นักพัฒนาทั่วไปสามารถกดสมัคร ทดลองซ้ำ และเปรียบเทียบกับโมเดลอื่นได้ง่ายเหมือนบริการ AI ทั่วไป

คะแนนสำคัญที่มีรายงาน

ตัวเลขคะแนนที่เห็นชัดในชุดแหล่งข้อมูลนี้ ส่วนใหญ่มาจากแหล่งภายนอกที่อ้างอิงข้อมูลของ Anthropic, system card หรือการสรุปของตนเอง[6][9][25][27]

หมวดBenchmarkคะแนน Claude Mythos ที่มีรายงานควรอ่านอย่างไร
CodingSWE-bench Verified93.9%W&B รายงานค่าของ Claude Opus 4.6 ไว้ที่ 80.8% เพื่อเทียบเคียง[6]
Coding หลายภาษาSWE-bench Multilingual87.3%W&B รายงาน 77.8% สำหรับ Claude Opus 4.6[6]
Multimodalการประเมิน multimodal ภายใน59.0%W&B ระบุว่าเป็นการประเมินภายใน และรายงาน 27.1% สำหรับ Claude Opus 4.6[6]
CybersecurityCybenchpass@1 = 1.00Authmind อธิบายว่า Cybench เป็น benchmark สาธารณะที่มาจากโจทย์ CTF 40 รายการ และรายงาน 0.89 สำหรับ Claude Opus 4.6[27]
CybersecurityCyberGym0.83Authmind อธิบายว่า CyberGym ประเมินการทำซ้ำช่องโหว่แบบเจาะจงจากงานโอเพนซอร์สจริง 1,507 งาน และรายงาน 0.67 สำหรับ Claude Opus 4.6[27]
ReasoningGPQA Diamond94.6%llm-stats รายงาน 91.3% สำหรับ Claude Opus 4.6[25]
ReasoningHumanity’s Last Exam ไม่มีเครื่องมือ / มีเครื่องมือ56.8% / 64.7%llm-stats รายงาน 40.0% แบบไม่มีเครื่องมือ และ 53.1% แบบมีเครื่องมือสำหรับ Claude Opus 4.6[25]
Terminal agentsการตั้งค่า Terminal-Bench92.1%llm-stats ผูกคะแนนนี้กับ Terminus-2 harness, adaptive thinking ระดับสูงสุด, งบประมาณ 1 ล้านโทเคนต่อโจทย์, timeout 4 ชั่วโมง และอัปเดต Terminal-Bench 2.1[25]
ความรู้หลายงานMMMLU92.7R&D World รายงานว่าค่านี้ทับซ้อนกับช่วง 92.6–93.6 ของ Gemini 3.1 Pro และเป็นข้อยกเว้นเดียวในคำกล่าวว่า Mythos นำ 17 จาก 18 benchmark[9]

อะไรที่ Anthropic ยืนยันชัดเจน

ข้อมูลที่เป็นทางการและชัดที่สุดคือสถานะของโมเดล: Claude Mythos Preview เป็น Research Preview สำหรับงานไซเบอร์ซีเคียวริตี้เชิงป้องกันใน Project Glasswing เข้าถึงได้แบบเชิญเท่านั้น และไม่มี self-serve sign-up[13]

หน้า Project Glasswing ของ Anthropic อธิบาย Claude Mythos Preview ว่าเป็น frontier model แบบใช้งานทั่วไป และเป็นโมเดลของ Anthropic ที่มีความสามารถสูงเป็นพิเศษในงาน coding และงานแบบ agentic หรือการทำงานหลายขั้นตอนด้วยเครื่องมือ[16] หน้าเดียวกันยังอธิบายว่า ความแข็งแกร่งด้านไซเบอร์ซีเคียวริตี้ของโมเดลมาจากความสามารถที่กว้างกว่าในการเข้าใจและแก้ไขซอฟต์แวร์ซับซ้อนอย่างลึกซึ้ง ซึ่งนำไปสู่การค้นหาและแก้ช่องโหว่ได้ด้วย[16]

แหล่ง system card ที่มีในชุดข้อมูลนี้ยังอธิบาย Claude Mythos Preview ว่าเป็น large language model ใหม่ หรือ frontier model ที่มีความสามารถในหลายด้าน เช่น software engineering, reasoning, computer use, knowledge work และการช่วยงานวิจัย[18]

พูดให้สั้นคือ แหล่งทางการรองรับการวางตำแหน่งของโมเดลค่อนข้างชัด แต่ตัวเลขคะแนนแบบละเอียดในภาพรวมนี้ปรากฏผ่านแหล่งภายนอกเป็นหลัก[6][9][25][27]

ทำไม 93.9% บน SWE-bench จึงเป็นคะแนนพาดหัว

คะแนนที่ดึงสายตามากที่สุดคือ 93.9% บน SWE-bench Verified โดย W&B รายงานคะแนนนี้สำหรับ Claude Mythos Preview และเทียบกับ 80.8% ของ Claude Opus 4.6[6]

สำหรับทีมซอฟต์แวร์ นี่คือ benchmark ที่ควรถูกหยิบขึ้นมาพูดก่อน เพราะเกี่ยวข้องโดยตรงกับงานเขียนโค้ด แก้บั๊ก และแก้ปัญหาในรีโปซิทอรี ซึ่งเป็นงานหลักที่โมเดล coding agent ถูกนำไปประเมิน

คะแนนด้าน coding หลายภาษาก็สูงเช่นกัน W&B รายงานว่า Claude Mythos Preview ได้ 87.3% บน SWE-bench Multilingual เทียบกับ 77.8% ของ Claude Opus 4.6[6] จุดนี้ช่วยสนับสนุนภาพว่า ความสามารถของโมเดลไม่ได้โดดเด่นเฉพาะในชุดทดสอบ coding ภาษาอังกฤษเพียงรูปแบบเดียว

อย่างไรก็ตาม 93.9% ไม่ได้แปลว่าโมเดลจะทำงานได้ระดับเดียวกันในทุกรีโปซิทอรี ทุกเครื่องมือ ทุกมาตรฐาน review หรือทุกข้อจำกัดขององค์กร ยิ่งในกรณี Claude Mythos ข้อจำกัดสำคัญคือทีมภายนอกไม่สามารถสมัครใช้งานเองเพื่อทดสอบซ้ำได้ง่ายตามข้อมูลของ Anthropic[13]

Cybersecurity: ตัวเลขแรง แต่เป็นบริบทเฉพาะทาง

คะแนนด้านไซเบอร์ซีเคียวริตี้ก็น่าจับตา Authmind รายงานว่า Claude Mythos Preview ได้คะแนน Cybench แบบสมบูรณ์ที่ pass@1 = 1.00 โดยอธิบายว่า Cybench เป็น benchmark สาธารณะที่ดึงจากโจทย์ CTF 40 รายการ[27] ส่วน CyberGym นั้น Authmind รายงานว่า Mythos Preview ได้ 0.83 และอธิบายว่าเป็นการประเมิน AI agent ในการทำซ้ำช่องโหว่แบบเจาะจงจากงานโอเพนซอร์สจริง 1,507 งาน[27]

คะแนนเหล่านี้เข้ากับการวางตำแหน่งอย่างเป็นทางการของ Anthropic เพราะในเอกสาร Claude API ระบุ Mythos Preview โดยตรงว่าเป็น Research Preview สำหรับเวิร์กโฟลว์ไซเบอร์ซีเคียวริตี้เชิงป้องกันใน Project Glasswing[13] และในหน้า Project Glasswing Anthropic เชื่อมโยงความสามารถด้านไซเบอร์กับความสามารถทั่วไปในการเข้าใจ แก้ไข และวิเคราะห์ซอฟต์แวร์ซับซ้อนเพื่อค้นหาหรือแก้ช่องโหว่[16]

แต่รูปแบบโจทย์ยังสำคัญมาก CTF หรือ Capture the Flag และการทำซ้ำช่องโหว่เป็นสภาพแวดล้อมประเมินที่เฉพาะเจาะจง[27] จึงเป็นสัญญาณที่แข็งแรงสำหรับความสามารถด้าน security และ code analysis แต่ไม่ใช่สิ่งทดแทนการทดสอบภายใต้นโยบายความปลอดภัย เครื่องมือที่อนุญาต และความรับผิดชอบจริงของแต่ละองค์กร

Reasoning, multimodal และ terminal agents

นอกจาก coding และ cybersecurity ยังมีคะแนน reasoning ที่สูงเช่นกัน llm-stats รายงาน 94.6% บน GPQA Diamond และ 56.8% บน Humanity’s Last Exam แบบไม่มีเครื่องมือ หรือ 64.7% แบบมีเครื่องมือ[25] การแยกคะแนนตามการใช้เครื่องมือเป็นเรื่องสำคัญ เพราะ tool access สามารถเปลี่ยนความสามารถที่เห็นจาก benchmark ได้มาก

ส่วน Terminal-Bench ยิ่งต้องดูรายละเอียดการตั้งค่า llm-stats รายงานคะแนน 92.1% แต่ระบุว่าใช้ Terminus-2 harness, adaptive thinking ระดับสูงสุด, งบประมาณ 1 ล้านโทเคนต่อโจทย์, timeout ที่ขยายเป็น 4 ชั่วโมง และอัปเดต Terminal-Bench 2.1[25] นี่ไม่ใช่รายละเอียดปลีกย่อย แต่เป็นส่วนหนึ่งของความหมายของคะแนน เพราะ benchmark สำหรับ agent มักขึ้นอยู่กับเวลา บริบท เครื่องมือ และงบประมาณที่โมเดลได้รับ

คะแนน multimodal ก็ต้องอ่านอย่างระมัดระวัง W&B รายงาน 59.0% ในการประเมิน multimodal ภายในของ Mythos Preview เทียบกับ 27.1% ของ Claude Opus 4.6[6] ขณะเดียวกัน llm-stats ระบุว่า SWE-bench Multimodal ใช้ implementation ภายใน และคะแนนไม่สามารถเทียบโดยตรงกับผลบนลีดเดอร์บอร์ดสาธารณะได้[25]

ทำไมคะแนนเหล่านี้ไม่เหมือนคะแนนลีดเดอร์บอร์ดทั่วไป

มีข้อจำกัดหลัก 4 ข้อที่ควรจำไว้

  1. การเข้าถึงจำกัด: Anthropic ระบุว่า Claude Mythos Preview เป็น Research Preview แบบเชิญเท่านั้น และไม่มีการสมัครใช้งานเองแบบ self-serve[13] ทำให้ทีมพัฒนาทั่วไปทำซ้ำผลลัพธ์ได้ยาก

  2. แหล่งข้อมูลเป็นแบบผสม: แหล่งทางการในชุดนี้ยืนยันสถานะของโมเดล การวางตำแหน่ง และขอบเขตความสามารถเป็นหลัก[13][16][18] แต่ตัวเลขคะแนนจำนวนมากปรากฏผ่านแหล่งภายนอก[6][9][25][27]

  3. มีการประเมินภายในและการตั้งค่าเฉพาะ: คะแนน multimodal ถูกระบุว่าเป็นการประเมินภายใน[6] ส่วน Terminal-Bench ถูกอธิบายพร้อม harness เฉพาะ, thinking ระดับสูงสุด, งบประมาณโทเคนสูง และ timeout ที่ยาวขึ้น[25]

  4. คะแนนตอบโจทย์บางประเภท ไม่ใช่ทุกสถานการณ์: Authmind ระบุว่า Cybench ประกอบด้วยโจทย์ CTF 40 รายการ และ CyberGym ครอบคลุมงานโอเพนซอร์สจริง 1,507 งานสำหรับการทำซ้ำช่องโหว่[27] สิ่งเหล่านี้สำคัญ แต่ยังเป็นกลุ่มงานที่มีขอบเขตชัดเจน

บทสรุป

ถ้าดูจากคะแนนที่มีรายงาน Claude Mythos Preview ดูโดดเด่นมาก: 93.9% บน SWE-bench Verified, 87.3% บน SWE-bench Multilingual, 59.0% ในการประเมิน multimodal ภายใน, 0.83 บน CyberGym และ pass@1 = 1.00 บน Cybench[6][27]

แต่ประเด็นสำคัญไม่ใช่แค่ตัวเลขสูงแค่ไหน Claude Mythos Preview เป็น Research Preview แบบเชิญเท่านั้นใน Project Glasswing ตามข้อมูลของ Anthropic ไม่ใช่โมเดลมาตรฐานที่เปิดให้ใช้งานทั่วไป[13]

ดังนั้น วิธีอ่านที่ปลอดภัยที่สุดคือมองคะแนนเหล่านี้เป็นสัญญาณความสามารถที่แรงมากในงาน coding, agent และไซเบอร์ซีเคียวริตี้เชิงป้องกัน แต่ไม่ควรอ่านเป็นอันดับสาธารณะที่ทุกคนสามารถทำซ้ำและเปรียบเทียบได้ตรง ๆ เหมือน benchmark ของโมเดลที่เปิดกว้างทั่วไป

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI

ประเด็นสำคัญ

  • คะแนนที่สะดุดตาที่สุดคือ 93.9% บน SWE bench Verified แต่ Anthropic ระบุว่า Claude Mythos Preview เป็น Research Preview ใน Project Glasswing ที่เข้าถึงได้ด้วยคำเชิญเท่านั้น[13]
  • มีรายงานคะแนนอื่น เช่น 87.3% บน SWE bench Multilingual, 59.0% ในการประเมิน multimodal ภายใน, 0.83 บน CyberGym และ pass@1 = 1.00 บน Cybench[6][27]
  • ภาพรวมชี้ว่าโมเดลแข็งมากในงานโค้ด เอเจนต์ และไซเบอร์ซีเคียวริตี้ แต่ตัวเลขจำนวนมากมาจากแหล่งภายนอกหรือการตั้งค่าทดสอบเฉพาะ จึงไม่ควรอ่านเหมือนคะแนนลีดเดอร์บอร์ดสาธารณะทั่วไป[6][25][27]

คนยังถาม

คำตอบสั้น ๆ สำหรับ "Claude Mythos Benchmark: คะแนนเด่นและข้อจำกัดที่ต้องรู้" คืออะไร

คะแนนที่สะดุดตาที่สุดคือ 93.9% บน SWE bench Verified แต่ Anthropic ระบุว่า Claude Mythos Preview เป็น Research Preview ใน Project Glasswing ที่เข้าถึงได้ด้วยคำเชิญเท่านั้น[13]

ประเด็นสำคัญที่ต้องตรวจสอบก่อนคืออะไร?

คะแนนที่สะดุดตาที่สุดคือ 93.9% บน SWE bench Verified แต่ Anthropic ระบุว่า Claude Mythos Preview เป็น Research Preview ใน Project Glasswing ที่เข้าถึงได้ด้วยคำเชิญเท่านั้น[13] มีรายงานคะแนนอื่น เช่น 87.3% บน SWE bench Multilingual, 59.0% ในการประเมิน multimodal ภายใน, 0.83 บน CyberGym และ pass@1 = 1.00 บน Cybench[6][27]

ฉันควรทำอย่างไรต่อไปในทางปฏิบัติ?

ภาพรวมชี้ว่าโมเดลแข็งมากในงานโค้ด เอเจนต์ และไซเบอร์ซีเคียวริตี้ แต่ตัวเลขจำนวนมากมาจากแหล่งภายนอกหรือการตั้งค่าทดสอบเฉพาะ จึงไม่ควรอ่านเหมือนคะแนนลีดเดอร์บอร์ดสาธารณะทั่วไป[6][25][27]

ฉันควรสำรวจหัวข้อที่เกี่ยวข้องใดต่อไป

ดำเนินการต่อด้วย "Claude Security รุ่นเบต้า: Anthropic ใช้ AI สแกนช่องโหว่โค้ดองค์กรอย่างไร" เพื่อดูอีกมุมหนึ่งและการอ้างอิงเพิ่มเติม

เปิดหน้าที่เกี่ยวข้อง

ฉันควรเปรียบเทียบสิ่งนี้กับอะไร?

ตรวจสอบคำตอบนี้กับ "Grok 4.3 API ของ xAI: 1M context ราคาต่ำ และเกมรุกสู่แพลตฟอร์มเสียง"

เปิดหน้าที่เกี่ยวข้อง

ทำการวิจัยต่อ

การสนทนาการวิจัย

คุณ

คำถามวิจัย

Was sind die Benchmarks von Claude Mythos?

Studio Global AI30 แหล่งที่มา

อ้างถึงคำตอบ

Claude Mythos hat laut den vorliegenden Belegen vor allem öffentlich diskutierte Benchmark-Werte für Coding-, multimodale und mehrsprachige Aufgaben. Die belastbarste Information ist jedoch eingeschränkt: Anthropic beschreibt Claude Mythos Preview als ein separates Research-Preview-Modell für defensive Cybersecurity-Workflows mit Einladungspflicht, nicht als allgemein verfügbares Standardmodell.[1]

Verfügbare Benchmark-Angaben

  • SWE-bench: 93,9% werden in mehreren Drittquellen als Benchmark-Wert für Claude Mythos genannt.[3][5]

  • Multimodal: 59,0% werden als interner multimodaler Evaluationswert für Mythos Preview genannt, gegenüber 27,1% für Opus 4.6.[4]

  • SWE-bench Multilingual: 87,3% werden für Mythos Preview genannt.[4]

  • Terminal-Bench 2.0: Eine Drittquelle erwähnt, dass Terminal-Bench 2.0 mit Terminus-2-Harness, maximalem adaptivem Thinking und einem 1M-Token-Budget pro Aufgabe ausgeführt wurde, nennt im vorliegenden Ausschnitt aber keinen konkreten Score.[7]

Einordnung und Unsicherheit

  • Anthropic selbst bestätigt in den verfügbaren Belegen die Existenz und den eingeschränkten Zugang von Claude Mythos Preview, aber der bereitgestellte offizielle Ausschnitt enthält keine konkreten Benchmark-Zahlen.[1]

  • Die konkreten Scores stammen in den vorliegenden Belegen überwiegend aus Drittquellen oder Snippets, nicht aus vollständig zitierbaren offiziellen Benchmark-Tabellen.[3][4][5]

  • Daher gilt: Insufficient evidence für eine vollständig verifizierte, offizielle Benchmark-Liste von Claude Mythos anhand der bereitgestellten Quellen.

แหล่งที่มา

  • [6] Claude Mythos Benchmark Scores | ml-news – Weights & Biases - Wandbwandb.ai

    Image 66 Multimodal and multilingual capabilities The model’s improvements extend to multimodal and multilingual tasks. Internal multimodal evaluations show Mythos Preview scoring 59.0% compared to Opus 4.6’s 27.1%, indicating superior handling of diverse i...

  • [9] Claude Mythos leads 17 of 18 benchmarks Anthropic ... - R&D Worldrdworldonline.com

    Research & Development World Claude Mythos leads 17 of 18 benchmarks Anthropic measured. Muse Spark put Meta back in the frontier club, and OpenAI’s ‘Spud’ model is reportedly near launch By Brian Buntz Anthropic is not planning on publicly releasing it, bu...

  • [13] Models overview - Claude API Docsdocs.anthropic.com

    Models overview - Claude API Docs . Claude Mythos Preview is offered separately as a research preview model for defensive cybersecurity workflows as part of Project Glasswing. Access is invitation-only and there is no self-serve sign-up. Models with the sam...

  • [16] Project Glasswing - Anthropicanthropic.com

    01 /08 Claude Mythos Preview Claude Mythos Preview is a general-purpose frontier model from Anthropic, our most capable yet for coding and agentic tasks. Its strength in cybersecurity is a direct result of that broader capability: a model that can deeply un...

  • [18] [PDF] Claude Mythos Preview System Card - Anthropicwww-cdn.anthropic.com

    Red Teaming benchmark for tool use​ 232 8.3.2.2 Robustness against adaptive attackers across surfaces​ 233 8.3.2.2.1 Coding​ 233 8.3.2.2.2 Computer use​ 234 8.3.2.2.3 Browser use​ 235 8.4 Per-question automated welfare interview results​ 236 8.5 Blocklist u...

  • [25] Claude Mythos Preview: Benchmarks, Pricing & Project Glasswingllm-stats.com

    \SWE-bench Multimodal uses an internal implementation; scores are not directly comparable to public leaderboard results. Terminal-Bench 2.0 was run with the Terminus-2 harness, adaptive thinking at maximum effort, and a 1M token budget per task. With extend...

  • [27] When a Lab Withholds Its Best Model: What the Claude Mythos System Card Signals for Cybersecurityauthmind.com

    On Cybench (a public benchmark drawing from 40 CTF challenges across four major competitions), Claude Mythos Preview achieved a perfect pass@1 score of 1.00. Claude Opus 4.6, the prior generation, scored 0.89. On CyberGym, which evaluates AI agents on targe...