Claude Mythos Preview ไม่ได้เป็นแค่โมเดล Claude อีกตัวที่ถูกนำไปวางบนลีดเดอร์บอร์ดสาธารณะ Anthropic ระบุในเอกสาร Claude API ว่าโมเดลนี้เป็น Research Preview แยกต่างหาก สำหรับเวิร์กโฟลว์ไซเบอร์ซีเคียวริตี้เชิงป้องกันใน Project Glasswing โดยเข้าถึงได้ด้วยคำเชิญเท่านั้น และไม่มีการสมัครใช้งานแบบ self-serve[13]
ดังนั้นตัวเลข benchmark ของ Claude Mythos จึงน่าสนใจมาก แต่ต้องอ่านด้วยบริบท: นี่ไม่ใช่โมเดลผลิตภัณฑ์ที่นักพัฒนาทั่วไปสามารถกดสมัคร ทดลองซ้ำ และเปรียบเทียบกับโมเดลอื่นได้ง่ายเหมือนบริการ AI ทั่วไป
คะแนนสำคัญที่มีรายงาน
ตัวเลขคะแนนที่เห็นชัดในชุดแหล่งข้อมูลนี้ ส่วนใหญ่มาจากแหล่งภายนอกที่อ้างอิงข้อมูลของ Anthropic, system card หรือการสรุปของตนเอง[6][
9][
25][
27]
| หมวด | Benchmark | คะแนน Claude Mythos ที่มีรายงาน | ควรอ่านอย่างไร |
|---|---|---|---|
| Coding | SWE-bench Verified | 93.9% | W&B รายงานค่าของ Claude Opus 4.6 ไว้ที่ 80.8% เพื่อเทียบเคียง[ |
| Coding หลายภาษา | SWE-bench Multilingual | 87.3% | W&B รายงาน 77.8% สำหรับ Claude Opus 4.6[ |
| Multimodal | การประเมิน multimodal ภายใน | 59.0% | W&B ระบุว่าเป็นการประเมินภายใน และรายงาน 27.1% สำหรับ Claude Opus 4.6[ |
| Cybersecurity | Cybench | pass@1 = 1.00 | Authmind อธิบายว่า Cybench เป็น benchmark สาธารณะที่มาจากโจทย์ CTF 40 รายการ และรายงาน 0.89 สำหรับ Claude Opus 4.6[ |
| Cybersecurity | CyberGym | 0.83 | Authmind อธิบายว่า CyberGym ประเมินการทำซ้ำช่องโหว่แบบเจาะจงจากงานโอเพนซอร์สจริง 1,507 งาน และรายงาน 0.67 สำหรับ Claude Opus 4.6[ |
| Reasoning | GPQA Diamond | 94.6% | llm-stats รายงาน 91.3% สำหรับ Claude Opus 4.6[ |
| Reasoning | Humanity’s Last Exam ไม่มีเครื่องมือ / มีเครื่องมือ | 56.8% / 64.7% | llm-stats รายงาน 40.0% แบบไม่มีเครื่องมือ และ 53.1% แบบมีเครื่องมือสำหรับ Claude Opus 4.6[ |
| Terminal agents | การตั้งค่า Terminal-Bench | 92.1% | llm-stats ผูกคะแนนนี้กับ Terminus-2 harness, adaptive thinking ระดับสูงสุด, งบประมาณ 1 ล้านโทเคนต่อโจทย์, timeout 4 ชั่วโมง และอัปเดต Terminal-Bench 2.1[ |
| ความรู้หลายงาน | MMMLU | 92.7 | R&D World รายงานว่าค่านี้ทับซ้อนกับช่วง 92.6–93.6 ของ Gemini 3.1 Pro และเป็นข้อยกเว้นเดียวในคำกล่าวว่า Mythos นำ 17 จาก 18 benchmark[ |
อะไรที่ Anthropic ยืนยันชัดเจน
ข้อมูลที่เป็นทางการและชัดที่สุดคือสถานะของโมเดล: Claude Mythos Preview เป็น Research Preview สำหรับงานไซเบอร์ซีเคียวริตี้เชิงป้องกันใน Project Glasswing เข้าถึงได้แบบเชิญเท่านั้น และไม่มี self-serve sign-up[13]
หน้า Project Glasswing ของ Anthropic อธิบาย Claude Mythos Preview ว่าเป็น frontier model แบบใช้งานทั่วไป และเป็นโมเดลของ Anthropic ที่มีความสามารถสูงเป็นพิเศษในงาน coding และงานแบบ agentic หรือการทำงานหลายขั้นตอนด้วยเครื่องมือ[16] หน้าเดียวกันยังอธิบายว่า ความแข็งแกร่งด้านไซเบอร์ซีเคียวริตี้ของโมเดลมาจากความสามารถที่กว้างกว่าในการเข้าใจและแก้ไขซอฟต์แวร์ซับซ้อนอย่างลึกซึ้ง ซึ่งนำไปสู่การค้นหาและแก้ช่องโหว่ได้ด้วย[
16]
แหล่ง system card ที่มีในชุดข้อมูลนี้ยังอธิบาย Claude Mythos Preview ว่าเป็น large language model ใหม่ หรือ frontier model ที่มีความสามารถในหลายด้าน เช่น software engineering, reasoning, computer use, knowledge work และการช่วยงานวิจัย[18]
พูดให้สั้นคือ แหล่งทางการรองรับการวางตำแหน่งของโมเดลค่อนข้างชัด แต่ตัวเลขคะแนนแบบละเอียดในภาพรวมนี้ปรากฏผ่านแหล่งภายนอกเป็นหลัก[6][
9][
25][
27]
ทำไม 93.9% บน SWE-bench จึงเป็นคะแนนพาดหัว
คะแนนที่ดึงสายตามากที่สุดคือ 93.9% บน SWE-bench Verified โดย W&B รายงานคะแนนนี้สำหรับ Claude Mythos Preview และเทียบกับ 80.8% ของ Claude Opus 4.6[6]
สำหรับทีมซอฟต์แวร์ นี่คือ benchmark ที่ควรถูกหยิบขึ้นมาพูดก่อน เพราะเกี่ยวข้องโดยตรงกับงานเขียนโค้ด แก้บั๊ก และแก้ปัญหาในรีโปซิทอรี ซึ่งเป็นงานหลักที่โมเดล coding agent ถูกนำไปประเมิน
คะแนนด้าน coding หลายภาษาก็สูงเช่นกัน W&B รายงานว่า Claude Mythos Preview ได้ 87.3% บน SWE-bench Multilingual เทียบกับ 77.8% ของ Claude Opus 4.6[6] จุดนี้ช่วยสนับสนุนภาพว่า ความสามารถของโมเดลไม่ได้โดดเด่นเฉพาะในชุดทดสอบ coding ภาษาอังกฤษเพียงรูปแบบเดียว
อย่างไรก็ตาม 93.9% ไม่ได้แปลว่าโมเดลจะทำงานได้ระดับเดียวกันในทุกรีโปซิทอรี ทุกเครื่องมือ ทุกมาตรฐาน review หรือทุกข้อจำกัดขององค์กร ยิ่งในกรณี Claude Mythos ข้อจำกัดสำคัญคือทีมภายนอกไม่สามารถสมัครใช้งานเองเพื่อทดสอบซ้ำได้ง่ายตามข้อมูลของ Anthropic[13]
Cybersecurity: ตัวเลขแรง แต่เป็นบริบทเฉพาะทาง
คะแนนด้านไซเบอร์ซีเคียวริตี้ก็น่าจับตา Authmind รายงานว่า Claude Mythos Preview ได้คะแนน Cybench แบบสมบูรณ์ที่ pass@1 = 1.00 โดยอธิบายว่า Cybench เป็น benchmark สาธารณะที่ดึงจากโจทย์ CTF 40 รายการ[27] ส่วน CyberGym นั้น Authmind รายงานว่า Mythos Preview ได้ 0.83 และอธิบายว่าเป็นการประเมิน AI agent ในการทำซ้ำช่องโหว่แบบเจาะจงจากงานโอเพนซอร์สจริง 1,507 งาน[
27]
คะแนนเหล่านี้เข้ากับการวางตำแหน่งอย่างเป็นทางการของ Anthropic เพราะในเอกสาร Claude API ระบุ Mythos Preview โดยตรงว่าเป็น Research Preview สำหรับเวิร์กโฟลว์ไซเบอร์ซีเคียวริตี้เชิงป้องกันใน Project Glasswing[13] และในหน้า Project Glasswing Anthropic เชื่อมโยงความสามารถด้านไซเบอร์กับความสามารถทั่วไปในการเข้าใจ แก้ไข และวิเคราะห์ซอฟต์แวร์ซับซ้อนเพื่อค้นหาหรือแก้ช่องโหว่[
16]
แต่รูปแบบโจทย์ยังสำคัญมาก CTF หรือ Capture the Flag และการทำซ้ำช่องโหว่เป็นสภาพแวดล้อมประเมินที่เฉพาะเจาะจง[27] จึงเป็นสัญญาณที่แข็งแรงสำหรับความสามารถด้าน security และ code analysis แต่ไม่ใช่สิ่งทดแทนการทดสอบภายใต้นโยบายความปลอดภัย เครื่องมือที่อนุญาต และความรับผิดชอบจริงของแต่ละองค์กร
Reasoning, multimodal และ terminal agents
นอกจาก coding และ cybersecurity ยังมีคะแนน reasoning ที่สูงเช่นกัน llm-stats รายงาน 94.6% บน GPQA Diamond และ 56.8% บน Humanity’s Last Exam แบบไม่มีเครื่องมือ หรือ 64.7% แบบมีเครื่องมือ[25] การแยกคะแนนตามการใช้เครื่องมือเป็นเรื่องสำคัญ เพราะ tool access สามารถเปลี่ยนความสามารถที่เห็นจาก benchmark ได้มาก
ส่วน Terminal-Bench ยิ่งต้องดูรายละเอียดการตั้งค่า llm-stats รายงานคะแนน 92.1% แต่ระบุว่าใช้ Terminus-2 harness, adaptive thinking ระดับสูงสุด, งบประมาณ 1 ล้านโทเคนต่อโจทย์, timeout ที่ขยายเป็น 4 ชั่วโมง และอัปเดต Terminal-Bench 2.1[25] นี่ไม่ใช่รายละเอียดปลีกย่อย แต่เป็นส่วนหนึ่งของความหมายของคะแนน เพราะ benchmark สำหรับ agent มักขึ้นอยู่กับเวลา บริบท เครื่องมือ และงบประมาณที่โมเดลได้รับ
คะแนน multimodal ก็ต้องอ่านอย่างระมัดระวัง W&B รายงาน 59.0% ในการประเมิน multimodal ภายในของ Mythos Preview เทียบกับ 27.1% ของ Claude Opus 4.6[6] ขณะเดียวกัน llm-stats ระบุว่า SWE-bench Multimodal ใช้ implementation ภายใน และคะแนนไม่สามารถเทียบโดยตรงกับผลบนลีดเดอร์บอร์ดสาธารณะได้[
25]
ทำไมคะแนนเหล่านี้ไม่เหมือนคะแนนลีดเดอร์บอร์ดทั่วไป
มีข้อจำกัดหลัก 4 ข้อที่ควรจำไว้
-
การเข้าถึงจำกัด: Anthropic ระบุว่า Claude Mythos Preview เป็น Research Preview แบบเชิญเท่านั้น และไม่มีการสมัครใช้งานเองแบบ self-serve[
13] ทำให้ทีมพัฒนาทั่วไปทำซ้ำผลลัพธ์ได้ยาก
-
แหล่งข้อมูลเป็นแบบผสม: แหล่งทางการในชุดนี้ยืนยันสถานะของโมเดล การวางตำแหน่ง และขอบเขตความสามารถเป็นหลัก[
13][
16][
18] แต่ตัวเลขคะแนนจำนวนมากปรากฏผ่านแหล่งภายนอก[
6][
9][
25][
27]
-
มีการประเมินภายในและการตั้งค่าเฉพาะ: คะแนน multimodal ถูกระบุว่าเป็นการประเมินภายใน[
6] ส่วน Terminal-Bench ถูกอธิบายพร้อม harness เฉพาะ, thinking ระดับสูงสุด, งบประมาณโทเคนสูง และ timeout ที่ยาวขึ้น[
25]
-
คะแนนตอบโจทย์บางประเภท ไม่ใช่ทุกสถานการณ์: Authmind ระบุว่า Cybench ประกอบด้วยโจทย์ CTF 40 รายการ และ CyberGym ครอบคลุมงานโอเพนซอร์สจริง 1,507 งานสำหรับการทำซ้ำช่องโหว่[
27] สิ่งเหล่านี้สำคัญ แต่ยังเป็นกลุ่มงานที่มีขอบเขตชัดเจน
บทสรุป
ถ้าดูจากคะแนนที่มีรายงาน Claude Mythos Preview ดูโดดเด่นมาก: 93.9% บน SWE-bench Verified, 87.3% บน SWE-bench Multilingual, 59.0% ในการประเมิน multimodal ภายใน, 0.83 บน CyberGym และ pass@1 = 1.00 บน Cybench[6][
27]
แต่ประเด็นสำคัญไม่ใช่แค่ตัวเลขสูงแค่ไหน Claude Mythos Preview เป็น Research Preview แบบเชิญเท่านั้นใน Project Glasswing ตามข้อมูลของ Anthropic ไม่ใช่โมเดลมาตรฐานที่เปิดให้ใช้งานทั่วไป[13]
ดังนั้น วิธีอ่านที่ปลอดภัยที่สุดคือมองคะแนนเหล่านี้เป็นสัญญาณความสามารถที่แรงมากในงาน coding, agent และไซเบอร์ซีเคียวริตี้เชิงป้องกัน แต่ไม่ควรอ่านเป็นอันดับสาธารณะที่ทุกคนสามารถทำซ้ำและเปรียบเทียบได้ตรง ๆ เหมือน benchmark ของโมเดลที่เปิดกว้างทั่วไป




