ถ้าถามแบบสั้น ๆ ว่า benchmark ที่คนพูดถึงกับ Claude Mythos Preview คืออะไร คำตอบคือ 93.9% บน SWE-bench [1][
2]. แต่ตัวเลขนี้ต้องอ่านให้ถูกบริบท: SWE-bench วัดงานด้านซอฟต์แวร์และโค้ด ไม่ได้วัดความสามารถทั้งหมดของโมเดล AI ในทุกมิติ [
1][
2].
ตัวเลขหลัก: 93.9% บน SWE-bench
ผลที่ถูกยกมาเป็นจุดขายของ Claude Mythos Preview คือ 93.9% บน SWE-bench [1][
2]. ในทางปฏิบัติ ตัวเลขนี้สำคัญมากหากคุณกำลังเทียบโมเดลสำหรับงานวิศวกรรมซอฟต์แวร์ เช่น แก้บั๊ก ปรับโค้ด ทำงานกับ repository หรือออกแบบ workflow แบบเอเจนต์เขียนโปรแกรม [
1].
อย่างไรก็ตาม จุดที่ไม่ควรมองข้ามคือ “สภาพแวดล้อมการทดสอบ” คะแนน SWE-bench ที่สูงมากมักเกิดขึ้นเมื่อโมเดลทำงานในรูปแบบเอเจนต์ คืออ่านไฟล์ได้ รันโค้ดได้ ดูผลการทดสอบได้ และวนแก้หลายรอบได้ [1]. ดังนั้นคะแนน 93.9% ไม่ได้สะท้อนแค่ตัวโมเดลล้วน ๆ แต่สะท้อนทั้งความสามารถของโมเดลและเครื่องมือที่ใช้ประกอบในการประเมินด้วย
93.9% ไม่ได้แปลว่าเก่งที่สุดทุกเรื่อง
สิ่งที่ควรระวังคืออย่าอ่าน 93.9% เป็น “คะแนนรวม” ของ Claude Mythos Preview เพราะ benchmark ซอฟต์แวร์หนึ่งชุดไม่ได้บอกทุกอย่าง เช่น การใช้เหตุผลทั่วไป ความปลอดภัย ความพร้อมใช้งาน ต้นทุนการใช้งาน หรือประสิทธิภาพในงานที่ไม่คล้ายกับการเขียนและแก้โค้ด [1].
ถ้าจะเปรียบเทียบโมเดลอย่างจริงจัง ควรเทียบใน benchmark เดียวกัน และภายใต้เงื่อนไขที่ใกล้เคียงกัน หากโมเดลหนึ่งได้ใช้ระบบเอเจนต์พร้อมเข้าถึงไฟล์ รันโค้ด และทำซ้ำหลายรอบ แต่โมเดลอีกตัวไม่ได้ใช้เครื่องมือแบบเดียวกัน การสรุปว่าใคร “เหนือกว่า” อาจทำให้เข้าใจผิดได้ [1].
benchmark ที่มีรายงานเกี่ยวกับ Claude Mythos Preview
| ด้านที่ประเมิน | ผลที่มีรายงาน | ควรอ่านอย่างไร |
|---|---|---|
| ซอฟต์แวร์ / SWE-bench | 93.9% | เป็นตัวเลขที่ชัดที่สุดสำหรับงานเขียนโค้ด แก้โค้ด และเอเจนต์ด้านซอฟต์แวร์ [ |
| ไซเบอร์ซีเคียวริตี้ | 83.1% เทียบกับ 66.6% ของ Claude Opus 4.6 | เป็นการเทียบใน benchmark ความสามารถด้านไซเบอร์ซีเคียวริตี้ ไม่ใช่การวัดแบบเดียวกับ SWE-bench [ |
| Cybench | 100% | เป็นรายงานจากแหล่งรองเกี่ยวกับโจทย์ไซเบอร์ซีเคียวริตี้ ไม่ใช่คะแนนรวมของโมเดลทุกด้าน [ |
| ชุด benchmark กว้างกว่า | นำใน 17 จาก 18 benchmark ที่วัด | เป็นคำกล่าวเชิงรวมจากรายงานที่อ้างข้อมูลของ Anthropic ควรดูรายละเอียดราย benchmark ก่อนใช้เป็นอันดับรวม [ |
งานโค้ดกับงานไซเบอร์ซีเคียวริตี้เป็นคนละสัญญาณ
ตัวเลขด้านไซเบอร์ซีเคียวริตี้ของ Claude Mythos Preview อยู่คนละหมวดกับ SWE-bench แหล่งหนึ่งรายงานว่า Mythos Preview ได้ 83.1% เทียบกับ 66.6% ของ Claude Opus 4.6 ใน benchmark ความสามารถด้านไซเบอร์ซีเคียวริตี้ [3]. อีกแหล่งระบุว่า Mythos ได้ 100% บน Cybench ซึ่งอธิบายว่าเป็น benchmark สำหรับโจทย์ท้าทายด้านไซเบอร์ซีเคียวริตี้ [
5].
แหล่งข้อมูลจาก Anthropic ที่เกี่ยวข้องในบริบทนี้ก็เน้นเรื่องเดียวกัน: Anthropic Red Team เผยแพร่การประเมินความสามารถด้านไซเบอร์ซีเคียวริตี้ของ Claude Mythos Preview และ Project Glasswing กล่าวถึงการใช้โมเดลเพื่อระบุช่องโหว่และ exploit [13][
24]. ข้อมูลเหล่านี้สำคัญสำหรับทีมความปลอดภัย แต่ไม่ควรนำไปปนกับ SWE-bench ราวกับเป็นคะแนนชุดเดียวกัน
ถ้าจะใช้ตัวเลขนี้ตัดสิน ควรเริ่มจากคำถามใช้งานจริง
หากกรณีใช้งานของคุณคือเอเจนต์ที่ทำงานกับ repository แก้โค้ด รันเทสต์ และวนปรับปรุงคำตอบ 93.9% บน SWE-bench เป็นตัวเลขเริ่มต้นที่มีประโยชน์มาก [1][
2]. แต่ถ้ากรณีใช้งานคือการวิเคราะห์ช่องโหว่ ตรวจสอบความปลอดภัยของโค้ด หรือวิจัย exploit ควรดู metric และเอกสารด้านไซเบอร์ซีเคียวริตี้แทน [
3][
5][
13][
24].
สรุปแบบไม่ขายฝัน: Claude Mythos Preview มีรายงานคะแนน 93.9% บน SWE-bench และนี่คือ benchmark ที่ถูกอ้างถึงมากที่สุดเมื่อพูดถึงความสามารถด้านซอฟต์แวร์ของโมเดล [1][
2]. แต่การอ่านที่รอบคอบกว่าคือ มันเป็นสัญญาณแรงมากสำหรับงานโค้ดภายใต้เงื่อนไขการประเมินเฉพาะ ไม่ใช่หลักฐานอัตโนมัติว่าโมเดลนี้เหนือกว่าทุกโมเดลในทุกประเภทงาน




