รายงาน red-team ของ Anthropic เองไปไกลกว่านั้น โดยระบุว่า Mythos ทำผลงานแข็งแกร่งในงานความปลอดภัยไซเบอร์หลายประเภท รวมถึงการค้นพบ zero-day ในโค้ดโอเพนซอร์สจริง การ reverse-engineer exploit ในซอฟต์แวร์ปิด และการแปลงช่องโหว่แบบ N-day ให้กลายเป็น exploit ที่ใช้งานได้ อย่างไรก็ดี รายงานเดียวกันบอกว่ารายละเอียดที่เปิดเผยต่อสาธารณะมีจำกัด เพราะช่องโหว่ที่พบมากกว่า 99% ยังไม่ได้รับการแพตช์ ทำให้ผู้อ่านภายนอกยังตรวจสอบตัวอย่างส่วนใหญ่เองไม่ได้
พูดง่าย ๆ คือ Mythos ดูน่ากลัวและน่าประทับใจที่สุดในสถานการณ์ที่โมเดลต้อง “ทำงานเหมือน agent” ไม่ใช่แค่อ่านโค้ดหนึ่งไฟล์แล้วตอบว่ามีบั๊กตรงไหน
ประเด็นของฝั่งที่เชื่อในโมเดลราคาถูกไม่ใช่ว่าโมเดลขนาดเล็กจะเป็น agent ด้านไซเบอร์ได้เท่า Mythos ทุกกรณี แต่คือความสามารถด้านไซเบอร์ของ AI อาจไม่ได้ไต่ระดับแบบเรียบ ๆ ตามขนาดโมเดลเสมอไป บางโมเดลอาจอ่อนในงานหนึ่ง แต่กลับเก่งเกินคาดในงานวิเคราะห์ช่องโหว่ที่จำกัดขอบเขตดีแล้ว Aisle พบว่าโมเดล open-weight ขนาดเล็กและราคาถูกสามารถกู้คืนการวิเคราะห์ได้มากจากช่องโหว่ตัวอย่างของ Mythos เมื่อมีการแยกโค้ดที่เกี่ยวข้องมาให้แล้ว
Tom’s Hardware สรุปกระแสถกเถียงหลังการเปิดตัวในทำนองเดียวกันว่า Mythos อาจเป็นหนึ่งในโมเดล AI ที่แข็งแกร่งที่สุดโดยรวมสำหรับงานไซเบอร์ แต่โมเดลราคาถูกกว่าสามารถไปถึงผลลัพธ์คล้ายกันได้ในบางงาน เช่น การหา exploit และการช่วยแพตช์ โดยยังมีคำถามเรื่องความเสถียรและความพร้อมใช้งาน
ความต่างนี้สำคัญมาก การตอบถูกเมื่อมีคนเตรียมโค้ดส่วนสำคัญมาให้แล้ว ไม่เท่ากับการเดินสำรวจเครือข่ายเอง วางแผนเอง เชื่อมหลายขั้นตอนเอง ใช้ช่องโหว่จริง และปิดภารกิจการจำลองการบุกรุกได้ หลักฐานสาธารณะสนับสนุนความได้เปรียบของ Mythos มากที่สุดในงานแบบหลัง
คำอธิบายที่เข้ากับหลักฐานมากที่สุดไม่ใช่ “โมเดลล้วน ๆ” แต่เป็นโมเดลบวกกับระบบรอบตัว ได้แก่ เครื่องมือ สภาพแวดล้อมสำหรับรันโค้ด สิทธิ์เข้าถึงเครือข่าย การเลือกคอนเท็กซ์ prompt การวาง agent scaffolding และการตรวจทานโดยผู้เชี่ยวชาญ Aisle ระบุชัดว่า moat หรือคูเมืองที่เลียนแบบยากอาจอยู่ที่ “ระบบที่ฝังความเชี่ยวชาญด้านความปลอดภัยเชิงลึกไว้ข้างใน” ไม่ใช่ตัวโมเดลเพียงอย่างเดียว
การทดสอบของ AISI ก็ช่วยย้ำจุดนี้ เพราะพฤติกรรมที่แข็งแกร่งที่สุดของ Mythos เกิดขึ้นในเงื่อนไขควบคุมที่โมเดลได้รับคำสั่งและมีสิทธิ์เข้าถึงเครือข่าย
เรื่องการเข้าถึงก็สำคัญ Bain อธิบายว่า Claude Mythos Preview เป็น frontier model ที่มีความสามารถด้านไซเบอร์จริงจังพอจน Anthropic จำกัดการปล่อยใช้งานไว้ในโปรแกรมพาร์ตเนอร์ที่คัดกรองแล้วชื่อ Project Glasswing ดังนั้นการเปรียบเทียบในโลกจริงจึงไม่ใช่แค่ว่า API ตัวไหนถูกกว่า แต่คือเราสามารถสร้างเวิร์กโฟลว์แบบเดียวกันได้แค่ไหนด้วยโมเดล เครื่องมือ สิทธิ์เข้าถึง และความเชี่ยวชาญที่มีอยู่
ตอนนี้ยังไม่มี benchmark สาธารณะที่เปรียบเทียบ Mythos, API ราคาถูก และโมเดล open-weight แบบราคา-ต่อ-ประสิทธิภาพภายใต้เงื่อนไขเดียวกันทั้งหมด AISI ประเมิน Mythos ในสภาพแวดล้อมควบคุมและเปรียบเทียบกับความก้าวหน้าของ frontier model รุ่นก่อน Anthropic ให้หลักฐาน red-team ที่ละเอียด แต่ก็เป็นรายงานจากผู้พัฒนาเอง
ส่วน Aisle เป็นการทดสอบโต้แย้งที่แคบกว่า โดยเลือกช่องโหว่ตัวอย่างบางชุด
การเปรียบเทียบที่ชัดจริงควรล็อกตัวแปรสำคัญให้เท่ากัน เช่น เครื่องมือที่ใช้ได้ โค้ดคอนเท็กซ์ สิทธิ์เข้าถึงเครือข่าย จำนวนครั้งที่ลอง งบคอมพิวต์ กติกาการรัน exploit และระดับการช่วยตรวจโดยมนุษย์ หากยังไม่มีสิ่งนี้ การฟันธงสุดโต่งทั้งสองด้านก็ยังเร็วเกินไป
Claude Mythos ดูโดดเด่นมากเมื่อโจทย์ต้องการความเป็นอัตโนมัติ การวางแผนหลายขั้น และการลงมือผ่านเครื่องมือจริง แต่หลักฐานสาธารณะยังไม่พิสูจน์ว่าความสามารถในการให้เหตุผลด้านไซเบอร์ของมันเป็นสิ่งที่โมเดลราคาถูกแตะไม่ได้เลย ข้อสรุปที่ปลอดภัยกว่าคือ Mythos มีความได้เปรียบจริงในเวิร์กโฟลว์ไซเบอร์ที่ซับซ้อน ขณะที่โมเดลต้นทุนต่ำยังทำงานวิเคราะห์แบบจำกัดขอบเขตได้ดีเกินคาด เมื่อจับคู่กับเครื่องมือที่เหมาะสมและการกำกับโดยผู้เชี่ยวชาญ
Comments
0 comments