แต่คำกล่าวอ้างนั้นอยู่ได้เพียงวันเดียว
ในวันที่ 10 มิถุนายน นักวิจัยนิรนามนามว่า พลินี ผู้ปลดปล่อย (Pliny the Liberator) ประกาศว่าเขาสามารถทะลวงผ่านระบบคัดกรองความปลอดภัยของ Fable 5 ได้แล้ว โดยดึงข้อมูล System Prompt ความยาว 120,000 ตัวอักษรออกมา (และนำไปเผยแพร่บน GitHub) และยังสามารถทำให้โมเดลสร้างโค้ดสำหรับพัฒนาโปรแกรมเจาะระบบ ขั้นตอนการโจมตีทางไซเบอร์ และคำแนะนำทางเคมีต้องห้ามได้อีกด้วย ความเร็วในการฝ่ากำแพงครั้งนี้—ภายใน 24 ถึง 48 ชั่วโมงหลังเปิดตัว
—กลายเป็นจุดเปลี่ยนสำคัญของดีเบตสาธารณะว่า AI ขั้นสูงสามารถถูกควบคุมด้วยวิธีด้านความปลอดภัยในปัจจุบันได้จริงหรือไม่
พลินีเรียกวิธีการของเขาว่า "Pack Hunt" — หรือการล่าเป็นฝูง — เป็นเทคนิคแบบหลายเอเจนท์ (Multi-Agent) ที่ประสานงานกัน แทนที่จะเป็นเพียงการป้อนคำสั่งที่ชาญฉลาดเพียงอย่างเดียว การโจมตีนี้ผสมผสานกลยุทธ์หลายอย่างที่แต่ละส่วนมีส่วนช่วยในการเจาะระบบแบบสะสม:
ผลลัพธ์คือการฝ่ากำแพงที่ทำให้ได้โค้ดเจาะระบบที่ใช้งานได้ คำแนะนำการสังเคราะห์สารเคมีอย่างละเอียด และ System Prompt ฉบับเต็มที่ Anthropic ออกแบบให้ Fable 5 ยึดเป็นแกนหลักในการทำงาน
ก่อนการเปิดตัว Fable 5 นั้น Anthropic ได้วางท่าทีด้านความปลอดภัยต่อสาธารณะอย่างละเอียดเป็นพิเศษ:
การเจลเบรคที่รวดเร็วนี้สั่นคลอนตัวเลขเหล่านั้นอย่างมีนัยสำคัญ ระบบความปลอดภัยที่ได้รับการรับรองจากการทดสอบกว่า 1,000 ชั่วโมง กลับถูกเจาะโดยนักวิจัยเพียงคนเดียวใน 1 วัน โดยใช้เทคนิคที่ไม่ได้พึ่งพาช่องโหว่ของซอฟต์แวร์ใหม่ๆ เลย แต่เป็นกลยุทธ์การป้อนคำสั่งในสไตล์ "วิศวกรรมสังคม" (Social Engineering) ซึ่งการฝึกของระบบคัดกรองดูเหมือนจะพลาดไป
เหตุการณ์ Fable 5 ไม่ใช่เรื่องที่เกิดขึ้นเพียงครั้งเดียว มันคือภาคต่อของรูปแบบที่มีการบันทึกไว้เป็นอย่างดีจากนักวิจัยคนเดิม:
รากฐานของรูปแบบนี้คือการเปลี่ยนแปลงวิธีคิดที่พลินีอธิบายไว้ว่าเป็น "โมเดลเจลเบรคโมเดล" (Models Jailbreaking Models) แทนที่จะนั่งปั้นคำสั่งทีละบรรทัด ผู้โจมตีปล่อยให้โมเดลที่ถูกเจาะแล้วตัวหนึ่งทำหน้าที่เป็นเอเจนท์อัตโนมัติในการจู่โจมเป้าหมายใหม่ ซึ่งวิธีการแบบใช้เอเจนท์, หลายขั้นตอน, และแยกส่วนประกอบคำขอ ได้พิสูจน์แล้วว่ายากต่อการตรวจจับของระบบความปลอดภัยแบบ Classifier มากกว่าการโจมตีด้วยคำสั่งแบบครั้งเดียว (Single-prompt) ที่ระบบถูกฝึกมาให้เฝ้าระวัง
วงการวิจัยในวงกว้างก็สังเกตเห็นวิวัฒนาการในทิศทางเดียวกัน บริษัทความปลอดภัย Repello ซึ่งได้วิเคราะห์เทรนด์การเจลเบรคในปี 2026 ตั้งข้อสังเกตว่า การโจมตีที่อันตรายที่สุดในการปฏิบัติการจริงไม่ใช่การเจลเบรคด้วยคำสั่งเดียวอีกต่อไป แต่เป็นลำดับการโจมตีแบบหลายขั้นตอนที่คืบหน้าผ่านขั้นตอนที่ดูไม่มีพิษภัยทีละขั้น ซึ่งเป็นคำอธิบายที่สอดคล้องกับกรอบการทำงาน "Pack Hunt" อย่างยิ่ง
การเจลเบรค Fable 5 ไม่ได้พิสูจน์ว่าคำกล่าวอ้างด้านความปลอดภัยของ Anthropic เป็นเรื่องหลอกลวง แต่มันทำให้เกิดคำถามที่น่าอึดอัดเกี่ยวกับความสามารถในการขยายผล (Scalability) การทำ Red-Teaming กว่า 1,000 ชั่วโมงโดยองค์กรมืออาชีพไม่พบสิ่งที่นักวิจัยอิสระผู้มุ่งมั่นคนหนึ่งค้นพบในเวลาไม่ถึงวัน ช่องว่างนี้บ่งชี้ว่าโปรแกรมการรับรองในปัจจุบัน แม้จะเข้มงวดเพียงใด อาจไม่สามารถสะท้อนความหลากหลายของความคิดสร้างสรรค์ของศัตรูในโลกแห่งความเป็นจริงได้อย่างเพียงพอ โดยเฉพาะอย่างยิ่งในแนวทางที่ได้แรงบันดาลใจจากวิศวกรรมสังคม, การใช้เอเจนท์, และการโต้ตอบหลายขั้นตอน
นอกจากนี้ยังก่อให้เกิดภาวะกลืนไม่เข้าคายไม่ออก: หากกำแพงป้องกันของโมเดลแข็งแกร่งพอที่จะทนต่อการทดสอบอย่างมีโครงสร้างนานหลายเดือน แต่กลับพังทลายเมื่อเผชิญหน้ากับการโจมตีแบบหลายเอเจนท์ที่ประสานงานกัน แล้วคำว่า "ผ่านการรับรองว่าปลอดภัย" สำหรับโมเดลระดับสูงที่ปล่อยให้สาธารณะใช้งานจริงหมายถึงอะไรกันแน่? ความเร็วและความสามารถในการทำซ้ำของรูปแบบการเจาะของพลินีในบริษัทและสถาปัตยกรรมที่แตกต่างกัน บ่งชี้ว่าความท้าทายนี้ไม่ได้จำเพาะเจาะจงกับการออกแบบโมเดลใดโมเดลหนึ่ง แต่อาจเป็นปัญหาโดยธรรมชาติของกระบวนทัศน์ความปลอดภัยในปัจจุบันที่พึ่งพาระบบคัดกรองที่ระดับคำสั่ง (Prompt-level Safety Classifiers)
Comments
0 comments