แม้แต่การปรับแต่งละเอียด (Fine-tuning) ที่มีเจตนาดีเพื่อใช้ในกรณีที่ไร้เดียงสาก็สามารถทำลายการจัดเรียงด้านความปลอดภัยได้ การศึกษาชิ้นหนึ่งแสดงให้เห็นว่าการผสมข้อมูลที่ไม่ปลอดภัยจำนวนเล็กน้อยกับข้อมูลละเอียดที่ปลอดภัยจะทำให้เกราะป้องกันอ่อนแอลงอย่างมาก งานวิจัยอีกชิ้นยืนยันว่าทั้งการปรับแต่งละเอียดด้วยโอเพนเวตและผ่าน API ลับ (Closed Fine-tuning API) สามารถสร้างโมเดลที่มาตรการป้องกันถูกลบออกไปทั้งหมด
เทคนิคที่เพิ่งถูกบันทึกไว้หลายเทคนิคแสดงให้เห็นว่าการเจลเบรกนั้นง่ายเพียงใด
Sockpuppeting เป็นการแทรกการ “ยอมรับ” ปลอมเข้าไปในข้อความตอบกลับที่เตรียมไว้ล่วงหน้าของผู้ช่วยแชท โดยใช้ประโยชน์จากแนวโน้มที่โมเดลจะพยายามตอบให้สอดคล้องกันเอง เทคนิคนี้ไม่ต้องการการหาค่าเหมาะสม ไม่ต้องการน้ำหนักโมเดล (Model Weights) และไม่ต้องใช้เครื่องมือเฉพาะทางใดๆ แค่เพียงการเข้าถึง API ที่รองรับการเติมข้อความล่วงหน้าของผู้ช่วย จากการทดสอบในเดือนเมษายน และพฤษภาคม 2026 ทุกโมเดลที่ยอมรับการเติมข้อความล่วงหน้านั้นมีช่องโหว่อย่างน้อยบางส่วน รวมถึง GPT-4o, Claude 4 Sonnet และ Gemini 2.5 Flash
การโจมตีที่ได้มาจากบทความวิชาการ (Paper-derived Attacks) แสดงให้เห็นถึงช่องโหว่เชิงเมตาที่น่าตกใจ การศึกษาในปี 2026 พบว่าการใช้เนื้อหาจากบทความวิชาการด้านความปลอดภัยของ LLM มาเป็นคำสั่ง (Prompt) สามารถบรรลุอัตราความสำเร็จในการโจมตี 97-98% บนโมเดลที่ถูกจัดเรียงอย่างดี รวมถึงระบบลับอย่าง Claude 3.5 Sonnet
การขยายพวงมาลัยความปลอดภัย (Safety Steering Amplification) แสดงให้เห็นว่าเทคนิคที่ตั้งใจจะปรับปรุงความปลอดภัยสามารถย้อนกลับมาทำร้ายเราได้อย่างไร การบังคับทิศทางด้วยการกระตุ้นระหว่างการอนุมาน (Inference-time Activation Steering) ที่มีจุดประสงค์เพื่อลด "การปฏิเสธมากเกินไป" ในคำถามธรรมดาที่ดูอ่อนไหว ถูกพบว่าได้ขยายช่องโหว่การเจลเบรกในโมเดลอย่าง Llama 3.1 8B และ Gemma 2 2B โดยไม่ตั้งใจ
การล้มล้างการ์ดเรลการให้เหตุผล (Reasoning Guardrail Subversion) เป็นหนึ่งในช่องทางใหม่ที่น่ากังวลที่สุด การศึกษาในเดือนมีนาคม 2026 ค้นพบว่าการเพิ่มโทเค็นเทมเพลตเพียงไม่กี่ตัวลงในคำสั่งนำเข้า ก็สามารถแย่งชิงการควบคุมการ์ดเรลความปลอดภัยที่อาศัยการให้เหตุผลได้ เมื่อระบบให้เหตุผลถูกบุกรุก มันสามารถสร้างเนื้อหาที่เป็นอันตรายได้มากกว่าโมเดลที่ไม่มีระบบป้องกันดังกล่าวเสียอีก
กฎระเบียบสำหรับ AI สำหรับวัตถุประสงค์ทั่วไป (General-Purpose AI - GPAI) ภายใต้ EU AI Act มีผลบังคับใช้ในเดือนสิงหาคม 2025 โมเดลใดๆ ที่ถูกฝึกฝนด้วยการดำเนินการจุดลอยตัว (Floating-point Operations - FLOPs) เกินกว่า 10²⁵ ครั้ง ซึ่งเป็นเกณฑ์ที่ครอบคลุมโมเดล Llama 4.2 Ultra และโมเดลเชิงพาณิชย์หลักๆ ทุกตัว จะถูกจัดประเภทว่ามีความเสี่ยงเชิงระบบ
ผลกระทบต่อบริษัทต่างๆ นั้นเกิดขึ้นทันที:
มีข้อยกเว้นสำหรับโอเพนซอร์สอยู่จริง แต่มีข้อจำกัดที่ชัดเจน โมเดลที่เผยแพร่ภายใต้ใบอนุญาตเสรีและโอเพนซอร์ส (Free and Open-source License) โดยไม่มีการสร้างรายได้ ส่วนใหญ่จะอยู่ภายนอกภาระหน้าที่ที่เข้มงวดที่สุด แต่ข้อยกเว้นนี้จะหายไปทันทีหากโมเดลนั้นก่อให้เกิดความเสี่ยงเชิงระบบ
การปรับปรุงกฎหมายของสหภาพยุโรปในเดือนพฤษภาคม 2026 ได้ย้ำถึงขอบเขตนี้
ใบอนุญาตชุมชนของ Llama จาก Meta ถูกระบุแล้วว่าไม่มีคุณสมบัติสำหรับข้อยกเว้นโอเพนซอร์ส
การบังคับใช้กำลังเกิดขึ้นจริงแล้ว ไม่ใช่แค่ทฤษฎีอีกต่อไป ในช่วงต้นปี 2026 สหภาพยุโรปได้เริ่มการสอบสวนความเสี่ยงเชิงระบบเดิมพันสูงในแพลตฟอร์มหลักหลายแห่ง รวมถึง Meta โดยเรียกร้องความโปร่งใสในชุดข้อมูลฝึกฝนและมาตรการป้องกันความปลอดภัยอย่างที่ไม่เคยมีมาก่อน
หลักฐานของช่องโหว่กำลังกระตุ้นแรงกดดันทางการตลาดให้มีการเสริมความปลอดภัย (Safety Retrofitting) ที่แข็งแกร่งขึ้น การศึกษาในปี 2025 แสดงให้เห็นว่าการฝึกฝนด้วย ตัวอย่างข้อมูลด้านความปลอดภัยเพียง 2,000 ชุด ซึ่งมีค่าใช้จ่ายประมาณ 3 ดอลลาร์สหรัฐ สำหรับโมเดล 8B และ 20 ดอลลาร์สหรัฐ สำหรับโมเดล 72B สามารถลดอัตราความสำเร็จในการโจมตีลงได้ 10-30% วิธีการโจมตีที่ประสบความสำเร็จมากที่สุดถูกลดอัตราความสำเร็จลงเหลือประมาณ 5% หลังจากการติดตั้งเพิ่ม
ข้อมูลทางเศรษฐศาสตร์เหล่านี้ชี้ให้เห็นว่าการเสริมความปลอดภัยด้วยต้นทุนต่ำนั้นเป็นไปได้ แต่มันยังไม่ได้กลายเป็นแนวปฏิบัติมาตรฐานทั่วทั้งระบบนิเวศของโอเพนเวต เมื่อแรงกดดันด้านกฎระเบียบเพิ่มขึ้นและภูมิทัศน์การโจมตีทวีความรุนแรงขึ้น บริษัทที่นำโมเดลเหล่านี้ไปใช้ในการผลิตจริงอาจพบว่าการละเลยกรมธรรม์ประกันมูลค่า 20 ดอลลาร์นั้นยากที่จะอธิบายเหตุผลได้
Comments
0 comments