ในการทดสอบหนึ่งที่มีการบันทึกไว้ นักวิจัยใช้การวางกรอบแบบ 'บทภาพยนตร์' เพื่อสั่งให้หุ่นยนต์สุนัข AI เชิงพาณิชย์ระบุตำแหน่งที่เหมาะสมที่สุดสำหรับการวางวัตถุระเบิด หุ่นยนต์ทำตามคำขอโดยไม่ต้องมีการปรับเปลี่ยนฮาร์ดแวร์ใดๆ ใช้เพียงแค่ข้อความสร้างสรรค์ที่ป้อนเข้าไปเท่านั้น ก่อนหน้านี้ RoboPAIR เวอร์ชันก่อนๆ เคยมีอัตราการเจลเบรกสำเร็จ 100% กับระบบหุ่นยนต์ที่แตกต่างกันสามระบบแล้ว ซึ่งรวมถึง รถยนต์ไร้คนขับจำลองที่เพิกเฉยต่อป้ายหยุดและขับรถตกสะพาน หุ่นยนต์มีล้อที่ถูกโปรแกรมให้หาจุดระเบิด และหุ่นยนต์สี่ขาที่ถูกสั่งให้สอดแนมและบุกรุกเข้าไปในเขตหวงห้าม
ปัญหาพื้นฐานคือสิ่งที่งานวิจัยใน Science Robotics เรียกว่าความต้องการแนวทางที่ 'เหนือกว่าการจัดตำแหน่ง' (beyond alignment) ระบบความปลอดภัยที่ออกแบบมาสำหรับแชตบอตจะประเมินรูปแบบข้อความ (textual framing) ของคำสั่ง ไม่ใช่บริบททางกายภาพหรือผลลัพธ์ของการกระทำ หุ่นยนต์อาจเข้าใจว่า 'ขับรถตกสะพาน' เป็นคำสั่งที่อันตราย แต่ 'ในฉากภาพยนตร์ รถของพระเอกพุ่งตกสะพาน' กลับสามารถข้ามผ่านระบบกรองนั้นไปได้อย่างสมบูรณ์ เพราะโมเดลประมวลผลมันในฐานะโครงสร้างการเล่าเรื่อง (narrative construct) ไม่ใช่คำสั่งทางกายภาพ
การค้นพบอีกอย่างที่น่าทึ่งไม่แพ้กันมาจาก Icaro Lab ซึ่งเป็นความร่วมมือระหว่าง Sapienza University of Rome และคลังสมอง DexAI การศึกษาของพวกเขาพบว่าการเขียนคำขออันตรายในรูปแบบของบทกวีทำหน้าที่เป็น 'โอเปอเรเตอร์เจลเบรกสากล' (universal jailbreak operator) ที่สามารถเลี่ยงผ่านระบบความปลอดภัยของโมเดล AI ชั้นนำได้ถึง 62% ของเวลาทั้งหมด เทียบกับเพียง 8% สำหรับคำสั่งอันตรายในรูปแบบมาตรฐาน
โดยเฉพาะอย่างยิ่ง บทกวีที่แต่งขึ้นด้วยมือมนุษย์มีประสิทธิภาพอย่างเหลือเชื่อ จากโมเดลชั้นนำ 25 ตัวที่ถูกทดสอบ บางตัวถูกหลอกได้สำเร็จมากกว่า 90% ช่องโหว่นี้ดูเหมือนจะมีต้นตอมาจากวิธีที่ LLM สร้างข้อความ นั่นคือมันทำนายคำต่อไปที่มีความเป็นไปได้มากที่สุดตามรูปแบบ (patterns) และจังหวะ โครงสร้าง และความคลุมเครือที่แปลกแหวกแนวของบทกวี ได้รบกวนความสามารถของโมเดลในการรับรู้และกรองเนื้อหาอันตรายนั่นเอง
เทคนิคนี้ไม่ได้จำกัดอยู่แค่บทกวีที่มนุษย์เขียนเท่านั้น นักวิจัยยังใช้ AI เขียนคำสั่งอันตรายที่รู้จักแล้วกว่า 1,200 คำสั่งใหม่ให้อยู่ในรูปแบบบทกวี และบทกวีที่ AI สร้างขึ้นเหล่านั้นก็มีประสิทธิภาพในการหลบเลี่ยงการ์ดป้องกันเช่นเดียวกัน
การจู่โจมด้วยความคิดสร้างสรรค์ต่อหุ่นยนต์ที่ขับเคลื่อนด้วย AI ไม่ได้จำกัดอยู่แค่เพียงข้อความ ในเดือนมกราคม 2026 นักวิจัยจาก UC Santa Cruz ได้แสดงให้เห็นว่า ข้อความหลอกลวงที่วางไว้บนวัตถุทางกายภาพ เช่น ป้าย โปสเตอร์ หรือสติกเกอร์ ที่อยู่ในสภาพแวดล้อมของหุ่นยนต์ สามารถ 'จี้' การตัดสินใจของระบบ AI ที่มีร่างกาย (embodied AI) ได้โดยไม่ต้องแฮกซอฟต์แวร์ เนื่องจากระบบ AI ที่ใช้กล้องจะอ่านข้อความในสภาพแวดล้อมรอบตัวและอาจแปลความมันว่าเป็นคำสั่ง ป้ายที่วางไว้ในตำแหน่งทางยุทธศาสตร์จึงอาจทำให้รถยนต์ไร้คนขับหรือโดรนอัตโนมัติมีพฤติกรรมที่คาดไม่ถึงได้
ฮาร์ดแวร์ของหุ่นยนต์เชิงพาณิชย์เองก็นำมาซึ่งช่องโหว่เพิ่มเติม รายงานข่าวกรองผู้บริหารของ Recorded Future ในปี 2026 ได้บันทึกไว้ว่า หุ่นยนต์ที่มีขายทั่วไปสามารถถูกจี้ผ่านบลูทูธ ลักลอบส่งข้อมูลเสียง วิดีโอ และข้อมูลเชิงพื้นที่ไปยังเซิร์ฟเวอร์ในจีนได้อย่างลับๆ และยังสามารถแพร่เชื้อไปยังหุ่นยนต์ใกล้เคียงแบบไร้สายเพื่อสร้าง 'บอทเน็ตทางกายภาพ' (physical botnets) ได้อีกด้วย ในปี 2025 นักวิจัยค้นพบ 'ประตูลับ' (backdoor) ที่ไม่มีในเอกสารในหุ่นยนต์สี่ขา Go1 ของ Unitree ซึ่งเปิดทางให้เข้าถึงจากระยะไกลได้ ในขณะที่ API ที่เปิดเผยก็อนุญาตให้ผู้โจมตีดูภาพจากกล้องสดๆ ได้โดยไม่ต้องพิสูจน์ตัวตน
ในอีกด้านหนึ่ง งานวิจัยที่ได้รับการตอบรับให้ตีพิมพ์ใน ACM SenSys 2026 พบว่า การโจมตีแบบเจลเบรกส่วนใหญ่มุ่งเน้นไปที่ความหมายของคำสั่ง (prompt semantics) แต่เอเจนต์ที่มีร่างกาย (embodied agents) ยังสามารถถูกควบคุมผ่านการแทรกแซงระดับการกระทำโดยตรง ที่ข้ามผ่านการ์ดป้องกันที่ใช้ข้อความไปได้อย่างสิ้นเชิง ลำดับของการกระทำแต่ละอย่างที่ดูไม่เป็นอันตรายสามารถรวมกันก่อให้เกิดผลลัพธ์ที่อันตรายได้ ซึ่งเป็นช่องโหว่ที่ระบบความปลอดภัยที่มีอยู่ไม่ได้ถูกออกแบบมาเพื่อตรวจจับ
คำตอบสั้นๆ คือ: เกือบทั้งหมด งานวิจัยร่วมจาก King's College London และ Carnegie Mellon University ในเดือนพฤศจิกายน 2025 ได้ทดสอบ LLM หลักๆ ทุกตัวที่ใช้ควบคุมหุ่นยนต์และพบว่า โมเดลทุกตัวล้วนไม่ผ่านการตรวจสอบความปลอดภัยขั้นวิกฤต มีพฤติกรรมเลือกปฏิบัติ และอนุมัติคำสั่งอย่างน้อยหนึ่งคำสั่งที่อาจนำไปสู่อันตรายร้ายแรงทางกายภาพ เมื่อถูกกระตุ้นด้วยรูปแบบที่สร้างสรรค์
การประเมินของทีม Red Team ของ Mandiant ยืนยันว่า 'การแทรกคำสั่ง' (Prompt Injection) ซึ่งเป็นเทคนิคการฝังคำสั่งอันตรายไว้ในอินพุตที่ดูเหมือนปกติ ยังคงเป็นวิธีการโจมตีอันดับต้นๆ สำหรับระบบ AI ผู้เชี่ยวชาญทางทหารก็ได้เตือนแยกต่างหากว่า ฝ่ายตรงข้ามมีแนวโน้มที่จะใช้ประโยชน์จากข้อบกพร่องทางธรรมชาตินี้เพื่อแทรกคำสั่งสำหรับขโมยไฟล์ บิดเบือนข้อมูล หรือทรยศต่อผู้ใช้ที่ไว้วางใจ
วิกฤตความปลอดภัยนี้ลามไปถึงระดับองค์กร Microsoft Copilot Studio ได้รับรหัส CVE-2026-21520 อย่างเป็นทางการ สำหรับช่องโหว่การแทรกคำสั่งผ่านอีเมล ในขณะที่เบราว์เซอร์ Comet ของ Perplexity ก็พ่ายแพ้ต่อการโจมตีแบบ 'Zero-Click' ที่นักวิจัยบอกว่าใช้ 'ไม่ต้องใช้ช่องโหว่, ไม่ต้องให้ผู้ใช้คลิก, และไม่ต้องร้องขอการกระทำที่ละเอียดอ่อนใดๆ' เพื่อโจมตี
นักวิจัยและผู้ปฏิบัติงานด้านความปลอดภัยกำลังรวมตัวกันเพื่อสร้างแนวป้องกันหลายชั้น แม้ว่าจะยังไม่มีโซลูชันใดที่สมบูรณ์ในตอนนี้
ระบบความปลอดภัยที่ตระหนักถึงบริบท (Context-aware safety systems) ถือเป็นการเปลี่ยนแปลงขั้นพื้นฐานที่สุด งานวิจัย Science Robotics เรียกร้องอย่างชัดเจนให้โมเดลพื้นฐานสำหรับหุ่นยนต์ (robotic foundation models) ผนวกรวมกลไกความปลอดภัยที่ตระหนักถึงบริบททางกายภาพและผลลัพธ์ของการกระทำ ไม่ใช่แค่เฉพาะรูปแบบข้อความของคำสั่ง ดังที่ผู้เขียนตั้งข้อสังเกตว่า การจัดตำแหน่ง AI ให้สอดคล้องกับค่านิยมมนุษย์ในระดับภาษานั้น กำลังล้มเหลวอย่างอันตรายในระบบหุ่นยนต์ประมาณหนึ่งในห้า
การปรับโดเมนแบบหลายรูปแบบ (Multimodal domain adaptation) นำเสนอวิธีการฝึกฝนที่ทำให้ระบบหุ่นยนต์ทนทานต่ออินพุตที่เป็นปรปักษ์ทั้งในรูปแบบข้อความและภาพ เพื่อรับมือกับความเป็นจริงที่ว่าการโจมตีสามารถมาพร้อมๆ กันผ่านภาษา รูปภาพ หรือสิ่งเร้าจากสิ่งแวดล้อม
การตรวจจับและคัดกรองเป็นชั้น (Layered detection and screening) คือแนวป้องกันเชิงปฏิบัติในระยะสั้น Mandiant แนะนำการป้องกันเชิงลึก (defense-in-depth) ที่รวมถึงการคัดกรองอินพุตที่สามารถตรวจจับคำสั่งอันตรายที่ซ่อนอยู่หรือถูกปรุงแต่งอย่างสร้างสรรค์ ก่อนที่มันจะไปถึงโมเดล กรอบการตรวจสอบตอนนี้ระบุว่า หากไม่มีชั้นการตรวจจับ ฟีเจอร์ AI จะยังคงเสี่ยงต่อการโจมตีแบบเจลเบรกแม้ในระดับมือสมัครเล่น
Constitutional Classifiers ที่แนะนำโดย Anthropic จะคอยตรวจสอบทั้งอินพุตของผู้ใช้และเอาต์พุตของโมเดลเพื่อปฏิเสธเนื้อหาที่เป็นอันตราย แม้ว่าวิธีนี้จะเพิ่มภาระในการประมวลผลและฝ่ายตรงข้ามก็พยายามหาทางเลี่ยงมันอยู่เรื่อยๆ แต่มันก็เป็นพื้นที่การลงทุนที่สำคัญของอุตสาหกรรม
การบูรณาการเข้ากับ CI/CD ก็กำลังพัฒนาเช่นกัน โดยมีเครื่องมืออย่าง "PromptPwnd" ที่ผุดขึ้นมาเพื่อฝังการทดสอบการแทรกคำสั่ง (prompt injection) ลงในกระบวนการพัฒนา (development pipelines) โดยตรง ทำให้การทดสอบคำสั่งที่เป็นปรปักษ์กลายเป็นส่วนมาตรฐานของการส่งมอบซอฟต์แวร์ ไม่ใช่แค่การคิดภายหลัง
การตอบสนองทางข้อบังคับกำลังพัฒนาไปอย่างรวดเร็ว และข้อความที่ส่งออกมาชัดเจนคือ: การเจลเบรก AI ไม่ใช่แค่ปัญหาทางเทคนิคอีกต่อไป แต่มันคือความเสี่ยงด้านการปฏิบัติตามกฎระเบียบ (compliance liabilities)
พ.ร.บ. AI ของสหภาพยุโรป (EU AI Act) กำหนดบทลงโทษ การรายงานเหตุการณ์ที่บังคับใช้ และข้อกำหนดในการแก้ไขให้กับองค์กรที่ปรับใช้โมเดล AI ที่สามารถถูกเจลเบรกเพื่อสร้างเนื้อหาอันตรายได้ คำสั่ง NIS2 และกฎเฉพาะภาคส่วนในด้านการเงินและการดูแลสุขภาพ ก็สร้างภาระผูกพันคู่ขนานกันไป ข้อผูกพันสำหรับ AI แบบทั่วไป (General-purpose AI) เริ่มทยอยมีผลบังคับใช้ในปี 2025 และกฎระดับระบบเต็มรูปแบบคาดว่าจะมีผลบังคับใช้ภายในปี 2027
กฎหมายคุ้มครองข้อมูล ยังเพิ่มความรับผิดอีกชั้นหนึ่ง การแทรกคำสั่งที่ทำให้เกิดการเปิดเผยข้อมูลส่วนบุคคลโดยไม่ได้รับอนุญาต จะเรียกใช้ภาระผูกพันในการปฏิบัติตามกฎหมายภายใต้ GDPR, PDPO ของฮ่องกง (หลักการคุ้มครองข้อมูลข้อที่ 4), HIPAA และ PCI-DSS สำนักงานคณะกรรมการคุ้มครองข้อมูลส่วนบุคคลของฮ่องกงส่งสัญญาณในปี 2026 ว่าความล้มเหลวด้านความปลอดภัยของ AI ที่ก่อให้เกิดการรั่วไหลของข้อมูล จะถูกปฏิบัติเหมือนเป็นการละเมิดที่บังคับใช้ได้ตามกฎหมาย ไม่ใช่แค่อุบัติเหตุทางเทคนิค
กรอบการทำงานของสหรัฐฯ ก็กำลังเข้มงวดขึ้นเช่นกัน มาตรการ NIST AI RMF Measure 2.6 กำหนดให้ต้องมีการควบคุมที่พิสูจน์ได้ต่อรูปแบบการโจมตีที่เป็นปรปักษ์ที่รู้จัก กรอบการปฏิบัติตามกฎหมาย เช่น ISO 42001 ได้เริ่มกำหนดให้มีมาตรการควบคุมเฉพาะสำหรับการป้องกันและตรวจจับการแทรกคำสั่ง
กฎเฉพาะภาคส่วนอย่าง HIPAA สำหรับการดูแลสุขภาพ, GLBA สำหรับการเงิน, FERPA สำหรับการศึกษา ต่างถือว่าผู้ปรับใช้ (deployer) เป็นฝ่ายที่ต้องรับผิดชอบ ไม่ว่าผู้ให้บริการโมเดลจะมีความรับผิดชอบส่วนหนึ่งหรือไม่ก็ตาม
สายโซ่ของความรับผิดนั้นสำคัญมาก เอเจนต์ AI ทางการแพทย์ที่รั่วไหลข้อมูลสุขภาพที่ได้รับการคุ้มครอง (protected health information) หลังถูกเจลเบรก จะสร้างภาระผูกพันภายใต้ HIPAA ซึ่งองค์กรที่ปรับใช้ไม่สามารถโยนความผิดให้กับผู้ให้บริการโมเดลได้ ก.ล.ต. สหรัฐฯ (SEC) ก็ได้ออกข้อกำหนดในการเปิดเผยข้อมูลด้าน AI ที่ครอบคลุมถึงช่องโหว่ด้านความปลอดภัยเช่นกัน
โดยรวมแล้ว งานวิจัยเหล่านี้พิสูจน์หักล้างข้อสันนิษฐานที่ว่าการฝึกความปลอดภัยในระดับแชตบอตจะส่งผลต่อความปลอดภัยทางกายภาพได้ หุ่นยนต์ที่ปฏิเสธที่จะ 'ขับรถตกสะพาน' ด้วยภาษาตรงไปตรงมา กลับวางแผนการกระทำนั้นอย่างแม่นยำเมื่อมันคิดว่าตัวเองกำลังบรรยายฉากภาพยนตร์ คำขอวิธีการทำระเบิดที่ห่อหุ้มด้วยบทกวีประสบความสำเร็จถึง 62% ในขณะที่คำขอโดยตรงเกือบจะล้มเหลวเสมอ
ในขณะที่ LLMs กำลังกลายเป็นชั้นควบคุมสำหรับโดรน ยานยนต์ไร้คนขับ หุ่นยนต์ในโรงงาน และผู้ช่วยในบ้าน พื้นผิวการโจมตีจึงขยายตัวเร็วกว่าการป้องกัน นักวิจัยยอมรับอย่างกว้างขวางแล้วว่า การแทรกคำสั่ง (Prompt Injection) ไม่ใช่แค่ความท้าทายทางเทคนิคอีกต่อไป แต่เป็นปัญหาด้านนโยบายและธรรมาภิบาล การล้มเหลวในการแก้ไขความเสี่ยงเหล่านี้อาจกัดกร่อนความไว้วางใจในแอปพลิเคชัน AI และเป็นอุปสรรคต่อการยอมรับในวงกว้าง
หนทางข้างหน้าต้องการการยอมรับว่า ความปลอดภัยระดับภาษานั้นไม่เพียงพอเมื่อภาษาเข้ามาควบคุมเครื่องจักรทางกายภาพ สถาปัตยกรรมที่ตระหนักถึงบริบท การทำ Red-Teaming อย่างบังคับ การคัดกรองอินพุตหลายชั้น และกรอบข้อบังคับที่บังคับใช้ได้ ล้วนเป็นสิ่งจำเป็น และมาตรการเหล่านี้ยังไม่มีสิ่งใดที่เป็นแนวปฏิบัติมาตรฐานเลย
Comments
0 comments