การศึกษาครั้งนี้ต่อยอดมาจากงานวิจัยก่อนหน้าของ Cisco ที่ชื่อว่า "Death by a Thousand Prompts" ซึ่งเผยให้เห็นถึงความเปราะบางที่ร้ายแรงยิ่งกว่าในกลุ่มโมเดลแบบเปิด (Open-weight Models) โดยโมเดล Mistral Large-2 มีอัตราถูกโจมตีสำเร็จในการสนทนาต่อเนื่องสูงถึง 92.78% ซึ่งนับว่าสูงกว่าการโจมตีแบบคำถามเดียวถึง 2 ถึง 10 เท่า
ช่องว่างระหว่างความปลอดภัยในการทดสอบแบบคำถามเดียวกับแบบต่อเนื่องนั้น 'ห่างกันราวฟ้ากับเหว' เมื่อดูจากตัวเลขของกลุ่มโมเดลเชิงพาณิชย์ที่ปิดเป็นความลับ (Closed-source Models) อัตราความสำเร็จในการโจมตีแบบต่อเนื่อง (Multi-turn ASR) อยู่ที่ตั้งแต่ 7.89% ไปจนถึง 88.30% ในขณะที่การทดสอบแบบคำถามเดียวของโมเดลกลุ่มเดียวกันอยู่ที่เพียง 2.19% ถึง 64.91%
แปดในสิบห้าของโมเดลที่ทดสอบมีช่องว่างความสำเร็จในการโจมตีระหว่างสองรูปแบบนี้เกิน 15 เปอร์เซ็นต์ ซึ่งนี่เป็นบทพิสูจน์ว่าโมเดลที่ถูกจัดอันดับว่า 'ปลอดภัย' จากการวัดผลแบบคำถามเดียวนั้น มักจะพังครืนลงเมื่อถูกกดดันอย่างต่อเนื่อง
Cisco ทดสอบแต่ละโมเดลทั้งในโหมดที่ใช้การให้เหตุผล (Reasoning) และไม่ใช้การให้เหตุผล (Non-Reasoning) หากมีให้เลือกใช้ นี่คือผลงานของค่ายต่างๆ ภายใต้การโจมตีแบบต่อเนื่อง :
xAI – Grok 4.1 Fast (โหมดไม่ใช้การให้เหตุผล) ครองตำแหน่งโมเดลที่เปราะบางที่สุดในกลุ่มด้วยอัตราการถูกโจมตีสำเร็จสูงถึง 88.30% อย่างไรก็ตาม เมื่อเปิดใช้โหมดการให้เหตุผล อัตรานี้ตกลงมาอยู่ที่ 43.47% ซึ่งถือเป็นการเปลี่ยนแปลงด้านความปลอดภัยที่ขึ้นอยู่กับการตั้งค่าเพียงอย่างเดียว เป็นพฤติกรรมที่ไม่มีมาตรฐานสาธารณะตัวไหนเคยตรวจพบมาก่อน
Google – Gemini 3 Pro อัตราความสำเร็จในการโจมตีพุ่งกระฉูดจาก 18.10% ในการทดสอบแบบคำถามเดียว ไปเป็น 73.35% ในการโจมตีต่อเนื่อง นับเป็นการเพิ่มขึ้นประมาณ 4 เท่า และเป็นหนึ่งในช่องว่างที่กว้างที่สุดในบรรดาโมเดลที่นำมาทดสอบ
OpenAI – GPT-5.4 แม้จะมีคะแนนต้านทานการโจมตีดีที่สุดในกลุ่มในการทดสอบคำถามเดียวที่ 2.74% แต่ภายใต้การโจมตีต่อเนื่อง ตัวเลขดังกล่าวกระโดดขึ้นไปถึง 24.68% หรือเพิ่มขึ้นประมาณ 9 เท่า ซึ่งการเพิ่มขึ้นเกือบสิบเท่านี้บั่นทอนความเชื่อที่ว่าคะแนนคำถามเดี่ยวที่ต่ำจะเป็นตัวบ่งบอกถึงความปลอดภัยที่แข็งแกร่ง
Anthropic – Claude ตระกูลต่างๆ (Opus 4.5/4.6, Sonnet 4.5/4.6, Haiku 4.5) พวกเขามีอัตราการปฏิเสธคำถามเดียวที่แข็งแกร่งที่สุดในกลุ่ม โดยอยู่ที่ 2.19% ถึง 3.64% แต่ก็ยังคงมีอัตราความสำเร็จในการโจมตีต่อเนื่องที่ระดับ 11.16% ถึง 16.20% ซึ่งแสดงให้เห็นว่าแนวทางการจัดวางแนวทาง (Alignment) ของ Anthropic อาจจะช่วยยกระดับขั้นต่ำของความปลอดภัย แต่ก็ไม่สามารถกำจัดช่องโหว่จากการโจมตีต่อเนื่องได้หมด
Amazon – Nova 2 Lite เป็นโมเดลที่ต้านทานการโจมตีได้ดีที่สุดในกลุ่ม ด้วยอัตราถูกโจมตีสำเร็จในการสนทนาต่อเนื่องที่ 7.89% อย่างไรก็ตาม Cisco ก็ยังคงขึ้นป้ายเตือนว่านี่คือ "ความเสี่ยงตกค้างที่มีนัยสำคัญ" และไม่ควรตีความว่าโมเดลนี้ปลอดภัยสนิท
Cisco ไม่ได้ใช้วิธีการโจมตีเพียงรูปแบบเดียว พวกเขาจำแนกกลยุทธ์ของฝ่ายตรงข้ามออกเป็น 5 กลุ่มหลักๆ และทดสอบกับโมเดลทุกรุ่นเพื่อเจาะหาจุดอ่อน ซึ่งเผยให้เห็นว่า โมเดลแต่ละตัวมีจุดเสียหายที่ไม่เหมือนกัน :
ความแปรปรวนของผลลัพธ์ในบรรดากลยุทธ์เหล่านี้มีนัยสำคัญอย่างยิ่ง โมเดลที่ทนต่อการโจมตีรูปแบบหนึ่งได้ดี อาจพังพินาศเมื่อเจอกับอีกรูปแบบหนึ่ง ซึ่งตอกย้ำถึงความจำเป็นในการประเมินเป็นรายกลยุทธ์ ไม่ใช่การมองแค่คะแนนความปลอดภัยโดยรวมเพียงตัวเดียว
งานวิจัยของ Cisco ไม่ใช่แค่การทำแคตตาล็อกความล้มเหลว แต่มันยังเป็นคู่มือการปรับใช้สำหรับองค์กรที่ใส่ใจเรื่องความมั่นคงปลอดภัยอีกด้วย นี่คือข้อปฏิบัติสำคัญที่ทีมวิจัยแนะนำ :
เลิกพึ่งพาผลทดสอบ 'คำถามเดียว' มาตรฐานการวัดผลแบบคำถามเดียวทำให้การจัดอันดับโมเดลผิดเพี้ยนและบดบัง 'ความเสี่ยงหาง' (Tail Risk) เอาไว้ การประเมินใดๆ ที่ไม่รวมการโจมตีแบบต่อเนื่องและปรับเปลี่ยนได้ จะให้ภาพของความเปราะบางในโลกแห่งความเป็นจริงที่ไม่สมบูรณ์
ทำให้การทดสอบแบบต่อเนื่องเป็นภาคบังคับ ก่อนที่จะจัดซื้อหรือนำไปใช้งานจริง ผู้ซื้อและหน่วยงานกำกับดูแลควรต้องถามว่า "โมเดลนี้ทนต่อการโจมตีแบบปรับเปลี่ยนและต่อเนื่องได้ดีแค่ไหน?" ถ้าผู้ขายตอบไม่ได้ โมเดลนั้นก็ยังไม่พร้อมสำหรับการใช้งานจริงที่มีความเสี่ยงสูง
จับคู่ระบบป้องกันของคุณให้ตรงกับแบบจำลองภัยคุกคาม การโจมตีแบบต่อเนื่องใช้ประโยชน์จากประวัติการสนทนาและการกัดเซาะขอบเขตการป้องกันทีละน้อย ดังนั้น ระบบป้องกันของคุณต้องทำงานในระดับเซสชันการสนทนา คอยเฝ้าระวังรูปแบบการสนทนาที่ผิดปกติ แนวโน้มการบานปลาย และการบิดเบือนบริบทแบบสะสม ไม่ใช่แค่การใช้ตัวกรองคำสำคัญแบบถามต่อคำถาม
ทดสอบการรับมือการโจมตีอย่างต่อเนื่องด้วยสถานการณ์แบบต่อเนื่อง การทดสอบเจาะระบบแค่ครั้งเดียวด้วยคำถามล่อลวงแบบส่งเดียวนั้นไม่เพียงพอ องค์กรต่างๆ ต้องมีการ Red-team อย่างสม่ำเสมอ จำลองการโจมตีแบบซ้ำแล้วซ้ำเล่าและใช้จิตวิทยาหลอกล่อหนักๆ เหมือนกับที่ศัตรูตัวจริงใช้กัน
วางระบบป้องกันหลายชั้น ไม่มีระบบกฎเกณฑ์หรือเทคนิคการจัดวางแนวทางใดๆ เพียงตัวเดียวที่จะหยุดยั้งรูปแบบการโจมตีทั้งหมดได้ Cisco แนะนำให้รวมการจัดวางแนวทางระดับโมเดลเข้ากับตัวกรองอินพุต/เอาต์พุต การตรวจจับความผิดปกติทางพฤติกรรม การจำกัดความถี่ในระดับเซสชัน และการมีมนุษย์เข้ามาร่วมตรวจสอบในงานที่มีเดิมพันสูง
พิจารณาปรัชญาการให้ความสำคัญเรื่องความปลอดภัยของห้องวิจัย Cisco สังเกตเห็นรูปแบบอย่างหนึ่ง นั่นคือโมเดลจากห้องวิจัยที่เน้นย้ำเรื่องความปลอดภัยต่อสาธารณะอย่างแข็งขัน (เช่น Google) มักจะมีช่องว่างของอัตราถูกโจมตีระหว่างการทดสอบคำถามเดียวกับต่อเนื่อง 'แคบกว่า' ส่วนห้องวิจัยที่ให้ความสำคัญกับความสามารถเป็นหลัก (เช่น xAI) มักจะมีช่องว่างที่ 'กว้างกว่า' องค์กรควรนำปัจจัยเชิงสัญญาณทางวัฒนธรรมนี้มาใช้ประกอบการประเมินผู้ขายด้วย
ใช้เครื่องมือประเมินที่มีโครงสร้างและทำซ้ำได้ แพลตฟอร์ม "Cisco AI Validation" ซึ่งปัจจุบันเป็นส่วนหนึ่งของ "LLM Security Leaderboard" สาธารณะ ช่วยให้องค์กรต่างๆ สร้างคะแนนความเสี่ยงแบบต่อเนื่องที่เปรียบเทียบกันได้ และจับคู่ภัยคุกคามเข้ากับกรอบอนุกรมวิธาน "AI Safety and Security Framework" ของ Cisco ได้ การใช้เครื่องมือวัดผลที่สม่ำเสมอก่อนการปรับใช้จะช่วยป้องกัน 'การเลือกช็อปปิ้งมาตรฐาน' (Benchmark Shopping) โดยผู้ขายได้
Comments
0 comments