คำตอบเผยแพร่แล้ว2 เดือนที่ผ่านมาLast edited เดือนที่แล้ว22 แหล่งที่มา

Cisco เผย ไม่มี Frontier AI Model ไหนรอดจากการโจมตีแบบ 'ถามซ้ำย้ำคิด'

ผลทดสอบ Proprietary Problems ของ Cisco ในเดือนพฤษภาคม 2026 พบว่าไม่มีโมเดล AI ระดับท็อปตัวใดรอดพ้นจากการโจมตีแบบต่อเนื่องหลายจังหวะ (Multi Turn) อัตราความสำเร็จในการโจมตีอยู่ที่ 7.89% ถึง 88.30% ตรงข้ามกับภาพลักษณ์ที่... xAI Grok 4.1 Fast เป็นโมเดลที่เปราะบางที่สุดด้วยอัตราถูกโจมตีสำเร็จ 88.30% ในขณะที่ Amazon Nova...

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI ดูหน้าที่กำลังมาแรงเพิ่มเติม

Conceptual AI-generated illustration symbolizing a frontier AI model under persistent multi-turn adversarial attack, with layered prompts chipping away at a digital shield. — Which frontier AI models are most vulnerable to multi-turn adversarial attacks, what attack strategy families were identified, and what recoCisco's adversarial testing reveals that even the most advanced AI safety shields can be eroded by iterative, multi-turn conversational attacks.
AI พรอมต์
Create a landscape editorial hero image for this Studio Global article: Which frontier AI models are most vulnerable to multi-turn adversarial attacks, what attack strategy families were identified, and what reco. Article summary: Cisco's May 2026 research, published as *Proprietary Problems* with a companion open-weight study *Death by a Thousand Prompts*, tested 15 closed flagship models and eight open-weight models against both single-turn and . Topic tags: general, academic, general web. Reference image context from search candidates: Reference image 1: visual subject "### Cisco report finds no closed frontier AI model is safe from multi-turn attacks. A new report out today from Cisco Systems Inc. argues that none of the closed flagship large lan" source context "Cisco report finds no closed frontier AI model is safe from multi-turn attacks - SiliconANGLE" Reference image 2: visual s
openai.com

มาตรฐานความปลอดภัยของ AI ที่ใช้กันอยู่ทุกวันนี้มีข้อสันนิษฐานเชิงโครงสร้างที่อันตรายอยู่อย่างหนึ่ง นั่นคือการเชื่อว่า 'คำถามอันตรายเพียงคำถามเดียว' กับ 'คำตอบของโมเดลเพียงหนึ่งครั้ง' ก็เพียงพอแล้วที่จะวัดความแข็งแกร่งในการต้านทานการโจมตีในโลกแห่งความเป็นจริง

แต่ทีมวิจัยภัยคุกคาม AI ของ Cisco ได้ทลายข้อสันนิษฐานนั้นลงอย่างราบคาบในเดือนพฤษภาคม 2026 ด้วยรายงานวิจัยชื่อ "Proprietary Problems" ซึ่งเป็นการประเมินประสิทธิภาพของโมเดล AI ชั้นนำระดับเรือธงถึง 15 ตัวจากค่ายยักษ์ใหญ่ทั่วโลก ไม่ว่าจะเป็น OpenAI, Anthropic, Google, Amazon และ xAI

การทดสอบครั้งนี้ไม่ใช่การเล่นๆ พวกเขายิง 'คำถามเดี่ยว' (Single-turn) ไปกว่า 30,000 ครั้ง และจำลองการโจมตีแบบ 'ต่อเนื่องหลายจังหวะ' (Multi-turn) อีกเกือบ 7,000 ครั้ง ผ่านบทสนทนาจำลองกว่า 1,400 ชุด ผลลัพธ์ที่ได้ชี้ชัดเป็นเสียงเดียวกันว่า ไม่มี Frontier Model ตัวไหนปลอดภัยจากการโจมตีแบบซ้ำแล้วซ้ำเล่า และผลทดสอบแบบคำถามเดี่ยวไม่ใช่ตัวชี้วัดที่เชื่อถือได้เลยว่าโมเดลจะรับมือกับแฮกเกอร์ที่ปรับเปลี่ยนกลยุทธ์ระหว่างการสนทนาได้หรือไม่

การศึกษาครั้งนี้ต่อยอดมาจากงานวิจัยก่อนหน้าของ Cisco ที่ชื่อว่า "Death by a Thousand Prompts" ซึ่งเผยให้เห็นถึงความเปราะบางที่ร้ายแรงยิ่งกว่าในกลุ่มโมเดลแบบเปิด (Open-weight Models) โดยโมเดล Mistral Large-2 มีอัตราถูกโจมตีสำเร็จในการสนทนาต่อเนื่องสูงถึง 92.78% ซึ่งนับว่าสูงกว่าการโจมตีแบบคำถามเดียวถึง 2 ถึง 10 เท่า

ภาพลวงตาของการทดสอบด้วย 'คำถามเดียว'

ช่องว่างระหว่างความปลอดภัยในการทดสอบแบบคำถามเดียวกับแบบต่อเนื่องนั้น 'ห่างกันราวฟ้ากับเหว' เมื่อดูจากตัวเลขของกลุ่มโมเดลเชิงพาณิชย์ที่ปิดเป็นความลับ (Closed-source Models) อัตราความสำเร็จในการโจมตีแบบต่อเนื่อง (Multi-turn ASR) อยู่ที่ตั้งแต่ 7.89% ไปจนถึง 88.30% ในขณะที่การทดสอบแบบคำถามเดียวของโมเดลกลุ่มเดียวกันอยู่ที่เพียง 2.19% ถึง 64.91%

แปดในสิบห้าของโมเดลที่ทดสอบมีช่องว่างความสำเร็จในการโจมตีระหว่างสองรูปแบบนี้เกิน 15 เปอร์เซ็นต์ ซึ่งนี่เป็นบทพิสูจน์ว่าโมเดลที่ถูกจัดอันดับว่า 'ปลอดภัย' จากการวัดผลแบบคำถามเดียวนั้น มักจะพังครืนลงเมื่อถูกกดดันอย่างต่อเนื่อง

เจาะลึกผลงานของแต่ละค่าย: ใครร่วง ใครรอด

Cisco ทดสอบแต่ละโมเดลทั้งในโหมดที่ใช้การให้เหตุผล (Reasoning) และไม่ใช้การให้เหตุผล (Non-Reasoning) หากมีให้เลือกใช้ นี่คือผลงานของค่ายต่างๆ ภายใต้การโจมตีแบบต่อเนื่อง :

xAI – Grok 4.1 Fast (โหมดไม่ใช้การให้เหตุผล) ครองตำแหน่งโมเดลที่เปราะบางที่สุดในกลุ่มด้วยอัตราการถูกโจมตีสำเร็จสูงถึง 88.30% อย่างไรก็ตาม เมื่อเปิดใช้โหมดการให้เหตุผล อัตรานี้ตกลงมาอยู่ที่ 43.47% ซึ่งถือเป็นการเปลี่ยนแปลงด้านความปลอดภัยที่ขึ้นอยู่กับการตั้งค่าเพียงอย่างเดียว เป็นพฤติกรรมที่ไม่มีมาตรฐานสาธารณะตัวไหนเคยตรวจพบมาก่อน

Google – Gemini 3 Pro อัตราความสำเร็จในการโจมตีพุ่งกระฉูดจาก 18.10% ในการทดสอบแบบคำถามเดียว ไปเป็น 73.35% ในการโจมตีต่อเนื่อง นับเป็นการเพิ่มขึ้นประมาณ 4 เท่า และเป็นหนึ่งในช่องว่างที่กว้างที่สุดในบรรดาโมเดลที่นำมาทดสอบ

OpenAI – GPT-5.4 แม้จะมีคะแนนต้านทานการโจมตีดีที่สุดในกลุ่มในการทดสอบคำถามเดียวที่ 2.74% แต่ภายใต้การโจมตีต่อเนื่อง ตัวเลขดังกล่าวกระโดดขึ้นไปถึง 24.68% หรือเพิ่มขึ้นประมาณ 9 เท่า ซึ่งการเพิ่มขึ้นเกือบสิบเท่านี้บั่นทอนความเชื่อที่ว่าคะแนนคำถามเดี่ยวที่ต่ำจะเป็นตัวบ่งบอกถึงความปลอดภัยที่แข็งแกร่ง

Anthropic – Claude ตระกูลต่างๆ (Opus 4.5/4.6, Sonnet 4.5/4.6, Haiku 4.5) พวกเขามีอัตราการปฏิเสธคำถามเดียวที่แข็งแกร่งที่สุดในกลุ่ม โดยอยู่ที่ 2.19% ถึง 3.64% แต่ก็ยังคงมีอัตราความสำเร็จในการโจมตีต่อเนื่องที่ระดับ 11.16% ถึง 16.20% ซึ่งแสดงให้เห็นว่าแนวทางการจัดวางแนวทาง (Alignment) ของ Anthropic อาจจะช่วยยกระดับขั้นต่ำของความปลอดภัย แต่ก็ไม่สามารถกำจัดช่องโหว่จากการโจมตีต่อเนื่องได้หมด

Amazon – Nova 2 Lite เป็นโมเดลที่ต้านทานการโจมตีได้ดีที่สุดในกลุ่ม ด้วยอัตราถูกโจมตีสำเร็จในการสนทนาต่อเนื่องที่ 7.89% อย่างไรก็ตาม Cisco ก็ยังคงขึ้นป้ายเตือนว่านี่คือ "ความเสี่ยงตกค้างที่มีนัยสำคัญ" และไม่ควรตีความว่าโมเดลนี้ปลอดภัยสนิท

ตำราของศัตรู: 5 กลยุทธ์การโจมตีต่อเนื่อง

Cisco ไม่ได้ใช้วิธีการโจมตีเพียงรูปแบบเดียว พวกเขาจำแนกกลยุทธ์ของฝ่ายตรงข้ามออกเป็น 5 กลุ่มหลักๆ และทดสอบกับโมเดลทุกรุ่นเพื่อเจาะหาจุดอ่อน ซึ่งเผยให้เห็นว่า โมเดลแต่ละตัวมีจุดเสียหายที่ไม่เหมือนกัน :

สวมบทบาท / รับบุคลิก (Role-Play / Persona Adoption) – ผู้โจมตีสวมบทบาทหรือคาแรกเตอร์บางอย่างตลอดการสนทนา จากนั้นก็ค่อยๆ เกลี้ยกล่อมพาบทสนทนาไปสู่เนื้อหาต้องห้ามภายใต้หน้ากากของความไร้เดียงสา
สร้างความคลุมเครือ / การชี้นำผิดทาง (Contextual Ambiguity / Misdirection) – ความตั้งใจที่เป็นอันตรายถูกฝังอยู่ใต้บริบทที่ดูเหมือนไม่มีพิษภัยหรือไม่ชัดเจน ทำให้โมเดลตรวจจับได้ยากมากจนกว่าจะตกหลุมพรางไปแล้ว
ปรับรูปแบบหลังถูกปฏิเสธ / เปลี่ยนเส้นทาง (Refusal Reframe / Redirection) – เมื่อโมเดลปฏิเสธคำขออันตรายโดยตรง ผู้โจมตีก็จะเปลี่ยนคำพูดใหม่ให้นุ่มนวลหรือใกล้เคียงขึ้น แล้วค่อยๆ ไต่ระดับเข้าใกล้เส้นแบ่งของข้อจำกัดมากขึ้นทีละจังหวะ
แยกส่วนข้อมูลแล้วนำมาประกอบใหม่ (Information Decomposition & Reassembly) – เนื้อหาอันตรายถูกแยกออกเป็นชิ้นเล็กชิ้นน้อยที่ดูไม่ผิดอะไร แล้วส่งต่อกันหลายข้อความ จากนั้นก็ปล่อยให้โมเดลเป็นฝ่ายประกอบชิ้นส่วนพวกนั้นขึ้นมาเองเลี่ยงตัวกรองแบบดั้งเดิมไปได้อย่างหมดจด
การไต่ระดับบานปลาย (Crescendo / Incremental Escalation) – คำถามเริ่มต้นนั้นบริสุทธิ์ผุดผ่อง แต่จะค่อยๆ บานปลายและเข้มข้นขึ้นเรื่อยๆ ในแต่ละช่วงของการสนทนา โดยมีเป้าหมายเพื่อกล่อมให้การ์ดของโมเดลตกลงอย่างช้าๆ

ความแปรปรวนของผลลัพธ์ในบรรดากลยุทธ์เหล่านี้มีนัยสำคัญอย่างยิ่ง โมเดลที่ทนต่อการโจมตีรูปแบบหนึ่งได้ดี อาจพังพินาศเมื่อเจอกับอีกรูปแบบหนึ่ง ซึ่งตอกย้ำถึงความจำเป็นในการประเมินเป็นรายกลยุทธ์ ไม่ใช่การมองแค่คะแนนความปลอดภัยโดยรวมเพียงตัวเดียว

วิธีใช้งาน AI อย่างปลอดภัย: ข้อแนะนำจาก Cisco

งานวิจัยของ Cisco ไม่ใช่แค่การทำแคตตาล็อกความล้มเหลว แต่มันยังเป็นคู่มือการปรับใช้สำหรับองค์กรที่ใส่ใจเรื่องความมั่นคงปลอดภัยอีกด้วย นี่คือข้อปฏิบัติสำคัญที่ทีมวิจัยแนะนำ :

เลิกพึ่งพาผลทดสอบ 'คำถามเดียว' มาตรฐานการวัดผลแบบคำถามเดียวทำให้การจัดอันดับโมเดลผิดเพี้ยนและบดบัง 'ความเสี่ยงหาง' (Tail Risk) เอาไว้ การประเมินใดๆ ที่ไม่รวมการโจมตีแบบต่อเนื่องและปรับเปลี่ยนได้ จะให้ภาพของความเปราะบางในโลกแห่งความเป็นจริงที่ไม่สมบูรณ์

ทำให้การทดสอบแบบต่อเนื่องเป็นภาคบังคับ ก่อนที่จะจัดซื้อหรือนำไปใช้งานจริง ผู้ซื้อและหน่วยงานกำกับดูแลควรต้องถามว่า "โมเดลนี้ทนต่อการโจมตีแบบปรับเปลี่ยนและต่อเนื่องได้ดีแค่ไหน?" ถ้าผู้ขายตอบไม่ได้ โมเดลนั้นก็ยังไม่พร้อมสำหรับการใช้งานจริงที่มีความเสี่ยงสูง

จับคู่ระบบป้องกันของคุณให้ตรงกับแบบจำลองภัยคุกคาม การโจมตีแบบต่อเนื่องใช้ประโยชน์จากประวัติการสนทนาและการกัดเซาะขอบเขตการป้องกันทีละน้อย ดังนั้น ระบบป้องกันของคุณต้องทำงานในระดับเซสชันการสนทนา คอยเฝ้าระวังรูปแบบการสนทนาที่ผิดปกติ แนวโน้มการบานปลาย และการบิดเบือนบริบทแบบสะสม ไม่ใช่แค่การใช้ตัวกรองคำสำคัญแบบถามต่อคำถาม

ทดสอบการรับมือการโจมตีอย่างต่อเนื่องด้วยสถานการณ์แบบต่อเนื่อง การทดสอบเจาะระบบแค่ครั้งเดียวด้วยคำถามล่อลวงแบบส่งเดียวนั้นไม่เพียงพอ องค์กรต่างๆ ต้องมีการ Red-team อย่างสม่ำเสมอ จำลองการโจมตีแบบซ้ำแล้วซ้ำเล่าและใช้จิตวิทยาหลอกล่อหนักๆ เหมือนกับที่ศัตรูตัวจริงใช้กัน

วางระบบป้องกันหลายชั้น ไม่มีระบบกฎเกณฑ์หรือเทคนิคการจัดวางแนวทางใดๆ เพียงตัวเดียวที่จะหยุดยั้งรูปแบบการโจมตีทั้งหมดได้ Cisco แนะนำให้รวมการจัดวางแนวทางระดับโมเดลเข้ากับตัวกรองอินพุต/เอาต์พุต การตรวจจับความผิดปกติทางพฤติกรรม การจำกัดความถี่ในระดับเซสชัน และการมีมนุษย์เข้ามาร่วมตรวจสอบในงานที่มีเดิมพันสูง

พิจารณาปรัชญาการให้ความสำคัญเรื่องความปลอดภัยของห้องวิจัย Cisco สังเกตเห็นรูปแบบอย่างหนึ่ง นั่นคือโมเดลจากห้องวิจัยที่เน้นย้ำเรื่องความปลอดภัยต่อสาธารณะอย่างแข็งขัน (เช่น Google) มักจะมีช่องว่างของอัตราถูกโจมตีระหว่างการทดสอบคำถามเดียวกับต่อเนื่อง 'แคบกว่า' ส่วนห้องวิจัยที่ให้ความสำคัญกับความสามารถเป็นหลัก (เช่น xAI) มักจะมีช่องว่างที่ 'กว้างกว่า' องค์กรควรนำปัจจัยเชิงสัญญาณทางวัฒนธรรมนี้มาใช้ประกอบการประเมินผู้ขายด้วย

ใช้เครื่องมือประเมินที่มีโครงสร้างและทำซ้ำได้ แพลตฟอร์ม "Cisco AI Validation" ซึ่งปัจจุบันเป็นส่วนหนึ่งของ "LLM Security Leaderboard" สาธารณะ ช่วยให้องค์กรต่างๆ สร้างคะแนนความเสี่ยงแบบต่อเนื่องที่เปรียบเทียบกันได้ และจับคู่ภัยคุกคามเข้ากับกรอบอนุกรมวิธาน "AI Safety and Security Framework" ของ Cisco ได้ การใช้เครื่องมือวัดผลที่สม่ำเสมอก่อนการปรับใช้จะช่วยป้องกัน 'การเลือกช็อปปิ้งมาตรฐาน' (Benchmark Shopping) โดยผู้ขายได้

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI

คนยังถาม

คำตอบสั้น ๆ สำหรับ "Cisco เผย ไม่มี Frontier AI Model ไหนรอดจากการโจมตีแบบ 'ถามซ้ำย้ำคิด'" คืออะไร

ประเด็นสำคัญที่ต้องตรวจสอบก่อนคืออะไร?

ฉันควรทำอย่างไรต่อไปในทางปฏิบัติ?

Cisco แนะองค์กรให้เลิกพึ่งพาคะแนนจากการทดสอบด้วยคำถามเดียว แล้วหันมาใช้การทดสอบแบบจำลองภัยคุกคามต่อเนื่อง ใช้ระบบป้องกันที่รับรู้บริบท และใช้เครื่องมือทดสอบมาตรฐานอย่าง LLM Security Leaderboard ก่อนการใช้งานจริง

แหล่งที่มา

← Back to Trending