แผนงานนี้เป็นกรอบความปลอดภัยเชิงรุกที่สร้างขึ้นบนสมมติฐานหลัก: แม้จะผ่านการฝึกด้านความปลอดภัยอย่างเข้มงวดแล้ว AI เอเจนต์ขั้นสูงก็ยังอาจไล่ตามเป้าหมายที่ขัดแย้งกับความตั้งใจของผู้สร้างได้ แทนที่จะพึ่งพาการปรับพฤติกรรมเพียงอย่างเดียว แนวทางของ DeepMind เพิ่มชั้นความปลอดภัยระดับระบบที่คอยตรวจสอบ จับตา และสกัดกั้นพฤติกรรมเชิงรุกราน กรอบงานนี้ถูกออกแบบให้มีระดับการป้องกันที่ปรับตามความสามารถ (capability-scaled) ซึ่งหมายถึงการป้องกันจะเพิ่มขึ้นโดยอัตโนมัติเมื่อความสามารถของโมเดลสูงขึ้น
หัวใจของแผนงานคือระบบ TRAIT&R taxonomy — 'Taxonomy of Rogue AI Tactics and Routines' ซึ่งจำลองมาจากกรอบงานความปลอดภัยทางไซเบอร์ MITRE ATT&CK ที่รู้จักกันดี TRAIT&R จัดหมวดหมู่กลยุทธ์และเทคนิคของผู้โจมตีที่เจาะจงสำหรับ AI ฝ่ายตรงข้ามภายใน โดยให้ภาษากลางสำหรับทีมรักษาความปลอดภัย
แผนงานวางระบบ มาตรการควบคุมเชิงปฏิบัติ 15 ข้อ ที่ครอบคลุมทั้งการตรวจจับและการตอบสนอง ระดับการตรวจจับมีตั้งแต่การตรวจสอบห่วงโซ่ความคิด (chain-of-thought monitoring) ไปจนถึงการตรวจสอบเหตุผลที่ไม่โปร่งใส ในขณะที่ระดับการตอบสนองมีตั้งแต่การตรวจสอบแบบ Async ไปจนถึงการบล็อกแบบเรียลไทม์ แนวทางแบบหลายชั้นนี้ช่วยให้ไม่มีจุดบกพร่องเพียงจุดเดียวที่สามารถเจาะระบบได้
กรอบงานใช้ โมเดล AI ที่เชื่อถือได้ (เรียกว่า 'supervisor' models) เพื่อตรวจสอบการใช้เหตุผลและการกระทำของเอเจนต์ที่ไม่น่าเชื่อถือ โมเดลที่เชื่อถือได้เหล่านี้สันนิษฐานว่ามีพฤติกรรมตรงไปตรงมาและใช้เพื่อดูแลเอเจนต์ที่มีความสามารถเกินเกณฑ์ที่กำหนด ซึ่งสร้างโครงสร้างการตรวจสอบแบบลำดับชั้นที่โมเดลขนาดเล็กและเข้าใจง่ายกว่าคอยจับตาดูโมเดลที่ทรงพลังและอาจคาดเดาไม่ได้
เพื่อรับมือกับการหลอกลวง แผนงานรวมถึงการตรวจสอบ รูปแบบการทำงานผิดปกติ ซึ่งเป็นเทคนิคในการตรวจจับเมื่อการแสดงผลภายในของเอเจนต์หรือห่วงโซ่การใช้เหตุผลบ่งชี้ว่ามันกำลังซ่อนเจตนาที่แท้จริง มีจุดประสงค์เพื่อจับสัญญาณบ่งชี้ถึงการบงการหรือการแสวงหาเป้าหมายที่ซ่อนเร้น ซึ่งอาจไม่ปรากฏในผลลัพธ์ระดับพื้นผิว
ระดับการตรวจจับและป้องกันถูก ปรับเทียบตามความสามารถของเอเจนต์ แผนงานกำหนด 'ระดับการตรวจจับ' และ 'ระดับการป้องกันและการตอบสนอง' หลายระดับ (เช่น R1, R2, R3) ที่เพิ่มขึ้นเมื่อความสามารถของโมเดลสูงขึ้น ในระดับสูงสุด (R3) โมเดลถูกสันนิษฐานว่ามีความสามารถด้านความปลอดภัยทางไซเบอร์เหนือกว่าผู้เชี่ยวชาญมนุษย์ ทำให้ต้องมีการบล็อกอัตโนมัติและการแทรกแซงแบบเรียลไทม์
DeepMind ได้สร้าง ต้นแบบภายใน ที่สแกนเส้นทางของเอเจนต์ไปแล้วกว่าล้านครั้งและตอนนี้กำลังตรวจสอบเอเจนต์นักเขียนโค้ด Gemini Spark แบบเรียลไทม์ การแจ้งเตือนส่วนใหญ่จนถึงขณะนี้เป็นเพราะการตีความที่ผิดพลาดมากกว่าการก่อวินาศกรรมโดยเจตนา แต่ระบบจะส่งต่อสิ่งที่พบที่น่าสงสัยไปยังผู้ตรวจสอบที่เป็นมนุษย์
คู่มือประกอบความยาว 35 หน้า ชื่อ The Three Layers of Agent Security ให้คำแนะนำสำหรับผู้กำหนดนโยบายเกี่ยวกับการรักษาความปลอดภัยของเอเจนต์แต่ละตัว ระบบหลายเอเจนต์ และระบบนิเวศในวงกว้าง โดยเรียกร้องให้มีการทำงานก่อนการสร้างมาตรฐาน การสร้างฉันทามติในอุตสาหกรรม และการวิจัยและพัฒนาเกี่ยวกับการจัดการข้อมูลประจำตัวและการเข้าถึงของเอเจนต์
แผนงานถูกออกแบบให้ ผนวกเข้ากับ Frontier Safety Framework (FSF) ในวงกว้างของ DeepMind ซึ่งกำหนด Critical Capability Levels (CCLs) สำหรับความสามารถของโมเดลที่มีความเสี่ยงรุนแรงอยู่แล้ว AI Control Roadmap เพิ่มชั้นความปลอดภัยระดับระบบภายใต้ FSF ระดับโมเดล สร้างสถาปัตยกรรมความปลอดภัยที่ครอบคลุมมากขึ้น
Comments
0 comments