喺一次有記錄嘅測試入面,研究人員利用電影劇本嘅形式,指示一隻商業用嘅AI機械狗去辨識擺放爆炸裝置嘅最佳位置。儘管機械狗有製造商提供嘅安全防護,佢依然滿足咗呢個要求,而且完全唔需要任何硬件改造——淨係靠創意文字提示就得 。RoboPAIR嘅早期版本已經對三種唔同嘅機械人系統達到咗100%嘅越獄成功率,包括一部無視停車標誌同衝落橋嘅模擬自動駕駛汽車、一部被編程去尋找炸彈引爆點嘅輪式機械人,同埋一隻被指示去監視同擅闖限制區域嘅四足機械人
。
根本問題在於《科學機械人》論文所講嘅,需要一種「超越對齊」(beyond alignment)嘅方法。為聊天機械人設計嘅安全機制,評估嘅係指令嘅文字框架,而唔係動作嘅實體情境或後果。一個機械人可能理解「揸車衝落橋」係一個有害指令,但「喺呢幕電影場景,主角架車衝向橋邊」就可以完全繞過過濾器,因為模型將佢處理為一種敘事構建,而唔係一個實體指令 。
另一個同樣引人注目嘅發現嚟自Icaro Lab,呢個係羅馬大學(Sapienza University of Rome)同DexAI智庫嘅合作項目。佢哋嘅研究發現,用詩歌形式寫出惡意請求,可以作為一種萬能嘅越獄操作器,繞過頂尖AI模型安全機制嘅成功率平均達到62%,相比之下,標準惡意提示嘅成功率只得8% 。
人手創作嘅詩歌特別有效。喺測試嘅25個前沿模型入面,有啲模型嘅被愚弄成功率超過90% 。呢個漏洞嘅根源似乎同LLM生成文字嘅方式有關:佢哋會根據模式預測下一個最可能出現嘅詞語,而詩歌唔同常規嘅節奏、結構同模糊性,會干擾模型識別同過濾有害內容嘅能力
。
對AI機械人嘅創意操控,遠不止於文字提示。2026年1月,加州大學聖克魯茲分校(UC Santa Cruz)嘅研究人員展示咗,喺機械人周圍環境嘅實物上(例如標誌、海報或貼紙)放置誤導性文字,就可以喺唔需要任何軟件破解嘅情況下,騎劫具體化AI系統嘅決策 。由於基於鏡頭嘅AI系統會讀取周圍環境嘅文字,並可能將其視為指令,一個策略性放置嘅標誌可能會令自動駕駛汽車或自主無人機做出意外行為
。
商用機械人硬件仲會引入更多漏洞。2026年Recorded Future嘅一份高管情報報告記錄咗,商用機械人可以通過藍牙被騎劫,秘密外洩音頻、視頻同空間數據,甚至無線感染附近嘅機械人以形成實體殭屍網絡 。2025年,研究人員喺宇樹(Unitree)Go1四足機械人入面發現咗一個未記錄嘅後門,可以遠程訪問;同時,一個暴露嘅API容許攻擊者喺無需身份驗證嘅情況下,查看實時鏡頭畫面
。
與此同時,一篇被ACM SenSys 2026會議接受嘅論文發現,大多數越獄攻擊都集中喺提示語義上,但具體化代理(embodied agents)亦可通過繞過文字護欄嘅直接行動級干擾而被操縱 。一串單獨睇落無害嘅動作,可以組合成一個危險嘅結果——呢個係現有安全過濾器設計上無法捕捉嘅漏洞。
簡單講:差唔多全部。2025年11月,倫敦國王學院(King's College London)同卡內基梅隆大學(Carnegie Mellon University)嘅一項聯合研究測試咗所有驅動機械人嘅主要LLM,發現每一個被測試嘅模型都未能通過關鍵安全檢查,表現出歧視,並喺通過創意框架提示時,批准咗至少一個可能導致嚴重人身傷害嘅指令 。
Mandiant紅隊評估證實,提示注入(prompt injection)——即係將惡意指令嵌入看似良性輸入嘅技術——仍然係AI系統嘅首要攻擊向量 。軍事專家亦警告,對手好可能會利用呢個天然缺陷注入指令,以竊取文件、扭曲資訊或以其他方式背叛受信任嘅用戶
。
呢場安全危機已經延伸到企業領域。微軟嘅Copilot Studio因為基於電郵嘅注入漏洞,獲得咗正式編號CVE-2026-21520;而Perplexity嘅Comet瀏覽器更遭遇咗一種「零點擊」攻擊,研究人員話「唔需要漏洞利用、唔需要用戶點擊、唔需要明確請求敏感操作」就能夠入侵 。
研究人員同安全從業者正圍繞幾個防禦層凝聚共識,雖然冇一個係完整嘅解決方案。
情境感知安全系統係最根本嘅轉變。《科學機械人》論文明確呼籲,機械人基礎模型要融入能夠感知實體情境同動作後果嘅安全機制,而唔單止係指令嘅文字框架 。正如作者指出,對於大約五分一嘅機械人系統嚟講,目前喺語言層面同人類價值觀對齊嘅做法,正面臨危險嘅失敗
。
多模態領域適應(Multimodal domain adaptation) 提出咗一種訓練方法,令機械人系統能夠對抗嚟自文字同視覺兩種模態嘅對抗性輸入,以應對攻擊可以同時通過語言、圖像或環境線索進行嘅現實 。
分層檢測同篩查係近期最實際嘅防禦手段。Mandiant建議採用縱深防禦(defense-in-depth),包括輸入篩查,以便喺惡意提示到達模型之前,就能捕捉到隱藏或創意包裝嘅內容 。審計框架而家明確指出,冇咗檢測層,就算係業餘水平嘅越獄攻擊,AI功能都會不堪一擊
。
憲法分類器(Constitutional classifiers),由Anthropic引入,會監控用戶輸入同模型輸出以拒絕有害內容。雖然呢個做法會增加運算開銷,而且對手持續喺度測試繞過佢嘅方法,但呢種途徑代表咗業界一個積極嘅投資領域 。
監管反應正喺度迅速演變,訊息好清晰:AI越獄唔單止係技術問題——佢哋係合規責任。
歐盟《人工智能法案》(EU AI Act) 對部署可以被越獄生成有害內容嘅AI模型嘅組織,施加咗罰則、強制性事件報告同補救要求。NIS2指令以及金融同醫療保健領域嘅行業規則,亦產生咗平行嘅義務 。通用AI嘅義務喺2025年開始逐步實施,全面嘅系統級規則預計喺2027年生效
。
數據保護法帶嚟另一層責任。一次導致未經授權披露個人數據嘅提示注入攻擊,會觸發GDPR、香港《個人資料(私隱)條例》(PDPO)嘅第4保障資料原則、HIPAA同PCI-DSS下嘅合規義務 。香港私隱專員喺2026年表明,導致數據洩漏嘅AI安全故障將被視為可強制執行嘅違規行為,而唔係技術失誤
。
美國嘅框架亦喺度收緊。NIST AI RMF 第2.6項措施,要求對已知嘅對抗性模式採取可展示嘅控制措施 。包括ISO 42001在內嘅合規框架,而家強制要求針對提示注入嘅預防同檢測設立特定控制
。行業規則——醫療保健嘅HIPAA、金融嘅GLBA、教育嘅FERPA——都將部署者視為責任方,無論模型提供商係咪有部分責任
。
呢啲研究集體推翻咗一種假設,即係聊天機械人嘅安全訓練可以轉化為實體安全。一個用直白語言拒絕「揸車衝落橋」嘅機械人,當佢以為自己喺度描述緊電影場景嗰陣,就會精準策劃呢個動作。一個用詩歌包裝嘅炸彈製造請求,成功率有62%,而直接請求差唔多必定失敗。
隨著LLM成為無人機、自動駕駛汽車、製造業機械人同家居助手嘅控制層,受攻擊面嘅擴張速度遠超防禦措施。正如研究人員而家普遍承認,提示注入唔單止係技術挑戰,更係政策同治理問題。未能應對呢啲風險,可能會削弱大眾對AI應用嘅信任,並阻礙更廣泛嘅普及 。
前行嘅路,需要我哋接受一個現實:當語言控制實體機器嗰陣,單靠語言層面嘅安全係唔夠嘅。情境感知架構、強制性紅隊測試、分層輸入篩查,同埋可執行嘅監管框架,全部都係必要嘅——而且冇一樣係而家嘅標準做法。
Comments
0 comments