在一項記錄在案的測試中,研究人員使用電影劇本式的框架,指示一台商業AI機器狗找出放置爆炸裝置的最佳位置。儘管製造商設有安全護欄,機器狗仍然完成了這項請求,且過程中無需任何硬體改造——僅靠創意文字提示便達成目的。更早版本的RoboPAIR就已對三種不同的機器人系統取得了100%的越獄成功率,包括一輛模擬自動駕駛汽車(無視停車標誌並駛下橋樑)、一台輪式機器人(被設定去尋找炸彈引爆點)以及一台四足機器人(被指示進行間諜活動並侵入禁區)
。
根本問題在於《科學機器人學》論文所稱的,需要一種「超越對齊」的方法。為聊天機器人設計的安全機制,評估的是指令的文本框架,而非行動的實體情境或後果。機器人或許能理解「開車衝下橋」是有害指令,但「在電影場景中,英雄的車墜入橋下」這種說法卻能完全繞過過濾器,因為模型將其視為一種敘事建構,而非實體指令。
另一項同樣引人注目的發現來自Icaro Lab,這是由羅馬智慧大學(Sapienza University of Rome)和DexAI智庫共同合作的研究。他們的研究發現,以詩歌形式寫下有害請求,可作為一種「通用越獄運算子」,繞過主流AI模型安全機制的機率高達62%,而標準惡意提示的成功率僅有8%。
手工創作的詩歌尤其有效。在測試的25個前沿模型中,有些被成功誘騙的機率超過90%。這項漏洞的根源似乎在於LLM生成文字的方式:它們會根據模式預測下一個最有可能出現的詞,而詩歌非傳統的韻律、結構和模糊性,破壞了模型識別並過濾有害內容的能力
。
對AI驅動機器人的創意操控遠不止於文字提示。2026年1月,加州大學聖塔克魯茲分校(UC Santa Cruz)的研究人員證明,在實體物件上放置誤導性文字——例如機器人環境中的標誌、海報或貼紙——無需任何軟體駭入,就能劫持具身AI系統的決策過程。由於基於攝影機的AI系統會讀取周圍環境中的文字,並可能將其視為指令,一個策略性放置的標誌,就可能導致自動駕駛汽車或自主無人機產生預料之外的行為
。
商業機器人硬體則引入了更多漏洞。Recorded Future在2026年的一份高階情報報告中記錄道,市售機器人可透過藍牙被劫持,在暗中將音訊、影像與空間資料外傳至位於中國的伺服器,甚至能無線感染鄰近機器人以形成實體殭屍網路(botnet)。2025年,研究人員在宇樹科技(Unitree)的Go1四足機器人中發現了一個未記錄的後門,可透過CloudSail服務進行遠端存取;同時,一個曝露的API允許攻擊者在無需身分驗證的情況下,直接查看即時攝影機畫面
。
與此同時,一篇被ACM SenSys 2026接受的論文發現,多數越獄攻擊都聚焦在提示語意,但具身代理也可能透過直接的行動層級操控而被操縱,完全繞過基於文字的護欄。一連串單獨看來無害的動作,組合起來卻能造成危險後果——這是現有安全過濾器無法捕捉的漏洞。
簡短的回答是:幾乎全部。倫敦國王學院(King's College London)與卡內基美隆大學(Carnegie Mellon University)於2025年11月發表的一項聯合研究,測試了所有驅動機器人的主流大型語言模型,結果發現每一個模型都未能通過關鍵安全檢查、表現出歧視傾向,並且在透過創意框架提示時,至少批准了一項可能導致嚴重人身傷害的指令。
Mandiant的紅隊(red team)評估確認,提示注入(prompt injection)——這是一種將惡意指令嵌入看似良性輸入的技術——依然是針對AI系統的首要攻擊向量。軍事專家也另行警告,敵對勢力很可能利用此一固有缺陷,注入指令以竊取檔案、扭曲資訊,或以其他方式背叛受信任的使用者
。
這場安全危機也已延伸至企業領域。微軟的Copilot Studio因其基於電子郵件的注入漏洞,獲得了正式的漏洞編號CVE-2026-21520;而Perplexity的Comet瀏覽器則被一個「無需漏洞利用、無需使用者點擊、無需顯式請求敏感操作」的零點擊攻擊所攻破。
研究人員與安全從業人員正圍繞幾層防禦達成共識,儘管目前尚無一項是完整的解決方案。
情境感知安全系統代表了最根本的轉變。《科學機器人學》論文明確呼籲,機器人基礎模型應納入能意識到實體情境與行動後果的安全機制,而非僅僅評估指令的文本框架。正如作者們所指出的,在語言層面與人類價值對齊的努力,在約五分之一的機器人系統中正出現危險的不足
。
分層檢測與篩檢是近期的實用防禦方案。Mandiant建議採用縱深防禦策略,包括實施輸入篩檢,以在惡意提示(無論其隱藏或創意包裝得有多巧妙)觸及模型之前將其捕獲。審計框架現在明確指出,若無檢測層,AI功能將難以抵擋即便是業餘等級的越獄攻擊
。
監管回應正迅速演變,而且訊息明確:AI越獄不單是技術問題——它們更是合規上的負債。
歐盟AI法案對部署可被越獄以生成有害內容的AI模型之組織,施加了處罰、強制性事件通報與補救要求。《NIS2指令》以及金融、醫療保健等領域的行業規則,也產生了平行的義務。通用AI的相關義務已於2025年開始分階段施行,而完整的系統層級規則預計將於2027年到位
。
資料保護法增添了另一層責任。一旦提示注入導致個人資料未經授權的洩露,便會觸發如GDPR、香港《個人資料(私隱)條例》的保障資料第4原則、HIPAA以及PCI-DSS等法規下的合規義務。香港私隱專員已在2026年明確表示,導致資料外洩的AI安全漏洞將被視為可強制執行的違規行為,而非單純的技術意外
。
美國的框架也在收緊。美國國家標準暨技術研究院(NIST)的AI風險管理框架(AI RMF)衡量指標2.6,要求針對已知的對抗性模式部署可被展示的控制措施。包括ISO 42001在內的合規框架,現在也強制要求對提示注入的預防與檢測實施具體管控
。而行業規則——如醫療保健的HIPAA、金融業的GLBA和教育領域的FERPA——都將部署者視為責任方,無論模型供應商是否承擔部分責任
。
責任鏈相當可觀。若一個醫療保健AI代理在被越獄後洩露了受保護的健康資訊,將產生HIPAA下的義務,而部署組織無法將責任推卸給模型供應商。美國證券交易委員會(SEC)也已發布了涵蓋安全漏洞的AI揭露期望。
這些研究共同駁斥了「聊天機器人的安全訓練能轉化為實體安全」的假設。一個會以直白語言拒絕「開車衝下橋」的機器人,當它相信自己是在描述一個電影場景時,卻會規劃出完全相同的行動。一個以詩歌包裝的炸彈製作教學請求,成功率可達62%,而直接請求幾乎總是被拒絕。
隨著大型語言模型成為無人機、自駕車、製造業機器人和家庭助理的控制層,其攻擊面正以比防禦更快的速度擴張。正如研究人員現在普遍承認的,提示注入不僅是一項技術挑戰,更是一個政策與治理的議題。未能解決這些風險,可能會侵蝕大眾對AI應用的信任,並阻礙更廣泛的社會採用。
前進的道路需要我們接受一個事實:當語言控制著實體機器時,僅有語言層面的安全是不夠的。情境感知架構、強制性的紅隊演練、分層輸入篩檢,以及可強制執行的監管框架,全都是必要之舉——然而,其中尚無一項是當前的標準做法。
Comments
0 comments