近期有幾種被記錄下來的技術,證明了越獄已變得何等輕而易舉。
假冒應聲蟲(Sockpuppeting) 這項技術會將一個偽造的「接受」注入助理模型的預填回覆中,利用模型追求前後一致的特性來繞過安全訓練。它不需要優化、不需要模型權重,也不需要專門的工具,僅需一個支援助理預填功能的 API 存取權限。在 2026 年 4 月的測試中,「每個接受預填機制的模型都至少存在部分漏洞」,包含 GPT-4o、Claude 4 Sonnet 和 Gemini 2.5 Flash 。
論文衍生攻擊 這是一種令人震驚的後設漏洞。2026 年的一項研究發現,使用已公開發表的 LLM 安全論文中擷取的內容作為提示詞,對包括 Claude 3.5 Sonnet 等封閉模型在內的先進模型,達到了 97% 至 98% 的攻擊成功率 。
安全引導放大 說明了旨在改善安全的技術如何產生反效果。研究發現,原本用於減少對良性查詢「過度拒答」的推理階段激活引導技術,卻在不經意間放大了 Llama 3.1 8B 和 Gemma 2 2B 等模型的越獄漏洞 。
推理護欄顛覆 這是最令人擔憂的新攻擊途徑之一。2026 年 3 月的一項研究發現,只需在輸入提示中新增幾個模板令牌,就能劫持基於推理的安全護欄。一旦遭入侵,這些推理系統生成的惡意輸出甚至比沒有此類護欄的模型更為嚴重 。
歐盟《人工智慧法》中的通用人工智慧(GPAI)規則已於 2025 年 8 月正式生效 。任何訓練運算量超過 10²⁵ 次浮點運算(FLOPs) 的模型,此門檻涵蓋了 Llama 4.2 Ultra 及所有主流商業模型,都將被歸類為具有系統性風險
。
對企業的影響迫在眉睫:
開源免責條款雖然存在,但有明確限制。以自由且開源授權釋出且未用於貨幣化的模型,大致上不在最嚴格義務的管轄範圍內 。但一旦模型構成系統性風險,此豁免權將立即失效
。歐盟在 2026 年 5 月的修訂中重申了這項界限
。而 Meta 的 Llama 社群授權已被點名不符合開源豁免的資格
。
漏洞的事實證據正助長著強化安全修補的市場壓力。一項 2025 年的研究證明,只需使用 2,000 筆安全樣本 進行訓練,花費約 80 億參數模型 3 美元、720 億參數模型 20 美元 的成本,就能將攻擊成功率降低 10% 至 30%。經過修補後,最成功的攻擊手法其成功率也被壓低至 5% 左右 。
從經濟角度來看,低成本修補是可行的,但這尚未成為開源生態系的標準作法。隨著監管壓力攀升和攻擊手法日益精進,將這些模型部署到生產環境的企業可能會發現,這份「20 美元的保險」越來越難有理由不加保。
Comments
0 comments