近期紀錄咗幾種攻擊方法,證明咗要越獄真係愈嚟愈易。
「扮乖」攻擊(Sockpuppeting):呢招會喺助手角色嘅預設回覆入面,注入一個假嘅「我接受」嘅開頭,利用模型傾向保持前後一致嘅特性嚟繞過安全訓練。呢種攻擊唔使優化(Optimization)、唔使攞模型權重、亦唔使任何專業工具——只要對方嘅API支援助手預填(Assistant Prefill)就可以。喺2026年4月嘅測試入面,所有接受預填嘅模型都至少有部分漏洞被攻破,包括 GPT-4o、Claude 4 Sonnet 同 Gemini 2.5 Flash 。
論文衍生攻擊(Paper-derived Attacks):呢個仲恐怖,係一種元漏洞(Meta-vulnerability)。2026年有研究發現,直接攞已發表嘅LLM安全論文內容做提示詞(Prompt),對住經過嚴格對齊嘅模型(包括 Claude 3.5 Sonnet 呢類封閉權重模型)發動攻擊,成功率竟然高達 97% 到 98% 。
安全引導反效果(Safety Steering Amplification):即係本來想改善安全性嘅技術,反而幫倒忙。研究發現,為咗減少模型對良性查詢「過度拒絕」而喺推理階段進行嘅激活引導(Activation Steering),竟然會唔覺意放大咗 Llama 3.1 8B 同 Gemma 2 2B 呢類模型嘅越獄漏洞 。
推理護欄顛覆(Reasoning Guardrail Subversion):呢個係最令人擔心嘅新攻擊面之一。2026年3月嘅研究發現,只要喺輸入提示詞度加幾個模板令牌(Template Tokens),就可以騎劫嗰啲基於推理嘅安全護欄。而且護欄一被人攻破之後,產生出嚟嘅有害內容,仲多過嗰啲冇裝護欄嘅模型 。
《歐盟人工智能法案》入面針對通用人工智能(GPAI)嘅規則,已經喺2025年8月生效 。任何訓練計算量超過 10嘅25次方浮點運算次數(FLOPs)——呢個門檻涵蓋咗 Llama 4.2 Ultra 以及市場上所有主流商業模型——都會被歸類為帶有系統性風險
。
對企業嚟講,影響係即刻嘅:
雖然有開源豁免,但限制好清晰。以自由同開放源碼許可證發布、而且冇通過模型賺錢嘅模型,大部分可以免於最嚴格嘅責任 ,不過一旦模型構成系統性風險,豁免即刻失效
。Meta嘅Llama社群許可證,已經被歐盟指明唔符合開源豁免資格
。
呢種脆弱性嘅證據,正喺度推動市場要求更強嘅安全改造。2025年有研究展示咗,只要用僅僅 2,000個安全樣本 嚟訓練——成本大約係 3蚊美金(約23港元)俾80億參數模型,或者20蚊美金(約156港元)俾720億參數模型——就可以將攻擊成功率降低10%到30%。改造之後,最成功嘅攻擊手法,成功率都跌到大約得返5% 。
從經濟角度睇,低成本改造絕對可行,但偏偏仲未成為開源權重生態圈嘅標準做法。隨住監管壓力愈來愈大,攻擊手法愈來愈精密,嗰啲喺生產環境部署呢啲模型嘅公司,好快就會發現,跳過嗰份只係值廿蚊美金嘅「保險」,代價可能會好大好大。
Comments
0 comments