呢種攻擊面——將自然語言指令注入資料,變成可以執行嘅命令——正正就係提示注入(Prompt Injection)嘅核心,呢種威脅向量正快速定義緊 AI 代理嘅安全格局。
一個好關鍵嘅細節係,呢次係一次有協調嘅披露,修復行先過公開。
Claude Code 嘅披露,其實發生喺一個更大規模嘅安全評估背景之下。早一日,即係 2026 年 6 月 4 日,Microsoft 嘅 AI Red Team 發表咗《代理式 AI 系統失敗模式分類法》2.0 版本 。呢次重大更新,建基於過去十二個月對已部署 Agent 嘅真實紅隊測試,新增咗七個全新嘅失敗類別,遠遠超出單一程式碼執行漏洞嘅範疇。
呢啲新失敗模式,代表住安全研究人員對自主 AI 系統嘅思考方式有咗重大升級:
針對 Claude Code 案例同更廣泛嘅分類法更新,Microsoft 為任何將 AI 代理整合到 Build Pipeline 嘅團隊,制定咗一套安全建議。指引強調,局部隔離只會帶嚟虛假嘅安心感。
成個指引入面,貫穿住一個安全社群稱為 「Rule of Two」(法則二) 嘅核心架構原則。呢個原則源自 Meta 喺 2025 年 10 月為實用 Agent 安全提出嘅框架,規定一個 Agent 應該滿足以下三個條件中嘅唔超過兩個:處理不可信輸入、有權存取敏感資料,同埋有能力執行改變外部狀態嘅行動 。Claude Code 漏洞就係一次典型嘅違反呢個原則嘅案例,因為個 Agent 同時喺處理來自不可信 PR 嘅輸入,同埋揸住強大嘅憑證。
Comments
0 comments