Cisco測試咗每個模型喺「推理模式」同「非推理模式」(如有提供)下嘅表現。以下就係各大廠商喺迭代攻擊下嘅「成績表」:
xAI – Grok 4.1 Fast(非推理模式) 係全場最脆弱嗰個,以 88.30% 嘅多輪攻擊成功率高踞「榜首」。不過一開咗推理模式,呢個數字就跌到43.47%——一次戲劇性嘅安全大逆轉,不過都仲係肥佬。冇任何公開基準測試捕捉到呢種行為。
OpenAI – GPT-5.4 嘅升幅仲驚人,由表現最好嘅單次成功率 2.74%,喺迭代攻擊下急升約9倍,去到 24.68%。雖然佢多輪攻擊成功率嘅絕對數字算中等,但接近十倍嘅轉變,徹底打破咗「單次測試低分就代表模型好穩陣」嘅假設。
Anthropic – Claude家族(Opus 4.5/4.6, Sonnet 4.5/4.6, Haiku 4.5)嘅單次拒絕率最強,介乎 2.19% 至 3.64%,但係多輪攻擊成功率仍然有 11.16% 至 16.20%。Anthropic嘅對齊策略似乎抬高咗安全底線,但冇辦法消除迭代攻擊嘅漏洞。
唔好再信單次測試嘅攻擊成功率。 單次提示嘅基準測試會錯誤咁排列模型嘅安全排名,同埋掩蓋咗極端風險。任何唔包含多輪、自適應攻擊嘅評估,都只係勾勒出真實世界漏洞嘅不完整畫面。
將多輪攻擊評估列為強制要求。 喺採購或部署之前,買家同監管機構都應該問:「呢個模型頂唔頂得住迭代、自適應嘅攻擊?」如果供應商答唔出,即係個模型仲未準備好俾高風險嘅生產環境用。
防禦措施要同威脅模型對齊。 多輪攻擊利用嘅係對話歷史同逐漸蠶食邊界嘅手法。防禦措施必須喺對話層面操作,監測異常嘅對話模式、升級軌跡同累積嘅語境操控,而唔係淨係靠針對每個提示嘅關鍵字過濾器。
用多輪場景進行持續性嘅紅隊演練。 用單次越獄嘗試做一次性嘅滲透測試係唔夠嘅。企業需要定期進行紅隊演練,模擬真實黑客嗰種迭代、充滿社會工程學嘅攻擊手法。
分層防禦。 冇任何單一護欄或對齊技術可以阻擋晒所有五大類攻擊。Cisco建議結合模型層面嘅對齊、輸入/輸出過濾、行為異常偵測、對話層面嘅速率限制,同埋對高風險應用程式加入「人機迴圈」審查。
了解AI實驗室嘅對齊哲學。 Cisco觀察到一個規律:嚟自公開強調安全嘅實驗室(例如Google嘅Gemma家族),佢哋嘅模型單次到多輪測試嘅差距通常比較窄;而一啲以能力為先嘅實驗室(例如Meta嘅Llama、xAI嘅Grok),差距就比較闊。企業喺選擇供應商時,應該將呢個文化訊號納入考慮。
Comments
0 comments