Anthropic – Claude シリーズ(Opus, Sonnet, Haiku)
単一ターンでの拒否率は高く(ASR 2.19%~3.64%)、クローズドモデルの中で最強クラスの防御力を示しましたが、それでもマルチターンでは 11.16%~16.20% の攻撃が成功しました。
Amazon – Nova 2 Lite
今回のテストで最も低いマルチターンASR 7.89% を記録。しかしCiscoは、この数字ですら「意味のある残留リスク」と評し、決して安全とは言い切れないと結論付けています。
また、先行して実施されたオープンウェイトモデル(MistralやMetaのLlamaなど)の調査では、Mistral Large-2に対して92.78% というさらに高いマルチターンASRが記録されました。全8モデルで、攻撃成功率は単一ターンの2倍から10倍に跳ね上がっています。
Comments
0 comments