その主張は、わずか1日で覆されました。
2026年6月10日、「プリニウス・ザ・リベレーター(解放者プリニウス)」を名乗る謎の研究者が、Fable 5の安全弁をすり抜け、12万文字に及ぶ内部のシステムプロンプトをGitHubに公開。さらに、エクスプロイト(悪用コード)開発の手順や、通常は制限される化学物質の合成ガイダンスを引き出すことに成功したと発表しました。この驚異的なスピード(公式発表から24~48時間以内)での突破劇は、「人類のAI安全対策は有効なのか」という議論の新たな火種となっています
。
プリニウス氏が用いたのは、単一の巧妙な命令文ではなく、複数のAIエージェントを連携させる「パックハント(集団狩り)」戦術です。これは、まるでオオカミの群れのように、複数の攻撃手法を段階的に組み合わせて、防御を突破する手法です。
Anthropicは公開前、異例なほど詳細な安全基準を公表し、自信を覗かせていました。
しかし、「千時間の安全証明」は、「一人のハッカーによる24時間の創意工夫」に敗れ去ったのです。その背景には、安全テストが想定していた「単発の変な質問」ではなく、複数の手順を踏む社会工学的な攻撃への盲点がありました。
今回のFable 5の一件は、突発的な事故ではありません。プリニウス氏は、"新モデル公開=即日解放"を常套手段とする"常習犯"なのです。
もはや彼の手法は「人間が魔法の呪文を考える」段階から、「あるAIが、別のAIを服従させるための心理戦を自動で組み立てる」領域に突入しています。セキュリティ企業Repelloの分析によれば、2026年に入り最も危険な攻撃は「単発の脱獄」から「無害に見える会話の積み重ね」へと完全にシフトしています
。
Fable 5の脱獄は、単なる企業の不祥事ではなく、最先端AIの安全評価のあり方そのものに疑問を投げかけています。
組織が数カ月と千時間をかけた「合格判定」が、たった一人の個人による1日未満の試行錯誤で突破される──このギャップは何を意味するのでしょうか。現在の認証プログラムが、マルチエージェントや社会工学的な"人間臭い"攻撃を体系的に見落としている可能性は否めません。
「安全認証済み」という言葉が、現実のリスクに対して何を保証しているのか。プリニウス氏の一連の"作品"は、企業規模やアーキテクチャの差異を超え、対話型AIの根幹にある脆弱性を照らし出しているのです。
Comments
0 comments