Anthropicの初期報告では、プロジェクト開始から約1か月で次のような結果が出たとされています。
こうした数字が正しければ、AIによって大規模コードベースの監査速度が劇的に上がる可能性を示しています。
外部評価でも一定の能力が示唆されています。
英国の AI Security Institute(AISI) による評価では、Claude Mythos Previewは専門家レベルのサイバーセキュリティCTF(Capture‑the‑Flag)課題の 73%を解決 したと報告されています。
また、報告されている能力には次のようなものがあります。
これは単なる静的コード解析を超え、トップレベルのセキュリティ研究者が行う作業に近い領域です。
多くの詳細は非公開ですが、いくつかの例が報告されています。
公開されている例としては次の企業があります。
これらの組織が自社ソフトウェアや重要なオープンソースに対してモデルを実行し、脆弱性の発見と修正を進めています。
Anthropicがこのモデルを公開していない最大の理由は 攻撃用途のリスク です。
そのため、まずは限られたパートナーとともに 世界の重要ソフトウェアをできるだけ安全にすることを優先 していると説明されています。
ただし、数字のインパクトとは裏腹に、専門家の間では慎重な見方もあります。
つまり、Mythosが完全に新しい能力というより 既存技術を大きく加速させたもの かもしれないという見方です。
Anthropicの発表が事実であれば、Project Glasswingは AIによる脆弱性発見として過去最大級の取り組み です。開始からわずか1か月で 1万件以上の重大なバグ を発見したと報告されています。
ただし、その多くはまだ公開されておらず、外部研究者による検証も限定的です。
確かなのは、AIがソフトウェアセキュリティ研究の強力なツールになりつつあるということです。Claude Mythosが本当のブレークスルーなのか、それともAIによる脆弱性分析の進化の一段階なのか——その答えは、今後数年で明らかになっていくでしょう。
Comments
0 comments