安価なモデル側の主張は、小型のオープンウェイトモデルがMythosと同じ自律エージェント能力を持つ、というものではありません。ポイントは、サイバー能力が滑らかに伸びるとは限らないことです。あるモデルは広いタスクでは弱くても、範囲が絞られた脆弱性分析では意外に鋭い結果を出すことがあります。Aisleのテストでは、関連コードがあらかじめ切り出された選定済みのMythos公開事例について、小型で安価なオープンウェイトモデルが同じ分析のかなりの部分を再現できたとされています 。
Tom’s Hardwareも発表後の議論を同じ方向で整理しています。Mythosはサイバーセキュリティ向けAIモデルとして総合的に最強クラスかもしれない一方、エクスプロイト発見や修正の一部タスクでは、より安価なモデルも近い結果に到達し得る。ただし、信頼性や稼働安定性にはなお疑問が残る、という見立てです 。
この違いは重要です。切り出されたコード断片について同じ分析にたどり着くことと、ネットワーク内を自律的に探索し、脆弱性を見つけ、攻撃手順をつなぎ、模擬侵入を完了することは同じではありません。公開証拠が最も強く支持しているのは、後者のような長いエージェント型ワークフローにおけるMythosの先行です 。
現時点で最も筋の通った説明は、モデルだけでなく、その周りのシステムが効いているという見方です。具体的には、ツール、実行環境、アクセス権、コードやログの文脈選択、プロンプト、専門家によるレビューです。Aisleは、堀はモデルそのものではなく、深いセキュリティ専門知識を組み込んだシステムにあると明示的に論じています 。AISIの評価でも、Mythosが最も強い挙動を見せたのは、明示的に指示され、ネットワークアクセスを与えられた管理下の条件でした
。
アクセス制限も見逃せません。Bainは、Claude Mythos Previewをサイバーセキュリティ上の影響が深刻なフロンティアモデルと説明し、AnthropicがProject Glasswingという審査済みパートナープログラムに提供を限定したとしています 。つまり実務上の比較は、「どの公開APIが安いか」だけではありません。利用可能なモデル、ツール、専門知識で、同じワークフローをどこまで再現できるかが問題になります
。
公開情報には、Mythos、低価格API、オープンウェイトモデルを同一条件で比べた、明確な価格対性能ベンチマークはありません。AISIは管理下の条件でMythosを評価し、過去のフロンティアモデルの進歩と比較しました 。Anthropicは詳細なレッドチーム報告を出していますが、開発元による証拠です
。Aisleは、選定された公開事例に対するより狭い反証テストを示しました
。それぞれ、答えている問いが少しずつ違います。
本当に必要なのは、ツールアクセス、コード文脈、ネットワーク権限、試行回数、計算予算、エクスプロイト実行ルール、人間のレビュー量をそろえた比較です。それがない限り、「Mythosだけができる」あるいは「安いモデルで十分」といった強い断定はどちらも早計です 。
Claude Mythosのサイバー能力は、自律性と複数段階の実行が問われる場面では例外的に見えます。しかし、基礎となる脆弱性推論が低コストモデルにはまったく届かない独占能力だと、公開情報だけで証明されたわけではありません。より安全な結論は、Mythosは複雑なサイバーワークフローで本物のリードを持つ一方、準備された範囲限定の分析では、低コストモデルも強いツールと専門家の監督次第で意外な範囲を担える、というものです 。
Comments
0 comments