制限はサイバーセキュリティにとどまらない。生物学や化学、そしてとりわけ重要なのが、AIモデルの「蒸留(ディスティレーション)」に関連するクエリも標的となっている。この最後の点は別の批判の波を呼び、一部の開発者からは、Anthropicが他社のAI開発者がFable 5の出力を学習に利用するのを防ぐための反競争的行為の口実として「安全性」を利用しているという非難が上がっている 。
AnthropicがFable 5に搭載した安全システムは、単に応答を拒否するだけのメカニズムではない。これは、「静かに失敗させる」よう設計されたルーティングシステムなのだ 。その構造は以下の3段階で機能する。
Anthropicによれば、こうした分類器が作動するのは、全ユーザーセッションの平均で5%未満だという 。同社はこの「過剰検知」問題を公式に認めている。広報担当者はBusiness Insiderに対し、この安全対策は「安全、中立、または無害なリクエストにフラグを立てる可能性がある」と述べつつ、基礎能力がこれほど強力なモデルを公開するためには必要なトレードオフだと正当化した
。
Anthropicの立場は、この保守的なガードレールはバグではなく、意図的で責任ある選択だというものだ。同社は、このMythosクラスのモデルはソフトウェアの脆弱性を発見し悪用するなどのタスクに非常に長けており、制限なく公開すれば壊滅的な悪用のリスクが許容できないレベルに達すると主張している 。
彼らの見解では、ガードレールは設計上の妥協点である。つまり、最先端の推論やコーディング、文章作成モデルへの一般アクセスを提供しつつ、最も危険な潜在能力にはサンドボックスをはめる方法であり、過剰検知は強力なモデルを「安全かつ迅速に」リリースするための一時的なコストとして、今後分類器を改良していくことを約束しているのだ 。
Fable 5が発表されたその日に、Anthropicは「Claude Mythos 5」も発表している。両モデルは全く同一のアーキテクチャと重みを共有しており、いわば「同じ頭脳」を持つ。唯一の違いは安全性の設定だ。Mythos 5では機密性の高い領域での分類器が取り除かれ、完全で制限のない能力を発揮できる 。
しかし、Mythos 5は一般向けではない。Project Glasswingと呼ばれるイニシアチブのもと、政府機関や重要インフラ事業者など、審査を経た少数のパートナーだけがアクセスを許される 。この米国政府支援のプログラムは、AWS、Google、Microsoftといったテクノロジー大手を含む12の創設パートナーとともに始動し、「サイバーディフェンダー」がAIを使ってソフトウェアの脆弱性を大規模に発見し修正することを目的としている
。Mythos 5のリリースに伴い、アクセス権は約40の組織に拡大された
。
以下の表は、この根本的な分裂を示している。
AnthropicのFable/Mythos分割は、「能力別階層型AIデプロイメント(Capability-Tiered AI Deployment)」とも呼ぶべきものの最も明確な例だ。この新しいモデルでは、単一の最先端AIはもはや単一の製品ではない。その完全な能力は「当然の権利」ではなく「特権」であり、安全性ガードレールこそが製品の差別化を生み出すメカニズムとなっている 。
このパターンはAnthropicに限ったことではない。OpenAIを含む他の主要AI企業も、最も先進的なモデルについて国家安全保障や研究パートナー向けにアクセスを制限したバージョンを提供するという同様のアプローチを採用している 。Fable/Mythosの同時発表は、最も強力なAI能力が技術そのものではなく審査状況によって門戸を閉ざされる未来を決定づけた形だ。安全プロトコルがアクセス制御メカニズムを兼ねるというこのアプローチは、すでに中央集権化、公平性、そして「公共の」AI安全性の真の意味について、より広範な議論の火蓋を切っている。
Comments
0 comments