Claude Mythos Previewは、単に公開リーダーボードに並ぶ新しいClaudeモデルとして見ると誤解しやすい存在です。AnthropicのClaude APIドキュメントでは、Project Glasswingの一部として、防御的サイバーセキュリティ向けワークフローに提供される別枠の研究プレビューモデルと説明されており、アクセスは招待制で、セルフサービス登録はありません。[13]
つまり、ベンチマークの数字は非常に目を引くものの、誰もが同じ条件で今すぐ検証できる一般提供モデルのスコアとは読み方が異なります。
主要ベンチマーク一覧
この資料群で具体的に確認できるスコアの多くは、Anthropicのデータ、System Card、またはそれらをもとにした第三者の整理を通じて報じられているものです。[6][
9][
25][
27]
| 分野 | ベンチマーク | Claude Mythos Previewの報告値 | 読み方 |
|---|---|---|---|
| Coding | SWE-bench Verified | 93.9% | W&Bは、Claude Opus 4.6の比較値を80.8%としている。[ |
| 多言語Coding | SWE-bench Multilingual | 87.3% | W&Bは、Claude Opus 4.6の比較値を77.8%としている。[ |
| マルチモーダル | 内部マルチモーダル評価 | 59.0% | W&Bは内部評価として報じ、Claude Opus 4.6は27.1%としている。[ |
| サイバーセキュリティ | Cybench | pass@1=1.00 | Authmindは、Cybenchを4つの主要CTF大会に由来する40問の公開ベンチマークと説明し、Claude Opus 4.6は0.89としている。[ |
| サイバーセキュリティ | CyberGym | 0.83 | Authmindは、1,507件の実在するオープンソース課題で脆弱性再現を評価するものと説明し、Claude Opus 4.6は0.67としている。[ |
| 推論 | GPQA Diamond | 94.6% | llm-statsは、Claude Opus 4.6の比較値を91.3%としている。[ |
| 推論 | Humanity's Last Exam、ツールなし/あり | 56.8%/64.7% | llm-statsは、Claude Opus 4.6をツールなし40.0%、ツールあり53.1%としている。[ |
| ターミナル・エージェント | Terminal-Bench構成 | 92.1% | llm-statsは、Terminus-2ハーネス、最大のadaptive thinking、1タスクあたり100万トークンの予算、4時間の拡張タイムアウト、Terminal-Bench 2.1更新込みの設定に結び付けている。[ |
| マルチタスク知識 | MMMLU | 92.7 | R&D Worldは、この値がGemini 3.1 Proの92.6〜93.6という範囲と重なり、18件中17件でリードしたという報道の中で唯一の例外だったと伝えている。[ |
Anthropicが公式に確認していること
最も確実に押さえられる公式情報は、モデルの位置づけです。AnthropicはClaude Mythos Previewを、Project Glasswingにおける防御的サイバーセキュリティ向けの研究プレビューモデルとして扱い、アクセスは招待制、セルフサービス登録なしとしています。[13]
またProject Glasswingのページでは、Claude Mythos Previewを汎用のフロンティアモデルであり、Anthropicの中でもCodingとエージェント型タスクに特に強いモデルと説明しています。サイバーセキュリティでの強さについても、複雑なソフトウェアを深く理解し、変更し、脆弱性を見つけて修正できる能力の延長にあると位置づけています。[16]
System Cardの資料では、Claude Mythos Previewは新しい大規模言語モデル、またはフロンティアAIモデルとして説明され、ソフトウェアエンジニアリング、推論、コンピューター利用、ナレッジワーク、研究支援などの能力を持つとされています。[18]
一方で、上の表に並ぶ細かなスコアは、この資料群では主に第三者ソース経由で確認できるものです。公式情報はモデルの性格や利用条件を強く裏づけていますが、数値の読み取りでは出典と評価条件を分けて見る必要があります。[6][
9][
25][
27]
なぜSWE-bench 93.9%が見出しになるのか
最も注目されやすい単独の数字は、SWE-bench Verifiedの93.9%です。W&BはClaude Mythos Previewの値としてこのスコアを報じ、Claude Opus 4.6の80.8%と比較しています。[6]
開発チームの目線では、この数字が見出しになりやすいのは自然です。Codingや修正タスクは、エージェント型AIを実務に使えるかどうかを判断するうえで関心が高い領域だからです。
多言語Codingでも高い値が報じられています。W&Bによれば、SWE-bench MultilingualではMythos Previewが87.3%、Opus 4.6が77.8%です。[6] 少なくとも報告値の範囲では、英語中心の単一設定だけに強い、という見え方ではありません。
ただし、この93.9%は、どのリポジトリ、どの開発ツール、どのレビュー体制でも同じ結果になるという保証ではありません。さらにClaude Mythos Previewは、Anthropicによればセルフサービスで誰でも試せるモデルではありません。[13]
サイバーセキュリティの数字は強い。ただし用途は限定的に読む
サイバーセキュリティ関連のスコアも強烈です。Authmindは、Claude Mythos PreviewがCybenchでpass@1=1.00を達成したと報じています。Cybenchについては、4つの主要CTF大会に由来する40問の公開ベンチマークと説明しています。[27]
同じくAuthmindは、CyberGymでMythos Previewが0.83を記録したとし、この評価を1,507件の実在するオープンソース課題を使った、狙った脆弱性再現のベンチマークと説明しています。[27]
これはAnthropicの公式な位置づけとも整合します。Claude APIドキュメントでは、Mythos PreviewはProject Glasswingの防御的サイバーセキュリティ向け研究プレビューとして扱われています。[13] Project Glasswingページでも、サイバーセキュリティ能力は複雑なソフトウェアを理解・変更し、脆弱性を発見・修正できる広い能力と結び付けられています。[
16]
一方で、CTF問題や脆弱性再現は、現実のセキュリティ運用そのものではなく、特定の評価設定です。[27] 重要な能力シグナルではありますが、各組織の権限設計、ツール制限、監査、責任分界にそのまま置き換えられるわけではありません。
推論、マルチモーダル、ターミナル操作のスコア
Codingとサイバーセキュリティ以外でも、高い推論スコアが報じられています。llm-statsは、Claude Mythos PreviewについてGPQA Diamond 94.6%、Humanity's Last Examはツールなしで56.8%、ツールありで64.7%としています。[25]
ここで重要なのは、ツール利用の有無が分けて示されている点です。AIモデルの評価では、モデル単体の能力だけでなく、検索、コード実行、外部ツール、与えられた時間などが結果を大きく左右します。
Terminal-Benchの92.1%も、数字だけを切り取ると危険です。llm-statsはこの値を、Terminus-2ハーネス、最大のadaptive thinking、1タスクあたり100万トークンの予算、4時間の拡張タイムアウト、Terminal-Bench 2.1更新を含む設定に結び付けています。[25] これは細かな注記ではなく、評価結果そのものを理解するための前提条件です。
マルチモーダル評価も慎重に読むべきです。W&Bは、内部マルチモーダル評価でMythos Previewが59.0%、Opus 4.6が27.1%だったと報じています。[6] さらにllm-statsは、SWE-bench Multimodalが内部実装を使っており、公開リーダーボードの結果と直接比較できないと注意しています。[
25]
通常のリーダーボード値として読みにくい4つの理由
-
アクセスが限定されている
Claude Mythos Previewは、Anthropicによれば招待制の研究プレビューであり、セルフサービス登録はありません。[13] そのため、一般の開発者や企業が同条件で再現実験を行うのは難しくなります。
-
公式情報と第三者情報が混在している
公式ソースは、モデルの位置づけ、利用条件、能力領域を確認するうえで重要です。[13][
16][
18] ただし、具体的なスコアの多くは、この資料群では第三者ソース経由で見えているものです。[
6][
9][
25][
27]
-
内部評価や特殊な設定が含まれる
マルチモーダルの値は内部評価として報じられています。[6] Terminal-Benchも、特定のハーネス、最大のthinking設定、大きなトークン予算、長いタイムアウトといった条件付きで示されています。[
25]
-
ベンチマークごとに測っている能力が違う
Authmindによれば、Cybenchは40問のCTFチャレンジ、CyberGymは1,507件の実在オープンソース課題を使った脆弱性再現の評価です。[27] どちらも有用な評価ですが、企業や研究組織の全ワークフローをそのまま代表するものではありません。
まとめ
Claude Mythos Previewは、報告されている限りでは非常に強いベンチマーク結果を示しています。SWE-bench Verified 93.9%、SWE-bench Multilingual 87.3%、内部マルチモーダル評価59.0%、CyberGym 0.83、Cybench pass@1=1.00はいずれも目立つ数字です。[6][
27]
ただし、最も大切なのはスコアの高さだけではありません。Claude Mythos PreviewはAnthropicによればProject Glasswingの招待制研究プレビューであり、一般公開された標準モデルではありません。[13]
したがって、これらの数字はCoding、エージェント、そして防御的サイバーセキュリティにおける強い能力シグナルとして読むべきです。一方で、公開リーダーボードの順位のように、誰でも同条件で再現できる比較表として扱うには注意が必要です。




