Claude Mythos Previewをめぐって、いちばん目を引く数字は**SWE-benchで93.9%**という結果です。たしかに強いシグナルですが、読み方には注意が必要です。SWE-benchはソフトウェア開発やコード修正に関わるタスクを評価するベンチマークであり、AIモデルのあらゆる能力を一括して測るものではありません [1][
2]。
まず押さえるべき数字は「93.9%」
Claude Mythos Previewについて中心的に報告されているのは、**SWE-benchで93.9%**というスコアです [1][
2]。これは、ソフトウェアエンジニアリング、コード修正、リポジトリを扱うプログラミングエージェントのような用途を比較するうえで、特に意味のある数字です [
1]。
ただし、この数値は「モデル単体が何も使わずに答えた結果」とは限りません。SWE-benchで高いスコアが出る場合、モデルがエージェントとして動作し、ファイルを読み、コードを実行し、テスト結果を確認しながら試行を重ねる構成で評価されることが多いとされています [1]。つまり93.9%は、モデルの能力だけでなく、使えるツールや評価環境も含めた結果として読むべきです。
93.9%が意味しないこと
この93.9%は、Claude Mythos Previewの「総合点」ではありません。ソフトウェア向けのベンチマークだけでは、一般的な推論力、安全性、利用可能性、運用コスト、あるいはコード作業に似ていないタスクでの性能までは測れません [1]。
モデル同士をまじめに比較するなら、同じベンチマーク、同じ条件で見ることが基本です。あるモデルがファイルアクセス、コード実行、複数回の反復を使うエージェント構成で評価され、別のモデルがそうした道具なしで評価されているなら、単純な順位づけは誤解を招きます [1]。
報告されている主なベンチマーク
| 分野 | 報告されている結果 | 読み方 |
|---|---|---|
| ソフトウェア / SWE-bench | 93.9% | プログラミングやコードエージェント用途を見るうえで、最も明確に引用される数値 [ |
| サイバーセキュリティ | 83.1%、Claude Opus 4.6は66.6% | サイバーセキュリティ能力ベンチマークでの比較として報告された数値。SWE-benchとは別の評価軸 [ |
| Cybench | 100% | サイバーセキュリティ課題のベンチマークに関する二次情報であり、モデル全体の評価ではない [ |
| 広範なベンチマーク群 | 測定された18件中17件で首位 | Anthropicのデータに関する報告としての集約的な主張。一般ランキングとして使う前に内訳を見る必要がある [ |
ソフトウェア性能とセキュリティ性能は分けて読む
Claude Mythos Previewには、サイバーセキュリティ関連の指標も報告されています。ある情報源は、サイバーセキュリティ能力ベンチマークでClaude Mythos Previewが83.1%、Claude Opus 4.6が**66.6%だったとしています [3]。別の情報源では、サイバーセキュリティ課題を扱うCybenchで100%**を達成したとも報告されています [
5]。
ただし、これらはSWE-benchとは別の話です。Anthropic Red Teamによる公開資料はClaude Mythos Previewのサイバーセキュリティ能力評価に焦点を当てており、Project Glasswingでも同モデルを使った脆弱性やエクスプロイトの特定が扱われています [13][
24]。セキュリティチームにとっては重要な情報ですが、SWE-benchの93.9%と混ぜて「万能スコア」のように扱うべきではありません。
実務ではどう使うべきか
もし想定している用途が、リポジトリを読み、コードを直し、テストを実行しながら反復する開発エージェントなら、**SWE-bench 93.9%**は最初に見る価値のある指標です [1][
2]。
一方で、脆弱性分析、セキュリティレビュー、エクスプロイト調査のような用途を考えているなら、SWE-benchよりもサイバーセキュリティ系の数値やAnthropicの関連資料を優先して読むべきです [3][
5][
13][
24]。
結論はシンプルです。Claude Mythos Previewの最も引用されるベンチマーク結果は、**SWE-benchで93.9%**です [1][
2]。ただし、厳密には「特定の評価条件下で、ソフトウェア関連タスクに強いことを示す数値」であり、あらゆる分野での優位性を自動的に証明するものではありません。




