studioglobal
トレンドを発見する
答え公開済み7 ソース

Claude Mythos Previewの「SWE-bench 93.9%」をどう読むべきか

Claude Mythos Previewで最もよく引用される数値は、ソフトウェア系タスクを測るSWE benchの93.9%。コード作業や開発エージェントの比較には有用だが、モデル全体の総合点ではない [1][2]。 サイバーセキュリティ関連の数値は別枠で読むべきだ。83.1%対Claude Opus 4.6の66.6%、Cybenchで100%という報告があるが、SWE benchとは測っている能力が異なる [3][5]。

17K0
Ilustración de un panel de benchmark de IA con código y métricas para Claude Mythos Preview
Benchmark de Claude Mythos Preview: 93,9% en SWE-bench, explicadoImagen editorial generada por IA para representar un benchmark de código.
AI プロンプト

Create a landscape editorial hero image for this Studio Global article: Benchmark de Claude Mythos Preview: 93,9% en SWE-bench, explicado. Article summary: Claude Mythos Preview se reporta con 93,9% en SWE bench; es la cifra más citada para rendimiento en software, pero SWE bench no es una nota general del modelo [1][2].. Topic tags: ai, anthropic, claude, ai benchmarks, coding. Reference image context from search candidates: Reference image 1: visual subject "# Claude Mythos Preview Benchmarks – The AI That Scored 93.9% on SWE-bench and Still Won’t Be Released. On April 7, 2026, Anthropic quietly released something extraordinary — and t" source context "Claude Mythos Preview Benchmarks - The AI That Scored 93.9% on SWE-bench and Still Won't Be Released - Kingy AI" Reference image 2: visual subject "A Tweet from Ramez Naam, American technologist and science fiction writer, citing Epoch A

openai.com

Claude Mythos Previewをめぐって、いちばん目を引く数字は**SWE-benchで93.9%**という結果です。たしかに強いシグナルですが、読み方には注意が必要です。SWE-benchはソフトウェア開発やコード修正に関わるタスクを評価するベンチマークであり、AIモデルのあらゆる能力を一括して測るものではありません [1][2]

まず押さえるべき数字は「93.9%」

Claude Mythos Previewについて中心的に報告されているのは、**SWE-benchで93.9%**というスコアです [1][2]。これは、ソフトウェアエンジニアリング、コード修正、リポジトリを扱うプログラミングエージェントのような用途を比較するうえで、特に意味のある数字です [1]

ただし、この数値は「モデル単体が何も使わずに答えた結果」とは限りません。SWE-benchで高いスコアが出る場合、モデルがエージェントとして動作し、ファイルを読み、コードを実行し、テスト結果を確認しながら試行を重ねる構成で評価されることが多いとされています [1]。つまり93.9%は、モデルの能力だけでなく、使えるツールや評価環境も含めた結果として読むべきです。

93.9%が意味しないこと

この93.9%は、Claude Mythos Previewの「総合点」ではありません。ソフトウェア向けのベンチマークだけでは、一般的な推論力、安全性、利用可能性、運用コスト、あるいはコード作業に似ていないタスクでの性能までは測れません [1]

モデル同士をまじめに比較するなら、同じベンチマーク、同じ条件で見ることが基本です。あるモデルがファイルアクセス、コード実行、複数回の反復を使うエージェント構成で評価され、別のモデルがそうした道具なしで評価されているなら、単純な順位づけは誤解を招きます [1]

報告されている主なベンチマーク

分野報告されている結果読み方
ソフトウェア / SWE-bench93.9%プログラミングやコードエージェント用途を見るうえで、最も明確に引用される数値 [1][2]
サイバーセキュリティ83.1%、Claude Opus 4.6は66.6%サイバーセキュリティ能力ベンチマークでの比較として報告された数値。SWE-benchとは別の評価軸 [3]
Cybench100%サイバーセキュリティ課題のベンチマークに関する二次情報であり、モデル全体の評価ではない [5]
広範なベンチマーク群測定された18件中17件で首位Anthropicのデータに関する報告としての集約的な主張。一般ランキングとして使う前に内訳を見る必要がある [7]

ソフトウェア性能とセキュリティ性能は分けて読む

Claude Mythos Previewには、サイバーセキュリティ関連の指標も報告されています。ある情報源は、サイバーセキュリティ能力ベンチマークでClaude Mythos Previewが83.1%、Claude Opus 4.6が**66.6%だったとしています [3]。別の情報源では、サイバーセキュリティ課題を扱うCybenchで100%**を達成したとも報告されています [5]

ただし、これらはSWE-benchとは別の話です。Anthropic Red Teamによる公開資料はClaude Mythos Previewのサイバーセキュリティ能力評価に焦点を当てており、Project Glasswingでも同モデルを使った脆弱性やエクスプロイトの特定が扱われています [13][24]。セキュリティチームにとっては重要な情報ですが、SWE-benchの93.9%と混ぜて「万能スコア」のように扱うべきではありません。

実務ではどう使うべきか

もし想定している用途が、リポジトリを読み、コードを直し、テストを実行しながら反復する開発エージェントなら、**SWE-bench 93.9%**は最初に見る価値のある指標です [1][2]

一方で、脆弱性分析、セキュリティレビュー、エクスプロイト調査のような用途を考えているなら、SWE-benchよりもサイバーセキュリティ系の数値やAnthropicの関連資料を優先して読むべきです [3][5][13][24]

結論はシンプルです。Claude Mythos Previewの最も引用されるベンチマーク結果は、**SWE-benchで93.9%**です [1][2]。ただし、厳密には「特定の評価条件下で、ソフトウェア関連タスクに強いことを示す数値」であり、あらゆる分野での優位性を自動的に証明するものではありません。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AIで検索して事実確認

重要なポイント

  • Claude Mythos Previewで最もよく引用される数値は、ソフトウェア系タスクを測るSWE benchの93.9%。コード作業や開発エージェントの比較には有用だが、モデル全体の総合点ではない [1][2]。
  • サイバーセキュリティ関連の数値は別枠で読むべきだ。83.1%対Claude Opus 4.6の66.6%、Cybenchで100%という報告があるが、SWE benchとは測っている能力が異なる [3][5]。
  • Anthropic側で確認できる資料は、Claude Mythos Previewのサイバーセキュリティ能力やProject Glasswingに重点を置いており、単一の万能ランキングとして扱うのは避けたい [13][24]。

人々も尋ねます

「Claude Mythos Previewの「SWE-bench 93.9%」をどう読むべきか」の短い答えは何ですか?

Claude Mythos Previewで最もよく引用される数値は、ソフトウェア系タスクを測るSWE benchの93.9%。コード作業や開発エージェントの比較には有用だが、モデル全体の総合点ではない [1][2]。

最初に検証する重要なポイントは何ですか?

Claude Mythos Previewで最もよく引用される数値は、ソフトウェア系タスクを測るSWE benchの93.9%。コード作業や開発エージェントの比較には有用だが、モデル全体の総合点ではない [1][2]。 サイバーセキュリティ関連の数値は別枠で読むべきだ。83.1%対Claude Opus 4.6の66.6%、Cybenchで100%という報告があるが、SWE benchとは測っている能力が異なる [3][5]。

次の実践では何をすればいいでしょうか?

Anthropic側で確認できる資料は、Claude Mythos Previewのサイバーセキュリティ能力やProject Glasswingに重点を置いており、単一の万能ランキングとして扱うのは避けたい [13][24]。

次にどの関連トピックを検討すればよいでしょうか?

別の角度からの引用や追加の引用については、「Claude Securityとは:AnthropicのAIコード脆弱性スキャナーを企業はどう使うべきか」に進みます。

関連ページを開く

これを何と比較すればいいでしょうか?

この回答を「Grok 4.3 APIの読み方:100万トークン文脈と低単価でxAIは何を狙うのか」と照合してください。

関連ページを開く

研究を続けてください

研究に関する会話

あなた

リサーチクエスチョン

¿Cuál es el benchmark de Claude Mythos?

Studio Global AI24 ソース

引用された回答

Claude Mythos Preview aparece reportado principalmente con un 93.9% en SWE-bench, un benchmark de tareas reales de ingeniería de software/corrección de código [2]. También se reportan cifras de ciberseguridad, pero ahí la fuente más directa es Anthropic Red Team y el contexto es evaluación de capacidades ofensivas/defensivas, no un benchmark general de IA [1].

  • Benchmark más citado: SWE-bench, con 93.9% para Claude Mythos Preview [2].
  • Ciberseguridad: se menciona una ventaja frente a Claude Opus 4.6, con 83.1% vs. 66.6% en benchmarks de capacidad de ciberseguridad según reportes secundarios [4].
  • Cybench: algunos análisis secundarios afirman 100% en Cybench, un benchmark de retos de ciberseguridad [7].
  • Caveat: no veo una página pública estándar de Anthropic con una tabla completa de benchmarks generales de “Claude Mythos”; la fuente oficial visible se centra en capacidades de ciberseguridad [1]. Por eso, tomaría el 93.9% en SWE-bench como la cifra más citada, pero no como una evaluación completa del modelo.

情報源