studioglobal
トレンドを発見する
答え公開済み7 ソース

Claude Mythosの主要ベンチマークと、その読み方

Claude Mythos PreviewはSWE bench Verifiedで93.9%と報じられている一方、AnthropicによればProject Glasswing向けの招待制研究プレビューです。 報告されている主な値には、SWE bench Multilingual 87.3%、内部マルチモーダル評価59.0%、CyberGym 0.83、Cybench pass@1=1.00があります。

17K0
Abstrakte KI-Benchmark-Grafik zu Claude Mythos Preview mit Code- und Score-Elementen
Claude Mythos Benchmarks: 93,9 % SWE-bench und was dahinterstecktSymbolbild: Die Debatte um Claude Mythos dreht sich weniger um einen einzelnen Score als um die Vergleichbarkeit der Evaluationsbedingungen.
AI プロンプト

Create a landscape editorial hero image for this Studio Global article: Claude Mythos Benchmarks: 93,9 % SWE-bench und was dahintersteckt. Article summary: Claude Mythos Preview wird vor allem durch 93,9 % auf SWE bench Verified auffällig; weitere berichtete Werte sind 87,3 % auf SWE bench Multilingual und 59,0 % in einer internen multimodalen Evaluation.. Topic tags: ai, anthropic, claude, benchmarks, coding. Reference image context from search candidates: Reference image 1: visual subject "# Claude Mythos Preview Benchmarks – The AI That Scored 93.9% on SWE-bench and Still Won’t Be Released. On April 7, 2026, Anthropic quietly released something extraordinary — and t" source context "Claude Mythos Preview Benchmarks - The AI That Scored 93.9% on ..." Reference image 2: visual subject "A score of 93.9% means Claude Mythos correctly resolved approximately 470 of those 500 real-world GitH

openai.com

Claude Mythos Previewは、単に公開リーダーボードに並ぶ新しいClaudeモデルとして見ると誤解しやすい存在です。AnthropicのClaude APIドキュメントでは、Project Glasswingの一部として、防御的サイバーセキュリティ向けワークフローに提供される別枠の研究プレビューモデルと説明されており、アクセスは招待制で、セルフサービス登録はありません。[13]

つまり、ベンチマークの数字は非常に目を引くものの、誰もが同じ条件で今すぐ検証できる一般提供モデルのスコアとは読み方が異なります。

主要ベンチマーク一覧

この資料群で具体的に確認できるスコアの多くは、Anthropicのデータ、System Card、またはそれらをもとにした第三者の整理を通じて報じられているものです。[6][9][25][27]

分野ベンチマークClaude Mythos Previewの報告値読み方
CodingSWE-bench Verified93.9%W&Bは、Claude Opus 4.6の比較値を80.8%としている。[6]
多言語CodingSWE-bench Multilingual87.3%W&Bは、Claude Opus 4.6の比較値を77.8%としている。[6]
マルチモーダル内部マルチモーダル評価59.0%W&Bは内部評価として報じ、Claude Opus 4.6は27.1%としている。[6]
サイバーセキュリティCybenchpass@1=1.00Authmindは、Cybenchを4つの主要CTF大会に由来する40問の公開ベンチマークと説明し、Claude Opus 4.6は0.89としている。[27]
サイバーセキュリティCyberGym0.83Authmindは、1,507件の実在するオープンソース課題で脆弱性再現を評価するものと説明し、Claude Opus 4.6は0.67としている。[27]
推論GPQA Diamond94.6%llm-statsは、Claude Opus 4.6の比較値を91.3%としている。[25]
推論Humanity's Last Exam、ツールなし/あり56.8%/64.7%llm-statsは、Claude Opus 4.6をツールなし40.0%、ツールあり53.1%としている。[25]
ターミナル・エージェントTerminal-Bench構成92.1%llm-statsは、Terminus-2ハーネス、最大のadaptive thinking、1タスクあたり100万トークンの予算、4時間の拡張タイムアウト、Terminal-Bench 2.1更新込みの設定に結び付けている。[25]
マルチタスク知識MMMLU92.7R&D Worldは、この値がGemini 3.1 Proの92.6〜93.6という範囲と重なり、18件中17件でリードしたという報道の中で唯一の例外だったと伝えている。[9]

Anthropicが公式に確認していること

最も確実に押さえられる公式情報は、モデルの位置づけです。AnthropicはClaude Mythos Previewを、Project Glasswingにおける防御的サイバーセキュリティ向けの研究プレビューモデルとして扱い、アクセスは招待制、セルフサービス登録なしとしています。[13]

またProject Glasswingのページでは、Claude Mythos Previewを汎用のフロンティアモデルであり、Anthropicの中でもCodingとエージェント型タスクに特に強いモデルと説明しています。サイバーセキュリティでの強さについても、複雑なソフトウェアを深く理解し、変更し、脆弱性を見つけて修正できる能力の延長にあると位置づけています。[16]

System Cardの資料では、Claude Mythos Previewは新しい大規模言語モデル、またはフロンティアAIモデルとして説明され、ソフトウェアエンジニアリング、推論、コンピューター利用、ナレッジワーク、研究支援などの能力を持つとされています。[18]

一方で、上の表に並ぶ細かなスコアは、この資料群では主に第三者ソース経由で確認できるものです。公式情報はモデルの性格や利用条件を強く裏づけていますが、数値の読み取りでは出典と評価条件を分けて見る必要があります。[6][9][25][27]

なぜSWE-bench 93.9%が見出しになるのか

最も注目されやすい単独の数字は、SWE-bench Verifiedの93.9%です。W&BはClaude Mythos Previewの値としてこのスコアを報じ、Claude Opus 4.6の80.8%と比較しています。[6]

開発チームの目線では、この数字が見出しになりやすいのは自然です。Codingや修正タスクは、エージェント型AIを実務に使えるかどうかを判断するうえで関心が高い領域だからです。

多言語Codingでも高い値が報じられています。W&Bによれば、SWE-bench MultilingualではMythos Previewが87.3%、Opus 4.6が77.8%です。[6] 少なくとも報告値の範囲では、英語中心の単一設定だけに強い、という見え方ではありません。

ただし、この93.9%は、どのリポジトリ、どの開発ツール、どのレビュー体制でも同じ結果になるという保証ではありません。さらにClaude Mythos Previewは、Anthropicによればセルフサービスで誰でも試せるモデルではありません。[13]

サイバーセキュリティの数字は強い。ただし用途は限定的に読む

サイバーセキュリティ関連のスコアも強烈です。Authmindは、Claude Mythos PreviewがCybenchでpass@1=1.00を達成したと報じています。Cybenchについては、4つの主要CTF大会に由来する40問の公開ベンチマークと説明しています。[27]

同じくAuthmindは、CyberGymでMythos Previewが0.83を記録したとし、この評価を1,507件の実在するオープンソース課題を使った、狙った脆弱性再現のベンチマークと説明しています。[27]

これはAnthropicの公式な位置づけとも整合します。Claude APIドキュメントでは、Mythos PreviewはProject Glasswingの防御的サイバーセキュリティ向け研究プレビューとして扱われています。[13] Project Glasswingページでも、サイバーセキュリティ能力は複雑なソフトウェアを理解・変更し、脆弱性を発見・修正できる広い能力と結び付けられています。[16]

一方で、CTF問題や脆弱性再現は、現実のセキュリティ運用そのものではなく、特定の評価設定です。[27] 重要な能力シグナルではありますが、各組織の権限設計、ツール制限、監査、責任分界にそのまま置き換えられるわけではありません。

推論、マルチモーダル、ターミナル操作のスコア

Codingとサイバーセキュリティ以外でも、高い推論スコアが報じられています。llm-statsは、Claude Mythos PreviewについてGPQA Diamond 94.6%、Humanity's Last Examはツールなしで56.8%、ツールありで64.7%としています。[25]

ここで重要なのは、ツール利用の有無が分けて示されている点です。AIモデルの評価では、モデル単体の能力だけでなく、検索、コード実行、外部ツール、与えられた時間などが結果を大きく左右します。

Terminal-Benchの92.1%も、数字だけを切り取ると危険です。llm-statsはこの値を、Terminus-2ハーネス、最大のadaptive thinking、1タスクあたり100万トークンの予算、4時間の拡張タイムアウト、Terminal-Bench 2.1更新を含む設定に結び付けています。[25] これは細かな注記ではなく、評価結果そのものを理解するための前提条件です。

マルチモーダル評価も慎重に読むべきです。W&Bは、内部マルチモーダル評価でMythos Previewが59.0%、Opus 4.6が27.1%だったと報じています。[6] さらにllm-statsは、SWE-bench Multimodalが内部実装を使っており、公開リーダーボードの結果と直接比較できないと注意しています。[25]

通常のリーダーボード値として読みにくい4つの理由

  1. アクセスが限定されている
    Claude Mythos Previewは、Anthropicによれば招待制の研究プレビューであり、セルフサービス登録はありません。[13] そのため、一般の開発者や企業が同条件で再現実験を行うのは難しくなります。

  2. 公式情報と第三者情報が混在している
    公式ソースは、モデルの位置づけ、利用条件、能力領域を確認するうえで重要です。[13][16][18] ただし、具体的なスコアの多くは、この資料群では第三者ソース経由で見えているものです。[6][9][25][27]

  3. 内部評価や特殊な設定が含まれる
    マルチモーダルの値は内部評価として報じられています。[6] Terminal-Benchも、特定のハーネス、最大のthinking設定、大きなトークン予算、長いタイムアウトといった条件付きで示されています。[25]

  4. ベンチマークごとに測っている能力が違う
    Authmindによれば、Cybenchは40問のCTFチャレンジ、CyberGymは1,507件の実在オープンソース課題を使った脆弱性再現の評価です。[27] どちらも有用な評価ですが、企業や研究組織の全ワークフローをそのまま代表するものではありません。

まとめ

Claude Mythos Previewは、報告されている限りでは非常に強いベンチマーク結果を示しています。SWE-bench Verified 93.9%、SWE-bench Multilingual 87.3%、内部マルチモーダル評価59.0%、CyberGym 0.83、Cybench pass@1=1.00はいずれも目立つ数字です。[6][27]

ただし、最も大切なのはスコアの高さだけではありません。Claude Mythos PreviewはAnthropicによればProject Glasswingの招待制研究プレビューであり、一般公開された標準モデルではありません。[13]

したがって、これらの数字はCoding、エージェント、そして防御的サイバーセキュリティにおける強い能力シグナルとして読むべきです。一方で、公開リーダーボードの順位のように、誰でも同条件で再現できる比較表として扱うには注意が必要です。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AIで検索して事実確認

重要なポイント

  • Claude Mythos PreviewはSWE bench Verifiedで93.9%と報じられている一方、AnthropicによればProject Glasswing向けの招待制研究プレビューです。
  • 報告されている主な値には、SWE bench Multilingual 87.3%、内部マルチモーダル評価59.0%、CyberGym 0.83、Cybench pass@1=1.00があります。
  • スコアはCoding、エージェント、サイバーセキュリティ能力の強いシグナルですが、第三者情報、内部評価設定、アクセス制限のため、一般的な公開リーダーボードとは同列に扱いにくい点があります。

人々も尋ねます

「Claude Mythosの主要ベンチマークと、その読み方」の短い答えは何ですか?

Claude Mythos PreviewはSWE bench Verifiedで93.9%と報じられている一方、AnthropicによればProject Glasswing向けの招待制研究プレビューです。

最初に検証する重要なポイントは何ですか?

Claude Mythos PreviewはSWE bench Verifiedで93.9%と報じられている一方、AnthropicによればProject Glasswing向けの招待制研究プレビューです。 報告されている主な値には、SWE bench Multilingual 87.3%、内部マルチモーダル評価59.0%、CyberGym 0.83、Cybench pass@1=1.00があります。

次の実践では何をすればいいでしょうか?

スコアはCoding、エージェント、サイバーセキュリティ能力の強いシグナルですが、第三者情報、内部評価設定、アクセス制限のため、一般的な公開リーダーボードとは同列に扱いにくい点があります。

次にどの関連トピックを検討すればよいでしょうか?

別の角度からの引用や追加の引用については、「Claude Securityとは:AnthropicのAIコード脆弱性スキャナーを企業はどう使うべきか」に進みます。

関連ページを開く

これを何と比較すればいいでしょうか?

この回答を「Grok 4.3 APIの読み方:100万トークン文脈と低単価でxAIは何を狙うのか」と照合してください。

関連ページを開く

研究を続けてください

研究に関する会話

あなた

リサーチクエスチョン

Was sind die Benchmarks von Claude Mythos?

Studio Global AI30 ソース

引用された回答

Claude Mythos hat laut den vorliegenden Belegen vor allem öffentlich diskutierte Benchmark-Werte für Coding-, multimodale und mehrsprachige Aufgaben. Die belastbarste Information ist jedoch eingeschränkt: Anthropic beschreibt Claude Mythos Preview als ein separates Research-Preview-Modell für defensive Cybersecurity-Workflows mit Einladungspflicht, nicht als allgemein verfügbares Standardmodell.[1]

Verfügbare Benchmark-Angaben

  • SWE-bench: 93,9% werden in mehreren Drittquellen als Benchmark-Wert für Claude Mythos genannt.[3][5]

  • Multimodal: 59,0% werden als interner multimodaler Evaluationswert für Mythos Preview genannt, gegenüber 27,1% für Opus 4.6.[4]

  • SWE-bench Multilingual: 87,3% werden für Mythos Preview genannt.[4]

  • Terminal-Bench 2.0: Eine Drittquelle erwähnt, dass Terminal-Bench 2.0 mit Terminus-2-Harness, maximalem adaptivem Thinking und einem 1M-Token-Budget pro Aufgabe ausgeführt wurde, nennt im vorliegenden Ausschnitt aber keinen konkreten Score.[7]

Einordnung und Unsicherheit

  • Anthropic selbst bestätigt in den verfügbaren Belegen die Existenz und den eingeschränkten Zugang von Claude Mythos Preview, aber der bereitgestellte offizielle Ausschnitt enthält keine konkreten Benchmark-Zahlen.[1]

  • Die konkreten Scores stammen in den vorliegenden Belegen überwiegend aus Drittquellen oder Snippets, nicht aus vollständig zitierbaren offiziellen Benchmark-Tabellen.[3][4][5]

  • Daher gilt: Insufficient evidence für eine vollständig verifizierte, offizielle Benchmark-Liste von Claude Mythos anhand der bereitgestellten Quellen.

情報源

  • [6] Claude Mythos Benchmark Scores | ml-news – Weights & Biases - Wandbwandb.ai

    Image 66 Multimodal and multilingual capabilities The model’s improvements extend to multimodal and multilingual tasks. Internal multimodal evaluations show Mythos Preview scoring 59.0% compared to Opus 4.6’s 27.1%, indicating superior handling of diverse i...

  • [9] Claude Mythos leads 17 of 18 benchmarks Anthropic ... - R&D Worldrdworldonline.com

    Research & Development World Claude Mythos leads 17 of 18 benchmarks Anthropic measured. Muse Spark put Meta back in the frontier club, and OpenAI’s ‘Spud’ model is reportedly near launch By Brian Buntz Anthropic is not planning on publicly releasing it, bu...

  • [13] Models overview - Claude API Docsdocs.anthropic.com

    Models overview - Claude API Docs . Claude Mythos Preview is offered separately as a research preview model for defensive cybersecurity workflows as part of Project Glasswing. Access is invitation-only and there is no self-serve sign-up. Models with the sam...

  • [16] Project Glasswing - Anthropicanthropic.com

    01 /08 Claude Mythos Preview Claude Mythos Preview is a general-purpose frontier model from Anthropic, our most capable yet for coding and agentic tasks. Its strength in cybersecurity is a direct result of that broader capability: a model that can deeply un...

  • [18] [PDF] Claude Mythos Preview System Card - Anthropicwww-cdn.anthropic.com

    Red Teaming benchmark for tool use​ 232 8.3.2.2 Robustness against adaptive attackers across surfaces​ 233 8.3.2.2.1 Coding​ 233 8.3.2.2.2 Computer use​ 234 8.3.2.2.3 Browser use​ 235 8.4 Per-question automated welfare interview results​ 236 8.5 Blocklist u...

  • [25] Claude Mythos Preview: Benchmarks, Pricing & Project Glasswingllm-stats.com

    \SWE-bench Multimodal uses an internal implementation; scores are not directly comparable to public leaderboard results. Terminal-Bench 2.0 was run with the Terminus-2 harness, adaptive thinking at maximum effort, and a 1M token budget per task. With extend...

  • [27] When a Lab Withholds Its Best Model: What the Claude Mythos System Card Signals for Cybersecurityauthmind.com

    On Cybench (a public benchmark drawing from 40 CTF challenges across four major competitions), Claude Mythos Preview achieved a perfect pass@1 score of 1.00. Claude Opus 4.6, the prior generation, scored 0.89. On CyberGym, which evaluates AI agents on targe...

Claude Mythosの主要ベンチマークと、その読み方 | 答え | Studio Global