ОтветыОпубликовано28 апр. 2026Last edited 6 мая 20267 источники

Бенчмарки Claude Mythos Preview: главные цифры и их ограничения

Главный показатель Claude Mythos Preview — 93,9 % на SWE bench Verified, но сама Anthropic описывает модель как закрытый Research Preview в рамках Project Glasswing, доступный только по приглашению. Среди других обсуждаемых результатов: 87,3 % на SWE bench Multilingual, 59,0 % во внутренней мультимодальной оценке, 0...

Искать и проверять факты с Studio Global AI Смотреть больше в «Открыть»

17K0

Abstrakte KI-Benchmark-Grafik zu Claude Mythos Preview mit Code- und Score-Elementen — Claude Mythos Benchmarks: 93,9 % SWE-bench und was dahinterstecktSymbolbild: Die Debatte um Claude Mythos dreht sich weniger um einen einzelnen Score als um die Vergleichbarkeit der Evaluationsbedingungen.
Промпт ИИ
Create a landscape editorial hero image for this Studio Global article: Claude Mythos Benchmarks: 93,9 % SWE-bench und was dahintersteckt. Article summary: Claude Mythos Preview wird vor allem durch 93,9 % auf SWE bench Verified auffällig; weitere berichtete Werte sind 87,3 % auf SWE bench Multilingual und 59,0 % in einer internen multimodalen Evaluation.. Topic tags: ai, anthropic, claude, benchmarks, coding. Reference image context from search candidates: Reference image 1: visual subject "# Claude Mythos Preview Benchmarks – The AI That Scored 93.9% on SWE-bench and Still Won’t Be Released. On April 7, 2026, Anthropic quietly released something extraordinary — and t" source context "Claude Mythos Preview Benchmarks - The AI That Scored 93.9% on ..." Reference image 2: visual subject "A score of 93.9% means Claude Mythos correctly resolved approximately 470 of those 500 real-world GitH
openai.com

Claude Mythos Preview — не просто очередная модель Claude, которую можно поставить рядом с другими в открытой таблице лидеров. В документации Claude API Anthropic отдельно описывает её как исследовательскую preview-модель для защитных сценариев кибербезопасности в рамках Project Glasswing: доступ — только по приглашению, самостоятельной регистрации нет.^[13]

Поэтому бенчмарки Mythos действительно интересны, но читать их нужно аккуратнее, чем оценки массово доступной модели. Это скорее сигнал о возможностях в контролируемом исследовательском контуре, чем готовый публично воспроизводимый рейтинг.

Основные опубликованные оценки

Конкретные численные значения в доступной подборке источников в основном видны через сторонние публикации, которые ссылаются на данные Anthropic, system card или собственные сводки.^[6]^[9]^[25]^[27]

Направление	Бенчмарк	Результат Claude Mythos Preview	Как это читать
Кодинг	SWE-bench Verified	93,9 %	Weights & Biases приводит для Claude Opus 4.6 показатель 80,8 %.^[6]
Многоязычный кодинг	SWE-bench Multilingual	87,3 %	У W&B для Claude Opus 4.6 указан результат 77,8 %.^[6]
Мультимодальность	Внутренняя мультимодальная оценка	59,0 %	W&B описывает это как внутреннюю оценку и сравнивает с 27,1 % у Claude Opus 4.6.^[6]
Кибербезопасность	Cybench	pass@1 = 1,00	Authmind описывает Cybench как публичный бенчмарк из 40 CTF-задач и приводит 0,89 для Claude Opus 4.6.^[27]
Кибербезопасность	CyberGym	0,83	Authmind описывает CyberGym как проверку воспроизведения уязвимостей на 1 507 реальных open-source задачах и приводит 0,67 для Claude Opus 4.6.^[27]
Рассуждение	GPQA Diamond	94,6 %	llm-stats указывает 91,3 % для Claude Opus 4.6.^[25]
Рассуждение	Humanity’s Last Exam, без инструментов / с инструментами	56,8 % / 64,7 %	llm-stats приводит для Claude Opus 4.6 40,0 % без инструментов и 53,1 % с инструментами.^[25]
Терминальные агенты	Конфигурация Terminal-Bench	92,1 %	llm-stats связывает результат с Terminus-2 harness, максимальным adaptive thinking, бюджетом 1M токенов на задачу, расширенными 4-часовыми тайм-аутами и обновлениями Terminal-Bench 2.1.^[25]
Многозадачные знания	MMMLU	92,7	R&D World пишет, что этот результат пересекается с указанным диапазоном Gemini 3.1 Pro — 92,6–93,6 — и был единственным исключением в заявлении о лидерстве Mythos в 17 из 18 бенчмарков.^[9]

Что официально подтверждает Anthropic

Самая надёжно подтверждённая часть — статус модели. В документации Anthropic Claude Mythos Preview указана как отдельная research preview-модель для защитных киберsecurity-сценариев Project Glasswing, доступная только по приглашению и без self-serve-доступа.^[13]

На странице Project Glasswing Anthropic также называет Claude Mythos Preview моделью общего назначения frontier-класса и своей самой сильной моделью для кодинга и агентных задач. Там же компания объясняет кибербезопасностные возможности Mythos более широкой способностью глубоко понимать и изменять сложное ПО, а значит — находить и исправлять уязвимости.^[16]

System card описывает Claude Mythos Preview как новую большую языковую модель, или frontier-модель, с возможностями в software engineering, reasoning, computer use, knowledge work и исследовательской помощи.^[18] Иными словами, официальные источники хорошо подтверждают позиционирование модели. Но точные score-значения в этой подборке в основном доступны через сторонние источники.^[6]^[9]^[25]^[27]

Почему 93,9 % на SWE-bench стали главным числом

Самая заметная оценка — 93,9 % на SWE-bench Verified. W&B приводит этот результат для Claude Mythos Preview и сравнивает его с 80,8 % у Claude Opus 4.6.^[6] Для команд, которые смотрят на ИИ как на помощника в разработке, это естественный headline-score: SWE-bench ближе к практическому вопросу, сможет ли модель разбираться в кодовой базе и исправлять задачи, а не просто писать небольшие фрагменты кода.

Сильным выглядит и многоязычный показатель: на SWE-bench Multilingual W&B указывает 87,3 % для Mythos Preview против 77,8 % для Opus 4.6.^[6] Это важно, потому что речь идёт не только об одном англоязычном сценарии кодинга.

Но даже высокий SWE-bench не означает, что модель так же сработает в любом репозитории, с любым стеком, CI, внутренними правилами ревью и ограничениями безопасности. В случае Mythos есть ещё один практический барьер: внешняя команда не может просто зарегистрироваться и проверить модель у себя, поскольку Anthropic описывает доступ как invitation-only.^[13]

Кибербезопасность: впечатляющие цифры, но специфический контекст

Кибербезопасностные результаты тоже выглядят очень сильными. Authmind сообщает, что Claude Mythos Preview получил идеальный результат pass@1 = 1,00 на Cybench; сам Cybench там описан как публичный бенчмарк из 40 CTF-задач.^[27] На CyberGym, по данным Authmind, Mythos Preview набрал 0,83; эта оценка описана как проверка AI-агентов на целевое воспроизведение уязвимостей в 1 507 реальных open-source задачах.^[27]

Это хорошо совпадает с официальным позиционированием: в документации Claude API Mythos Preview прямо связан с defensive cybersecurity workflows в рамках Project Glasswing.^[13] А на странице Project Glasswing Anthropic объясняет силу модели в кибербезопасности её общей способностью понимать, изменять и анализировать сложное программное обеспечение.^[16]

Но формат задач имеет значение. CTF-челленджи и воспроизведение уязвимостей — это конкретные тестовые режимы, пусть и очень полезные для оценки security-навыков.^[27] Они не заменяют проверку в условиях конкретной организации: с её инструментами, журналированием, политиками доступа, юридическими рамками и ответственностью за результат.

Reasoning, мультимодальность и терминальные агенты

Помимо кодинга и кибербезопасности, для Mythos Preview приводятся сильные reasoning-показатели. llm-stats указывает 94,6 % на GPQA Diamond, а также 56,8 % на Humanity’s Last Exam без инструментов и 64,7 % с инструментами.^[25] Разделение HLE на режимы «с инструментами» и «без инструментов» принципиально: доступ к инструментам может заметно менять итоговую оценку и её сравнимость.

С Terminal-Bench особенно важна конфигурация. llm-stats приводит результат 92,1 %, но одновременно уточняет, что он связан с Terminus-2 harness, максимальным adaptive thinking, бюджетом 1M токенов на задачу, расширенными 4-часовыми тайм-аутами и обновлениями Terminal-Bench 2.1.^[25] Это не мелкий технический шрифт, а часть результата: агентные бенчмарки часто сильно зависят от того, сколько времени, контекста, инструментов и вычислительного бюджета получает модель.

Мультимодальный показатель тоже стоит читать с осторожностью. W&B сообщает о 59,0 % во внутренней мультимодальной оценке Mythos Preview против 27,1 % у Opus 4.6.^[6] При этом llm-stats отдельно отмечает, что SWE-bench Multimodal использует внутреннюю реализацию, поэтому такие оценки нельзя напрямую сравнивать с результатами публичных лидербордов.^[25]

Почему эти scores не работают как обычный лидерборд

Главных ограничений четыре.

Ограниченный доступ. Anthropic описывает Claude Mythos Preview как research preview с доступом только по приглашению и без самостоятельной регистрации.^[13] Это затрудняет независимую проверку для обычных разработчиков и исследовательских команд.
Смешанная источниковая база. Официальные источники в этой подборке подтверждают прежде всего статус модели, её позиционирование и области возможностей.^[13]^[16]^[18] Многие точные численные оценки видны через сторонние публикации.^[6]^[9]^[25]^[27]
Внутренние и специальные конфигурации. Мультимодальный результат описан как внутренняя оценка.^[6] Terminal-Bench, в свою очередь, указан вместе с конкретным harness, максимальным thinking, крупным токен-бюджетом и увеличенными тайм-аутами.^[25]
Узкая привязка к типам задач. Cybench, по описанию Authmind, включает 40 CTF-задач, а CyberGym — 1 507 реальных open-source задач на воспроизведение уязвимостей.^[27] Это сильные сигналы, но они не покрывают весь спектр промышленной разработки и безопасности.

Итог

По опубликованным оценкам Claude Mythos Preview выглядит чрезвычайно сильной моделью: 93,9 % на SWE-bench Verified, 87,3 % на SWE-bench Multilingual, 59,0 % во внутренней мультимодальной оценке, 0,83 на CyberGym и pass@1 = 1,00 на Cybench.^[6]^[27]

Но главная оговорка не менее важна, чем сами цифры. Claude Mythos Preview, по описанию Anthropic, — это invitation-only research preview в рамках Project Glasswing, а не свободно доступная стандартная модель.^[13] Поэтому её бенчмарки лучше воспринимать как сильный сигнал возможностей в кодинге, агентных задачах и защитной кибербезопасности — но не как полностью публично воспроизводимую таблицу мест.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Ключевые выводы

Главный показатель Claude Mythos Preview — 93,9 % на SWE bench Verified, но сама Anthropic описывает модель как закрытый Research Preview в рамках Project Glasswing, доступный только по приглашению.
Среди других обсуждаемых результатов: 87,3 % на SWE bench Multilingual, 59,0 % во внутренней мультимодальной оценке, 0,83 на CyberGym и pass@1 = 1,00 на Cybench.
Цифры выглядят сильным сигналом для кодинга, агентных сценариев и защитной кибербезопасности, но из за ограниченного доступа, сторонних источников и специальных конфигураций их трудно сравнивать с обычными публичными...

Люди также спрашивают

Каков краткий ответ на вопрос «Бенчмарки Claude Mythos Preview: главные цифры и их ограничения»?

Какие ключевые моменты необходимо проверить в первую очередь?

Что мне делать дальше на практике?

Цифры выглядят сильным сигналом для кодинга, агентных сценариев и защитной кибербезопасности, но из за ограниченного доступа, сторонних источников и специальных конфигураций их трудно сравнивать с обычными публичными...

Какую связанную тему мне следует изучить дальше?

Продолжайте с «Claude Security: как Anthropic ищет уязвимости в корпоративном коде с помощью ИИ», чтобы увидеть другой ракурс и дополнительные цитаты.

Открыть связанную страницу

С чем мне это сравнить?

Сверьте этот ответ с «Grok 4.3 API: 1 млн токенов контекста, низкая цена и голосовая ставка xAI».

Открыть связанную страницу

Продолжайте свое исследование

IT Consulting Orange County CA, IT Services, IT Outsourcing - Technijian. # Anthropic Claude Security for Enterprise: What You Need to Know. Anthropic has officially opened Claude

Claude Security: как Anthropic ищет уязвимости в корпоративном коде с помощью ИИ

Claude Security: что умеет бета-сканер кода от Anthropic

抽象 AI 介面顯示 Grok 4.3 API、1M context、token 價格與語音波形

Grok 4.3 API: 1 млн токенов контекста, низкая цена и голосовая ставка xAI

Grok 4.3 API: как 1M context и цена $1,25/$2,50 меняют конкуренцию моделей

Metas KI-Altersprüfung: Neue Regeln für Jugendliche in EU, USA und Brasilien

Meta будет проверять возраст с помощью ИИ: что изменится в Instagram и Facebook

Meta усиливает ИИ-проверку возраста: новые правила для подростков в ЕС, США и Бразилии

I have set up some Touchup settings in Zoom Workplace. Do these settings apply when I join a Zoom meeting on the browser without having logg

Сработает ли ретушь Zoom в браузере без входа в аккаунт?

Применяются ли настройки Touch Up Zoom при входе в встречу через браузер?

Исследовательский разговор

Вы25 апр. 2026

Вопрос исследования

Was sind die Benchmarks von Claude Mythos?

Studio Global AI25 апр. 202630 источники

Цитируемый ответ

Claude Mythos hat laut den vorliegenden Belegen vor allem öffentlich diskutierte Benchmark-Werte für Coding-, multimodale und mehrsprachige Aufgaben. Die belastbarste Information ist jedoch eingeschränkt: Anthropic beschreibt Claude Mythos Preview als ein separates Research-Preview-Modell für defensive Cybersecurity-Workflows mit Einladungspflicht, nicht als allgemein verfügbares Standardmodell.^[1]

Verfügbare Benchmark-Angaben

SWE-bench: 93,9% werden in mehreren Drittquellen als Benchmark-Wert für Claude Mythos genannt.^[3]^[5]
Multimodal: 59,0% werden als interner multimodaler Evaluationswert für Mythos Preview genannt, gegenüber 27,1% für Opus 4.6.^[4]
SWE-bench Multilingual: 87,3% werden für Mythos Preview genannt.^[4]
Terminal-Bench 2.0: Eine Drittquelle erwähnt, dass Terminal-Bench 2.0 mit Terminus-2-Harness, maximalem adaptivem Thinking und einem 1M-Token-Budget pro Aufgabe ausgeführt wurde, nennt im vorliegenden Ausschnitt aber keinen konkreten Score.^[7]

Einordnung und Unsicherheit

Anthropic selbst bestätigt in den verfügbaren Belegen die Existenz und den eingeschränkten Zugang von Claude Mythos Preview, aber der bereitgestellte offizielle Ausschnitt enthält keine konkreten Benchmark-Zahlen.^[1]
Die konkreten Scores stammen in den vorliegenden Belegen überwiegend aus Drittquellen oder Snippets, nicht aus vollständig zitierbaren offiziellen Benchmark-Tabellen.^[3]^[4]^[5]
Daher gilt: Insufficient evidence für eine vollständig verifizierte, offizielle Benchmark-Liste von Claude Mythos anhand der bereitgestellten Quellen.

Источники

[6] Claude Mythos Benchmark Scores | ml-news – Weights & Biases - Wandbwandb.ai
Image 66 Multimodal and multilingual capabilities The model’s improvements extend to multimodal and multilingual tasks. Internal multimodal evaluations show Mythos Preview scoring 59.0% compared to Opus 4.6’s 27.1%, indicating superior handling of diverse i...
[9] Claude Mythos leads 17 of 18 benchmarks Anthropic ... - R&D Worldrdworldonline.com
Research & Development World Claude Mythos leads 17 of 18 benchmarks Anthropic measured. Muse Spark put Meta back in the frontier club, and OpenAI’s ‘Spud’ model is reportedly near launch By Brian Buntz Anthropic is not planning on publicly releasing it, bu...
[13] Models overview - Claude API Docsdocs.anthropic.com
Models overview - Claude API Docs . Claude Mythos Preview is offered separately as a research preview model for defensive cybersecurity workflows as part of Project Glasswing. Access is invitation-only and there is no self-serve sign-up. Models with the sam...
[16] Project Glasswing - Anthropicanthropic.com
01 /08 Claude Mythos Preview Claude Mythos Preview is a general-purpose frontier model from Anthropic, our most capable yet for coding and agentic tasks. Its strength in cybersecurity is a direct result of that broader capability: a model that can deeply un...
[18] [PDF] Claude Mythos Preview System Card - Anthropicwww-cdn.anthropic.com
Red Teaming benchmark for tool use 232 8.3.2.2 Robustness against adaptive attackers across surfaces 233 8.3.2.2.1 Coding 233 8.3.2.2.2 Computer use 234 8.3.2.2.3 Browser use 235 8.4 Per-question automated welfare interview results 236 8.5 Blocklist u...
[25] Claude Mythos Preview: Benchmarks, Pricing & Project Glasswingllm-stats.com
\SWE-bench Multimodal uses an internal implementation; scores are not directly comparable to public leaderboard results. Terminal-Bench 2.0 was run with the Terminus-2 harness, adaptive thinking at maximum effort, and a 1M token budget per task. With extend...
[27] When a Lab Withholds Its Best Model: What the Claude Mythos System Card Signals for Cybersecurityauthmind.com
On Cybench (a public benchmark drawing from 40 CTF challenges across four major competitions), Claude Mythos Preview achieved a perfect pass@1 score of 1.00. Claude Opus 4.6, the prior generation, scored 0.89. On CyberGym, which evaluates AI agents on targe...

Популярное в «Открыть»

ОтветыОпубликовано28 апр. 2026Last edited 6 мая 20267 источники

Бенчмарки Claude Mythos Preview: главные цифры и их ограничения

Искать и проверять факты с Studio Global AI Смотреть больше в «Открыть»

17K0

Основные опубликованные оценки

Направление	Бенчмарк	Результат Claude Mythos Preview	Как это читать
Кодинг	SWE-bench Verified	93,9 %	Weights & Biases приводит для Claude Opus 4.6 показатель 80,8 %.^[6]
Многоязычный кодинг	SWE-bench Multilingual	87,3 %	У W&B для Claude Opus 4.6 указан результат 77,8 %.^[6]
Мультимодальность	Внутренняя мультимодальная оценка	59,0 %	W&B описывает это как внутреннюю оценку и сравнивает с 27,1 % у Claude Opus 4.6.^[6]
Кибербезопасность	Cybench	pass@1 = 1,00	Authmind описывает Cybench как публичный бенчмарк из 40 CTF-задач и приводит 0,89 для Claude Opus 4.6.^[27]
Кибербезопасность	CyberGym	0,83	Authmind описывает CyberGym как проверку воспроизведения уязвимостей на 1 507 реальных open-source задачах и приводит 0,67 для Claude Opus 4.6.^[27]
Рассуждение	GPQA Diamond	94,6 %	llm-stats указывает 91,3 % для Claude Opus 4.6.^[25]
Рассуждение	Humanity’s Last Exam, без инструментов / с инструментами	56,8 % / 64,7 %	llm-stats приводит для Claude Opus 4.6 40,0 % без инструментов и 53,1 % с инструментами.^[25]
Терминальные агенты	Конфигурация Terminal-Bench	92,1 %	llm-stats связывает результат с Terminus-2 harness, максимальным adaptive thinking, бюджетом 1M токенов на задачу, расширенными 4-часовыми тайм-аутами и обновлениями Terminal-Bench 2.1.^[25]
Многозадачные знания	MMMLU	92,7	R&D World пишет, что этот результат пересекается с указанным диапазоном Gemini 3.1 Pro — 92,6–93,6 — и был единственным исключением в заявлении о лидерстве Mythos в 17 из 18 бенчмарков.^[9]

Что официально подтверждает Anthropic

Почему 93,9 % на SWE-bench стали главным числом

Кибербезопасность: впечатляющие цифры, но специфический контекст

Reasoning, мультимодальность и терминальные агенты

Почему эти scores не работают как обычный лидерборд

Главных ограничений четыре.

Ограниченный доступ. Anthropic описывает Claude Mythos Preview как research preview с доступом только по приглашению и без самостоятельной регистрации.^[13] Это затрудняет независимую проверку для обычных разработчиков и исследовательских команд.
Смешанная источниковая база. Официальные источники в этой подборке подтверждают прежде всего статус модели, её позиционирование и области возможностей.^[13]^[16]^[18] Многие точные численные оценки видны через сторонние публикации.^[6]^[9]^[25]^[27]
Внутренние и специальные конфигурации. Мультимодальный результат описан как внутренняя оценка.^[6] Terminal-Bench, в свою очередь, указан вместе с конкретным harness, максимальным thinking, крупным токен-бюджетом и увеличенными тайм-аутами.^[25]
Узкая привязка к типам задач. Cybench, по описанию Authmind, включает 40 CTF-задач, а CyberGym — 1 507 реальных open-source задач на воспроизведение уязвимостей.^[27] Это сильные сигналы, но они не покрывают весь спектр промышленной разработки и безопасности.

Итог

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Ключевые выводы

Главный показатель Claude Mythos Preview — 93,9 % на SWE bench Verified, но сама Anthropic описывает модель как закрытый Research Preview в рамках Project Glasswing, доступный только по приглашению.
Среди других обсуждаемых результатов: 87,3 % на SWE bench Multilingual, 59,0 % во внутренней мультимодальной оценке, 0,83 на CyberGym и pass@1 = 1,00 на Cybench.
Цифры выглядят сильным сигналом для кодинга, агентных сценариев и защитной кибербезопасности, но из за ограниченного доступа, сторонних источников и специальных конфигураций их трудно сравнивать с обычными публичными...

Люди также спрашивают

Каков краткий ответ на вопрос «Бенчмарки Claude Mythos Preview: главные цифры и их ограничения»?

Какие ключевые моменты необходимо проверить в первую очередь?

Что мне делать дальше на практике?

Какую связанную тему мне следует изучить дальше?

Открыть связанную страницу

С чем мне это сравнить?

Сверьте этот ответ с «Grok 4.3 API: 1 млн токенов контекста, низкая цена и голосовая ставка xAI».

Открыть связанную страницу

Продолжайте свое исследование

Исследовательский разговор

Вы25 апр. 2026

Вопрос исследования

Was sind die Benchmarks von Claude Mythos?

Studio Global AI25 апр. 202630 источники

Цитируемый ответ

Verfügbare Benchmark-Angaben

SWE-bench: 93,9% werden in mehreren Drittquellen als Benchmark-Wert für Claude Mythos genannt.^[3]^[5]
Multimodal: 59,0% werden als interner multimodaler Evaluationswert für Mythos Preview genannt, gegenüber 27,1% für Opus 4.6.^[4]
SWE-bench Multilingual: 87,3% werden für Mythos Preview genannt.^[4]
Terminal-Bench 2.0: Eine Drittquelle erwähnt, dass Terminal-Bench 2.0 mit Terminus-2-Harness, maximalem adaptivem Thinking und einem 1M-Token-Budget pro Aufgabe ausgeführt wurde, nennt im vorliegenden Ausschnitt aber keinen konkreten Score.^[7]

Einordnung und Unsicherheit

Anthropic selbst bestätigt in den verfügbaren Belegen die Existenz und den eingeschränkten Zugang von Claude Mythos Preview, aber der bereitgestellte offizielle Ausschnitt enthält keine konkreten Benchmark-Zahlen.^[1]
Die konkreten Scores stammen in den vorliegenden Belegen überwiegend aus Drittquellen oder Snippets, nicht aus vollständig zitierbaren offiziellen Benchmark-Tabellen.^[3]^[4]^[5]
Daher gilt: Insufficient evidence für eine vollständig verifizierte, offizielle Benchmark-Liste von Claude Mythos anhand der bereitgestellten Quellen.

Источники

[6] Claude Mythos Benchmark Scores | ml-news – Weights & Biases - Wandbwandb.ai
Image 66 Multimodal and multilingual capabilities The model’s improvements extend to multimodal and multilingual tasks. Internal multimodal evaluations show Mythos Preview scoring 59.0% compared to Opus 4.6’s 27.1%, indicating superior handling of diverse i...
[9] Claude Mythos leads 17 of 18 benchmarks Anthropic ... - R&D Worldrdworldonline.com
Research & Development World Claude Mythos leads 17 of 18 benchmarks Anthropic measured. Muse Spark put Meta back in the frontier club, and OpenAI’s ‘Spud’ model is reportedly near launch By Brian Buntz Anthropic is not planning on publicly releasing it, bu...
[13] Models overview - Claude API Docsdocs.anthropic.com
Models overview - Claude API Docs . Claude Mythos Preview is offered separately as a research preview model for defensive cybersecurity workflows as part of Project Glasswing. Access is invitation-only and there is no self-serve sign-up. Models with the sam...
[16] Project Glasswing - Anthropicanthropic.com
01 /08 Claude Mythos Preview Claude Mythos Preview is a general-purpose frontier model from Anthropic, our most capable yet for coding and agentic tasks. Its strength in cybersecurity is a direct result of that broader capability: a model that can deeply un...
[18] [PDF] Claude Mythos Preview System Card - Anthropicwww-cdn.anthropic.com
Red Teaming benchmark for tool use 232 8.3.2.2 Robustness against adaptive attackers across surfaces 233 8.3.2.2.1 Coding 233 8.3.2.2.2 Computer use 234 8.3.2.2.3 Browser use 235 8.4 Per-question automated welfare interview results 236 8.5 Blocklist u...
[25] Claude Mythos Preview: Benchmarks, Pricing & Project Glasswingllm-stats.com
\SWE-bench Multimodal uses an internal implementation; scores are not directly comparable to public leaderboard results. Terminal-Bench 2.0 was run with the Terminus-2 harness, adaptive thinking at maximum effort, and a 1M token budget per task. With extend...
[27] When a Lab Withholds Its Best Model: What the Claude Mythos System Card Signals for Cybersecurityauthmind.com
On Cybench (a public benchmark drawing from 40 CTF challenges across four major competitions), Claude Mythos Preview achieved a perfect pass@1 score of 1.00. Claude Opus 4.6, the prior generation, scored 0.89. On CyberGym, which evaluates AI agents on targe...

Популярное в «Открыть»

ОтветыОпубликовано28 апр. 2026Last edited 6 мая 20267 источники

Бенчмарки Claude Mythos Preview: главные цифры и их ограничения

Искать и проверять факты с Studio Global AI Смотреть больше в «Открыть»

17K0

Основные опубликованные оценки

Направление	Бенчмарк	Результат Claude Mythos Preview	Как это читать
Кодинг	SWE-bench Verified	93,9 %	Weights & Biases приводит для Claude Opus 4.6 показатель 80,8 %.^[6]
Многоязычный кодинг	SWE-bench Multilingual	87,3 %	У W&B для Claude Opus 4.6 указан результат 77,8 %.^[6]
Мультимодальность	Внутренняя мультимодальная оценка	59,0 %	W&B описывает это как внутреннюю оценку и сравнивает с 27,1 % у Claude Opus 4.6.^[6]
Кибербезопасность	Cybench	pass@1 = 1,00	Authmind описывает Cybench как публичный бенчмарк из 40 CTF-задач и приводит 0,89 для Claude Opus 4.6.^[27]
Кибербезопасность	CyberGym	0,83	Authmind описывает CyberGym как проверку воспроизведения уязвимостей на 1 507 реальных open-source задачах и приводит 0,67 для Claude Opus 4.6.^[27]
Рассуждение	GPQA Diamond	94,6 %	llm-stats указывает 91,3 % для Claude Opus 4.6.^[25]
Рассуждение	Humanity’s Last Exam, без инструментов / с инструментами	56,8 % / 64,7 %	llm-stats приводит для Claude Opus 4.6 40,0 % без инструментов и 53,1 % с инструментами.^[25]
Терминальные агенты	Конфигурация Terminal-Bench	92,1 %	llm-stats связывает результат с Terminus-2 harness, максимальным adaptive thinking, бюджетом 1M токенов на задачу, расширенными 4-часовыми тайм-аутами и обновлениями Terminal-Bench 2.1.^[25]
Многозадачные знания	MMMLU	92,7	R&D World пишет, что этот результат пересекается с указанным диапазоном Gemini 3.1 Pro — 92,6–93,6 — и был единственным исключением в заявлении о лидерстве Mythos в 17 из 18 бенчмарков.^[9]

Что официально подтверждает Anthropic

Почему 93,9 % на SWE-bench стали главным числом

Кибербезопасность: впечатляющие цифры, но специфический контекст

Reasoning, мультимодальность и терминальные агенты

Почему эти scores не работают как обычный лидерборд

Главных ограничений четыре.

Ограниченный доступ. Anthropic описывает Claude Mythos Preview как research preview с доступом только по приглашению и без самостоятельной регистрации.^[13] Это затрудняет независимую проверку для обычных разработчиков и исследовательских команд.
Смешанная источниковая база. Официальные источники в этой подборке подтверждают прежде всего статус модели, её позиционирование и области возможностей.^[13]^[16]^[18] Многие точные численные оценки видны через сторонние публикации.^[6]^[9]^[25]^[27]
Внутренние и специальные конфигурации. Мультимодальный результат описан как внутренняя оценка.^[6] Terminal-Bench, в свою очередь, указан вместе с конкретным harness, максимальным thinking, крупным токен-бюджетом и увеличенными тайм-аутами.^[25]
Узкая привязка к типам задач. Cybench, по описанию Authmind, включает 40 CTF-задач, а CyberGym — 1 507 реальных open-source задач на воспроизведение уязвимостей.^[27] Это сильные сигналы, но они не покрывают весь спектр промышленной разработки и безопасности.

Итог

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Ключевые выводы

Главный показатель Claude Mythos Preview — 93,9 % на SWE bench Verified, но сама Anthropic описывает модель как закрытый Research Preview в рамках Project Glasswing, доступный только по приглашению.
Среди других обсуждаемых результатов: 87,3 % на SWE bench Multilingual, 59,0 % во внутренней мультимодальной оценке, 0,83 на CyberGym и pass@1 = 1,00 на Cybench.
Цифры выглядят сильным сигналом для кодинга, агентных сценариев и защитной кибербезопасности, но из за ограниченного доступа, сторонних источников и специальных конфигураций их трудно сравнивать с обычными публичными...

Люди также спрашивают

Каков краткий ответ на вопрос «Бенчмарки Claude Mythos Preview: главные цифры и их ограничения»?

Какие ключевые моменты необходимо проверить в первую очередь?

Что мне делать дальше на практике?

Какую связанную тему мне следует изучить дальше?

Открыть связанную страницу

С чем мне это сравнить?

Сверьте этот ответ с «Grok 4.3 API: 1 млн токенов контекста, низкая цена и голосовая ставка xAI».

Открыть связанную страницу

Продолжайте свое исследование

Исследовательский разговор

Вы25 апр. 2026

Вопрос исследования

Was sind die Benchmarks von Claude Mythos?

Studio Global AI25 апр. 202630 источники

Цитируемый ответ

Verfügbare Benchmark-Angaben

SWE-bench: 93,9% werden in mehreren Drittquellen als Benchmark-Wert für Claude Mythos genannt.^[3]^[5]
Multimodal: 59,0% werden als interner multimodaler Evaluationswert für Mythos Preview genannt, gegenüber 27,1% für Opus 4.6.^[4]
SWE-bench Multilingual: 87,3% werden für Mythos Preview genannt.^[4]
Terminal-Bench 2.0: Eine Drittquelle erwähnt, dass Terminal-Bench 2.0 mit Terminus-2-Harness, maximalem adaptivem Thinking und einem 1M-Token-Budget pro Aufgabe ausgeführt wurde, nennt im vorliegenden Ausschnitt aber keinen konkreten Score.^[7]

Einordnung und Unsicherheit

Anthropic selbst bestätigt in den verfügbaren Belegen die Existenz und den eingeschränkten Zugang von Claude Mythos Preview, aber der bereitgestellte offizielle Ausschnitt enthält keine konkreten Benchmark-Zahlen.^[1]
Die konkreten Scores stammen in den vorliegenden Belegen überwiegend aus Drittquellen oder Snippets, nicht aus vollständig zitierbaren offiziellen Benchmark-Tabellen.^[3]^[4]^[5]
Daher gilt: Insufficient evidence für eine vollständig verifizierte, offizielle Benchmark-Liste von Claude Mythos anhand der bereitgestellten Quellen.

Источники

[6] Claude Mythos Benchmark Scores | ml-news – Weights & Biases - Wandbwandb.ai
Image 66 Multimodal and multilingual capabilities The model’s improvements extend to multimodal and multilingual tasks. Internal multimodal evaluations show Mythos Preview scoring 59.0% compared to Opus 4.6’s 27.1%, indicating superior handling of diverse i...
[9] Claude Mythos leads 17 of 18 benchmarks Anthropic ... - R&D Worldrdworldonline.com
Research & Development World Claude Mythos leads 17 of 18 benchmarks Anthropic measured. Muse Spark put Meta back in the frontier club, and OpenAI’s ‘Spud’ model is reportedly near launch By Brian Buntz Anthropic is not planning on publicly releasing it, bu...
[13] Models overview - Claude API Docsdocs.anthropic.com
Models overview - Claude API Docs . Claude Mythos Preview is offered separately as a research preview model for defensive cybersecurity workflows as part of Project Glasswing. Access is invitation-only and there is no self-serve sign-up. Models with the sam...
[16] Project Glasswing - Anthropicanthropic.com
01 /08 Claude Mythos Preview Claude Mythos Preview is a general-purpose frontier model from Anthropic, our most capable yet for coding and agentic tasks. Its strength in cybersecurity is a direct result of that broader capability: a model that can deeply un...
[18] [PDF] Claude Mythos Preview System Card - Anthropicwww-cdn.anthropic.com
Red Teaming benchmark for tool use 232 8.3.2.2 Robustness against adaptive attackers across surfaces 233 8.3.2.2.1 Coding 233 8.3.2.2.2 Computer use 234 8.3.2.2.3 Browser use 235 8.4 Per-question automated welfare interview results 236 8.5 Blocklist u...
[25] Claude Mythos Preview: Benchmarks, Pricing & Project Glasswingllm-stats.com
\SWE-bench Multimodal uses an internal implementation; scores are not directly comparable to public leaderboard results. Terminal-Bench 2.0 was run with the Terminus-2 harness, adaptive thinking at maximum effort, and a 1M token budget per task. With extend...
[27] When a Lab Withholds Its Best Model: What the Claude Mythos System Card Signals for Cybersecurityauthmind.com
On Cybench (a public benchmark drawing from 40 CTF challenges across four major competitions), Claude Mythos Preview achieved a perfect pass@1 score of 1.00. Claude Opus 4.6, the prior generation, scored 0.89. On CyberGym, which evaluates AI agents on targe...