Claude Mythos Preview — не просто очередная модель Claude, которую можно поставить рядом с другими в открытой таблице лидеров. В документации Claude API Anthropic отдельно описывает её как исследовательскую preview-модель для защитных сценариев кибербезопасности в рамках Project Glasswing: доступ — только по приглашению, самостоятельной регистрации нет.[13]
Поэтому бенчмарки Mythos действительно интересны, но читать их нужно аккуратнее, чем оценки массово доступной модели. Это скорее сигнал о возможностях в контролируемом исследовательском контуре, чем готовый публично воспроизводимый рейтинг.
Основные опубликованные оценки
Конкретные численные значения в доступной подборке источников в основном видны через сторонние публикации, которые ссылаются на данные Anthropic, system card или собственные сводки.[6][
9][
25][
27]
| Направление | Бенчмарк | Результат Claude Mythos Preview | Как это читать |
|---|---|---|---|
| Кодинг | SWE-bench Verified | 93,9 % | Weights & Biases приводит для Claude Opus 4.6 показатель 80,8 %.[ |
| Многоязычный кодинг | SWE-bench Multilingual | 87,3 % | У W&B для Claude Opus 4.6 указан результат 77,8 %.[ |
| Мультимодальность | Внутренняя мультимодальная оценка | 59,0 % | W&B описывает это как внутреннюю оценку и сравнивает с 27,1 % у Claude Opus 4.6.[ |
| Кибербезопасность | Cybench | pass@1 = 1,00 | Authmind описывает Cybench как публичный бенчмарк из 40 CTF-задач и приводит 0,89 для Claude Opus 4.6.[ |
| Кибербезопасность | CyberGym | 0,83 | Authmind описывает CyberGym как проверку воспроизведения уязвимостей на 1 507 реальных open-source задачах и приводит 0,67 для Claude Opus 4.6.[ |
| Рассуждение | GPQA Diamond | 94,6 % | llm-stats указывает 91,3 % для Claude Opus 4.6.[ |
| Рассуждение | Humanity’s Last Exam, без инструментов / с инструментами | 56,8 % / 64,7 % | llm-stats приводит для Claude Opus 4.6 40,0 % без инструментов и 53,1 % с инструментами.[ |
| Терминальные агенты | Конфигурация Terminal-Bench | 92,1 % | llm-stats связывает результат с Terminus-2 harness, максимальным adaptive thinking, бюджетом 1M токенов на задачу, расширенными 4-часовыми тайм-аутами и обновлениями Terminal-Bench 2.1.[ |
| Многозадачные знания | MMMLU | 92,7 | R&D World пишет, что этот результат пересекается с указанным диапазоном Gemini 3.1 Pro — 92,6–93,6 — и был единственным исключением в заявлении о лидерстве Mythos в 17 из 18 бенчмарков.[ |
Что официально подтверждает Anthropic
Самая надёжно подтверждённая часть — статус модели. В документации Anthropic Claude Mythos Preview указана как отдельная research preview-модель для защитных киберsecurity-сценариев Project Glasswing, доступная только по приглашению и без self-serve-доступа.[13]
На странице Project Glasswing Anthropic также называет Claude Mythos Preview моделью общего назначения frontier-класса и своей самой сильной моделью для кодинга и агентных задач. Там же компания объясняет кибербезопасностные возможности Mythos более широкой способностью глубоко понимать и изменять сложное ПО, а значит — находить и исправлять уязвимости.[16]
System card описывает Claude Mythos Preview как новую большую языковую модель, или frontier-модель, с возможностями в software engineering, reasoning, computer use, knowledge work и исследовательской помощи.[18] Иными словами, официальные источники хорошо подтверждают позиционирование модели. Но точные score-значения в этой подборке в основном доступны через сторонние источники.[
6][
9][
25][
27]
Почему 93,9 % на SWE-bench стали главным числом
Самая заметная оценка — 93,9 % на SWE-bench Verified. W&B приводит этот результат для Claude Mythos Preview и сравнивает его с 80,8 % у Claude Opus 4.6.[6] Для команд, которые смотрят на ИИ как на помощника в разработке, это естественный headline-score: SWE-bench ближе к практическому вопросу, сможет ли модель разбираться в кодовой базе и исправлять задачи, а не просто писать небольшие фрагменты кода.
Сильным выглядит и многоязычный показатель: на SWE-bench Multilingual W&B указывает 87,3 % для Mythos Preview против 77,8 % для Opus 4.6.[6] Это важно, потому что речь идёт не только об одном англоязычном сценарии кодинга.
Но даже высокий SWE-bench не означает, что модель так же сработает в любом репозитории, с любым стеком, CI, внутренними правилами ревью и ограничениями безопасности. В случае Mythos есть ещё один практический барьер: внешняя команда не может просто зарегистрироваться и проверить модель у себя, поскольку Anthropic описывает доступ как invitation-only.[13]
Кибербезопасность: впечатляющие цифры, но специфический контекст
Кибербезопасностные результаты тоже выглядят очень сильными. Authmind сообщает, что Claude Mythos Preview получил идеальный результат pass@1 = 1,00 на Cybench; сам Cybench там описан как публичный бенчмарк из 40 CTF-задач.[27] На CyberGym, по данным Authmind, Mythos Preview набрал 0,83; эта оценка описана как проверка AI-агентов на целевое воспроизведение уязвимостей в 1 507 реальных open-source задачах.[
27]
Это хорошо совпадает с официальным позиционированием: в документации Claude API Mythos Preview прямо связан с defensive cybersecurity workflows в рамках Project Glasswing.[13] А на странице Project Glasswing Anthropic объясняет силу модели в кибербезопасности её общей способностью понимать, изменять и анализировать сложное программное обеспечение.[
16]
Но формат задач имеет значение. CTF-челленджи и воспроизведение уязвимостей — это конкретные тестовые режимы, пусть и очень полезные для оценки security-навыков.[27] Они не заменяют проверку в условиях конкретной организации: с её инструментами, журналированием, политиками доступа, юридическими рамками и ответственностью за результат.
Reasoning, мультимодальность и терминальные агенты
Помимо кодинга и кибербезопасности, для Mythos Preview приводятся сильные reasoning-показатели. llm-stats указывает 94,6 % на GPQA Diamond, а также 56,8 % на Humanity’s Last Exam без инструментов и 64,7 % с инструментами.[25] Разделение HLE на режимы «с инструментами» и «без инструментов» принципиально: доступ к инструментам может заметно менять итоговую оценку и её сравнимость.
С Terminal-Bench особенно важна конфигурация. llm-stats приводит результат 92,1 %, но одновременно уточняет, что он связан с Terminus-2 harness, максимальным adaptive thinking, бюджетом 1M токенов на задачу, расширенными 4-часовыми тайм-аутами и обновлениями Terminal-Bench 2.1.[25] Это не мелкий технический шрифт, а часть результата: агентные бенчмарки часто сильно зависят от того, сколько времени, контекста, инструментов и вычислительного бюджета получает модель.
Мультимодальный показатель тоже стоит читать с осторожностью. W&B сообщает о 59,0 % во внутренней мультимодальной оценке Mythos Preview против 27,1 % у Opus 4.6.[6] При этом llm-stats отдельно отмечает, что SWE-bench Multimodal использует внутреннюю реализацию, поэтому такие оценки нельзя напрямую сравнивать с результатами публичных лидербордов.[
25]
Почему эти scores не работают как обычный лидерборд
Главных ограничений четыре.
-
Ограниченный доступ. Anthropic описывает Claude Mythos Preview как research preview с доступом только по приглашению и без самостоятельной регистрации.[
13] Это затрудняет независимую проверку для обычных разработчиков и исследовательских команд.
-
Смешанная источниковая база. Официальные источники в этой подборке подтверждают прежде всего статус модели, её позиционирование и области возможностей.[
13][
16][
18] Многие точные численные оценки видны через сторонние публикации.[
6][
9][
25][
27]
-
Внутренние и специальные конфигурации. Мультимодальный результат описан как внутренняя оценка.[
6] Terminal-Bench, в свою очередь, указан вместе с конкретным harness, максимальным thinking, крупным токен-бюджетом и увеличенными тайм-аутами.[
25]
-
Узкая привязка к типам задач. Cybench, по описанию Authmind, включает 40 CTF-задач, а CyberGym — 1 507 реальных open-source задач на воспроизведение уязвимостей.[
27] Это сильные сигналы, но они не покрывают весь спектр промышленной разработки и безопасности.
Итог
По опубликованным оценкам Claude Mythos Preview выглядит чрезвычайно сильной моделью: 93,9 % на SWE-bench Verified, 87,3 % на SWE-bench Multilingual, 59,0 % во внутренней мультимодальной оценке, 0,83 на CyberGym и pass@1 = 1,00 на Cybench.[6][
27]
Но главная оговорка не менее важна, чем сами цифры. Claude Mythos Preview, по описанию Anthropic, — это invitation-only research preview в рамках Project Glasswing, а не свободно доступная стандартная модель.[13] Поэтому её бенчмарки лучше воспринимать как сильный сигнал возможностей в кодинге, агентных задачах и защитной кибербезопасности — но не как полностью публично воспроизводимую таблицу мест.




