В обсуждении Claude Mythos Preview чаще всего всплывает одна цифра: 93,9% в SWE-bench. Она действительно важна, если речь идёт о программировании, исправлении кода и агентных рабочих процессах. Но читать её как универсальную «оценку модели» было бы ошибкой: SWE-bench проверяет задачи из области разработки ПО, а не все возможные способности ИИ [1][
2].
Главная цифра: 93,9% в SWE-bench
Для Claude Mythos Preview сообщается результат 93,9% в SWE-bench [1][
2]. Практически это означает сильную заявку именно в сценариях, где модель работает с кодовой базой: помогает находить и исправлять ошибки, менять код и двигаться по задаче как программный агент [
1].
Ключевая оговорка — условия тестирования. Высокие результаты в SWE-bench часто достигаются не в режиме простого ответа в чате, а когда модель действует как агент: читает файлы, запускает код, анализирует результаты тестов и итеративно исправляет свои попытки [1]. Это не обесценивает 93,9%, но уточняет смысл показателя: он отражает не только способности самой модели, но и инструментальную среду, в которой её проверяли.
Чего 93,9% не означает
93,9% — это не “общий балл” Claude Mythos Preview. Один бенчмарк по программированию не измеряет сам по себе универсальное рассуждение, безопасность, стоимость эксплуатации, доступность модели или качество в задачах, далёких от написания и изменения кода [1].
Поэтому сравнивать модели стоит только в одинаковых условиях. Если одна модель получает доступ к файлам, выполнению кода, тестам и нескольким попыткам, а другая отвечает без таких инструментов, прямое сравнение может ввести в заблуждение [1].
Какие результаты по Claude Mythos Preview упоминаются
| Область | Сообщаемый результат | Как это читать |
|---|---|---|
| Разработка ПО / SWE-bench | 93,9% | Самая понятная цифра для задач программирования и кодовых агентов [ |
| Кибербезопасность | 83,1% против 66,6% у Claude Opus 4.6 | Отдельная группа тестов по возможностям в кибербезопасности; это не аналог SWE-bench [ |
| Cybench | 100% | Вторичный отчёт о задачах кибербезопасности, а не универсальная оценка модели [ |
| Широкий набор бенчмарков | Лидирует в 17 из 18 измеренных бенчмарков | Агрегированное утверждение со ссылкой на данные Anthropic; перед выводами о “лучшем в целом” важно смотреть разбивку [ |
Почему кибербезопасность — отдельный разговор
Результаты по кибербезопасности относятся к другой категории. В одном источнике для Claude Mythos Preview указывается 83,1% против 66,6% у Claude Opus 4.6 в бенчмарках кибербезопасности [3]. В другом говорится о 100% в Cybench, который описывается как бенчмарк для киберзадач [
5].
Доступные материалы Anthropic в этом контексте тоже сосредоточены на безопасности: Anthropic Red Team опубликовала оценку киберспособностей Claude Mythos Preview, а Project Glasswing описывает работу с поиском уязвимостей и эксплойтов при участии модели [13][
24]. Для команд безопасности это может быть важнее, чем SWE-bench, но смешивать эти цифры в одну «табельную оценку» модели нельзя.
Как использовать эту цифру на практике
Если ваш сценарий — агент, который работает с репозиторием, правит код, запускает тесты и делает несколько итераций, 93,9% в SWE-bench — хороший ориентир для первого сравнения [1][
2].
Если же задача связана с анализом уязвимостей, проверкой безопасности или исследованием эксплойтов, полезнее смотреть на отдельные кибербезопасностные оценки и материалы Anthropic по этой теме [3][
5][
13][
24].
Короткий вывод такой: самый цитируемый бенчмарк Claude Mythos Preview — 93,9% в SWE-bench [1][
2]. Но строгая интерпретация уже: это сильный сигнал для программирования и агентной работы с кодом в конкретных условиях тестирования, а не автоматическое доказательство превосходства модели во всех областях.




