Самое убедительное преимущество Mythos — не в одиночном ответе на вопрос по коду, а в длинных задачах: поиск уязвимостей, эксплуатация, реверс-инжиниринг и имитация проникновения, где нужно планировать, выбирать инструменты и связывать несколько шагов в рабочую цепочку. AISI отдельно говорил о CTF-задачах — соревнованиях и тестах на поиск уязвимостей — и многошаговых симуляциях атак, а также описывал Mythos как часть более широкого тренда быстрого роста кибервозможностей ИИ-моделей .
Собственный red-team-отчёт Anthropic идёт дальше: компания пишет, что Mythos силён в широком наборе задач кибербезопасности, включая поиск zero-day-уязвимостей в реальных open-source-кодовых базах, реверс-инжиниринг эксплойтов для закрытого ПО и превращение N-day-уязвимостей — уже известных, но ещё не везде исправленных — в рабочие эксплойты . При этом сам отчёт подчёркивает важное ограничение: более 99% найденных уязвимостей на момент публикации ещё не были исправлены, поэтому внешние читатели не могут независимо изучить большинство примеров
.
Аргумент в пользу дешёвых моделей не в том, что небольшие open-weight-системы уже равны Mythos как автономные агенты. Скорее он в том, что кибервозможности ИИ развиваются неровно: модель может быть слабее в одном типе задач, но неожиданно хорошо справляться с узким анализом конкретной уязвимости.
Именно это показали тесты Aisle: когда релевантный код уже выделен, а задача сформулирована достаточно узко, небольшие и дешёвые open-weight-модели смогли восстановить значительную часть анализа по выбранным демонстрационным уязвимостям Mythos . Tom’s Hardware описал последующую дискуссию похожим образом: Mythos может быть одной из сильнейших ИИ-моделей для кибербезопасности в целом, но более дешёвые модели способны достигать похожих результатов в некоторых задачах поиска эксплойтов и исправлений, при том что вопросы надёжности и стабильности работы остаются открытыми
.
Это различие принципиально. Повторить анализ изолированного фрагмента кода — не то же самое, что самостоятельно ориентироваться в сети, строить план атаки, связывать шаги, эксплуатировать уязвимость и завершать симулированное проникновение. Публичные данные сильнее всего подтверждают лидерство Mythos именно в таких длинных агентных сценариях .
Наиболее правдоподобное объяснение из публичных данных: преимущество Mythos складывается не только из «мозга» базовой модели. Важны инструменты, среда выполнения, доступ к сети и коду, выбор контекста, промптинг, агентная обвязка и проверка специалистами.
Aisle прямо формулирует это как идею, что moat находится не в модели самой по себе, а в системе, куда встроена глубокая экспертиза по безопасности . Оценка AISI тоже подчёркивает значение условий: самые сильные наблюдаемые результаты Mythos были получены в контролируемой среде, где модель направляли и давали ей сетевой доступ
.
Важен и вопрос доступа. Bain описывает Claude Mythos Preview как frontier-модель с настолько серьёзными кибервозможностями, что Anthropic ограничила её распространение проверенной партнёрской программой Project Glasswing . Поэтому практическое сравнение не сводится к вопросу, какой API дешевле. Гораздо важнее, какую часть всего рабочего процесса можно воспроизвести с доступными моделями, инструментами и экспертизой
.
Пока нет открытого и чистого benchmark-сравнения «яблоко к яблоку», где Mythos, недорогие API-модели и open-weight-модели тестировались бы в одинаковых условиях по цене и качеству. AISI оценивал Mythos в контролируемых сценариях и сравнивал его с прогрессом предыдущих frontier-моделей . Anthropic даёт подробные, но всё же написанные разработчиком модели red-team-материалы
. Aisle предлагает более узкую контрпроверку на выбранных показательных уязвимостях
. Эти источники отвечают на близкие, но разные вопросы.
Идеальный тест должен фиксировать доступ к инструментам, объём и качество кодового контекста, сетевые разрешения, число попыток, вычислительный бюджет, правила запуска эксплойтов и степень участия человека. Без этого громкие выводы в любую сторону преждевременны .
Claude Mythos выглядит исключительным там, где важны автономность, планирование и многошаговое выполнение киберзадач. Но публичные данные не доказывают, что его базовые киберрассуждения принципиально недоступны более дешёвым моделям. Самый осторожный вывод такой: Mythos имеет реальное преимущество в сложных киберпроцессах, а более дешёвые модели могут закрывать неожиданно большую часть ограниченного анализа, если вокруг них есть сильные инструменты, правильный контекст и экспертный контроль .
Comments
0 comments