ОтветыОпубликовано2 месяца назадLast edited 2 месяца назад15 источники

Claude Mythos силён в кибербезопасности, но его уникальность пока не доказана

Claude Mythos Preview выглядит заметным шагом вперёд в автономных киберзадачах, но публичные данные не доказывают, что только он способен на такой анализ. Главное преимущество Mythos — длинные цепочки действий: планирование, работа с инструментами, доступ к сети, поиск и эксплуатация уязвимостей.

Искать и проверять факты с Studio Global AI Смотреть больше популярных страниц

Abstract AI cybersecurity interface comparing Claude Mythos with cheaper AI models — Claude Mythos Has a Cybersecurity Lead, Not a Unique MoatAI-generated editorial illustration for a comparison of Claude Mythos and cheaper AI models in cybersecurity.
Промпт ИИ
Create a landscape editorial hero image for this Studio Global article: Claude Mythos Has a Cybersecurity Lead, Not a Unique Moat. Article summary: Claude Mythos appears meaningfully ahead on long, multi step cyber workflows: AISI’s May 2026 evaluation called it a “step up” over prior frontier models.. Topic tags: ai, cybersecurity, anthropic, claude, ai safety. Reference image context from search candidates: Reference image 1: visual subject "Claude Mythos and other Large Language Models are increasing the capabilities of both lower and mid-level hackers when it comes to solving cybersecurity-specific tasks and challeng" source context "Here’s how cyber heavyweights in the US and UK are dealing with Claude Mythos | CyberScoop" Reference image 2: visual subject "Claude Mythos improved on other models ability to complete a 32 step cyber attack targeting a simulated corporate network envir
openai.com

Claude Mythos Preview легко подать как модель, которая оставляет всех конкурентов далеко позади. Но если убрать маркетинговый шум, публичная картина выглядит тоньше: Mythos, похоже, действительно впереди в автономной многошаговой киберработе, однако это ещё не доказывает уникальный и недосягаемый технологический «ров». Более дешёвые или open-weight-модели — то есть модели с открыто доступными весами — уже способны воспроизводить часть рассуждений, когда задача хорошо ограничена и им заранее подготовлен правильный контекст .

Короткий вывод: преимущество есть, монополии не видно

Если под уникальностью понимать сильный отрыв в сложных end-to-end-сценариях — от разведки до эксплуатации уязвимости, — у Claude Mythos есть серьёзный аргумент. Британский Институт безопасности ИИ, AI Security Institute (AISI), назвал Mythos Preview «шагом вперёд» по сравнению с предыдущими frontier-моделями. В контролируемых тестах, где модели прямо ставили задачу и давали сетевой доступ, AISI наблюдал, как Mythos выполнял многоэтапные атаки на уязвимые сети и автономно находил и эксплуатировал уязвимости .

Но если утверждать, что более дешёвые публичные модели вообще не способны на похожие киберрассуждения, доказательства слабее. Aisle проверила показательные уязвимости из демонстраций Anthropic: исследователи изолировали релевантный код и прогнали случаи через небольшие недорогие open-weight-модели. По их отчёту, эти модели восстановили значительную часть того же анализа .

Где Mythos действительно выглядит сильнее

Самое убедительное преимущество Mythos — не в одиночном ответе на вопрос по коду, а в длинных задачах: поиск уязвимостей, эксплуатация, реверс-инжиниринг и имитация проникновения, где нужно планировать, выбирать инструменты и связывать несколько шагов в рабочую цепочку. AISI отдельно говорил о CTF-задачах — соревнованиях и тестах на поиск уязвимостей — и многошаговых симуляциях атак, а также описывал Mythos как часть более широкого тренда быстрого роста кибервозможностей ИИ-моделей .

Собственный red-team-отчёт Anthropic идёт дальше: компания пишет, что Mythos силён в широком наборе задач кибербезопасности, включая поиск zero-day-уязвимостей в реальных open-source-кодовых базах, реверс-инжиниринг эксплойтов для закрытого ПО и превращение N-day-уязвимостей — уже известных, но ещё не везде исправленных — в рабочие эксплойты . При этом сам отчёт подчёркивает важное ограничение: более 99% найденных уязвимостей на момент публикации ещё не были исправлены, поэтому внешние читатели не могут независимо изучить большинство примеров .

Почему дешёвые модели мешают говорить о неприступном «рве»

Аргумент в пользу дешёвых моделей не в том, что небольшие open-weight-системы уже равны Mythos как автономные агенты. Скорее он в том, что кибервозможности ИИ развиваются неровно: модель может быть слабее в одном типе задач, но неожиданно хорошо справляться с узким анализом конкретной уязвимости.

Именно это показали тесты Aisle: когда релевантный код уже выделен, а задача сформулирована достаточно узко, небольшие и дешёвые open-weight-модели смогли восстановить значительную часть анализа по выбранным демонстрационным уязвимостям Mythos . Tom’s Hardware описал последующую дискуссию похожим образом: Mythos может быть одной из сильнейших ИИ-моделей для кибербезопасности в целом, но более дешёвые модели способны достигать похожих результатов в некоторых задачах поиска эксплойтов и исправлений, при том что вопросы надёжности и стабильности работы остаются открытыми .

Это различие принципиально. Повторить анализ изолированного фрагмента кода — не то же самое, что самостоятельно ориентироваться в сети, строить план атаки, связывать шаги, эксплуатировать уязвимость и завершать симулированное проникновение. Публичные данные сильнее всего подтверждают лидерство Mythos именно в таких длинных агентных сценариях .

Возможно, главный фактор — не только модель, а вся система вокруг неё

Наиболее правдоподобное объяснение из публичных данных: преимущество Mythos складывается не только из «мозга» базовой модели. Важны инструменты, среда выполнения, доступ к сети и коду, выбор контекста, промптинг, агентная обвязка и проверка специалистами.

Aisle прямо формулирует это как идею, что moat находится не в модели самой по себе, а в системе, куда встроена глубокая экспертиза по безопасности . Оценка AISI тоже подчёркивает значение условий: самые сильные наблюдаемые результаты Mythos были получены в контролируемой среде, где модель направляли и давали ей сетевой доступ .

Важен и вопрос доступа. Bain описывает Claude Mythos Preview как frontier-модель с настолько серьёзными кибервозможностями, что Anthropic ограничила её распространение проверенной партнёрской программой Project Glasswing . Поэтому практическое сравнение не сводится к вопросу, какой API дешевле. Гораздо важнее, какую часть всего рабочего процесса можно воспроизвести с доступными моделями, инструментами и экспертизой .

Чего всё ещё не хватает для честного сравнения

Пока нет открытого и чистого benchmark-сравнения «яблоко к яблоку», где Mythos, недорогие API-модели и open-weight-модели тестировались бы в одинаковых условиях по цене и качеству. AISI оценивал Mythos в контролируемых сценариях и сравнивал его с прогрессом предыдущих frontier-моделей . Anthropic даёт подробные, но всё же написанные разработчиком модели red-team-материалы . Aisle предлагает более узкую контрпроверку на выбранных показательных уязвимостях . Эти источники отвечают на близкие, но разные вопросы.

Идеальный тест должен фиксировать доступ к инструментам, объём и качество кодового контекста, сетевые разрешения, число попыток, вычислительный бюджет, правила запуска эксплойтов и степень участия человека. Без этого громкие выводы в любую сторону преждевременны .

Как читать сравнение на практике

Сценарий	Что разумнее всего следует из публичных данных
Автономные red-team-процессы	Системы класса Mythos выглядят существенно сильнее, особенно если модели нужно планировать и выполнять много шагов с инструментами и сетевым доступом .
Ограниченный анализ уязвимостей по предоставленному коду	Более дешёвые или open-weight-модели могут быть полезны, если релевантный код уже подготовлен, а рабочий процесс узко задан .
Планирование рисков ИИ в компании	Не стоит считать Mythos единичной аномалией. Bain пишет, что Mythos серьёзен, но другие frontier-системы уже имеют некоторые сопоставимые возможности или, вероятно, скоро к ним придут .
Оценка моделей	Сравнивать нужно не только названия моделей, а полные системы: доступ к инструментам, обвязку, контекст и человеческую экспертизу .

Итог

Claude Mythos выглядит исключительным там, где важны автономность, планирование и многошаговое выполнение киберзадач. Но публичные данные не доказывают, что его базовые киберрассуждения принципиально недоступны более дешёвым моделям. Самый осторожный вывод такой: Mythos имеет реальное преимущество в сложных киберпроцессах, а более дешёвые модели могут закрывать неожиданно большую часть ограниченного анализа, если вокруг них есть сильные инструменты, правильный контекст и экспертный контроль .

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Люди также спрашивают

Каков краткий ответ на вопрос «Claude Mythos силён в кибербезопасности, но его уникальность пока не доказана»?

Claude Mythos Preview выглядит заметным шагом вперёд в автономных киберзадачах, но публичные данные не доказывают, что только он способен на такой анализ.

Какие ключевые моменты необходимо проверить в первую очередь?

Что мне делать дальше на практике?

Дешёвые модели с открытыми весами могут быть полезны в узких сценариях, если им заранее подготовить нужный код, контекст и экспертную обвязку.

Источники

← Back to Trending