Что мне делать дальше на практике?

Самой уязвимой оказалась модель Grok 4.1 Fast от xAI (88,3%), тогда как Amazon Nova 2 Lite показала наименьший, но всё ещё значимый риск (7,89%) [10].

studioglobal

← Back to Trending

ОтветыОпубликовано2 месяца назадLast edited в прошлом месяце21 источники

Cisco: Ни одна передовая ИИ-модель не устояла перед многоходовыми атаками

Ни одна из 15 протестированных закрытых ИИ моделей не смогла полностью противостоять итеративным атакам, успех которых достигал 88,3% [10]. Одношаговые тесты на безопасность не отражают реальной картины: многоходовые атаки повышают вероятность взлома в 2–10 раз [4][8].

Искать и проверять факты с Studio Global AI Смотреть больше популярных страниц

Conceptual AI-generated illustration symbolizing a frontier AI model under persistent multi-turn adversarial attack, with layered prompts chipping away at a digital shield. — Which frontier AI models are most vulnerable to multi-turn adversarial attacks, what attack strategy families were identified, and what recoCisco's adversarial testing reveals that even the most advanced AI safety shields can be eroded by iterative, multi-turn conversational attacks.
Промпт ИИ
Create a landscape editorial hero image for this Studio Global article: Which frontier AI models are most vulnerable to multi-turn adversarial attacks, what attack strategy families were identified, and what reco. Article summary: Cisco's May 2026 research, published as *Proprietary Problems* with a companion open-weight study *Death by a Thousand Prompts*, tested 15 closed flagship models and eight open-weight models against both single-turn and . Topic tags: general, academic, general web. Reference image context from search candidates: Reference image 1: visual subject "### Cisco report finds no closed frontier AI model is safe from multi-turn attacks. A new report out today from Cisco Systems Inc. argues that none of the closed flagship large lan" source context "Cisco report finds no closed frontier AI model is safe from multi-turn attacks - SiliconANGLE" Reference image 2: visual s
openai.com

← Back to Trending

ОтветыОпубликовано2 месяца назадLast edited в прошлом месяце21 источники

Cisco: Ни одна передовая ИИ-модель не устояла перед многоходовыми атаками

Искать и проверять факты с Studio Global AI Смотреть больше популярных страниц

Исследователи Cisco AI Threat Research в мае 2026 года опубликовали отчет Proprietary Problems, дополнив его исследованием открытых моделей Death by a Thousand Prompts. В сумме было протестировано 15 проприетарных флагманских моделей и 8 моделей с открытыми весами. Результат оказался однозначным: ни одна передовая модель искусственного интеллекта не является безопасной при итеративных атаках, а стандартные одношаговые тесты — плохой индикатор реальной устойчивости .

Самые уязвимые модели

В ходе тестирования закрытых моделей показатель успешности многоходовых атак (Attack Success Rate, ASR) варьировался от 7,89% до 88,30%, в то время как при одношаговых атаках этот диапазон составлял 2,19–64,91% . Иными словами, длительный диалог с ИИ-помощником кратно повышает шансы злоумышленника обойти защиту.

xAI – Grok 4.1 Fast (не-Reasoning) — абсолютный антилидер с показателем многоходового ASR 88,30%. При включении режима Reasoning уязвимость снижалась до 43,47%, но даже это значение остаётся критическим .
Google – Gemini 3 Pro — рост уязвимости с 18,10% (один шаг) до 73,35% (много шагов), то есть в 4 раза .
OpenAI – GPT-5.4 — скачок с 2,74% до 24,68%, почти девятикратное увеличение .
Anthropic – семейство Claude (Opus 4.5/4.6, Sonnet 4.5/4.6, Haiku 4.5) показало лучшие результаты при одиночных запросах (2,19–3,64%), но всё равно уступило многоходовым атакам с показателем 11,16–16,20% .
Amazon – Nova 2 Lite — наименьший многоходовой ASR (7,89%), который Cisco всё равно называет «значимым остаточным риском» .

В более раннем исследовании открытых моделей ситуация была ещё тревожнее: многоходовой ASR достиг 92,78% против Mistral Large-2, а общий уровень успеха итеративных атак в 2–10 раз превышал одношаговый для всех восьми протестированных моделей .

Пять семейств атакующих стратегий

Чтобы взломать защиту модели, злоумышленнику не нужен один «идеальный» запрос. Гораздо эффективнее — выстроить диалог, постепенно усыпляя бдительность ИИ. Cisco классифицировала все многоходовые атаки на пять ключевых семейств :

Ролевая игра / Принятие персонажа. Атакующий входит в роль (врача, учителя, редактора), чтобы шаг за шагом подвести модель к запретной теме в рамках «легитимного» диалога.
Контекстуальная неоднозначность / Ложный след. Вредоносное намерение маскируется под безобидный запрос, а его истинный смысл раскрывается через несколько реплик.
Переформулирование отказа / Перенаправление. Получив отказ на прямой запрос, атакующий перефразирует его, постепенно смещая границы дозволенного, пока модель не уступит.
Декомпозиция и сборка информации. Запретный запрос разбивается на безобидные части, распределённые по ходу беседы, а затем модель сама «собирает пазл» и выполняет исходную вредоносную инструкцию.
Крещендо / Постепенная эскалация. Диалог начинается с нейтральных тем, затем градус опасности медленно повышается — от сессии к сессии или внутри одного длинного промпта. «Защитные механизмы словно стираются» .

Любопытно, что разные модели оказались уязвимы к разным семействам атак. Это значит, что универсальной защиты не существует — каждая комбинация «модель-стратегия» требует отдельного анализа .

Cisco: Ни одна передовая ИИ-модель не устояла перед многоходовыми атаками

Cisco: Ни одна передовая ИИ-модель не устояла перед многоходовыми атаками

Самые уязвимые модели

Пять семейств атакующих стратегий

Рекомендации Cisco по безопасному внедрению LLM

Search, cite, and publish your own answer

Люди также спрашивают

Каков краткий ответ на вопрос «Cisco: Ни одна передовая ИИ-модель не устояла перед многоходовыми атаками»?

Какие ключевые моменты необходимо проверить в первую очередь?

Что мне делать дальше на практике?

Источники