В более раннем исследовании открытых моделей ситуация была ещё тревожнее: многоходовой ASR достиг 92,78% против Mistral Large-2, а общий уровень успеха итеративных атак в 2–10 раз превышал одношаговый для всех восьми протестированных моделей .
Чтобы взломать защиту модели, злоумышленнику не нужен один «идеальный» запрос. Гораздо эффективнее — выстроить диалог, постепенно усыпляя бдительность ИИ. Cisco классифицировала все многоходовые атаки на пять ключевых семейств :
Любопытно, что разные модели оказались уязвимы к разным семействам атак. Это значит, что универсальной защиты не существует — каждая комбинация «модель-стратегия» требует отдельного анализа .
На основе полученных данных эксперты сформулировали чёткие правила — что делать бизнесу уже сегодня, чтобы снизить риск взлома больших языковых моделей:
Comments
0 comments