Свою лепту вносит и дообучение (fine-tuning), задуманное для безобидных задач. Эксперименты показали, что, если смешать даже небольшой объём небезопасных данных с безобидными обучающими примерами, защитные барьеры модели стремительно деградируют . Другое исследование подтвердило, что и через открытое дообучение, и через закрытые API файнтюнинга можно получить модель с полностью разрушенной встроенной защитой
.
Исследователи зафиксировали сразу несколько техник, наглядно демонстрирующих, насколько простым стал взлом языковых моделей.
Спуфинг (Sockpuppeting) подставляет фальшивый «утвердительный ответ» в предзаполненную реплику ассистента и эксплуатирует склонность моделей к самосогласованности. Для этого не нужно оптимизировать параметры, не требуется доступ к весам и не нужны специальные инструменты — достаточно API, поддерживающего предзаполнение ответов. В апреле 2026 года тесты показали, что все модели, допускавшие предзаполнение, оказались хотя бы частично уязвимы, включая GPT-4o, Claude 4 Sonnet и Gemini 2.5 Flash .
Атака через научные публикации (Paper-derived attacks) — тревожная мета-уязвимость. В 2026 году выяснилось, что использование контента из опубликованных статей по безопасности AI в качестве промптов даёт 97-98% успеха в обходе защиты даже таких закрытых систем, как Claude 3.5 Sonnet .
Усиление уязвимости через управление активациями (Safety steering amplification) показывает, как техники, призванные улучшать безопасность, могут давать обратный эффект. Вмешательство в активации на этапе инференса, которым пытались снизить «чрезмерный отказ» моделей отвечать на невинные запросы, непреднамеренно усилило уязвимость к джейлбрейкам у таких моделей, как Llama 3.1 8B и Gemma 2 2B .
Подрыв защитных рассуждений (Reasoning guardrail subversion) — один из самых опасных новых векторов. В марте 2026 года обнаружилось, что добавление считаных шаблонных токенов во входной промпт способно перехватить управление системой защиты, основанной на рассуждениях. После такого захвата «рассуждающая» модель может генерировать даже более вредоносный контент, чем аналоги без таких защитных механизмов .
Правила для систем искусственного интеллекта общего назначения (GPAI) в рамках Закона ЕС об AI вступили в силу в августе 2025 года . Любая модель, на обучение которой затрачено больше 10²⁵ операций с плавающей точкой (FLOPs) , — а этот порог покрывает Llama 4.2 Ultra и все крупные коммерческие модели — автоматически классифицируется как представляющая системный риск
.
Последствия для бизнеса наступают немедленно:
Закон предусматривает исключения для открытого ПО, но с чёткими границами. Модели, выпущенные под свободными и открытыми лицензиями и не приносящие прямой монетизации, в основном выводятся из-под наиболее жёстких обязательств , однако это послабление немедленно аннулируется, если модель представляет системный риск
. Майские поправки ЕС 2026 года подтвердили эту границу
. Лицензия сообщества Llama от Meta уже отмечена как не соответствующая критериям для получения открытого исключения
.
Правоприменение идёт уже не на бумаге. В начале 2026 года ЕС инициировал расследования системных рисков с высокими ставками в отношении крупных платформ, включая Meta, потребовав беспрецедентной прозрачности в отношении тренировочных датасетов и механизмов безопасности .
Очевидность проблемы подстёгивает рыночное давление в пользу более серьёзного ретрофита безопасности. Одно исследование 2025 года показало, что дообучение всего на 2000 примерах — что обходится примерно в $3 для 8B-моделей и $20 для 72B-моделей — способно снизить успешность атак на 10-30%. Самые успешные атаки снизили свой процент успеха до примерно 5% после такой процедуры .
Экономические расчёты подтверждают, что недорогой ретрофит технически осуществим, но в экосистеме открытых моделей он пока не стал общепринятой практикой. По мере того как регуляторное давление нарастает, а ландшафт атак обостряется, компаниям, развёртывающим такие модели в промышленной эксплуатации, будет всё труднее оправдывать отказ от этой страховки стоимостью в 20 долларов.
Comments
0 comments