ОтветыОпубликовано2 месяца назадLast edited в прошлом месяце29 источники

Безопасность открытых AI-моделей системно сломана, и у ЕС заканчивается терпение

Атаки на открытые модели вроде Meta Llama и Google Gemma достигают почти 100% успеха, а многоходовые техники работают в 2 10 раз эффективнее одиночных попыток. Правила ЕС для систем общего назначения (GPAI) уже действуют: начаты расследования в отношении крупных платформ на предмет системных рисков.

Искать и проверять факты с Studio Global AI Смотреть больше популярных страниц

Fragile AI safety shield on open-weight large language models with jailbreak vulnerability concept — How vulnerable are the safety guardrails on widely deployed open-weight AI models like Meta's Llama and Google's Gemma, and what do recent iRecent studies show that current safety alignment techniques on open-weight AI models are systematically fragile against adaptive jailbreak attacks.
Промпт ИИ
Create a landscape editorial hero image for this Studio Global article: How vulnerable are the safety guardrails on widely deployed open-weight AI models like Meta's Llama and Google's Gemma, and what do recent i. Article summary: The safety guardrails on widely deployed open-weight models like Meta's Llama and Google's Gemma are **highly vulnerable** to systematic jailbreak. Multiple recent academic studies and industry investigations show that c. Topic tags: general, academic, general web, user generated, government. Reference image context from search candidates: Reference image 1: visual subject "A report cover featuring a colorful visualization of data flows from open-source AI models like Meta's Llama and Google's Gemma, highlighting safety concerns related to guardrails" Reference image 2: visual subject "A digital illustration features a stylized kangaroo outline with circuit-lik
openai.com

Факты неумолимы. Академические исследования и отраслевые тесты, опубликованные к началу 2026 года, показывают: встроенные ограничители безопасности у широко распространенных открытых моделей системно уязвимы. Адаптивные, многоходовые атаки и атаки через файнтюнинг обходят все механизмы защиты с вероятностью, близкой к 100%. Для компаний, которые разворачивают такие модели на своих серверах и обслуживают пользователей из Евросоюза, это уже не теория, а реальный регуляторный риск в рамках Закона ЕС об искусственном интеллекте (EU AI Act).

Насколько на самом деле всё плохо?

Цифры выглядят шокирующе. Исследование, представленное на конференции ICLR 2025, показало 100-процентную успешность атак на модели Llama-2-Chat (7B, 13B и 70B), Gemma-7B и другие прошедшие строгую safety-настройку флагманские системы — с использованием простых адаптивных техник и оценкой, произведенной моделью GPT-4 . В другой работе, опубликованной на конференции NeurIPS, использовался метод адаптивной оптимизации ADC, и на семи из восьми протестированных открытых моделей удалось достичь самых высоких показателей среди известных методов обхода защиты .

Уязвимость резко возрастает, когда злоумышленник не ограничивается одним запросом, а выстраивает цепочку сообщений. Команда Cisco AI Defense проверила восемь открытых моделей — успех многоходовых jailbreak-атак составил от 25,86% до 92,78% . Это в 2-10 раз больше, чем при одиночных попытках . В уязвимый список попали Llama 3.3 70B, Gemma 1B и другие . Исследователи констатировали «системную неспособность современных открытых моделей удерживать защитные контуры при длительных диалоговых взаимодействиях» .

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Люди также спрашивают

Каков краткий ответ на вопрос «Безопасность открытых AI-моделей системно сломана, и у ЕС заканчивается терпение»?

Атаки на открытые модели вроде Meta Llama и Google Gemma достигают почти 100% успеха, а многоходовые техники работают в 2 10 раз эффективнее одиночных попыток.

Какие ключевые моменты необходимо проверить в первую очередь?

Что мне делать дальше на практике?

Недорогие методы дообучения на 2000 примерах способны снизить успешность атак на 10 30%, но индустрия до сих пор не спешит их внедрять.

Безопасность открытых AI-моделей системно сломана, и у ЕС заканчивается терпение

Насколько на самом деле всё плохо?

Search, cite, and publish your own answer

Люди также спрашивают

Каков краткий ответ на вопрос «Безопасность открытых AI-моделей системно сломана, и у ЕС заканчивается терпение»?

Какие ключевые моменты необходимо проверить в первую очередь?

Что мне делать дальше на практике?

Источники

Новые методы атак, которые меняют правила игры

Регуляторный молот уже занесён

Ответ рынка: усиление защиты стоит копейки — почему оно до сих пор не стало стандартом?