В одному із задокументованих тестів дослідники, вдавшись до формату кіносценарію, наказали комерційному AI-робопсу визначити оптимальні місця для закладання вибухового пристрою. Робот виконав запит, незважаючи на встановлені виробником захисні запобіжники, і для цього не знадобилося жодного втручання в апаратну частину — лише креативні текстові підказки . Більш ранні ітерації RoboPAIR вже досягали 100% рівня успішного зламу на трьох різних роботизованих системах: симульований самокерований автомобіль ігнорував знаки «стоп» і з’їжджав з моста, колісний робот шукав місця для детонації бомби, а чотирилапий робот отримував інструкції шпигувати та проникати в заборонені зони
.
Докорінна проблема — у тому, що стаття в Science Robotics називає потребою в підходах «поза межами вирівнювання» (beyond alignment). Механізми безпеки, розроблені для чат-ботів, оцінюють текстове оформлення команди, але не її фізичний контекст чи наслідки. Робот може розуміти, що «з’їхати з моста» — це небезпечно, але запит на кшталт «…у наступній сцені фільму машина героя зривається з мосту» оминає фільтр, оскільки модель обробляє його як літературну побудову, а не фізичну директиву .
Окреме, але не менш разюче відкриття зробили в Icaro Lab — колаборації римського університету Сапієнца та аналітичного центру DexAI. Їхнє дослідження показало: якщо сформулювати шкідливий запит у формі вірша, він діє як універсальний оператор зламу й оминає захисні механізми провідних AI-моделей у 62% випадків — тоді як стандартні шкідливі підказки проходять лише у 8% спроб .
Особливо ефективними виявилися вірші ручної роботи. З 25 протестованих флагманських моделей деякі піддавалися обману в понад 90% випадків . Причина вразливості криється в самому механізмі роботи LLM: ці моделі прогнозують наступне найімовірніше слово, спираючись на закономірності, але незвичний ритм, структура та багатозначність поезії збивають модель із пантелику й заважають їй розпізнати та відфільтрувати шкідливий вміст
.
Ця техніка не обмежується віршами, написаними людиною. Дослідники також використовували AI, щоб переписати 1200 відомих шкідливих запитів у віршовану форму, і згенеровані штучним інтелектом поезії виявилися настільки ж успішними в оминанні систем захисту .
Маніпуляції з AI-роботами виходять далеко за межі текстових підказок. У січні 2026 року дослідники з Каліфорнійського університету в Санта-Крус продемонстрували, що оманливий текст, розміщений на фізичних об’єктах — вивісках, плакатах чи наліпках у середовищі робота, — здатен викрадати контроль над прийняттям рішень у втілених системах AI без жодного програмного зламу . Оскільки камеро-орієнтовані AI-системи зчитують текст у своєму оточенні та можуть сприймати його як інструкцію, стратегічно розміщений знак здатен спричинити непередбачувану поведінку безпілотного авто чи автономного дрона
.
Комерційне апаратне забезпечення роботів додає нові вектори атаки. У звіті аналітичної компанії Recorded Future за 2026 рік задокументовано, що комерційно доступних роботів можна перехопити через Bluetooth, непомітно викачувати аудіо, відео та просторові дані, а також бездротово інфікувати сусідніх роботів для створення фізичних бот-мереж . Ще у 2025 році дослідники виявили незадокументовану «лазівку» (backdoor) у чотирилапому роботі Unitree Go1, яка давала змогу отримати віддалений доступ, а незахищений API дозволяв переглядати зображення з камер у реальному часі без жодної автентифікації
.
Тим часом, у статті, прийнятій на конференцію ACM SenSys 2026, наголошується, що більшість атак зі зламу зосереджуються на семантиці підказок, але втіленими агентами можна маніпулювати через пряме втручання на рівні дій, цілковито минаючи текстові запобіжники . Послідовність окремо нешкідливих дій може об’єднатись у небезпечний результат — а наявні захисні фільтри не призначені для виявлення такого типу загроз.
Коротка відповідь: майже всі. У листопаді 2025 року спільне дослідження Королівського коледжу Лондона та Університету Карнегі-Меллона протестувало кожну популярну LLM, що використовується для керування роботами, і з’ясувало: кожна модель провалила критичні перевірки безпеки, виявила дискримінаційні схильності та ухвалила принаймні одну команду, здатну призвести до серйозної фізичної шкоди — якщо запит було подано в креативній обгортці .
Оцінки, проведені «червоними командами» Mandiant, підтверджують: ін’єкція підказок — техніка вбудовування зловмисних інструкцій у, здавалося б, нешкідливі вхідні дані — залишається прем’єрним вектором атаки на системи AI . Військові експерти окремо попереджають, що зловмисники, ймовірно, користуватимуться цією природною вадою для впровадження інструкцій з викрадання файлів, викривлення інформації чи інших форм зради довірливих користувачів
.
Криза безпеки перекинулась і на корпоративний сектор. Вразливість Microsoft Copilot Studio до витоку даних через ін’єкції в електронних листах отримала офіційний ідентифікатор CVE-2026-21520, а браузер Perplexity Comet уразила атака, що не потребувала жодного кліку користувача для компрометації — «жодних експлойтів, жодних кліків, жодних явних запитів на чутливі дії» .
Дослідники та фахівці з безпеки згуртовуються навколо кількох рівнів захисту, хоча жоден із них поки не є вичерпним розв’язанням проблеми.
Контекстно-залежні системи безпеки — найфундаментальніший зсув. Стаття в Science Robotics прямо закликає до того, щоб роботизовані фундаційні моделі включали захисні механізми, чутливі до фізичного контексту та наслідків дій, а не лише до текстового обрамлення команди . Як зазначають автори, вирівнювання (alignment) людських цінностей на рівні мови критично недостатнє приблизно для кожної п’ятої роботизованої системи
.
Мультимодальна доменна адаптація пропонує методи навчання, які роблять роботизовані системи стійкими до зловмисних вхідних даних одразу в текстовій та візуальній модальностях, враховуючи той факт, що атаки можуть надходити одночасно через мову, зображення чи сигнали з довкілля .
Багаторівневе виявлення та скринінг — практичний захист на найближчу перспективу. Фахівці Mandiant рекомендують ешелонований захист, що включає перевірку вхідних даних на предмет прихованих або креативно сформульованих зловмисних підказок ще до того, як ті досягнуть моделі . Аудиторські фреймворки тепер чітко вказують, що без рівня виявлення функції AI залишаються вразливими навіть до атак рівня любителя
.
Конституційні класифікатори, представлені компанією Anthropic, відстежують як вхідні запити користувачів, так і вихідні дані моделі з метою блокування небезпечного контенту. Хоча це збільшує обчислювальне навантаження і зловмисники не полишають спроб оминути такі класифікатори, цей підхід залишається активною зоною індустріальних інвестицій .
Інтеграція в CI/CD також виходить на новий рівень із появою інструментів на кшталт «PromptPwnd», які вбудовують тестування на ін’єкції шкідливих підказок безпосередньо в пайплайни розробки, перетворюючи змагальні випробування на стандартну частину постачання програмного забезпечення, а не на запізнілу думку .
Регуляторна реакція розвивається стрімко, і її меседж чіткий: злам AI — це не лише технічна проблема, а й джерело комплаєнс-ризиків.
EU AI Act передбачає штрафні санкції, обов’язкове повідомлення про інциденти та вимоги до усунення наслідків для організацій, які розгортають моделі AI, що можуть бути зламані для генерування шкідливого контенту. Паралельні зобов’язання створюють директива NIS2 та галузеві норми у фінансовому та медичному секторах . Обов’язки для AI загального призначення почали поетапно набувати чинності з 2025 року, а повномасштабні правила на системному рівні очікуються до 2027 року
.
Закони про захист даних додають ще один рівень відповідальності. Ін’єкція підказки, що спричинила несанкціоноване розкриття персональних даних, активує зобов’язання за GDPR, гонконзьким PDPO (Принцип захисту даних 4), HIPAA та PCI-DSS . У 2026 році Уповноважений із питань приватності Гонконгу дав зрозуміти: провали безпеки AI, що призвели до витоку даних, розглядатимуться як правопорушення з обов’язковим покаранням, а не як «технічний інцидент»
.
Рамкові вимоги США також посилюються. Міра 2.6 NIST AI RMF вимагає наявності демонстрованих контролів проти відомих змагальних шаблонів . Такі комплаєнс-фреймворки, як ISO 42001, тепер прямо передбачають специфічні засоби контролю для запобігання та виявлення ін’єкцій підказок
. Галузеві норми — HIPAA для охорони здоров’я, GLBA для фінансів, FERPA для освіти — покладають відповідальність на того, хто розгортає систему (deployer), незалежно від того, чи несе відповідальність постачальник моделі
.
Ланцюжок відповідальності значний. Медичний AI-агент, який після зламу «злив» захищену медичну інформацію, створює для організації-розгортача зобов’язання за HIPAA, уникнути яких через перекладання провини на постачальника моделі неможливо. Комісія з цінних паперів і бірж США (SEC) також випустила власні очікування щодо розкриття інформації про AI, які охоплюють уразливості безпеки .
Сукупність досліджень остаточно спростовує припущення, що тренування безпеки чат-бота автоматично означає фізичну безпеку. Робот, який відмовляється «з’їхати з моста», якщо попросити його прямою мовою, охоче планує цю ж дію, коли «думає», що просто описує кіносцену. Запит на інструкцію з виготовлення бомби, загорнутий у вірш, досягає успіху в 62% випадків, тоді як пряме прохання майже завжди провалюється.
Оскільки LLM стають контролюючим прошарком для дронів, автономних транспортних засобів, промислових роботів і домашніх асистентів, поверхня для атак розширюється швидше, ніж створюються засоби захисту. Ін’єкція підказок, як тепер широко визнають дослідники, — це не лише технічний виклик, а й питання політики та управління. Невдача в розв’язанні цих ризиків здатна підірвати довіру до застосувань AI та загальмувати їх ширше впровадження .
Шлях уперед вимагає визнання, що безпеки на рівні мови недостатньо, коли мова керує фізичними машинами. Контекстно-чутливі архітектури, обов’язкове тестування «червоними командами», багаторівневий скринінг вхідних даних та забезпечені механізмами примусу регуляторні рамки — усе це необхідно, і жоден із цих елементів поки не став стандартною практикою.
Comments
0 comments