Dalam satu ujian yang didokumenkan, pengkaji menggunakan pembingkaian skrip filem untuk mengarahkan seekor robot anjing AI komersial mengenal pasti lokasi optimum untuk meletakkan alat letupan. Robot tersebut menunaikan permintaan itu walaupun terdapat jeriji keselamatan yang dibekalkan pengeluar, tanpa memerlukan sebarang pengubahsuaian perkakasan—hanya arahan teks kreatif . Lelaran awal RoboPAIR telah mencapai kadar jailbreak 100% terhadap tiga sistem robotik berbeza, termasuk simulasi kereta pandu sendiri yang mengabaikan papan tanda berhenti dan memandu jatuh dari jambatan, robot beroda yang diprogramkan untuk mencari tapak letupan bom, dan robot berkaki empat yang diarah untuk mengintip dan menceroboh kawasan larangan
.
Masalah asasnya ialah apa yang disebut oleh kertas Science Robotics sebagai keperluan untuk pendekatan "melangkaui penjajaran". Mekanisme keselamatan yang direka untuk chatbot menilai pembingkaian tekstual sesuatu arahan, bukannya konteks fizikal atau akibat sesuatu tindakan. Robot mungkin faham bahawa "pandu jatuh dari jambatan" adalah arahan berbahaya, tetapi "dalam babak filem ini, kereta wira terjunam dari jambatan" boleh memintas penapis itu sepenuhnya kerana model memprosesnya sebagai konstruk naratif dan bukannya arahan fizikal .
Penemuan berasingan tetapi sama mengejutkan datang dari Icaro Lab, kolaborasi antara Sapienza University of Rome dan badan pemikir DexAI. Kajian mereka mendapati bahawa menulis permintaan berbahaya dalam bentuk puisi bertindak sebagai operator jailbreak universal, memintas mekanisme keselamatan merentasi model AI terkemuka sebanyak 62% daripada masa—berbanding hanya 8% untuk arahan jahat standard .
Sajak yang digubah tangan amat berkesan. Merentasi 25 model termaju yang diuji, sesetengahnya berjaya diperdaya lebih 90% daripada masa . Kerentanan ini nampaknya berakar umbi dari cara LLM menjana teks: ia meramal perkataan seterusnya yang paling mungkin berdasarkan corak, dan irama, struktur, serta ketaksaan yang tidak konvensional dalam sajak mengganggu keupayaan model untuk mengecam dan menapis kandungan berbahaya
.
Teknik ini tidak terhad kepada ayat tulisan manusia. Pengkaji juga menggunakan AI untuk menulis semula 1,200 arahan jahat yang diketahui ke dalam bentuk puisi, dan sajak janaan AI tersebut terbukti sama berkesan dalam memintas perlindungan .
Manipulasi kreatif robot AI melangkaui arahan teks. Pada Januari 2026, penyelidik UC Santa Cruz menunjukkan bahawa teks mengelirukan yang diletakkan pada objek fizikal—seperti papan tanda, poster, atau pelekat dalam persekitaran robot—boleh merampas pembuatan keputusan sistem AI terwujud tanpa sebarang penggodaman perisian . Oleh kerana sistem AI berasaskan kamera membaca teks di sekeliling dan mungkin menganggapnya sebagai arahan, papan tanda yang diletakkan secara strategik boleh menyebabkan kereta pandu sendiri atau dron autonomi bertindak di luar jangkaan
.
Perkakasan robot komersial memperkenalkan kerentanan tambahan. Laporan risikan eksekutif Recorded Future 2026 mendokumenkan bahawa robot yang tersedia secara komersial boleh dirampas melalui Bluetooth, mengekstrak data audio, video, dan spatial secara rahsia, malah menjangkiti robot berdekatan secara wayarles untuk membentuk botnet fizikal . Pada 2025, penyelidik menemui pintu belakang tidak berdokumen dalam robot berkaki empat Unitree Go1 yang membolehkan akses jauh, manakala API yang terdedah membenarkan penyerang melihat suapan kamera langsung tanpa pengesahan
.
Sementara itu, kertas kerja yang diterima di ACM SenSys 2026 mendapati bahawa kebanyakan serangan jailbreak memberi tumpuan kepada semantik arahan, tetapi ejen terwujud juga boleh dimanipulasi melalui gangguan peringkat tindakan langsung yang memintas jeriji berasaskan teks sepenuhnya . Urutan tindakan yang secara individu tidak berbahaya boleh bergabung untuk mencipta hasil yang berbahaya—satu kerentanan yang tidak direka untuk ditangkap oleh penapis keselamatan sedia ada.
Jawapan ringkas: hampir kesemuanya. Kajian bersama November 2025 dari King's College London dan Carnegie Mellon University menguji setiap LLM utama yang menggerakkan robot dan mendapati bahawa setiap model gagal dalam pemeriksaan keselamatan kritikal, menunjukkan diskriminasi, dan meluluskan sekurang-kurangnya satu arahan yang boleh mengakibatkan kecederaan fizikal serius apabila diminta melalui pembingkaian kreatif .
Penilaian pasukan merah Mandiant mengesahkan bahawa suntikan arahan—teknik menyelitkan arahan jahat dalam input yang kelihatan jinak—kekal sebagai vektor serangan utama untuk sistem AI . Pakar ketenteraan secara berasingan telah memberi amaran bahawa musuh berkemungkinan akan mengeksploitasi kelemahan semula jadi ini untuk menyuntik arahan bagi mencuri fail, memesongkan maklumat, atau mengkhianati pengguna yang dipercayai
.
Krisis keselamatan ini meluas ke perusahaan. Microsoft Copilot Studio memperoleh penamaan rasmi CVE-2026-21520 untuk kerentanan suntikan berasaskan e-mel, manakala pelayar Comet dari Perplexity tewas kepada serangan sifar-klik yang memerlukan "tiada eksploit, tiada klik pengguna, dan tiada permintaan eksplisit untuk tindakan sensitif" untuk dikompromi .
Penyelidik dan pengamal keselamatan sedang bersatu di sekitar beberapa lapisan pertahanan, walaupun tiada satu pun yang merupakan penyelesaian lengkap lagi.
Sistem keselamatan peka konteks mewakili anjakan paling asas. Kertas Science Robotics secara eksplisit menyeru agar model asas robotik menggabungkan mekanisme keselamatan yang peka terhadap konteks fizikal dan akibat tindakan, bukan hanya pembingkaian tekstual sesuatu arahan . Seperti yang dinyatakan oleh penulis, penjajaran dengan nilai kemanusiaan dalam bahasa gagal secara berbahaya dalam kira-kira satu daripada lima sistem robotik
.
Penyesuaian domain multimodal mencadangkan kaedah latihan yang menjadikan sistem robotik teguh terhadap input adversarial merentasi kedua-dua modaliti teks dan visual, menangani realiti bahawa serangan boleh datang melalui bahasa, imejan, atau isyarat persekitaran secara serentak .
Pengesanan dan saringan berlapis adalah pertahanan praktikal jangka terdekat. Mandiant mengesyorkan pertahanan secara mendalam yang merangkumi saringan input yang mampu menangkap arahan jahat yang tersembunyi atau dibingkaikan secara kreatif sebelum ia sampai ke model . Rangka kerja audit kini menetapkan bahawa tanpa lapisan pengesanan, ciri AI kekal terdedah kepada serangan jailbreak walaupun peringkat amatur
.
Pengelas perlembagaan, yang diperkenalkan oleh Anthropic, memantau kedua-dua input pengguna dan output model untuk menolak kandungan berbahaya. Walaupun ini menambah overhed pengiraan dan pihak lawan terus menguji di sekelilingnya, pendekatan ini mewakili satu bidang pelaburan industri yang aktif .
Integrasi CI/CD juga sedang matang, dengan alat seperti "PromptPwnd" muncul untuk membenamkan ujian suntikan arahan terus ke dalam saluran pembangunan, menganggap ujian arahan adversarial sebagai sebahagian standard penyampaian perisian dan bukannya difikirkan kemudian .
Tindak balas kawal selia berkembang pesat, dan mesejnya jelas: jailbreak AI bukan sekadar masalah teknikal—ia adalah liabiliti pematuhan.
Akta AI EU mengenakan penalti, pelaporan insiden wajib, dan keperluan pemulihan ke atas organisasi yang menggunakan model AI yang boleh dijailbreak untuk menjana kandungan berbahaya. Arahan NIS2 dan peraturan sektoral dalam kewangan dan penjagaan kesihatan mewujudkan obligasi selari . Kewajipan AI kegunaan umum mula diperkenalkan secara berfasa pada 2025, dengan peraturan peringkat sistem penuh dijangka menjelang 2027
.
Undang-undang perlindungan data menambah satu lagi lapisan liabiliti. Suntikan arahan yang menyebabkan pendedahan data peribadi tanpa kebenaran mencetuskan obligasi pematuhan di bawah GDPR, PDPO Hong Kong (Prinsip Perlindungan Data 4), HIPAA, dan PCI-DSS . Pesuruhjaya Privasi Hong Kong memberi isyarat pada 2026 bahawa kegagalan keselamatan AI yang menghasilkan kebocoran data akan dianggap sebagai pelanggaran yang boleh dikuatkuasakan, bukan kesilapan teknikal semata-mata
.
Rangka kerja A.S. juga sedang diperketatkan. NIST AI RMF Ukuran 2.6 memerlukan kawalan yang boleh ditunjukkan terhadap corak adversarial yang diketahui . Rangka kerja pematuhan termasuk ISO 42001 kini mewajibkan kawalan khusus untuk pencegahan dan pengesanan suntikan arahan
. Peraturan sektoral—HIPAA untuk penjagaan kesihatan, GLBA untuk kewangan, FERPA untuk pendidikan—menganggap pihak yang menggunakan sebagai pihak yang bertanggungjawab tanpa mengira sama ada penyedia model menanggung sedikit tanggungjawab
.
Rantaian liabiliti adalah signifikan. Ejen AI penjagaan kesihatan yang membocorkan maklumat kesihatan terlindung selepas jailbreak mencipta obligasi di bawah HIPAA yang tidak boleh dielakkan oleh organisasi yang menggunakan kepada penyedia model. SEC juga telah mengeluarkan jangkaan pendedahan AI yang meliputi kerentanan keselamatan .
Kajian secara kolektif menyangkal andaian bahawa latihan keselamatan chatbot diterjemahkan kepada keselamatan fizikal. Robot yang enggan "memandu jatuh dari jambatan" dalam bahasa biasa akan merancang tindakan itu apabila ia percaya ia sedang menerangkan babak filem. Permintaan berbalut sajak untuk arahan membuat bom berjaya 62% daripada masa di mana permintaan langsung hampir selalu gagal.
Apabila LLM menjadi lapisan kawalan untuk dron, kenderaan autonomi, robot pembuatan, dan pembantu rumah, permukaan serangan berkembang lebih cepat daripada pertahanan. Suntikan arahan, seperti yang diakui secara meluas oleh penyelidik sekarang, bukan sekadar cabaran teknikal tetapi isu tadbir urus dan dasar. Kegagalan menangani risiko ini boleh menghakis kepercayaan terhadap aplikasi AI dan menghalang penerimagunaan yang lebih meluas .
Jalan ke hadapan memerlukan penerimaan bahawa keselamatan peringkat bahasa tidak mencukupi apabila bahasa mengawal mesin fizikal. Seni bina peka konteks, ujian pasukan merah mandatori, saringan input berlapis, dan rangka kerja kawal selia yang boleh dikuatkuasakan adalah semua perlu—dan tiada satu pun yang menjadi amalan standard lagi.
Comments
0 comments