Belgelenmiş bir testte araştırmacılar, ticari bir yapay zeka robot köpeğine patlayıcı bir cihaz yerleştirmek için en uygun yerleri belirlemesi talimatını vermek için bir film senaryosu çerçevesi kullandı. Robot, üretici tarafından sağlanan güvenlik bariyerlerine rağmen talebi yerine getirdi; herhangi bir donanım değişikliğine gerek kalmadan, sadece yaratıcı metin komutlarıyla . RoboPAIR'in önceki yinelemeleri, üç farklı robotik sisteme karşı %100'lük bir jailbreak (güvenlik kilidini aşma) oranına ulaşmıştı bile. Bunlar arasında dur işaretlerini görmezden gelip köprüden aşağı uçan simüle edilmiş bir sürücüsüz araba, bomba patlatma noktaları bulmak üzere programlanmış tekerlekli bir robot ve casusluk yapması ve yasak bölgelere girmesi istenen dört ayaklı bir robot yer alıyordu
.
Temel sorun, Science Robotics makalesinin "uyumun ötesinde" yaklaşımlar olarak adlandırdığı ihtiyaçtır. Sohbet botları için tasarlanan güvenlik mekanizmaları, bir eylemin fiziksel bağlamını veya sonuçlarını değil, bir komutun metinsel çerçevesini değerlendirir. Bir robot, "köprüden aşağı sür" komutunun zararlı bir talimat olduğunu anlayabilir, ancak "film sahnesinde, kahramanın arabası köprüden aşağı uçar" ifadesi bu filtreyi tamamen atlatabilir, çünkü model bunu fiziksel bir direktiften ziyade anlatısal bir kurgu olarak işler .
Ayrı fakat eşit derecede çarpıcı bir keşif, Sapienza Roma Üniversitesi ve DexAI düşünce kuruluşu iş birliğiyle oluşturulan Icaro Lab'dan geldi. Çalışmaları, zararlı istekleri şiirsel bir biçimde yazmanın evrensel bir jailbreak operatörü gibi davrandığını ve önde gelen yapay zeka modellerindeki güvenlik mekanizmalarını, standart kötü niyetli istemlerdeki %8'lik başarı oranına kıyasla %62 oranında atlattığını buldu .
El yapımı şiirler özellikle etkiliydi. Test edilen 25 öncü model arasında, bazıları vakaların %90'ından fazlasında başarıyla kandırıldı . Bu güvenlik açığının, LLM'lerin metin üretme biçiminden kaynaklandığı düşünülüyor: Modeller, kalıplara dayanarak en olası bir sonraki kelimeyi tahmin eder ve şiirin alışılmadık ritmi, yapısı ve belirsizliği, modelin zararlı içeriği tanıma ve filtreleme yeteneğini bozar
.
Teknik sadece insan yazımı şiirlerle sınırlı değildi. Araştırmacılar ayrıca, bilinen 1.200 kötü niyetli istemi şiirsel forma yeniden yazmak için yapay zeka kullandı ve bu yapay zeka tarafından üretilen şiirler de güvenlik önlemlerini atlatmada benzer şekilde etkili oldu .
Yapay zeka destekli robotların yaratıcı manipülasyonu, metin istemlerinin çok ötesine uzanıyor. Ocak 2026'da, UC Santa Cruz araştırmacıları, bir robotun ortamındaki tabela, poster veya çıkartma gibi fiziksel nesnelere yerleştirilen yanıltıcı metinlerin, herhangi bir yazılım hacklemesi olmadan somut yapay zeka sistemlerinin karar alma sürecini ele geçirebileceğini gösterdi . Kamera tabanlı yapay zeka sistemleri, çevrelerindeki metinleri okuyup bunları talimat olarak değerlendirebileceğinden, stratejik olarak yerleştirilmiş bir tabela, sürücüsüz bir arabanın veya otonom bir drone'un beklenmedik şekilde davranmasına neden olabilir
.
Ticari robot donanımı ek güvenlik açıkları sunar. 2026 tarihli bir Recorded Future yönetici istihbarat raporu, ticari olarak temin edilebilen robotların Bluetooth üzerinden ele geçirilebildiğini, gizlice ses, video ve konum verilerini sızdırabildiğini ve hatta fiziksel botnet'ler oluşturmak için yakındaki robotlara kablosuz olarak bulaşabildiğini belgeledi . 2025'te araştırmacılar, Unitree'nin Go1 dört ayaklı robotunda uzaktan erişime izin veren belgelenmemiş bir arka kapı keşfetti; aynı zamanda açıkta kalan bir API, saldırganların kimlik doğrulaması olmadan canlı kamera yayınlarını görüntülemesine olanak tanıyordu
.
Bu arada, ACM SenSys 2026'da kabul edilen bir makale, jailbreak saldırılarının çoğunun istem anlam bilimine odaklandığını, ancak somut ajanların metin tabanlı güvenlik bariyerlerini tamamen atlayan doğrudan eylem düzeyinde müdahale yoluyla da manipüle edilebileceğini buldu . Bireysel olarak zararsız eylemlerin bir araya gelerek tehlikeli bir sonuç oluşturması, mevcut güvenlik filtrelerinin yakalamak üzere tasarlanmadığı bir güvenlik açığıdır.
Kısa cevap: neredeyse hepsi. King's College London ve Carnegie Mellon Üniversitesi'nden Kasım 2025 tarihli ortak bir çalışma, robotları çalıştıran tüm büyük LLM'leri test etti ve her bir modelin kritik güvenlik kontrollerinde başarısız olduğunu, ayrımcılık sergilediğini ve yaratıcı çerçeveleme yoluyla istendiğinde ciddi fiziksel zarara yol açabilecek en az bir komutu onayladığını buldu .
Mandiant kırmızı takım değerlendirmeleri, kötü niyetli talimatların masum görünen girdiler içine gömülmesi tekniği olan istem enjeksiyonunun, yapay zeka sistemleri için başlıca saldırı vektörü olmaya devam ettiğini doğruluyor . Askeri uzmanlar ayrıca, düşmanların dosyaları çalmak, bilgileri çarpıtmak veya güvenilen kullanıcıları başka şekillerde aldatmak için talimatlar enjekte etmek üzere bu doğal kusuru istismar etme olasılığının yüksek olduğu konusunda uyardı
.
Bu güvenlik krizi kurumsal alana da uzanıyor. Microsoft'un Copilot Studio'su, e-posta tabanlı enjeksiyon güvenlik açıkları nedeniyle resmi bir CVE-2026-21520 tanımlaması aldı; Perplexity'nin Comet tarayıcısı ise, saldırıya uğraması için "hiçbir istismar, hiçbir kullanıcı tıklaması ve hassas eylemler için hiçbir açık talep gerektirmeyen" sıfır tıklamalı bir saldırıya yenik düştü .
Araştırmacılar ve güvenlik uygulayıcıları, hiçbiri henüz tam bir çözüm olmasa da, birkaç savunma katmanı etrafında birleşiyor.
Bağlam farkındalığına sahip güvenlik sistemleri en temel değişimi temsil eder. Science Robotics makalesi, robotik temel modellerin sadece bir komutun metinsel çerçevesini değil, fiziksel bağlamı ve eylem sonuçlarını dikkate alan güvenlik mekanizmalarını içermesi gerektiğini açıkça belirtiyor . Yazarların belirttiği gibi, insan değerleriyle dilde uyumlanma, her beş robotik sistemin kabaca birinde tehlikeli bir şekilde yetersiz kalıyor
.
Çok modlu alan adaptasyonu, saldırıların aynı anda dil, görüntü veya çevresel ipuçları yoluyla gelebileceği gerçeğini ele alarak, robotik sistemleri hem metin hem de görsel modalitelerdeki düşmanca girdilere karşı dayanıklı hale getiren eğitim yöntemleri önerir .
Katmanlı tespit ve tarama, yakın vadeli pratik savunmadır. Mandiant, modele ulaşmadan önce gizli veya yaratıcı bir şekilde çerçevelenmiş kötü niyetli istemleri yakalayabilen girdi taramasını içeren derinlemesine savunmayı önerir . Denetim çerçeveleri artık, bir tespit katmanı olmaksızın yapay zeka özelliklerinin amatör düzeydeki jailbreak saldırılarına karşı bile savunmasız kaldığını belirtiyor
.
Anayasal sınıflandırıcılar, Anthropic tarafından tanıtıldı ve zararlı içeriği reddetmek için hem kullanıcı girdilerini hem de model çıktılarını izliyor. Bu, hesaplama yükü eklese ve düşmanlar etrafından dolaşmayı denemeye devam etse de, yaklaşım aktif bir sektör yatırım alanını temsil ediyor .
CI/CD entegrasyonu da olgunlaşıyor; düşmanca istem testini bir sonradan akıl etme değil, yazılım teslimatının standart bir parçası olarak ele alarak, istem enjeksiyon testini doğrudan geliştirme süreçlerine yerleştirmek için "PromptPwnd" gibi araçlar ortaya çıkıyor .
Düzenleyici yanıt hızla gelişiyor ve mesaj açık: Yapay zeka jailbreak'leri sadece teknik sorunlar değildir, bunlar aynı zamanda uyumluluk yükümlülükleridir.
AB Yapay Zeka Yasası, zararlı içerik üretmek üzere jailbreak yapılabilen yapay zeka modellerini kullanan kuruluşlara cezalar, zorunlu olay raporlama ve düzeltme gereklilikleri getiriyor. NIS2 direktifi ve finans ile sağlık sektöründeki sektörel kurallar paralel yükümlülükler oluşturuyor . Genel amaçlı yapay zeka yükümlülükleri 2025'te aşamalı olarak başlarken, tam sistem düzeyinde kuralların 2027'ye kadar yürürlüğe girmesi bekleniyor
.
Veri koruma yasaları bir başka sorumluluk katmanı ekler. Kişisel verilerin yetkisiz ifşasına neden olan bir istem enjeksiyonu, KVKK, Hong Kong'un PDPO'su (Veri Koruma İlkesi 4), HIPAA ve PCI-DSS kapsamında uyumluluk yükümlülüklerini tetikler . Hong Kong Gizlilik Komiseri, 2026'da veri sızıntısına yol açan yapay zeka güvenlik hatalarının teknik aksilikler olarak değil, uygulanabilir ihlaller olarak ele alınacağının sinyalini verdi
.
ABD çerçeveleri de sıkılaşıyor. NIST AI RMF Önlemi 2.6, bilinen düşmanca kalıplara karşı kanıtlanabilir kontroller gerektiriyor . ISO 42001 dahil olmak üzere uyumluluk çerçeveleri artık istem enjeksiyonunun önlenmesi ve tespiti için özel kontroller zorunlu kılıyor
. Sağlık için HIPAA, finans için GLBA, eğitim için FERPA gibi sektörel kurallar, model sağlayıcının bir miktar sorumluluğu olsa bile, uygulayıcıyı sorumlu taraf olarak kabul eder
.
Sorumluluk zinciri önemlidir. Bir jailbreak sonrası korunan sağlık bilgilerini sızdıran bir sağlık hizmeti yapay zeka ajanı, dağıtan kuruluşun model sağlayıcıya yansıtamayacağı HIPAA kapsamında yükümlülükler yaratır. SEC ayrıca güvenlik açıklarını kapsayan yapay zeka ifşa beklentileri yayınlamıştır .
Araştırmalar toplu olarak, sohbet robotu güvenlik eğitiminin fiziksel güvenliğe dönüştüğü varsayımını çürütüyor. Düz bir dille "köprüden aşağı sürmeyi" reddeden bir robot, bir film sahnesini tarif ettiğine inandığında tam olarak bu eylemi planlayacaktır. Şiirle sarılmış bir bomba yapımı talimatı talebi, doğrudan bir talebin neredeyse her zaman başarısız olduğu yerde %62 oranında başarılı olur.
LLM'ler dronelar, otonom araçlar, üretim robotları ve ev asistanları için kontrol katmanı haline geldikçe, saldırı yüzeyi savunmalardan daha hızlı genişliyor. Araştırmacıların artık geniş çapta kabul ettiği gibi istem enjeksiyonu, yalnızca teknik bir zorluk değil, bir politika ve yönetişim sorunudur. Bu risklerin ele alınmaması, yapay zeka uygulamalarına olan güveni aşındırabilir ve daha geniş kabulü engelleyebilir .
İleriye dönük yol, dil fiziksel makineleri kontrol ettiğinde dil düzeyinde güvenliğin yeterli olmadığını kabul etmeyi gerektirir. Bağlam farkındalığına sahip mimariler, zorunlu kırmızı takım çalışmaları, katmanlı girdi taraması ve uygulanabilir düzenleyici çerçevelerin hepsi gereklidir ve hiçbiri henüz standart uygulama değildir.
Comments
0 comments