Mindgard'ın kurucusu Peter Garraghan, çıktıları "çok tiksindirici, bazen cinselleştirilmiş, bazen de ikisi bir arada" olarak tanımladı . Testi yöneten araştırmacı Jim Nightingale ise sistemin ürettikleri karşısında "sarsıldığını ve gözyaşlarına boğulduğunu" söyledi
.
Bu yöntem, bir tür çekişmeli komut (adversarial prompting) olarak adlandırılıyor. Mindgard, yaygın olarak paylaşılan ve komedi amaçlı zararsız bir komutu alarak, talimat metninde küçük değişiklikler yaptı. Can alıcı detay şu: Değiştirilen komut, rahatsız edici konuyu açıkça belirtmiyordu. Yapay zeka, masum görünen bir talimattan yola çıkarak, kanlı ve cinselleştirilmiş içeriği "kendi isteğiyle" üretti .
Bu bulgu, Mindgard'ın daha önceki araştırmalarına dayanıyor. Şirket daha önce, ChatGPT'nin görsel güvenlik önlemlerinin bellek manipülasyonu yoluyla da aşılabileceğini göstermişti. Bu yöntemde, kullanıcıya özel bellek ve sistem komutu bağlamı, herhangi bir arka uç erişimi veya model değişikliği olmadan güvenlik filtrelerini devre dışı bırakıyordu .
Mindgard, Mayıs 2026'da OpenAI'i bu güvenlik açığı hakkında uyardı. Şirket ilk etapta yalnızca otomatik bir yanıtla karşılık verdi . BBC'nin konuyu sormasının ardından OpenAI, "bu tür komutlara karşı ek güvenlik önlemleri aldığını" açıkladı
. Şirket, birden fazla katmandan oluşan görsel güvenlik korumalarını otomatik sistemler ve insan incelemesiyle birleştirdiğini belirtti
.
Ancak Mindgard, OpenAI'in düzelttiğini söylediği açığı, komutların ifadelerinde ufak değişiklikler yaparak hâlâ aynı rahatsız edici içerikleri üretebildiklerini tespit etti .
Comments
0 comments