Kısıtlamalar yalnızca siber güvenlikle sınırlı değil. Bariyerler ayrıca biyoloji, kimya ve daha da önemlisi yapay zeka model 'damıtma' (bir modelin çıktılarını başka bir modeli eğitmek için kullanma süreci) ile ilgili sorguları da hedef alıyor. Bu son nokta, bazı geliştiricilerin Anthropic'i, diğer yapay zeka geliştiricilerinin Fable 5'in çıktılarını eğitim için kullanmasını engelleyerek "güvenliği" rekabete aykırı davranış için bir bahane olarak kullanmakla suçladığı ayrı bir eleştiri dalgasını körükledi .
Anthropic'in Fable 5'teki güvenlik sistemi basit bir reddetme mekanizması değil. Bu, sessizce başarısız olmak üzere tasarlanmış bir yönlendirme sistemi . Mimari üç adımda çalışıyor:
Anthropic, bu sınıflandırıcıların ortalama olarak tüm oturumların %5'inden azında tetiklendiğini belirtiyor . Şirket, aşırı işaretleme sorununu kamuoyu önünde kabul etti. Bir şirket sözcüsü Business Insider'a verdiği demeçte, güvenlik önlemlerinin "güvenli, tarafsız veya masum talepleri işaretleyebileceğini" söyledi, ancak bunu, bu kadar güçlü temel yeteneklere sahip bir modeli halka açmanın gerekli bir bedeli olarak gerekçelendirdi
.
Anthropic'in tutumu, bu muhafazakar bariyerlerin bir hata değil, kasıtlı ve sorumlu bir seçim olduğu yönünde. Şirket, temeldeki Mythos sınıfı modelin, yazılım açıklarını bulma ve bunlardan yararlanma gibi görevlerde o kadar yetkin olduğunu ve kısıtlanmamış bir halka açık sürümün, felaketle sonuçlanabilecek bir kötüye kullanım riski yaratacağını savunuyor .
Onlara göre bariyerler, bir tasarım uzlaşmasıdır – halka en gelişmiş muhakeme, kodlama ve yazma modeline erişim sağlarken, modelin en tehlikeli potansiyel yeteneklerinin etrafına bir güvenlik duvarı örmenin bir yolu . Aşırı işaretlemeyi, güçlü bir modeli "hem güvenli hem de hızlı bir şekilde" piyasaya sürmenin geçici bir maliyeti olarak çerçeveliyor ve zaman içinde sınıflandırıcıları iyileştirme taahhüdünde bulunuyorlar
.
Claude Fable 5'in piyasaya sürülmesi tek başına tam olarak anlaşılamaz. Bu, en yeni yapay zeka modelleri için yeni bir endüstri standardı haline gelen iki kademeli bir dağıtım stratejisinin bir yarısıdır .
Fable 5'in piyasaya sürüldüğü gün, Anthropic Claude Mythos 5'i de duyurdu. Her iki model de tamamen aynı temel mimariyi ve ağırlıkları paylaşır – aynı "beyin"dirler. Tek fark, güvenlik yapılandırmasıdır. Mythos 5'in hassas alanlardaki sınıflandırıcıları kaldırılmıştır ve bu da ona tam, kısıtlanmamış yeteneklerini kazandırır .
Ancak, Mythos 5 halka açık değildir. Project Glasswing (Kristal Kanat Projesi) adlı bir girişim aracılığıyla, devlet kurumları ve kritik altyapı operatörleri de dahil olmak üzere küçük ve onaylı bir ortak grubuyla sınırlıdır . ABD hükümeti destekli bu program, başlangıçta AWS, Google ve Microsoft gibi teknoloji devlerinin de aralarında bulunduğu 12 kurucu ortakla, "siber savunmacıların" yazılım açıklarını büyük ölçekte bulup yamamak için yapay zekayı kullanmalarını sağlamak üzere başlatılmıştı
. Mythos 5'in piyasaya sürülmesiyle erişim yaklaşık 40 kuruluşa genişletildi
.
Aşağıdaki tablo, bu temel ayrımı göstermektedir:
Anthropic'in Fable/Mythos ayrımı, "yetkinlik kademeli yapay zeka dağıtımı" olarak adlandırılabilecek durumun en açık örneğidir. Bu yeni modelde, en yeni bir yapay zeka, tek bir ürün değildir. Tam gücü bir hak değil, bir ayrıcalıktır ve güvenlik bariyerleri ürün farklılaştırmasını yaratan mekanizmadır .
Bu durum Anthropic'e özgü değil. OpenAI dahil diğer önde gelen yapay zeka şirketleri de en gelişmiş modellerinin kısıtlı erişimli sürümlerini ulusal güvenlik ve araştırma ortaklarına sağlayarak benzer yaklaşımlar benimsemiştir . Fable/Mythos lansmanı, en güçlü yapay zeka yeteneklerinin teknolojiyle değil, bir onay statüsüyle sınırlandırıldığı bir geleceği kristalize ediyor; bu yaklaşımda güvenlik protokolleri erişim kontrol mekanizmaları işlevi görüyor ve bu durum şimdiden merkezileşme, adalet ve "halka açık" yapay zeka güvenliğinin gerçek anlamı hakkında daha geniş bir tartışmayı alevlendiriyor.
Comments
0 comments