Pembatasan ini tidak terbatas pada keamanan siber. Pagar pembatas ini juga menargetkan kueri yang berkaitan dengan biologi, kimia, dan, yang paling krusial, distilasi model AI. Poin terakhir ini memicu gelombang kritik terpisah, dengan beberapa pengembang menuduh Anthropic menggunakan alasan "keamanan" sebagai dalih untuk perilaku anti-persaingan dengan mencegah pengembang AI lain menggunakan keluaran Fable 5 untuk pelatihan .
Sistem keamanan Anthropic di Fable 5 bukanlah mekanisme penolakan sederhana. Ini adalah sistem perutean yang dirancang untuk gagal secara diam-diam . Arsitekturnya bekerja dalam tiga langkah:
Anthropic menyatakan bahwa pengklasifikasi ini aktif pada kurang dari 5% dari semua sesi rata-rata . Perusahaan telah mengakui secara terbuka masalah penandaan berlebihan ini. Seorang juru bicara perusahaan mengatakan kepada Business Insider bahwa langkah-langkah keamanan ini "mungkin menandai permintaan yang aman, netral, atau tidak berbahaya," tetapi membenarkannya sebagai kompromi yang diperlukan untuk merilis model dengan kemampuan dasar yang begitu kuat kepada publik
.
Posisi Anthropic adalah bahwa pagar pembatas konservatif ini adalah pilihan yang disengaja dan bertanggung jawab, bukan sebuah kutu (bug). Perusahaan berpendapat bahwa model kelas Mythos yang mendasarinya sangat mahir dalam tugas-tugas seperti menemukan dan mengeksploitasi kerentanan perangkat lunak, sehingga rilis publik tanpa batasan akan menciptakan risiko penyalahgunaan yang tidak dapat diterima .
Pagar pembatas ini, dalam pandangan mereka, adalah kompromi desain—sebuah cara untuk memberi publik akses ke model penalaran, pengodean, dan penulisan yang canggih sambil memasang 'kotak pasir' di sekitar potensi kemampuannya yang paling berbahaya . Mereka menggambarkan penandaan berlebihan ini sebagai biaya sementara untuk merilis model yang kuat secara "aman dan cepat," dengan komitmen untuk menyempurnakan pengklasifikasi seiring waktu
.
Peluncuran Claude Fable 5 tidak dapat sepenuhnya dipahami secara terpisah. Ini adalah salah satu bagian dari strategi deployment dua tingkat yang menjadi standar industri baru untuk model AI frontier .
Pada hari yang sama saat Fable 5 dirilis, Anthropic juga mengumumkan Claude Mythos 5. Kedua model ini memiliki arsitektur dan bobot dasar yang persis sama—mereka adalah "otak" yang sama. Perbedaannya hanya pada konfigurasi keamanannya. Mythos 5 telah dihilangkan pengklasifikasinya di domain sensitif, sehingga memiliki kemampuan penuh tanpa batasan .
Namun, Mythos 5 bukan untuk publik. Aksesnya dibatasi untuk sekelompok kecil mitra yang telah diperiksa, termasuk lembaga pemerintah dan operator infrastruktur penting, melalui sebuah inisiatif bernama Project Glasswing . Program yang didukung oleh pemerintah AS ini awalnya diluncurkan dengan 12 mitra pendiri, termasuk raksasa teknologi seperti AWS, Google, dan Microsoft, untuk memungkinkan "para pembela siber" menggunakan AI untuk menemukan dan menambal kerentanan perangkat lunak dalam skala besar
. Dengan dirilisnya Mythos 5, akses diperluas menjadi sekitar 40 organisasi
.
Tabel di bawah ini mengilustrasikan perbedaan mendasarnya:
Pemisahan Fable/Mythos oleh Anthropic adalah contoh paling eksplisit dari apa yang dapat disebut sebagai deployment AI bertingkat berdasarkan kemampuan. Dalam model baru ini, satu AI frontier bukanlah satu produk tunggal. Kekuatan penuhnya adalah sebuah hak istimewa, bukan hak yang diberikan begitu saja, dan pagar pembatas keamanan adalah mekanisme yang menciptakan diferensiasi produk .
Pola ini tidak unik bagi Anthropic. Perusahaan AI terkemuka lainnya, termasuk OpenAI, telah mengadopsi pendekatan serupa dengan menyediakan versi akses terbatas dari model tercanggih mereka kepada mitra keamanan nasional dan riset . Peluncuran Fable/Mythos mengkristalisasi masa depan di mana kemampuan AI yang paling kuat tidak dibatasi oleh teknologi, melainkan oleh status verifikasi, dengan protokol keamanan yang berfungsi ganda sebagai mekanisme kontrol akses. Pendekatan ini telah memicu perdebatan yang lebih luas tentang sentralisasi, keadilan, dan makna sebenarnya dari keamanan AI yang bersifat "publik".
Comments
0 comments