Penandaan berlebihan ini memberi impak negatif secara langsung kepada kegunaan model tersebut. Apabila sesuatu pertanyaan ditandakan, pengguna akan menerima respons yang dicairkan daripada AI yang lebih lama, pertukaran yang tidak dimaklumkan secara jelas kepada mereka . Isu ini diburukkan lagi dengan cara maklumat ini didedahkan. Pengkritik berpendapat bahawa tingkah laku ini hanya didedahkan secara tersembunyi di dalam kad sistem setebal 319 halaman, menyebabkan tuduhan bahawa Anthropic melakukan “sabotaj rahsia” terhadap keupayaan model untuk pengguna tertentu
.
Sekatan ini bukan sahaja terhad kepada keselamatan siber. Pagar keselamatan itu juga menyasarkan pertanyaan berkaitan biologi, kimia, dan yang paling kritikal, penyulingan model AI (AI model distillation). Perkara terakhir ini telah mencetuskan satu lagi gelombang kritikan, dengan beberapa pembangun menuduh Anthropic menggunakan “keselamatan” sebagai alasan untuk tingkah laku anti-persaingan dengan menghalang pembangun AI lain daripada menggunakan output Fable 5 untuk latihan .
Sistem keselamatan Anthropic dalam Fable 5 bukanlah mekanisme penolakan yang mudah. Ia adalah sistem penghalaan yang direka untuk gagal secara senyap . Seni binanya berfungsi dalam tiga langkah:
Anthropic menyatakan bahawa pengelas ini dicetuskan pada purata kurang daripada 5% daripada semua sesi . Syarikat itu telah mengakui secara terbuka masalah penandaan berlebihan ini. Seorang jurucakap syarikat memberitahu Business Insider bahawa langkah keselamatan itu “mungkin menandakan permintaan yang selamat, neutral atau tidak berbahaya,” tetapi mewajarkannya sebagai langkah timbal balas yang diperlukan untuk melepaskan model dengan keupayaan asas yang begitu berkuasa kepada umum
.
Pendirian Anthropic adalah bahawa pagar keselamatan yang konservatif ini adalah pilihan yang disengajakan dan bertanggungjawab, bukannya satu kecacatan. Syarikat itu berhujah bahawa model kelas Mythos yang mendasarinya terlalu mahir dalam tugas seperti mencari dan mengeksploitasi kelemahan perisian, sehinggakan pelepasan umum tanpa sekatan akan menimbulkan risiko penyalahgunaan yang dahsyat dan tidak boleh diterima .
Pagar keselamatan itu, pada pandangan mereka, adalah kompromi reka bentuk—satu cara untuk menyediakan akses awam kepada model penaakulan, pengekodan, dan penulisan yang canggih sambil meletakkan kotak pasir di sekeliling keupayaan potensinya yang paling berbahaya . Mereka menggambarkan penandaan berlebihan ini sebagai kos sementara untuk melepaskan model yang berkuasa dengan “selamat dan pantas,” dengan komitmen untuk memperhalusi pengelas dari semasa ke semasa
.
Pelancaran Claude Fable 5 tidak boleh difahami sepenuhnya secara berasingan. Ia adalah separuh daripada strategi penggunaan dua peringkat yang menjadi piawaian industri baharu untuk model AI frontier .
Pada hari yang sama Fable 5 dilancarkan, Anthropic turut mengumumkan Claude Mythos 5. Kedua-dua model berkongsi seni bina dan pemberat asas yang sama—ia adalah "otak" yang serupa. Satu-satunya perbezaan adalah konfigurasi keselamatan. Mythos 5 telah dialih keluar pengelasnya dalam domain sensitif, memberikannya keupayaan penuh dan tanpa sekatan .
Walau bagaimanapun, Mythos 5 bukan untuk orang awam. Ia terhad kepada sekumpulan kecil rakan kongsi yang telah diteliti (vetted partners), termasuk agensi kerajaan dan pengendali infrastruktur kritikal, melalui inisiatif yang dipanggil Project Glasswing . Program yang disokong kerajaan Amerika Syarikat (AS) ini pada mulanya dilancarkan dengan 12 rakan kongsi pengasas, termasuk gergasi teknologi seperti AWS, Google, dan Microsoft, untuk membolehkan “pembela siber” menggunakan AI bagi mencari dan menampal kelemahan perisian secara besar-besaran
. Dengan pelepasan Mythos 5, akses telah diperluaskan kepada lebih kurang 40 organisasi
.
Jadual di bawah menggambarkan perbezaan asas ini:
Pemisahan Fable/Mythos oleh Anthropic adalah contoh paling jelas tentang apa yang boleh dipanggil penggunaan AI bertingkat keupayaan (capability-tiered AI deployment). Dalam model baharu ini, satu AI frontier bukanlah satu produk tunggal. Kuasa penuhnya adalah satu keistimewaan dan pagar keselamatan adalah mekanisme yang mencipta pembezaan produk .
Corak ini tidak unik untuk Anthropic. Syarikat AI terkemuka lain, termasuk OpenAI, telah menggunakan pendekatan serupa dengan menyediakan versi akses terhad model mereka yang paling maju kepada rakan kongsi keselamatan negara dan penyelidikan . Pelancaran Fable/Mythos mengkristalkan masa depan di mana keupayaan AI yang paling berkuasa tidak disekat oleh teknologi, tetapi oleh status tapisan, dengan protokol keselamatan bertindak sebagai mekanisme kawalan akses, satu pendekatan yang sudah mencetuskan perdebatan lebih luas tentang pemusatan, keadilan, dan makna sebenar keselamatan AI 'awam'.
Comments
0 comments