Dakwaan itu hanya bertahan kira-kira sehari.
Pada 10 Jun, penyelidik keselamatan yang menggunakan nama samaran Pliny the Liberator mengumumkan bahawa dia telah berjaya memintas pengelas keselamatan Fable 5. Dia bukan sahaja berjaya mengeluarkan 'system prompt' model sepanjang 120,000 karakter (yang kemudian diterbitkannya di GitHub), malah turut membuatkan model itu mengeluarkan kod untuk mencipta eksploit keselamatan, langkah-langkah serangan siber, dan panduan kimia yang sepatutnya dirahsiakan . Kepantikan serangan ini—hanya dalam masa 24 hingga 48 jam selepas pelancaran
—telah menjadi titik perubahan dalam perdebatan hangat sama ada kaedah keselamatan semasa benar-benar mampu mengawal AI generasi hadapan.
Pliny menyifatkan pendekatannya sebagai "pack hunt" atau "serangan kumpulan" — satu teknik serangan terkoordinasi menggunakan berbilang ejen dan bukannya satu arahan yang bijak . Beliau menggabungkan beberapa strategi serangan yang saling melengkapi untuk menewaskan pagar keselamatan secara berperingkat:
Hasilnya adalah satu kejayaan memintas pagar keselamatan yang berjaya menghasilkan kod eksploit yang berfungsi, arahan sintesis kimia terperinci, dan keseluruhan 'system prompt' yang menjadi tunjang reka bentuk Fable 5 .
Sebelum pelancaran Fable 5, Anthropic telah mengemukakan postur keselamatan awam yang luar biasa terperinci:
Penggodaman yang pantas ini secara langsung telah memperlekehkan dakwaan-dakwaan tersebut. Satu sistem keselamatan yang diperakui melalui lebih seribu jam ujian berlawanan, berjaya dipintas oleh seorang penyelidik dalam masa sehari—menggunakan teknik yang bukan berasaskan kerentanan perisian baharu, tetapi strategi 'prompt' inspirasi kejuruteraan sosial yang nampaknya terlepas dari latihan pengelas sedia ada .
Insiden Fable 5 bukanlah satu peristiwa terpencil. Ia meneruskan corak yang didokumentasikan dengan baik oleh penggodam yang sama:
Di sebalik corak ini adalah perubahan dalam metodologi yang disifatkan oleh Pliny sendiri sebagai "model menggoda model" . Daripada menghasilkan 'prompt' satu pukulan yang ajaib secara manual, penyerang melepaskan satu model yang sudah 'rosak' sebagai ejen autonomi untuk menyerang sasaran baharu. Pendekatan berejen, pelbagai pusingan, berasaskan penguraian ini terbukti jauh lebih sukar untuk dikesan oleh sistem keselamatan berasaskan pengelas berbanding serangan 'prompt' statik yang menjadi fokus utama latihan sistem tersebut.
Komuniti penyelidikan yang lebih luas juga memerhatikan evolusi yang serupa. Firma keselamatan Repello, dalam menganalisis trend penggodaman AI sepanjang 2026, menyatakan bahawa serangan yang paling berbahaya dari segi operasi bukan lagi penggodaman satu arahan, tetapi urutan serangan berlawanan pelbagai pusingan yang maju melalui langkah-langkah yang kelihatan tidak berbahaya—satu perihalan yang sangat berpadanan dengan rangka kerja 'pack hunt' .
Penggodaman Fable 5 tidak membuktikan bahawa dakwaan keselamatan Anthropic adalah kosong, tetapi ia menimbulkan persoalan yang kurang selesa tentang tahap skalabilitinya. Lebih 1,000 jam ujian 'red-teaming' oleh organisasi profesional gagal menemui apa yang berjaya dihasilkan oleh seorang penyelidik bebas dalam masa kurang dari satu hari. Jurang ini menunjukkan bahawa program pensijilan semasa, walau bagaimana ketatnya, mungkin secara sistematik kurang mewakili kepelbagaian kreativiti serangan di dunia nyata—terutamanya pendekatan yang bersifat berejen, pelbagai pusingan, dan diinspirasikan oleh kejuruteraan sosial.
Ia juga menimbulkan dilema: jika pagar keselamatan model cukup teguh untuk menahan ujian berstruktur berbulan-bulan, tetapi runtuh apabila berhadapan dengan serangan pelbagai ejen yang terkoordinasi, apakah sebenarnya maksud "diperakui selamat" untuk model AI tercanggih yang dikeluarkan kepada awam? Kepantasan dan kebolehulangan corak Pliny merentasi pelbagai syarikat dan seni bina menunjukkan bahawa cabaran ini bukanlah khusus kepada satu reka bentuk model, tetapi mungkin endemik kepada paradigma semasa pengelas keselamatan peringkat 'prompt'.
Comments
0 comments