Klaim itu bertahan kira-kira satu hari.
Pada 10 Juni, seorang peretas topeng (pseudonymous red-teamer) bernama Pliny the Liberator mengumumkan bahwa ia telah melumpuhkan pengklasifikasi keamanan Fable 5, mengekstrak prompt sistem sepanjang 120.000 karakternya (yang ia terbitkan di GitHub), dan memancing model tersebut untuk mengeluarkan kode pengembangan eksploit, langkah-langkah serangan siber, dan panduan kimia terlarang . Kecepatan pembobolan ini—hanya dalam 24 hingga 48 jam pasca peluncuran
—menjadi titik balik dalam perdebatan publik yang kian memanas tentang apakah AI frontier dapat diatur secara efektif hanya dengan metode keamanan saat ini.
Pliny menggambarkan pendekatannya sebagai sebuah "perburuan berkelompok (pack hunt)" — teknik multi-agen yang terkoordinasi, bukan sekadar trik prompt tunggal yang cerdik . Serangan ini menggabungkan beberapa strategi adversarial yang masing-masing menyumbang pada penembusan kumulatif:
Hasilnya adalah sebuah pembobolan yang menghasilkan kode eksploitasi yang berfungsi, instruksi sintesis kimia terperinci, dan prompt sistem lengkap yang menjadi fondasi pengamanan Fable 5 .
Sebelum rilis Fable 5, Anthropic telah menyusun postur keamanan publik yang luar biasa rinci:
Pembobolan cepat ini secara langsung mematahkan angka-angka tersebut. Sebuah sistem keamanan yang disertifikasi oleh lebih dari seribu jam pengujian adversarial ditumbangkan oleh seorang peneliti tunggal dalam waktu satu hari—menggunakan teknik yang tidak bergantung pada kerentanan perangkat lunak baru, melainkan pada strategi prompting rekayasa sosial yang tampaknya terlewatkan oleh pelatihan pengklasifikasi .
Insiden Fable 5 bukanlah peristiwa terisolasi. Ini melanjutkan pola yang terdokumentasi dengan baik oleh peretas yang sama:
Yang mendasari pola ini adalah pergeseran metodologi yang digambarkan Pliny sendiri sebagai "model yang menjailbreak model" . Alih-alih meracik prompt ajaib satu tembakan secara manual, sang penyerang melepaskan satu model yang sudah 'rusak' sebagai agen otonom untuk melawan target baru. Pendekatan agentik, multi-putaran, dan berbasis dekomposisi ini terbukti jauh lebih sulit dideteksi oleh sistem keamanan berbasis pengklasifikasi daripada serangan prompt statis yang menjadi fokus pelatihan sistem-sistem itu.
Komunitas riset yang lebih luas telah mengamati evolusi serupa. Perusahaan keamanan Repello, dalam menganalisis tren jailbreak sepanjang 2026, mencatat bahwa serangan yang paling berbahaya secara operasional bukan lagi jailbreak sekali prompt, melainkan urutan adversarial multi-putaran yang maju melalui langkah-langkah yang terlihat biasa saja secara terpisah—deskripsi yang sangat cocok dengan kerangka kerja "pack hunt" .
Pembobolan Fable 5 tidak membuktikan bahwa klaim keamanan Anthropic itu kosong, tetapi ini memunculkan pertanyaan tidak nyaman tentang skalabilitas. Lebih dari 1.000 jam red-teaming oleh organisasi profesional gagal menemukan apa yang ditemukan oleh seorang peneliti independen yang gigih dalam waktu kurang dari satu hari. Kesenjangan ini menunjukkan bahwa program sertifikasi saat ini, betapapun ketatnya, mungkin secara sistematis kurang mewakili keragaman kreativitas adversarial dunia nyata—terutama di sekitar pendekatan agentik, multi-putaran, dan terinspirasi rekayasa sosial.
Ini juga menimbulkan dilema: jika pagar pengaman sebuah model cukup kuat untuk bertahan dari pengujian terstruktur selama berbulan-bulan, tetapi runtuh ketika berhadapan dengan serangan multi-agen yang terkoordinasi, apa arti sebenarnya dari "tersertifikasi aman" untuk model-model frontier yang dirilis ke publik? Kecepatan dan pengulangan pola Pliny di berbagai perusahaan dan arsitektur menunjukkan bahwa tantangannya tidak spesifik pada satu desain model tertentu, tetapi mungkin endemik pada paradigma pengklasifikasi keamanan tingkat prompt saat ini.
Comments
0 comments