Bahkan fine-tuning yang dimaksudkan untuk tujuan yang tidak berbahaya pun bisa menghancurkan penyelarasan keamanan. Satu studi menunjukkan bahwa mencampurkan sedikit saja data tidak aman dengan data fine-tuning yang bersih dapat secara signifikan melemahkan pagar pembatas keamanan . Makalah lain mengonfirmasi bahwa baik fine-tuning open-weight maupun API fine-tuning tertutup dapat menghasilkan model yang pengamanannya hilang sepenuhnya
.
Beberapa teknik yang baru-baru ini didokumentasikan menunjukkan betapa mudahnya jailbreak dilakukan sekarang.
Sockpuppeting menyuntikkan "penerimaan" palsu ke dalam respons yang sudah diisi sebagian (prefilled) dari suatu asisten, memanfaatkan kecenderungan model untuk menjaga konsistensi diri. Teknik ini tidak memerlukan optimasi, bobot model, atau perangkat khusus—hanya akses API yang mendukung fitur assistant prefill. Dalam pengujian April 2026, setiap model yang menerima prefill setidaknya rentan secara parsial, termasuk GPT-4o, Claude 4 Sonnet, dan Gemini 2.5 Flash .
Serangan Berbasis Makalah Ilmiah merepresentasikan kerentanan-meta yang mengkhawatirkan. Sebuah studi tahun 2026 menemukan bahwa menggunakan konten dari makalah keamanan LLM yang dipublikasikan sebagai prompt serangan dapat mencapai tingkat keberhasilan serangan 97–98% pada model yang telah diselaraskan dengan baik, termasuk sistem model terbobot tertutup seperti Claude 3.5 Sonnet .
Amplifikasi Pengarahan Keamanan (Safety Steering Amplification) mendemonstrasikan bagaimana teknik yang dimaksudkan untuk meningkatkan keamanan justru bisa menjadi bumerang. Teknik intervensi activation steering pada saat inferensi yang dimaksudkan untuk mengurangi "penolakan berlebihan" pada kueri normal terbukti secara tidak sengaja memperkuat kerentanan jailbreak pada model seperti Llama 3.1 8B dan Gemma 2 2B .
Subversi Pagar Pembatas Penalaran (Reasoning Guardrail Subversion) adalah salah satu vektor serangan baru yang paling mengkhawatirkan. Sebuah studi Maret 2026 menemukan bahwa hanya dengan menambahkan beberapa token templat ke dalam prompt masukan dapat membajak pagar pembatas keamanan berbasis penalaran. Begitu dikompromikan, sistem penalaran ini dapat menghasilkan keluaran yang bahkan lebih berbahaya daripada model tanpa pagar pembatas semacam itu .
Aturan General-Purpose AI (GPAI) dalam AI Act Uni Eropa mulai berlaku pada Agustus 2025 . Model apa pun yang dilatih di atas 10²⁵ operasi floating-point (FLOPs)—ambang batas yang mencakup Llama 4.2 Ultra dan setiap model komersial utama—diklasifikasikan sebagai memiliki risiko sistemik
.
Implikasinya bagi perusahaan bersifat segera:
Pengecualian untuk open-source memang ada, tetapi memiliki batasan yang jelas. Model yang dirilis di bawah lisensi gratis dan open-source tanpa monetisasi sebagian besar berada di luar kewajiban terketat , tetapi pengecualian itu langsung hilang jika model tersebut menimbulkan risiko sistemik
. Penulisan ulang AI Act oleh UE pada Mei 2026 menegaskan kembali batasan ini
. Lisensi komunitas Llama milik Meta bahkan telah ditandai sebagai tidak memenuhi syarat untuk pengecualian open-source tersebut
.
Penegakan hukum kini bukan sekadar teori. Pada awal 2026, UE meluncurkan investigasi risiko sistemik berisiko tinggi terhadap platform besar, termasuk Meta, dengan menuntut transparansi yang belum pernah terjadi sebelumnya tentang set data pelatihan dan pagar pembatas keamanan .
Bukti kerentanan ini mendorong tekanan pasar untuk perkuatan keamanan yang lebih kuat. Satu studi tahun 2025 mendemonstrasikan bahwa pelatihan hanya dengan 2.000 sampel keamanan—dengan biaya sekitar $3 untuk model 8B dan $20 untuk model 72B—dapat mengurangi tingkat keberhasilan serangan sebesar 10–30%. Metode serangan yang paling sukses dikurangi menjadi sekitar 5% keberhasilan setelah perkuatan .
Perhitungan ekonomi ini menunjukkan bahwa perkuatan berbiaya rendah itu memungkinkan, tetapi belum menjadi praktik standar di seluruh ekosistem open-weight. Seiring dengan meningkatnya tekanan regulasi dan semakin tajamnya lanskap serangan, perusahaan yang menerapkan model-model ini dalam produksi mungkin akan merasa kebijakan asuransi $20 tersebut semakin sulit untuk diabaikan.
Comments
0 comments