JawabanDipublikasikan2 bulan yang laluLast edited bulan lalu29 sumber

Keamanan AI Model Open-Weight Rusak Sistemik, Kesabaran Uni Eropa Mulai Habis

Serangan jailbreak pada model berbobot terbuka seperti Llama (Meta) dan Gemma (Google) kini mencapai tingkat keberhasilan mendekati 100%, dengan metode multi giliran terbukti 2x hingga 10x lebih efektif daripada upaya... Aturan General Purpose AI dalam AI Act Uni Eropa kini mulai ditegakkan, dengan investigasi risik...

Cari dan periksa fakta dengan Studio Global AI Jelajahi lebih banyak halaman Trending

Fragile AI safety shield on open-weight large language models with jailbreak vulnerability concept — How vulnerable are the safety guardrails on widely deployed open-weight AI models like Meta's Llama and Google's Gemma, and what do recent iRecent studies show that current safety alignment techniques on open-weight AI models are systematically fragile against adaptive jailbreak attacks.
AI Perintah
Create a landscape editorial hero image for this Studio Global article: How vulnerable are the safety guardrails on widely deployed open-weight AI models like Meta's Llama and Google's Gemma, and what do recent i. Article summary: The safety guardrails on widely deployed open-weight models like Meta's Llama and Google's Gemma are **highly vulnerable** to systematic jailbreak. Multiple recent academic studies and industry investigations show that c. Topic tags: general, academic, general web, user generated, government. Reference image context from search candidates: Reference image 1: visual subject "A report cover featuring a colorful visualization of data flows from open-source AI models like Meta's Llama and Google's Gemma, highlighting safety concerns related to guardrails" Reference image 2: visual subject "A digital illustration features a stylized kangaroo outline with circuit-lik
openai.com

Buktinya sudah terkumpul, dan itu sangat memberatkan. Studi akademis serta penilaian keamanan industri yang terbit hingga awal 2026 mengungkapkan bahwa pagar pembatas keamanan (safety guardrails) pada model-model open-weight yang banyak digunakan saat ini rapuh secara sistemik. Serangan yang bersifat adaptif, multi-giliran, dan yang berbasis fine-tuning dapat menyusupi penyelarasan (alignment) dengan tingkat keberhasilan nyaris 100%. Perusahaan yang meng-host sendiri model-model ini dan melayani pengguna di Uni Eropa kini menghadapi risiko regulasi yang nyata di bawah AI Act UE.

Seberapa Parah Masalah Jailbreak Ini?

Angka-angkanya sangat gamblang. Sebuah studi di konferensi ilmiah ICLR 2025 mencapai tingkat keberhasilan serangan 100% pada Llama-2-Chat (7B, 13B, dan 70B), Gemma-7B, dan model-model lain yang terdepan dalam penyelarasan keamanan hanya dengan menggunakan teknik adaptif sederhana yang dinilai oleh GPT-4 . Sebuah makalah terpisah yang dipresentasikan di NeurIPS menggunakan metode yang disebut Adaptive Dense-to-Sparse Constrained Optimization (ADC) juga melaporkan tingkat keberhasilan serangan tertinggi pada tujuh dari delapan model open-weight yang diuji .

Kerentanan di dunia nyata semakin dalam ketika penyerang menggunakan percakapan multi-giliran. Tim Cisco AI Defense menguji delapan model open-weight dan menemukan tingkat keberhasilan jailbreak multi-giliran berkisar antara 25,86% hingga 92,78%—peningkatan 2x hingga 10x lipat dibandingkan dengan metode satu giliran . Model yang terdampak termasuk Llama 3.3 70B, Gemma 1B, dan lainnya . Para peneliti menyimpulkan adanya "ketidakmampuan sistemik model open-weight saat ini untuk menjaga pagar pembatas keamanan dalam interaksi yang panjang" .

Bahkan fine-tuning yang dimaksudkan untuk tujuan yang tidak berbahaya pun bisa menghancurkan penyelarasan keamanan. Satu studi menunjukkan bahwa mencampurkan sedikit saja data tidak aman dengan data fine-tuning yang bersih dapat secara signifikan melemahkan pagar pembatas keamanan . Makalah lain mengonfirmasi bahwa baik fine-tuning open-weight maupun API fine-tuning tertutup dapat menghasilkan model yang pengamanannya hilang sepenuhnya .

Metode Serangan Baru yang Mengubah Permainan

Beberapa teknik yang baru-baru ini didokumentasikan menunjukkan betapa mudahnya jailbreak dilakukan sekarang.

Sockpuppeting menyuntikkan "penerimaan" palsu ke dalam respons yang sudah diisi sebagian (prefilled) dari suatu asisten, memanfaatkan kecenderungan model untuk menjaga konsistensi diri. Teknik ini tidak memerlukan optimasi, bobot model, atau perangkat khusus—hanya akses API yang mendukung fitur assistant prefill. Dalam pengujian April 2026, setiap model yang menerima prefill setidaknya rentan secara parsial, termasuk GPT-4o, Claude 4 Sonnet, dan Gemini 2.5 Flash .

Serangan Berbasis Makalah Ilmiah merepresentasikan kerentanan-meta yang mengkhawatirkan. Sebuah studi tahun 2026 menemukan bahwa menggunakan konten dari makalah keamanan LLM yang dipublikasikan sebagai prompt serangan dapat mencapai tingkat keberhasilan serangan 97–98% pada model yang telah diselaraskan dengan baik, termasuk sistem model terbobot tertutup seperti Claude 3.5 Sonnet .

Amplifikasi Pengarahan Keamanan (Safety Steering Amplification) mendemonstrasikan bagaimana teknik yang dimaksudkan untuk meningkatkan keamanan justru bisa menjadi bumerang. Teknik intervensi activation steering pada saat inferensi yang dimaksudkan untuk mengurangi "penolakan berlebihan" pada kueri normal terbukti secara tidak sengaja memperkuat kerentanan jailbreak pada model seperti Llama 3.1 8B dan Gemma 2 2B .

Subversi Pagar Pembatas Penalaran (Reasoning Guardrail Subversion) adalah salah satu vektor serangan baru yang paling mengkhawatirkan. Sebuah studi Maret 2026 menemukan bahwa hanya dengan menambahkan beberapa token templat ke dalam prompt masukan dapat membajak pagar pembatas keamanan berbasis penalaran. Begitu dikompromikan, sistem penalaran ini dapat menghasilkan keluaran yang bahkan lebih berbahaya daripada model tanpa pagar pembatas semacam itu .

Palu Regulasi Kini Mulai Berayun

Aturan General-Purpose AI (GPAI) dalam AI Act Uni Eropa mulai berlaku pada Agustus 2025 . Model apa pun yang dilatih di atas 10²⁵ operasi floating-point (FLOPs)—ambang batas yang mencakup Llama 4.2 Ultra dan setiap model komersial utama—diklasifikasikan sebagai memiliki risiko sistemik .

Implikasinya bagi perusahaan bersifat segera:

Meng-host sendiri model open-weight di atas ambang batas komputasi tersebut dan melayani pengguna UE membuat Anda menjadi penyedia GPAI di bawah hukum tersebut, sehingga memicu kewajiban notifikasi, dokumentasi, dan manajemen risiko .
Penyedia model risiko sistemik menghadapi pengujian adversarial wajib, pelaporan insiden, dan kerja sama dengan investigasi Kantor AI UE .
Denda untuk ketidakpatuhan dapat mencapai €35 juta atau 7% dari total omset global tahunan, mana yang lebih tinggi .

Pengecualian untuk open-source memang ada, tetapi memiliki batasan yang jelas. Model yang dirilis di bawah lisensi gratis dan open-source tanpa monetisasi sebagian besar berada di luar kewajiban terketat , tetapi pengecualian itu langsung hilang jika model tersebut menimbulkan risiko sistemik . Penulisan ulang AI Act oleh UE pada Mei 2026 menegaskan kembali batasan ini . Lisensi komunitas Llama milik Meta bahkan telah ditandai sebagai tidak memenuhi syarat untuk pengecualian open-source tersebut .

Penegakan hukum kini bukan sekadar teori. Pada awal 2026, UE meluncurkan investigasi risiko sistemik berisiko tinggi terhadap platform besar, termasuk Meta, dengan menuntut transparansi yang belum pernah terjadi sebelumnya tentang set data pelatihan dan pagar pembatas keamanan .

Respons Pasar: Perkuatan Itu Murah, Jadi Kenapa Belum Jadi Standar?

Bukti kerentanan ini mendorong tekanan pasar untuk perkuatan keamanan yang lebih kuat. Satu studi tahun 2025 mendemonstrasikan bahwa pelatihan hanya dengan 2.000 sampel keamanan—dengan biaya sekitar $3 untuk model 8B dan $20 untuk model 72B—dapat mengurangi tingkat keberhasilan serangan sebesar 10–30%. Metode serangan yang paling sukses dikurangi menjadi sekitar 5% keberhasilan setelah perkuatan .

Perhitungan ekonomi ini menunjukkan bahwa perkuatan berbiaya rendah itu memungkinkan, tetapi belum menjadi praktik standar di seluruh ekosistem open-weight. Seiring dengan meningkatnya tekanan regulasi dan semakin tajamnya lanskap serangan, perusahaan yang menerapkan model-model ini dalam produksi mungkin akan merasa kebijakan asuransi $20 tersebut semakin sulit untuk diabaikan.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Cari dan periksa fakta dengan Studio Global AI

Orang-orang juga bertanya

Apa jawaban singkat untuk "Keamanan AI Model Open-Weight Rusak Sistemik, Kesabaran Uni Eropa Mulai Habis"?

Apa poin penting yang harus divalidasi terlebih dahulu?

Apa yang harus saya lakukan selanjutnya dalam latihan?

Teknik perkuatan (retrofitting) keamanan berbiaya rendah hanya dengan 2.000 sampel data keamanan dapat menurunkan tingkat keberhasilan serangan jailbreak sebesar 10 30%, namun belum menjadi praktik standar di industri.

Sumber

← Back to Trending