AnswersPublished2 days agoLast edited 2 days ago32 sources

Di Sebalik 'Serangan Kumpulan' yang Menumbangkan AI Paling Terkawal Anthropic dalam Masa 24 Jam

Pada 10 Jun 2026—hanya sehari selepas dilancarkan—seorang penyelidik berjaya menembusi pagar keselamatan model Claude Fable 5 milik Anthropic menggunakan 'serangan kumpulan' berbilang ejen yang menggabungkan pengabura... Serangan tersebut berjaya mendedahkan 'system prompt' sepanjang 120,000 karakter dan menghasilka...

Search & fact-check with Studio Global AI Browse more Trending pages

57K0

What happened when Anthropic's Claude Fable 5 was reportedly jailbroken by a researcher just one day after its June 9 launch, what techniqueAI-generated editorial hero image for What happened when Anthropic's Claude Fable 5 was reportedly jailbroken by a researcher just one day after its June 9 launch, what technique.
AI Prompt
Create a landscape editorial hero image for this Studio Global article: What happened when Anthropic's Claude Fable 5 was reportedly jailbroken by a researcher just one day after its June 9 launch, what technique. Article summary: On June 10, 2026 — just one day after Anthropic launched Claude Fable 5, its first public Mythos-class model — prolific AI red-teamer **Pliny the Liberator** announced he had bypassed the model's safety classifiers, extr. Topic tags: general, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "# Anthropic’s Claude Fable 5 Jailbroken to Generate Stack Exploits. Anthropic's Claude Fable 5 Jailbroken. Anthropic launched Claude Fable 5 on June 9, 2026, as the first publicly" source context "Anthropic's Claude Fable 5 Jailbroken to Generate Stack ..." Reference image 2: visual subject "Anthropic Releases Cl
openai.com

Anthropic melancarkan Claude Fable 5 pada 9 Jun 2026 dengan penuh gah. Ia didakwa sebagai model kelas 'Mythos' awam pertama—satu tahap yang sangat berkuasa sehingga syarikat itu sendiri pernah menganggapnya terlalu berbahaya untuk akses tanpa sekatan . Seni bina keselamatannya dikatakan tiada tolok bandingnya: ia menggunakan pengelas AI khusus yang ditugaskan untuk mengawasi pertanyaan berisiko tinggi dalam bidang keselamatan siber, biologi, kimia, dan penyulingan model (model distillation). Apabila pengelas ini 'mengesan bahaya', ia tidak akan menjawab soalan, sebaliknya secara senyap mengalihkan permintaan itu kepada Claude Opus 4.8, iaitu model yang kurang berkuasa . Menurut kenyataan awam Anthropic, lebih 1,000 jam ujian bug-bounty luaran dan latihan 'red-teaming' gagal menghasilkan sebarang cara untuk memintas pagar keselamatan model ini secara universal (universal jailbreak) .

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Di Sebalik 'Serangan Kumpulan' yang Menumbangkan AI Paling Terkawal Anthropic dalam Masa 24 Jam

Search, cite, and publish your own answer

People also ask

What is the short answer to "Di Sebalik 'Serangan Kumpulan' yang Menumbangkan AI Paling Terkawal Anthropic dalam Masa 24 Jam"?

What are the key points to validate first?

Sources

Comments

Serangan "Pack Hunt": Bagaimana Penggodaman Ini Berlaku

Dakwaan Keselamatan Anthropic Sebelum Pelancaran, Kini Dipersoalkan

Corak Penggodaman Sepantas Kilat yang Berulang

Impak Terhadap Pengujian Keselamatan AI