Tämä väite piti kutinsa vain noin vuorokauden.
Seuraavana päivänä, 10. kesäkuuta, salanimellä Pliny the Liberator esiintyvä testaaja ilmoitti ohittaneensa Fable 5:n turvaluokittelijat. Hän oli purkanut mallin 120 000 merkin järjestelmäkehotteen, jonka hän julkaisi GitHubissa, ja onnistunut tuottamaan sillä haittaohjelmakoodia, kyberhyökkäysohjeita ja rajoitettua kemian alan ohjeistusta . Murron nopeus – 24–48 tuntia julkaisusta
– teki siitä käännekohdan kiihkeässä julkisessa keskustelussa siitä, voidaanko kehittyneitä tekoälyjä hallita nykyisillä turvamenetelmillä.
Pliny kuvaili lähestymistapaansa "susilauman metsästykseksi" (pack hunt) – koordinoiduksi monen agentin tekniikaksi yksittäisen nokkelan kehotteen sijaan . Hyökkäys yhdisteli useita vastustajan strategioita, jotka yhdessä murensivat suojauksen pala palalta:
Lopputuloksena oli kiertotie, joka tuotti toimivaa hyväksikäyttökoodia, yksityiskohtaisia kemian synteesiohjeita ja koko järjestelmäkehotteen, jonka ympärille Anthropic oli Fable 5:n rakentanut .
Ennen Fable 5:n julkaisua Anthropic oli esittänyt poikkeuksellisen yksityiskohtaisen julkisen turvallisuusstrategiansa:
Nopea läpimurto romutti nämä luvut. Yli tuhannen tunnin vastustajan testauksen hyväksymä turvajärjestelmä murrettiin yhden tutkijan toimesta päivässä – tekniikoilla, jotka eivät perustuneet mihinkään uuteen ohjelmistohaavoittuvuuteen, vaan sosiaalisen manipuloinnin inspiroimiin kehotestrategioihin, joita luokittelijoiden koulutusaineisto ei ilmeisesti ollut kattanut .
Fable 5 -tapaus ei ole yksittäinen. Se jatkaa saman testaajan hyvin dokumentoitua sarjaa:
Tämän kaavan taustalla on menetelmämuutos, jota Pliny itse on kuvaillut sanaparilla "mallit murtavat malleja" . Yksittäisten taikakehotteiden käsityön sijaan hyökkääjä päästää yhden jo murretun mallin autonomisena agenttina uuden kohteen kimppuun. Tämä agenttimainen, monen vuoron hajottamiseen perustuva lähestymistapa on osoittautunut luokittelijapohjaisille turvajärjestelmille huomattavasti vaikeammaksi havaita kuin staattiset kehotehyökkäykset, joiden torjuntaan ne on pääosin koulutettu.
Laajempi tutkimusyhteisö on havainnut samanlaisen kehityksen. Turvayritys Repellon vuoden 2026 murtotrendejä analysoiva raportti totesi, että toiminnallisesti vaarallisimmat hyökkäykset eivät ole enää yksittäisiä kehotteita, vaan monen vuoron vastustajan sarjoja, jotka etenevät yksittäin harmittoman näköisin askelin – kuvaus, joka vastaa läheisesti "susilauma"-viitekehystä .
Fable 5:n murto ei todista Anthropicin turvallisuusväitteitä ontoiksi, mutta se nostaa esiin epämukavia kysymyksiä skaalautuvuudesta. Ammattilaisten yli 1 000 tunnin testaus epäonnistui löytämään sen, mihin yksi määrätietoinen riippumaton tutkija pystyi alle päivässä. Ero viittaa siihen, että nykyiset sertifiointiohjelmat, olivatpa ne kuinka tiukkoja, saattavat järjestelmällisesti aliedustaa todellisen maailman vastustajan luovuutta – erityisesti agenttimaisten, monivaiheisten ja sosiaalista manipulointia innoittavien lähestymistapojen kohdalla.
Se herättää myös dilemman: jos mallin suojakaiteet ovat riittävän vankat kestämään kuukausien jäsennellyn testauksen, mutta romahtavat kohdatessaan koordinoidun monen agentin hyökkäyksen, mitä ”turvalliseksi sertifioitu” oikeastaan tarkoittaa julkisesti julkaistaville kehittyneille malleille? Plinyn toistaman mallin nopeus ja toistettavuus eri yhtiöissä ja arkkitehtuureissa viittaavat siihen, ettei haaste ole ominaista vain yhdelle mallisuunnittelulle, vaan saattaa olla tyypillistä nykyiselle kehotetason turvaluokittelijoiden paradigmalle.
Comments
0 comments