Même un fine-tuning destiné à des cas d'usage inoffensifs peut détruire l'alignement de sécurité. Une étude a montré que mélanger de petites quantités de données dangereuses avec des données bénignes affaiblit considérablement les garde-fous . Un autre article a confirmé que le fine-tuning via des poids ouverts, ou via des API fermées, peut produire des modèles dont les sécurités sont entièrement supprimées
.
Plusieurs techniques récemment documentées démontrent à quel point le jailbreak est devenu facile.
Le « Sockpuppeting » injecte une fausse « acceptation » dans la réponse pré-remplie de l'assistant, exploitant la tendance d'un modèle à l'auto-cohérence. Cela ne nécessite ni optimisation, ni poids de modèle, ni outillage spécialisé—juste un accès API supportant le pré-remplissage de l'assistant. Lors de tests en avril 2026, chaque modèle acceptant le pré-remplissage s'est avéré au moins partiellement vulnérable, y compris GPT-4o, Claude 4 Sonnet et Gemini 2.5 Flash .
Les attaques par articles scientifiques représentent une méta-vulnérabilité alarmante. Une étude de 2026 a découvert que l'utilisation de contenu issu d'articles sur la sécurité des LLMs comme invites atteint des taux de réussite de 97 à 98 % sur des modèles bien alignés, y compris des systèmes fermés comme Claude 3.5 Sonnet .
L'amplification par pilotage de la sécurité montre comment des techniques destinées à améliorer la sécurité peuvent se retourner contre leurs utilisateurs. Le pilotage d'activation au moment de l'inférence, destiné à réduire le « refus excessif » face à des requêtes bénignes, amplifie par inadvertance les vulnérabilités de jailbreak sur des modèles comme Llama 3.1 8B et Gemma 2 2B .
Le détournement des garde-fous du raisonnement est l'un des nouveaux vecteurs les plus préoccupants. Une étude de mars 2026 a découvert que l'ajout de quelques tokens modèles à une invite peut détourner les barrières de sécurité basées sur le raisonnement. Une fois compromises, ces IA peuvent produire des résultats encore plus nuisibles que des modèles sans de telles protections .
Les règles sur l'IA à Usage Général (GPAI) de l'EU AI Act sont entrées en vigueur en août 2025 . Tout modèle entraîné avec plus de 10²⁵ opérations en virgule flottante (FLOPs) — un seuil qui englobe Llama 4.2 Ultra et chaque grand modèle commercial — est classé comme présentant un risque systémique
.
Les implications pour les entreprises sont immédiates :
Il existe des exceptions pour l'open-source, mais elles sont clairement limitées. Les modèles publiés sous licence libre et open-source sans monétisation échappent en grande partie aux obligations les plus strictes , mais l'exemption disparaît immédiatement si le modèle présente un risque systémique
. La révision de l'UE en mai 2026 a réaffirmé cette frontière
. La licence communautaire de Meta pour Llama a déjà été signalée comme ne permettant pas de bénéficier de l'exemption open-source
.
L'application de la loi n'est plus théorique. Début 2026, l'UE a lancé des enquêtes à haut risque pour risque systémique visant de grandes plateformes, dont Meta, exigeant une transparence sans précédent sur les jeux de données d'entraînement et les barrières de sécurité .
L'accumulation de preuves de vulnérabilité alimente la pression du marché pour un meilleur renforcement de la sécurité. Une étude de 2025 a démontré qu'un entraînement sur seulement 2 000 échantillons de sécurité — coûtant environ 3 $ pour les modèles 8B et 20 $ pour les modèles 72B — pouvait réduire les taux de réussite des attaques de 10 à 30 %. Les méthodes d'attaque les plus performantes ont été ramenées à environ 5 % de réussite après ce renforcement .
L'économie du problème suggère qu'un renforcement de la sécurité à faible coût est réalisable, mais cela n'est pas encore devenu une pratique standard dans l'écosystème open-weight. Alors que la pression réglementaire s'intensifie et que le paysage des menaces se précise, il deviendra de plus en plus difficile pour les entreprises déployant ces modèles en production de justifier l'absence de cette police d'assurance à 20 dollars.
Comments
0 comments