L'étude de Cisco publiée en mai 2026, intitulée Proprietary Problems (accompagnée d'une recherche complémentaire sur les modèles open source Death by a Thousand Prompts), a passé au crible 15 modèles propriétaires phares et 8 modèles open source face à des attaques à requête unique, puis multi-tours. Le verdict est sans appel : aucun modèle d'IA de pointe n'est sûr face à une attaque itérative. Les benchmarks de sécurité classiques, qui reposent sur une seule requête, donnent une image trompeuse de la robustesse réelle. ![]()
![]()
![]()
Les modèles les plus vulnérables
Sur les modèles propriétaires, le taux de réussite des attaques multi-tours (ASR) s'échelonne de 7,89 % à 88,30 %, alors que le même indice pour les attaques simples va de 2,19 % à 64,91 %. ![]()
- xAI – Grok 4.1 Fast (mode non-raisonné) a été le plus perméable, avec un ASR multi-tours de 88,30 %.
![]()
- Google – Gemini 3 Pro est passé de 18,10 % en attaque simple à 73,35 % en multi-tours, soit une multiplication par 4.
![]()
Comments
0 comments