RéponsesPubliéil y a 2 moisLast edited le mois dernier18 sources

Pourquoi les benchmarks de sécurité des IA sont un trompe-l'œil : l'alerte de Cisco

Selon une étude Cisco de mai 2026, aucun modèle d'IA de pointe n'est à l'abri des attaques itératives « multi tours », qui consistent à détourner un modèle au fil d'une conversation. Les taux de réussite de ces attaques ont grimpé jusqu'à 88,30 % pour le modèle le plus vulnérable (Grok 4.1 de xAI), contre une fourch...

Rechercher et vérifier les faits avec Studio Global AI Voir plus de pages tendance

Conceptual AI-generated illustration symbolizing a frontier AI model under persistent multi-turn adversarial attack, with layered prompts chipping away at a digital shield. — Which frontier AI models are most vulnerable to multi-turn adversarial attacks, what attack strategy families were identified, and what recoCisco's adversarial testing reveals that even the most advanced AI safety shields can be eroded by iterative, multi-turn conversational attacks.
Prompt IA
Create a landscape editorial hero image for this Studio Global article: Which frontier AI models are most vulnerable to multi-turn adversarial attacks, what attack strategy families were identified, and what reco. Article summary: Cisco's May 2026 research, published as *Proprietary Problems* with a companion open-weight study *Death by a Thousand Prompts*, tested 15 closed flagship models and eight open-weight models against both single-turn and . Topic tags: general, academic, general web. Reference image context from search candidates: Reference image 1: visual subject "### Cisco report finds no closed frontier AI model is safe from multi-turn attacks. A new report out today from Cisco Systems Inc. argues that none of the closed flagship large lan" source context "Cisco report finds no closed frontier AI model is safe from multi-turn attacks - SiliconANGLE" Reference image 2: visual s
openai.com

L'étude de Cisco publiée en mai 2026, intitulée Proprietary Problems (accompagnée d'une recherche complémentaire sur les modèles open source Death by a Thousand Prompts), a passé au crible 15 modèles propriétaires phares et 8 modèles open source face à des attaques à requête unique, puis multi-tours. Le verdict est sans appel : aucun modèle d'IA de pointe n'est sûr face à une attaque itérative. Les benchmarks de sécurité classiques, qui reposent sur une seule requête, donnent une image trompeuse de la robustesse réelle.

Les modèles les plus vulnérables

Sur les modèles propriétaires, le taux de réussite des attaques multi-tours (ASR) s'échelonne de 7,89 % à 88,30 %, alors que le même indice pour les attaques simples va de 2,19 % à 64,91 %.

xAI – Grok 4.1 Fast (mode non-raisonné) a été le plus perméable, avec un ASR multi-tours de 88,30 %.
Google – Gemini 3 Pro est passé de 18,10 % en attaque simple à 73,35 % en multi-tours, soit une multiplication par 4.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Rechercher et vérifier les faits avec Studio Global AI

Les gens demandent aussi

Câu trả lời ngắn gọn cho "Pourquoi les benchmarks de sécurité des IA sont un trompe-l'œil : l'alerte de Cisco" là gì?

Selon une étude Cisco de mai 2026, aucun modèle d'IA de pointe n'est à l'abri des attaques itératives « multi tours », qui consistent à détourner un modèle au fil d'une conversation.

Những điểm chính cần xác nhận đầu tiên là gì?

Tôi nên làm gì tiếp theo trong thực tế?

Cinq grandes familles de stratégies d'attaque ont été identifiées, comme l'adoption de personnage (role play) ou la décomposition d'une requête malveillante en plusieurs étapes anodines.

Sources

← Back to Trending

RéponsesPubliéil y a 2 moisLast edited le mois dernier18 sources

Pourquoi les benchmarks de sécurité des IA sont un trompe-l'œil : l'alerte de Cisco

Rechercher et vérifier les faits avec Studio Global AI Voir plus de pages tendance

Les modèles les plus vulnérables

xAI – Grok 4.1 Fast (mode non-raisonné) a été le plus perméable, avec un ASR multi-tours de 88,30 %.
Google – Gemini 3 Pro est passé de 18,10 % en attaque simple à 73,35 % en multi-tours, soit une multiplication par 4.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Rechercher et vérifier les faits avec Studio Global AI

Les gens demandent aussi

Câu trả lời ngắn gọn cho "Pourquoi les benchmarks de sécurité des IA sont un trompe-l'œil : l'alerte de Cisco" là gì?

Selon une étude Cisco de mai 2026, aucun modèle d'IA de pointe n'est à l'abri des attaques itératives « multi tours », qui consistent à détourner un modèle au fil d'une conversation.

Những điểm chính cần xác nhận đầu tiên là gì?

Tôi nên làm gì tiếp theo trong thực tế?

Cinq grandes familles de stratégies d'attaque ont été identifiées, comme l'adoption de personnage (role play) ou la décomposition d'une requête malveillante en plusieurs étapes anodines.

Sources

Ne plus se fier à l'ASR en requête unique. Les benchmarks classiques classent mal les modèles et masquent les risques extrêmes. Les évaluations doivent inclure des tests d'attaque adaptatifs multi-tours pour refléter le comportement réel d'un adversaire.
Adopter l'évaluation multi-tours comme standard. Avant tout achat ou déploiement, les entreprises et les régulateurs doivent exiger une réponse à la question : « Comment ce modèle résiste-t-il aux attaques adaptatives multi-tours ? »
Déployer des garde-fous contextuels et une surveillance en temps réel. La sécurité statique du modèle ne suffit pas. Il faut détecter en direct les schémas de conversation suspects et les tests de limites.
Mener régulièrement des exercices de « red-teaming » simulant spécifiquement des attaques longues et itératives, et non de simples tentatives de jailbreak en une seule requête.
Appliquer l'entraînement contradictoire (adversarial training) pour renforcer la robustesse, en se concentrant sur le maintien de la sécurité tout au long d'un échange, pas seulement à la première requête.
Utiliser des défenses superposées : Aucune parade unique n'est suffisante. Il faut combiner l'alignement du modèle, le filtrage des entrées/sorties, la surveillance comportementale et une supervision humaine.
Comprendre la philosophie d'alignement du laboratoire. Les modèles issus de laboratoires qui mettent en avant la sécurité (ex. : la famille Gemma de Google) montrent des écarts plus faibles entre les tests simples et multi-tours. À l'inverse, les modèles axés sur la performance (ex. : Llama de Meta, Grok de xAI) présentent des écarts plus marqués. Cisco conseille d'en tenir compte dans le choix du modèle.
Utiliser des outils d'évaluation structurés, comme la plateforme de validation de l'IA de Cisco (intégrée au LLM Security Leaderboard), pour générer des scores de risque multi-tours comparables et reproductibles avant tout déploiement.

Pourquoi les benchmarks de sécurité des IA sont un trompe-l'œil : l'alerte de Cisco

Les modèles les plus vulnérables

Search, cite, and publish your own answer

Les gens demandent aussi

Câu trả lời ngắn gọn cho "Pourquoi les benchmarks de sécurité des IA sont un trompe-l'œil : l'alerte de Cisco" là gì?

Những điểm chính cần xác nhận đầu tiên là gì?

Tôi nên làm gì tiếp theo trong thực tế?

Sources

Pourquoi les benchmarks de sécurité des IA sont un trompe-l'œil : l'alerte de Cisco

Les modèles les plus vulnérables

Search, cite, and publish your own answer

Les gens demandent aussi

Câu trả lời ngắn gọn cho "Pourquoi les benchmarks de sécurité des IA sont un trompe-l'œil : l'alerte de Cisco" là gì?

Những điểm chính cần xác nhận đầu tiên là gì?

Tôi nên làm gì tiếp theo trong thực tế?

Sources

Cinq familles de stratégies d'attaque

Recommandations de Cisco pour déployer des LLM en toute sécurité