La question de la « sortie » de Mythos Preview demande une précision. Si l’on parle d’une apparition publique dans la communication d’Anthropic, la date à retenir est le 7 avril 2026 : la page Project Glasswing présente l’initiative comme alimentée par Claude Mythos Preview.
Si l’on parle d’un lancement produit, comparable à un nouveau modèle disponible dans Claude.ai ou via une API standard, la réponse est différente. Anthropic indique explicitement ne pas avoir rendu Claude Mythos Preview disponible en général.
Project Glasswing n’est pas une page de lancement classique pour un chatbot. Anthropic le décrit comme une initiative destinée à sécuriser les logiciels les plus critiques à l’ère de l’IA, avec un accès anticipé à de l’IA de pointe ; la page affirme que le projet est soutenu par Claude Mythos Preview, présenté comme son modèle le plus capable à ce jour.
Cette orientation explique la prudence autour de l’accès. Dans la system card, Anthropic écrit que les capacités du modèle peuvent aider à trouver et corriger des vulnérabilités logicielles, mais aussi servir à concevoir des exploitations plus sophistiquées. C’est largement pour cette raison, selon Anthropic, que Mythos Preview n’a pas été publié en disponibilité générale.
Le blog de l’équipe red team d’Anthropic va dans le même sens : le modèle a d’abord été proposé, via Project Glasswing, à un groupe limité de partenaires d’industries critiques et de développeurs open source, afin de permettre aux défenseurs de renforcer les systèmes importants avant que des capacités similaires ne deviennent plus largement accessibles.
Dans la comparaison directe publiée par Anthropic, Claude Mythos Preview dépasse Claude Opus 4.6 sur les benchmarks listés ci-dessous.
| Benchmark | Claude Mythos Preview | Claude Opus 4.6 |
|---|---|---|
| GPQA Diamond | 94,6 % | 91,3 % |
| Humanity’s Last Exam, sans outils | 56,8 % | 40,0 % |
| Humanity’s Last Exam, avec outils | 64,7 % | 53,1 % |
| BrowseComp | 86,9 % | 83,7 % |
| OSWorld-Verified | 79,6 % | 72,7 % |
Anthropic ajoute que, sur BrowseComp, Mythos Preview obtient un meilleur score qu’Opus 4.6 tout en utilisant 4,9 fois moins de tokens.
Pris au pied de la lettre, ces résultats indiquent un modèle très solide sur des tâches de raisonnement, d’utilisation d’outils, de navigation et d’environnement informatique. Ils cadrent avec le positionnement de Project Glasswing : un modèle de frontière appliqué à des tâches sensibles, notamment autour de la sécurité logicielle.
Ces chiffres sont impressionnants, mais ils ne suffisent pas à prouver une supériorité dans tous les usages réels.
D’abord, les comparaisons chiffrées disponibles ici viennent d’Anthropic elle-même, et non d’une reproduction indépendante mentionnée dans les sources fournies. Cela ne les invalide pas, mais cela invite à les lire comme des résultats officiels publiés par l’éditeur.
Ensuite, Anthropic émet elle-même une réserve sur Humanity’s Last Exam : Mythos continue à bien réussir ce test même en mode low-effort, ce qui pourrait indiquer un certain niveau de mémorisation. Autrement dit, le score HLE renseigne sur ce benchmark précis, mais ne démontre pas à lui seul que le modèle progresserait dans la même proportion sur toutes les tâches inconnues.
Enfin, les documents de risque montrent un tableau plus nuancé. Dans l’Alignment Risk Update, Anthropic indique que, sur Minimal-LinuxBench, les performances de Mythos sont légèrement au-dessus ou légèrement en dessous de Claude Opus selon le réglage. Le même résumé note aussi que, dans SHADE-Arena, le stealth success rate sur des transcriptions avec longues chaînes de raisonnement passe d’environ 0 % à environ 3,8 %.
La conclusion la plus solide est donc la suivante : Claude Mythos Preview paraît nettement plus fort que Claude Opus 4.6 dans les évaluations clés publiées par Anthropic, mais les preuves publiques ne permettent pas d’affirmer qu’il serait automatiquement meilleur pour tous les usages ordinaires, comme la rédaction courante en français, l’interaction à faible latence, le rapport qualité-prix ou les tâches grand public.
À ce stade, il ne faut pas considérer Claude Mythos Preview comme un modèle Claude grand public déjà disponible. Anthropic précise qu’il n’a pas été publié en disponibilité générale ; l’accès est accordé à un nombre limité d’organisations partenaires qui maintiennent des infrastructures logicielles importantes, et les conditions d’utilisation restreignent le modèle à la cybersécurité.
Cela signifie que les questions pratiques habituelles — peut-on le choisir dans Claude.ai, l’appeler via une API standard, connaître son prix, sa latence ou sa fenêtre de contexte — ne trouvent pas de réponse produit complète dans les informations publiques citées. D’après ce qu’Anthropic a publié, Mythos Preview ressemble davantage à un modèle de pointe très sensible, réservé à des travaux défensifs de sécurité, qu’à une nouvelle version de Claude destinée au grand public.
Claude Mythos Preview a été présenté publiquement en avril 2026 avec Project Glasswing, dans un cadre centré sur la sécurité des logiciels critiques. Les benchmarks publiés par Anthropic le placent devant Claude Opus 4.6 sur plusieurs tests exigeants.
Mais le point le plus important pour un utilisateur est ailleurs : Mythos Preview n’est pas, pour l’instant, un modèle Claude disponible en accès général. Anthropic en limite l’usage à des partenaires de cybersécurité, précisément parce que ses capacités peuvent être utiles à la défense comme potentiellement sensibles du point de vue offensif.
Comments
0 comments