Le modèle est également performant sur les tâches de travail intellectuel. Sur GDPval — un benchmark couvrant 44 professions — GPT‑5.5 égalerait ou dépasserait des experts humains dans environ 84,9 % des comparaisons.
Ces résultats suggèrent que GPT‑5.5 excelle particulièrement dans les tâches multi‑étapes et les systèmes d’agents autonomes.
Le modèle Claude Opus 4.7 d’Anthropic est largement considéré comme l’un des meilleurs modèles pour l’ingénierie logicielle.
Ses principaux résultats incluent :
SWE‑bench teste la capacité d’un modèle à corriger de vrais bugs dans des projets open source. Le score de 87,6 % sur SWE‑bench Verified représente une forte progression par rapport aux versions précédentes et place Opus 4.7 parmi les meilleurs modèles pour les agents de programmation.
Même si son score sur Terminal‑Bench reste inférieur à celui de GPT‑5.5, ses résultats sur les benchmarks de développement logiciel sont parmi les plus élevés publiquement rapportés.
Le modèle Gemini 3.5 Flash de Google occupe une position particulière : il est conçu comme un modèle rapide et efficace en coût, plutôt qu’un flagship très lourd.
Malgré cela, il affiche des résultats compétitifs :
Google indique que Gemini 3.5 Flash peut générer des tokens environ quatre fois plus rapidement que d’autres modèles de pointe tout en surpassant le précédent Gemini 3.1 Pro sur plusieurs benchmarks d’agents et de programmation.
Sa principale force est donc le rapport vitesse‑performance, ce qui le rend particulièrement attractif pour les applications en production nécessitant faible latence et coûts maîtrisés.
DeepSeek V4 se distingue car il fait partie des modèles open‑weight les plus puissants publiés à ce jour.
La famille comprend deux variantes principales :
Selon les résultats techniques publiés par l’équipe, V4‑Pro en mode de raisonnement maximal atteindrait :
Ces scores le placeraient proche des meilleurs modèles propriétaires sur certains benchmarks de programmation.
Cependant, une évaluation indépendante menée par le programme CAISI du National Institute of Standards and Technology (NIST) indique que ses capacités resteraient environ huit mois derrière la frontière technologique actuelle.
Le modèle Grok 4.3 de xAI marque une amélioration notable par rapport aux versions précédentes, en particulier sur les tâches agentiques.
Les résultats publiés incluent :
La progression de plus de 300 points Elo sur GDPval‑AA par rapport aux versions précédentes indique un net gain sur les tâches d’automatisation du monde réel.
Cependant, les analyses indépendantes placent généralement Grok 4.3 derrière les derniers systèmes d’OpenAI et d’Anthropic sur les benchmarks globaux de capacités.
En agrégeant ces évaluations, une tendance apparaît :
Ces conclusions restent toutefois indicatives, car chaque entreprise met en avant des benchmarks différents.
Plusieurs facteurs rendent les comparaisons difficiles :
En pratique, les comparaisons les plus fiables émergent souvent plusieurs mois après la sortie d’un modèle, lorsque les évaluations indépendantes se multiplient.
Les benchmarks disponibles en 2026 ne montrent pas un modèle dominant dans toutes les catégories.
Le paysage actuel est plutôt spécialisé :
À mesure que les benchmarks indépendants convergeront et que davantage de tests comparables seront publiés, l’ordre exact entre ces modèles continuera probablement d’évoluer.
Comments
0 comments