Un tiret signifie que le score n’a pas été trouvé dans les sources citées pour ce modèle, pas que le modèle a obtenu zéro. Les lignes GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 et DeepSeek-V4-Pro-Max proviennent principalement d’une comparaison commune ; les chiffres de Kimi K2.6 viennent de sources séparées .
OpenAI présente GPT-5.5 comme un modèle conçu pour des tâches complexes comme le code, la recherche et l’analyse de données . Dans la comparaison commune citée, GPT-5.5 atteint 82,7 % sur Terminal-Bench 2.0, devant Claude Opus 4.7 à 69,4 % et DeepSeek-V4-Pro-Max à 67,9 %
. Le même tableau lui attribue aussi 93,6 % sur GPQA Diamond, 58,6 % sur SWE-Bench Pro et 84,4 % sur BrowseComp
.
La nuance principale tient à GPT-5.5 Pro. Dans la même comparaison, GPT-5.5 Pro atteint 90,1 % sur BrowseComp et 57,2 % sur Humanity’s Last Exam avec outils, mais ces résultats ne doivent pas être fusionnés avec ceux de GPT-5.5 de base lorsque l’on compare coût, latence ou paramètres de modèle .
Côté achat, BenchLM liste GPT-5.5 avec une fenêtre de contexte de 1M de tokens, tandis qu’un relevé tarifaire indique $5 par million de tokens en entrée et $30 par million de tokens en sortie . À traiter comme un signal à vérifier sur la grille tarifaire en vigueur avant de budgéter.
Claude Opus 4.7 présente les signaux les plus forts du groupe sur la réparation logicielle. LLM Stats le liste à 87,6 % sur SWE-Bench Verified, et la comparaison commune le donne à 64,3 % sur SWE-Bench Pro . Il mène aussi les lignes GPQA Diamond à 94,2 %, Humanity’s Last Exam sans outils à 46,9 % et MCP Atlas à 79,1 % dans la comparaison commune
.
LLM Stats rapporte une fenêtre de contexte de 1M de tokens et un tarif de $5 / $25 par million de tokens pour Claude Opus 4.7 . La prudence reste nécessaire : Anthropic précise que certains résultats de benchmarks utilisent des implémentations internes ou des paramètres de harness mis à jour, et que certains scores ne sont pas directement comparables aux classements publics
.
Kimi K2.6 est le candidat à poids ouverts le plus solide dans les sources citées. La couverture de lancement le décrit comme un modèle MoE à poids ouverts de 1 T de paramètres, avec 32B de paramètres actifs, 384 experts, une multimodalité native, une quantification INT4 et 256K tokens de contexte . Sa carte Hugging Face rapporte 80,2 % sur SWE-Bench Verified, 58,6 % sur SWE-Bench Pro, 66,7 % sur Terminal-Bench 2.0 et 89,6 sur LiveCodeBench v6
.
La même couverture de lancement rapporte 54,0 sur Humanity’s Last Exam avec outils et 83,2 sur BrowseComp pour Kimi K2.6 . LLM Stats liste Kimi K2.6 avec 262K de contexte, $0,95 / $4,00 dans ses colonnes de prix et un label Open Source
. La limite est claire : les chiffres de Kimi ne viennent pas du même tableau commun que ceux de GPT-5.5, Claude Opus 4.7 et DeepSeek-V4-Pro-Max. Les écarts serrés doivent donc servir à choisir quoi tester, pas à proclamer un vainqueur définitif
.
DeepSeek-V4-Pro-Max ressemble davantage à un candidat valeur qu’à un leader incontestable sur tous les benchmarks. LLM Stats le liste avec une taille de 1,6 T, 1M de contexte, 80,6 % sur SWE-Bench Verified et $1,74 / $3,48 dans ses colonnes de coût . Dans la comparaison commune, il obtient 90,1 % sur GPQA Diamond, 37,7 % sur Humanity’s Last Exam sans outils, 48,2 % sur Humanity’s Last Exam avec outils, 67,9 % sur Terminal-Bench 2.0, 55,4 % sur SWE-Bench Pro, 83,4 % sur BrowseComp et 73,6 % sur MCP Atlas
.
Ces chiffres justifient de l’inclure dans un banc d’essai si le coût compte beaucoup. Mais la même comparaison montre GPT-5.5, GPT-5.5 Pro ou Claude Opus 4.7 en tête sur la plupart des lignes rapportées ; DeepSeek doit donc être validé sur vos propres tâches avant de remplacer un modèle premium en production .
Les fenêtres de contexte et les prix ne viennent pas toujours de la même source ni directement du fournisseur. Il faut les lire comme des repères d’achat, pas comme des devis finaux.
Les benchmarks ne mesurent pas la même compétence. GPQA Diamond et Humanity’s Last Exam ciblent surtout le raisonnement difficile ; Terminal-Bench 2.0 et les variantes de SWE-Bench ciblent le code et le travail logiciel agentique ; BrowseComp mesure une performance de type recherche/navigation dans la comparaison commune . Un modèle peut donc mener une ligne et reculer sur une autre, simplement parce que la tâche, les outils autorisés et le protocole d’évaluation changent.
Même un benchmark portant le même nom peut varier selon l’implémentation. LLM Stats liste Claude Opus 4.7 à 87,6 % sur SWE-Bench Verified, tandis que LMCouncil le liste à 83,5 % ± 1,7 dans son propre réglage . Anthropic indique également que certains résultats utilisent des implémentations internes ou des paramètres de harness mis à jour, ce qui limite la comparaison directe avec des classements publics
.
En pratique, un écart d’un ou deux points ne devrait pas décider seul d’un déploiement. Les benchmarks publics servent surtout à réduire la liste des finalistes ; l’évaluation interne doit trancher.
Avant de choisir un modèle, testez les deux ou trois meilleurs candidats sur des tâches qui ressemblent vraiment à votre usage.
Pour une présélection haut de gamme, testez GPT-5.5 et Claude Opus 4.7 côte à côte : GPT-5.5 a le meilleur résultat Terminal-Bench 2.0 cité, tandis que Claude Opus 4.7 a les meilleurs résultats cités sur SWE-Bench Pro et SWE-Bench Verified . Si vous avez besoin de poids ouverts, commencez par Kimi K2.6
. Si le coût est la contrainte centrale, ajoutez DeepSeek-V4-Pro-Max, mais validez-le sur vos propres tâches avant d’en faire un remplaçant direct des options premium
.
Comments
0 comments