Recherchez les benchmarks de GPT-5.5, Claude Opus 4.7, DeepSeek V4 et Kimi K2.6, puis comparez-les de la manière la plus complète possible. Créez un rapport de recherche à ce sujet.
J’ai trouvé des données vérifiables pour GPT 5.5 et Claude Opus 4.7 sur quelques benchmarks précis, mais pas assez de données numériques fiables et directement comparables pour DeepSeek V4 et Kimi K2.6. Le classement...
J’ai trouvé des données vérifiables pour GPT 5.5 et Claude Opus 4.7 sur quelques benchmarks précis, mais pas assez de données numériques fiables et directement comparables pour DeepSeek V4 et Kimi K2.6. Le classement le plus prudent est donc : GPT 5.5 semble en tête sur raisonnement abstrait et coding agentique dans le
Bài học chính
- GPT-5.5 obtient 95.0% sur ARC-AGI-1 Verified et 85.0% sur ARC-AGI-2 Verified dans le tableau publié par OpenAI, tandis que Claude Opus 4.7 y obtient 93.5% et 75.8% respectivement.
- OpenAI précise que les évaluations GPT de ce tableau ont été exécutées avec un effort de raisonnement “xhigh” dans un environnement de recherche, ce qui limite la comparabilité directe avec des usages API ou produits publics.
- Claude Opus 4.7 devance GPT-5.5 sur MCP-Atlas, avec 79.1% contre 75.3%, ce qui suggère un avantage sur les chaînes complexes d’appels d’outils dans cette source.
- GPT-5.5 est rapporté à 82.7% sur Terminal-Bench 2.0, un benchmark de tâches de terminal/coding agentique, mais je n’ai pas trouvé dans les sources récupérées de score comparable fiable pour Claude Opus 4.7, DeepSeek V4 ou Kimi K2.6 sur ce même benchmark.
- J’ai trouvé des données vérifiables pour GPT-5.5 et Claude Opus 4.7 sur quelques benchmarks précis, mais pas assez de données numériques fiables et directement comparables pour DeepSeek V4 et Kimi K2.6. Le classement le plus prudent est donc : GPT-5.5 semble en tête sur raisonnem
- ## Key findings
Câu trả lời nghiên cứu
J’ai trouvé des données vérifiables pour GPT-5.5 et Claude Opus 4.7 sur quelques benchmarks précis, mais pas assez de données numériques fiables et directement comparables pour DeepSeek V4 et Kimi K2.6. Le classement le plus prudent est donc : GPT-5.5 semble en tête sur raisonnement abstrait et coding agentique dans les sources disponibles, Claude Opus 4.7 devance GPT-5.5 sur l’orchestration d’outils MCP-Atlas, et les données récupérées sont insuffisantes pour départager proprement DeepSeek V4 et Kimi K2.6.
Key findings
-
GPT-5.5 obtient 95.0% sur ARC-AGI-1 Verified et 85.0% sur ARC-AGI-2 Verified dans le tableau publié par OpenAI, tandis que Claude Opus 4.7 y obtient 93.5% et 75.8% respectivement [
11].
-
OpenAI précise que les évaluations GPT de ce tableau ont été exécutées avec un effort de raisonnement “xhigh” dans un environnement de recherche, ce qui limite la comparabilité directe avec des usages API ou produits publics [
11].
-
Claude Opus 4.7 devance GPT-5.5 sur MCP-Atlas, avec 79.1% contre 75.3%, ce qui suggère un avantage sur les chaînes complexes d’appels d’outils dans cette source [
7].
-
GPT-5.5 est rapporté à 82.7% sur Terminal-Bench 2.0, un benchmark de tâches de terminal/coding agentique, mais je n’ai pas trouvé dans les sources récupérées de score comparable fiable pour Claude Opus 4.7, DeepSeek V4 ou Kimi K2.6 sur ce même benchmark [
14].
-
La system card GPT-5.5 décrit CoT-Control comme une suite de plus de 13 000 tâches construites à partir de benchmarks comme GPQA et MMLU-Pro, mais le snippet récupéré ne donne pas de score global exploitable pour comparer les quatre modèles [
2].
-
Une source secondaire rapporte un taux de réussite de 93% de GPT-5.5 sur un cyber range, tout en signalant aussi un jailbreak universel trouvé en six heures de red-teaming, ce qui rend le résultat utile mais ambigu côté sûreté [
3].
-
Artificial Analysis signale des analyses récentes sur DeepSeek V4 et Kimi K2.6, et présente Kimi K2.6 comme “the new leading open weights model”, mais les extraits récupérés ne fournissent pas les scores chiffrés nécessaires pour une comparaison complète avec GPT-5.5 et Claude Opus 4.7 [
1] [
13].
Tableau comparatif des benchmarks récupérés
| Benchmark / domaine | GPT-5.5 | Claude Opus 4.7 | DeepSeek V4 | Kimi K2.6 | Lecture prudente |
|---|---|---|---|---|---|
| ARC-AGI-1 Verified / raisonnement abstrait | 95.0% [ | 93.5% [ | Insufficient evidence | Insufficient evidence | GPT-5.5 devance Claude Opus 4.7 de 1.5 point dans le tableau OpenAI [ |
| ARC-AGI-2 Verified / raisonnement abstrait plus difficile | 85.0% [ | 75.8% [ | Insufficient evidence | Insufficient evidence | GPT-5.5 devance Claude Opus 4.7 de 9.2 points dans le tableau OpenAI [ |
| MCP-Atlas / orchestration d’outils | 75.3% [ | 79.1% [ | Insufficient evidence | Insufficient evidence | Claude Opus 4.7 est meilleur que GPT-5.5 sur ce benchmark précis [ |
| Terminal-Bench 2.0 / coding agentique terminal | 82.7% [ | Insufficient evidence | Insufficient evidence | Insufficient evidence | GPT-5.5 a un score rapporté élevé, mais les sources récupérées ne donnent pas de comparaison complète [ |
| Cyber range / cybersécurité offensive-défensive | 93% de réussite rapporté [ | Insufficient evidence | Insufficient evidence | Insufficient evidence | Le score GPT-5.5 est impressionnant, mais la même source signale aussi un jailbreak universel en red-teaming [ |
| CoT-Control / contrôlabilité du raisonnement | Suite de plus de 13 000 tâches, mais pas de score global exploitable dans l’extrait récupéré [ | Insufficient evidence | Insufficient evidence | Insufficient evidence | Benchmark utile pour sûreté/contrôle, mais non comparable ici faute de scores par modèle [ |
| Classement open-weights | Non open-weights dans les sources récupérées | Non open-weights dans les sources récupérées | Signalé comme retour parmi les modèles open-weights de tête [ | Présenté comme nouveau leader open-weights par le titre d’une analyse Artificial Analysis [ | Kimi K2.6 et DeepSeek V4 semblent pertinents côté open-weights, mais les scores détaillés manquent [ |
Analyse par modèle
GPT-5.5
GPT-5.5 est le modèle le mieux documenté dans les sources récupérées, avec une page de lancement, une system card et plusieurs analyses secondaires [2] [
11] [
13].
Ses résultats les plus solides dans les sources consultées sont 95.0% sur ARC-AGI-1 Verified et 85.0% sur ARC-AGI-2 Verified [11].
Sur MCP-Atlas, GPT-5.5 atteint 75.3%, soit moins que Claude Opus 4.7 dans la source récupérée [7].
Sur Terminal-Bench 2.0, GPT-5.5 est rapporté à 82.7%, ce qui suggère une forte performance en coding agentique, mais la comparaison avec les trois autres modèles reste incomplète dans les sources récupérées [14].
Côté sûreté et cybersécurité, une source rapporte 93% sur cyber range, mais signale aussi qu’un jailbreak universel a été trouvé en six heures de red-teaming, donc ce résultat ne doit pas être interprété comme une sûreté globale démontrée [3].
Claude Opus 4.7
Claude Opus 4.7 dispose de scores comparatifs exploitables sur ARC-AGI-1, ARC-AGI-2 et MCP-Atlas dans les sources récupérées [7] [
11].
Sur ARC-AGI-1 Verified, Claude Opus 4.7 obtient 93.5%, contre 95.0% pour GPT-5.5 dans le tableau OpenAI [11].
Sur ARC-AGI-2 Verified, Claude Opus 4.7 obtient 75.8%, contre 85.0% pour GPT-5.5 dans le tableau OpenAI [11].
Sur MCP-Atlas, Claude Opus 4.7 obtient 79.1%, contre 75.3% pour GPT-5.5, ce qui en fait le meilleur des deux modèles documentés pour ce benchmark d’orchestration d’outils [7].
Les sources récupérées ne fournissent pas de score fiable pour Claude Opus 4.7 sur Terminal-Bench 2.0, cyber range, CoT-Control ou un benchmark open-weights, donc toute conclusion au-delà des trois mesures ci-dessus serait spéculative.
DeepSeek V4
DeepSeek V4 apparaît dans les résultats comme une sortie suivie par Artificial Analysis et comme un retour de DeepSeek parmi les modèles open-weights de tête [1].
Les sources récupérées ne fournissent pas de scores chiffrés exploitables pour DeepSeek V4 sur ARC-AGI, MCP-Atlas, Terminal-Bench 2.0, cyber range ou CoT-Control.
Insufficient evidence pour classer DeepSeek V4 face à GPT-5.5, Claude Opus 4.7 et Kimi K2.6 sur les benchmarks numériques demandés.
Kimi K2.6
Kimi K2.6 apparaît dans les résultats d’Artificial Analysis comme “the new leading open weights model”, ce qui suggère une position forte parmi les modèles à poids ouverts [13].
Les sources récupérées ne fournissent pas de scores chiffrés exploitables pour Kimi K2.6 sur ARC-AGI, MCP-Atlas, Terminal-Bench 2.0, cyber range ou CoT-Control.
Insufficient evidence pour confirmer numériquement que Kimi K2.6 bat DeepSeek V4 ou se rapproche de GPT-5.5 et Claude Opus 4.7 sur les benchmarks couverts ici.
Comparaison qualitative
-
Meilleur modèle documenté pour le raisonnement abstrait : GPT-5.5, car il bat Claude Opus 4.7 sur ARC-AGI-1 et ARC-AGI-2 dans le tableau récupéré [
11].
-
Meilleur modèle documenté pour l’orchestration d’outils : Claude Opus 4.7, car il bat GPT-5.5 sur MCP-Atlas avec 79.1% contre 75.3% [
7].
-
Meilleur modèle documenté pour le coding agentique : GPT-5.5 a le meilleur signal disponible, avec 82.7% sur Terminal-Bench 2.0, mais il manque des scores comparables pour les trois autres modèles [
14].
-
Meilleur modèle open-weights : Kimi K2.6 est présenté par Artificial Analysis comme le nouveau leader open-weights, tandis que DeepSeek V4 est signalé comme un retour de DeepSeek parmi les modèles open-weights de tête [
1] [
13].
-
Meilleur modèle global : GPT-5.5 est le candidat le mieux étayé dans les sources récupérées, mais ce verdict est biaisé par la disponibilité beaucoup plus grande de données GPT-5.5 que de données DeepSeek V4 et Kimi K2.6 [
2] [
11] [
13].
Evidence notes
-
La source la plus forte pour les scores ARC-AGI est la page OpenAI de lancement de GPT-5.5, mais elle est aussi une source fournisseur et précise que les évaluations GPT ont été réalisées avec un effort de raisonnement “xhigh” en environnement de recherche [
11].
-
La source la plus forte pour la sûreté GPT-5.5 est la system card, qui décrit notamment CoT-Control et ses plus de 13 000 tâches construites à partir de benchmarks établis comme GPQA et MMLU-Pro [
2].
-
La donnée MCP-Atlas provient d’une source secondaire qui compare explicitement Claude Opus 4.7 et GPT-5.5, donc elle est utile mais devrait être vérifiée contre le benchmark original avant une décision d’achat ou d’intégration [
7].
-
Une critique externe soutient qu’il reste difficile de savoir si GPT-5.5 est sûr à publier parce que l’évaluation dépend fortement des déclarations d’OpenAI, ce qui renforce la nécessité de ne pas confondre performance benchmark et sûreté démontrée [
6].
Limitations / uncertainty
-
Insufficient evidence pour une comparaison complète de DeepSeek V4 et Kimi K2.6, car les sources récupérées indiquent leur présence dans des analyses récentes mais ne fournissent pas de tableaux chiffrés complets [
1] [
13].
-
Insufficient evidence pour un classement unique et robuste des quatre modèles, car aucun benchmark récupéré ne couvre proprement GPT-5.5, Claude Opus 4.7, DeepSeek V4 et Kimi K2.6 avec la même méthodologie.
-
Les scores de benchmarks LLM varient fortement selon le niveau d’effort de raisonnement, le prompt, l’environnement d’exécution, les outils disponibles et les réglages d’inférence; OpenAI indique justement que ses évaluations GPT ont utilisé un effort “xhigh” en environnement de recherche [
11].
-
Les résultats de sûreté/cybersécurité ne doivent pas être comparés aux résultats de raisonnement ou de coding comme s’ils mesuraient la même capacité, car une source rapporte à la fois un bon score cyber range de GPT-5.5 et un jailbreak universel trouvé rapidement [
3].
Summary
GPT-5.5 est le modèle le plus fort dans les données chiffrées récupérées, notamment sur ARC-AGI-1, ARC-AGI-2 et Terminal-Bench 2.0 [11] [
14].
Claude Opus 4.7 conserve un avantage net sur MCP-Atlas, ce qui le rend particulièrement intéressant pour les workflows multi-outils et agents complexes [7].
DeepSeek V4 et Kimi K2.6 semblent importants dans le segment open-weights, mais les sources récupérées ne donnent pas assez de scores exploitables pour les comparer rigoureusement aux deux modèles propriétaires [1] [
13].
Le rapport le plus honnête est donc un classement par domaine plutôt qu’un classement global : GPT-5.5 pour raisonnement/coding documenté, Claude Opus 4.7 pour orchestration d’outils documentée, et Insufficient evidence pour départager DeepSeek V4 et Kimi K2.6 numériquement.
Sources
[1] A new look for Artificial Analysis
[2] GPT-5.5 System Card - Deployment Safety Hub - OpenAI
[3] Everything You Need to Know About GPT-5.5
[6] GPT-5.5 and the broken state of government evals
[7] GPT-5.5 Review: Benchmarks, Pricing & Vs Claude
[11] Introducing GPT-5.5 - OpenAI
[13] OpenAI's GPT-5.5 is the new leading AI model - Artificial Analysis
[14] OpenAI's GPT-5.5 masters agentic coding with 82.7% benchmark
Hỗ trợ hình ảnh





Trao đổi nghiên cứu
Câu hỏi nghiên cứu
Recherchez les benchmarks de GPT-5.5, Claude Opus 4.7, DeepSeek V4 et Kimi K2.6, puis comparez-les de la manière la plus complète possible. Créez un rapport de recherche à ce sujet.
Câu trả lời được trích dẫn
J’ai trouvé des données vérifiables pour GPT-5.5 et Claude Opus 4.7 sur quelques benchmarks précis, mais pas assez de données numériques fiables et directement comparables pour DeepSeek V4 et Kimi K2.6. Le classement le plus prudent est donc : GPT-5.5 semble en tête sur raisonnement abstrait et coding agentique dans les sources disponibles, Claude Opus 4.7 devance GPT-5.5 sur l’orchestration d’outils MCP-Atlas, et les données récupérées sont insuffisantes pour départager proprement DeepSeek V4 et Kimi K2.6.
Key findings
-
GPT-5.5 obtient 95.0% sur ARC-AGI-1 Verified et 85.0% sur ARC-AGI-2 Verified dans le tableau publié par OpenAI, tandis que Claude Opus 4.7 y obtient 93.5% et 75.8% respectivement [
11].
-
OpenAI précise que les évaluations GPT de ce tableau ont été exécutées avec un effort de raisonnement “xhigh” dans un environnement de recherche, ce qui limite la comparabilité directe avec des usages API ou produits publics [
11].
-
Claude Opus 4.7 devance GPT-5.5 sur MCP-Atlas, avec 79.1% contre 75.3%, ce qui suggère un avantage sur les chaînes complexes d’appels d’outils dans cette source [
7].
-
GPT-5.5 est rapporté à 82.7% sur Terminal-Bench 2.0, un benchmark de tâches de terminal/coding agentique, mais je n’ai pas trouvé dans les sources récupérées de score comparable fiable pour Claude Opus 4.7, DeepSeek V4 ou Kimi K2.6 sur ce même benchmark [
14].
-
La system card GPT-5.5 décrit CoT-Control comme une suite de plus de 13 000 tâches construites à partir de benchmarks comme GPQA et MMLU-Pro, mais le snippet récupéré ne donne pas de score global exploitable pour comparer les quatre modèles [
2].
-
Une source secondaire rapporte un taux de réussite de 93% de GPT-5.5 sur un cyber range, tout en signalant aussi un jailbreak universel trouvé en six heures de red-teaming, ce qui rend le résultat utile mais ambigu côté sûreté [
3].
-
Artificial Analysis signale des analyses récentes sur DeepSeek V4 et Kimi K2.6, et présente Kimi K2.6 comme “the new leading open weights model”, mais les extraits récupérés ne fournissent pas les scores chiffrés nécessaires pour une comparaison complète avec GPT-5.5 et Claude Opus 4.7 [
1] [
13].
Tableau comparatif des benchmarks récupérés
| Benchmark / domaine | GPT-5.5 | Claude Opus 4.7 | DeepSeek V4 | Kimi K2.6 | Lecture prudente |
|---|---|---|---|---|---|
| ARC-AGI-1 Verified / raisonnement abstrait | 95.0% [ | 93.5% [ | Insufficient evidence | Insufficient evidence | GPT-5.5 devance Claude Opus 4.7 de 1.5 point dans le tableau OpenAI [ |
| ARC-AGI-2 Verified / raisonnement abstrait plus difficile | 85.0% [ | 75.8% [ | Insufficient evidence | Insufficient evidence | GPT-5.5 devance Claude Opus 4.7 de 9.2 points dans le tableau OpenAI [ |
| MCP-Atlas / orchestration d’outils | 75.3% [ | 79.1% [ | Insufficient evidence | Insufficient evidence | Claude Opus 4.7 est meilleur que GPT-5.5 sur ce benchmark précis [ |
| Terminal-Bench 2.0 / coding agentique terminal | 82.7% [ | Insufficient evidence | Insufficient evidence | Insufficient evidence | GPT-5.5 a un score rapporté élevé, mais les sources récupérées ne donnent pas de comparaison complète [ |
| Cyber range / cybersécurité offensive-défensive | 93% de réussite rapporté [ | Insufficient evidence | Insufficient evidence | Insufficient evidence | Le score GPT-5.5 est impressionnant, mais la même source signale aussi un jailbreak universel en red-teaming [ |
| CoT-Control / contrôlabilité du raisonnement | Suite de plus de 13 000 tâches, mais pas de score global exploitable dans l’extrait récupéré [ | Insufficient evidence | Insufficient evidence | Insufficient evidence | Benchmark utile pour sûreté/contrôle, mais non comparable ici faute de scores par modèle [ |
| Classement open-weights | Non open-weights dans les sources récupérées | Non open-weights dans les sources récupérées | Signalé comme retour parmi les modèles open-weights de tête [ | Présenté comme nouveau leader open-weights par le titre d’une analyse Artificial Analysis [ | Kimi K2.6 et DeepSeek V4 semblent pertinents côté open-weights, mais les scores détaillés manquent [ |
Analyse par modèle
GPT-5.5
GPT-5.5 est le modèle le mieux documenté dans les sources récupérées, avec une page de lancement, une system card et plusieurs analyses secondaires [2] [
11] [
13].
Ses résultats les plus solides dans les sources consultées sont 95.0% sur ARC-AGI-1 Verified et 85.0% sur ARC-AGI-2 Verified [11].
Sur MCP-Atlas, GPT-5.5 atteint 75.3%, soit moins que Claude Opus 4.7 dans la source récupérée [7].
Sur Terminal-Bench 2.0, GPT-5.5 est rapporté à 82.7%, ce qui suggère une forte performance en coding agentique, mais la comparaison avec les trois autres modèles reste incomplète dans les sources récupérées [14].
Côté sûreté et cybersécurité, une source rapporte 93% sur cyber range, mais signale aussi qu’un jailbreak universel a été trouvé en six heures de red-teaming, donc ce résultat ne doit pas être interprété comme une sûreté globale démontrée [3].
Claude Opus 4.7
Claude Opus 4.7 dispose de scores comparatifs exploitables sur ARC-AGI-1, ARC-AGI-2 et MCP-Atlas dans les sources récupérées [7] [
11].
Sur ARC-AGI-1 Verified, Claude Opus 4.7 obtient 93.5%, contre 95.0% pour GPT-5.5 dans le tableau OpenAI [11].
Sur ARC-AGI-2 Verified, Claude Opus 4.7 obtient 75.8%, contre 85.0% pour GPT-5.5 dans le tableau OpenAI [11].
Sur MCP-Atlas, Claude Opus 4.7 obtient 79.1%, contre 75.3% pour GPT-5.5, ce qui en fait le meilleur des deux modèles documentés pour ce benchmark d’orchestration d’outils [7].
Les sources récupérées ne fournissent pas de score fiable pour Claude Opus 4.7 sur Terminal-Bench 2.0, cyber range, CoT-Control ou un benchmark open-weights, donc toute conclusion au-delà des trois mesures ci-dessus serait spéculative.
DeepSeek V4
DeepSeek V4 apparaît dans les résultats comme une sortie suivie par Artificial Analysis et comme un retour de DeepSeek parmi les modèles open-weights de tête [1].
Les sources récupérées ne fournissent pas de scores chiffrés exploitables pour DeepSeek V4 sur ARC-AGI, MCP-Atlas, Terminal-Bench 2.0, cyber range ou CoT-Control.
Insufficient evidence pour classer DeepSeek V4 face à GPT-5.5, Claude Opus 4.7 et Kimi K2.6 sur les benchmarks numériques demandés.
Kimi K2.6
Kimi K2.6 apparaît dans les résultats d’Artificial Analysis comme “the new leading open weights model”, ce qui suggère une position forte parmi les modèles à poids ouverts [13].
Les sources récupérées ne fournissent pas de scores chiffrés exploitables pour Kimi K2.6 sur ARC-AGI, MCP-Atlas, Terminal-Bench 2.0, cyber range ou CoT-Control.
Insufficient evidence pour confirmer numériquement que Kimi K2.6 bat DeepSeek V4 ou se rapproche de GPT-5.5 et Claude Opus 4.7 sur les benchmarks couverts ici.
Comparaison qualitative
-
Meilleur modèle documenté pour le raisonnement abstrait : GPT-5.5, car il bat Claude Opus 4.7 sur ARC-AGI-1 et ARC-AGI-2 dans le tableau récupéré [
11].
-
Meilleur modèle documenté pour l’orchestration d’outils : Claude Opus 4.7, car il bat GPT-5.5 sur MCP-Atlas avec 79.1% contre 75.3% [
7].
-
Meilleur modèle documenté pour le coding agentique : GPT-5.5 a le meilleur signal disponible, avec 82.7% sur Terminal-Bench 2.0, mais il manque des scores comparables pour les trois autres modèles [
14].
-
Meilleur modèle open-weights : Kimi K2.6 est présenté par Artificial Analysis comme le nouveau leader open-weights, tandis que DeepSeek V4 est signalé comme un retour de DeepSeek parmi les modèles open-weights de tête [
1] [
13].
-
Meilleur modèle global : GPT-5.5 est le candidat le mieux étayé dans les sources récupérées, mais ce verdict est biaisé par la disponibilité beaucoup plus grande de données GPT-5.5 que de données DeepSeek V4 et Kimi K2.6 [
2] [
11] [
13].
Evidence notes
-
La source la plus forte pour les scores ARC-AGI est la page OpenAI de lancement de GPT-5.5, mais elle est aussi une source fournisseur et précise que les évaluations GPT ont été réalisées avec un effort de raisonnement “xhigh” en environnement de recherche [
11].
-
La source la plus forte pour la sûreté GPT-5.5 est la system card, qui décrit notamment CoT-Control et ses plus de 13 000 tâches construites à partir de benchmarks établis comme GPQA et MMLU-Pro [
2].
-
La donnée MCP-Atlas provient d’une source secondaire qui compare explicitement Claude Opus 4.7 et GPT-5.5, donc elle est utile mais devrait être vérifiée contre le benchmark original avant une décision d’achat ou d’intégration [
7].
-
Une critique externe soutient qu’il reste difficile de savoir si GPT-5.5 est sûr à publier parce que l’évaluation dépend fortement des déclarations d’OpenAI, ce qui renforce la nécessité de ne pas confondre performance benchmark et sûreté démontrée [
6].
Limitations / uncertainty
-
Insufficient evidence pour une comparaison complète de DeepSeek V4 et Kimi K2.6, car les sources récupérées indiquent leur présence dans des analyses récentes mais ne fournissent pas de tableaux chiffrés complets [
1] [
13].
-
Insufficient evidence pour un classement unique et robuste des quatre modèles, car aucun benchmark récupéré ne couvre proprement GPT-5.5, Claude Opus 4.7, DeepSeek V4 et Kimi K2.6 avec la même méthodologie.
-
Les scores de benchmarks LLM varient fortement selon le niveau d’effort de raisonnement, le prompt, l’environnement d’exécution, les outils disponibles et les réglages d’inférence; OpenAI indique justement que ses évaluations GPT ont utilisé un effort “xhigh” en environnement de recherche [
11].
-
Les résultats de sûreté/cybersécurité ne doivent pas être comparés aux résultats de raisonnement ou de coding comme s’ils mesuraient la même capacité, car une source rapporte à la fois un bon score cyber range de GPT-5.5 et un jailbreak universel trouvé rapidement [
3].
Summary
GPT-5.5 est le modèle le plus fort dans les données chiffrées récupérées, notamment sur ARC-AGI-1, ARC-AGI-2 et Terminal-Bench 2.0 [11] [
14].
Claude Opus 4.7 conserve un avantage net sur MCP-Atlas, ce qui le rend particulièrement intéressant pour les workflows multi-outils et agents complexes [7].
DeepSeek V4 et Kimi K2.6 semblent importants dans le segment open-weights, mais les sources récupérées ne donnent pas assez de scores exploitables pour les comparer rigoureusement aux deux modèles propriétaires [1] [
13].
Le rapport le plus honnête est donc un classement par domaine plutôt qu’un classement global : GPT-5.5 pour raisonnement/coding documenté, Claude Opus 4.7 pour orchestration d’outils documentée, et Insufficient evidence pour départager DeepSeek V4 et Kimi K2.6 numériquement.
Sources
[1] A new look for Artificial Analysis
[2] GPT-5.5 System Card - Deployment Safety Hub - OpenAI
[3] Everything You Need to Know About GPT-5.5
[6] GPT-5.5 and the broken state of government evals
[7] GPT-5.5 Review: Benchmarks, Pricing & Vs Claude
[11] Introducing GPT-5.5 - OpenAI
[13] OpenAI's GPT-5.5 is the new leading AI model - Artificial Analysis
[14] OpenAI's GPT-5.5 masters agentic coding with 82.7% benchmark
Người ta cũng hỏi
Câu trả lời ngắn gọn cho "Recherchez les benchmarks de GPT-5.5, Claude Opus 4.7, DeepSeek V4 et Kimi K2.6, puis comparez-les de la manière la plus complète possible. Créez un rapport de recherche à ce sujet." là gì?
GPT-5.5 obtient 95.0% sur ARC-AGI-1 Verified et 85.0% sur ARC-AGI-2 Verified dans le tableau publié par OpenAI, tandis que Claude Opus 4.7 y obtient 93.5% et 75.8% respectivement.
Những điểm chính cần xác nhận đầu tiên là gì?
GPT-5.5 obtient 95.0% sur ARC-AGI-1 Verified et 85.0% sur ARC-AGI-2 Verified dans le tableau publié par OpenAI, tandis que Claude Opus 4.7 y obtient 93.5% et 75.8% respectivement. OpenAI précise que les évaluations GPT de ce tableau ont été exécutées avec un effort de raisonnement “xhigh” dans un environnement de recherche, ce qui limite la comparabilité directe avec des usages API ou produits publics.
Tôi nên làm gì tiếp theo trong thực tế?
Claude Opus 4.7 devance GPT-5.5 sur MCP-Atlas, avec 79.1% contre 75.3%, ce qui suggère un avantage sur les chaînes complexes d’appels d’outils dans cette source.
Tôi nên khám phá chủ đề liên quan nào tiếp theo?
Tiếp tục với "Nghiên cứu benchmarks của GPT-5.5, Claude Opus 4.7, DeepSeek V4, Kimi K2.6 và so sánh chúng một cách toàn diện nhất" để có góc nhìn khác và trích dẫn bổ sung.
Mở trang liên quanTôi nên so sánh điều này với cái gì?
Kiểm tra chéo câu trả lời này với "Tìm kiếm và kiểm chứng thông tin: Tạo ảnh bằng Gemini như thế nào?".
Mở trang liên quanTiếp tục nghiên cứu của bạn
Nguồn
- [1] Everything You Need to Know About GPT-5.5vellum.ai
3. Cybersecurity capabilities are accelerating faster than safeguards.A 93% cyber range pass rate, combined with a universal jailbreak found in six hours of red-teaming, is the tension that defines this era of AI. 4. The pricing shift favors heavy users.The...
- [2] GPT-5.5 (medium) Review | Pricing, Benchmarks & Capabilities (2026)designforonline.com
Assessed April 24, 2026 Rankings consider pricing, capabilities, benchmarks, and real-world applicability and are refreshed as new models launch. Feedback? Specifications Performance Profile Performance Indices Source: Artificial Analysis This model was rel...
- [3] GPT-5.5 System Card - OpenAI Deployment Safety Hubdeploymentsafety.openai.com
We measure GPT-5.5’s controllability by running CoT-Control, an evaluation suite described in (Yueh-Han, 2026 ) that tracks the model’s ability to follow user instructions about their CoT. CoT-Control includes over 13,000 tasks built from established benchm...
- [4] GPT-5.5: Pricing, Benchmarks & Performancellm-stats.com
GPT-5.5: Pricing, Benchmarks & Performance Image 1: LLM Stats LogoLLM Stats Leaderboards Benchmarks Compare Playground Arenas Gateway Services Search⌘K Sign in Toggle theme NEW•NEW•NEW•NEW• AI phone calls for $0.05/min, all-in CallingBox Start for free 1. O...
- [5] GPT-5.5: The Complete Guide (2026) - o-mega | AIo-mega.ai
The decision to invest in a new pretrain after months of rapid post-training iterations signals something important about where OpenAI believes the frontier is moving. Post-training got them from GPT-5 to GPT-5.4 in eight months. But the big jumps in GPT-5....
- [6] Introducing GPT-5.5 - OpenAIopenai.com
Abstract reasoning EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaude Opus 4.7Gemini 3.1 Pro ARC-AGI-1 (Verified)95.0%93.7%-94.5%93.5%98.0% ARC-AGI-2 (Verified)85.0%73.3%-83.3%75.8%77.1% Evals of GPT were run with reasoning effort set to xhigh and were conducte...
- [7] OpenAI GPT-5.5: an evaluation - Sonarsonarsource.com
GPT-5.5 is the latest model from OpenAI, and it delivers huge improvements in a key area: security. In fact, its security numbers are some of the best we’ve seen. Vulnerability density is low, consistent across runs, and flat across severity levels. That's...
- [8] OpenAI's GPT-5.5 is the new leading AI model - Artificial Analysisartificialanalysis.ai
Read the latest Image 7 Kimi K2.6: The new leading open weights model Benchmarks and Analysis of Kimi K2.6 April 21, 2026Image 8 Opus 4.7: Everything you need to know Benchmarks and Analysis of Opus 4.7 April 17, 2026Image 9 Sub-32B Open Weights Benchmark a...
- [9] What Is GPT-5.5 for Builders in 2026?wavespeed.ai
Item Status --- Release date: April 23, 2026 Confirmed — OpenAI official Live in ChatGPT (Plus/Pro/Business/Enterprise) Confirmed — OpenAI official Live in Codex (Plus/Pro/Business/Enterprise/Edu/Go) Confirmed — OpenAI official 400K context in Codex Confirm...
- [10] OpenAI GPT-5.5 Benchmark (CodeRabbit)coderabbit.ai
CodeRabbit logoCodeRabbit logo AgentEnterpriseCustomersPricingBlog Resources Docs Trust Center Contact Us FAQ Whitepapers Log InGet a free trial What changed in OpenAI GPT-5.5: Better judgment, stronger coding, better signal by Juan Pablo Flores Abhilash Ha...
- [11] Model Drop: GPT-5.5 - by Jake Handyhandyai.substack.com
Headline benchmarks: Terminal-Bench 2.0 at 82.7% (Opus 4.7: 69.4%, Gemini 3.1 Pro: 68.5%). SWE-Bench Pro at 58.6% (Opus 4.7 still leads at 64.3%). OpenAI’s internal Expert-SWE eval, where tasks have a 20-hour median human completion time, at 73.1% (up from...
- [12] OpenAI Releases GPT-5.5 With State-of-the-Art Scores on Coding, Science, and Computer Uselinkedin.com
Alibaba's New Qwen3.6 Open-Source Model Runs on a Single GPU and Now Competes With Commercial Models Apr 23, 2026 Google's New Deep Research Max Agent Scores 93% on Benchmarks Google's New Deep Research Max Agent Scores 93% on Benchmarks Apr 22, 2026 From C...
- [13] GPT-5.5 (high) Review | Pricing, Benchmarks & Capabilities (2026)designforonline.com
Transform your business & boost efficiency with AI automation, utilising the very latest in LLMs, seamless no code automation options & MCPs Home AI Models GPT-5.5 (high) GPT-5.5 (high) OpenAI GPT-5.5 (high) Analysis Summary GPT-5.5 (high) sits in the Front...
- [14] GPT-5.5 Review: Benchmarks, Pricing & Vs Claude (2026)buildfastwithai.com
MCP-Atlas: Claude Opus 4.7 scores 79.1% versus GPT-5.5's 75.3%. For teams heavily invested in multi-tool orchestration via the Model Context Protocol, Claude's lead on this benchmark reflects better tool-call reliability in complex, chained scenarios. A not...
- [15] OpenAI's GPT-5.5 masters agentic coding with 82.7% benchmark ...interestingengineering.com
— OpenAI (@OpenAI) April 23, 2026 OpenAI said the improvements go beyond benchmarks. Early testers reported that GPT-5.5 better understands system architecture and failure points. It can identify where fixes belong and predict downstream impacts across a co...
- [16] OpenAI's GPT-5.5: Benchmarks, Safety Classification, and Availabilitydatacamp.com
OpenAI's GPT-5.5: Benchmarks, Safety Classification, and Availability OpenAI's latest release focuses on execution, research, and dramatically improved inference efficiency. Apr 23, 2026 · 5 min read OpenAI's latest model, GPT-5.5, matches GPT-5.4 in per-to...
- [17] GPT-5.5 (low) Review | Pricing, Benchmarks & Capabilities (2026) | Design for Onlinedesignforonline.com
Transform your business & boost efficiency with AI automation, utilising the very latest in LLMs, seamless no code automation options & MCPs Home AI Models GPT-5.5 (low) GPT-5.5 (low) OpenAI GPT-5.5 (low) Analysis Summary GPT-5.5 (low) sits in the Professio...
- [18] [PDF] GPT-5.5 System Card - Deployment Safety Hub - OpenAIdeploymentsafety.openai.com
We measure GPT-5.5’s controllability by running CoT-Control, an evaluation suite described in (Yueh-Han, 2026 ) that tracks the model’s ability to follow user instructions about their CoT. CoT-Control includes over 13,000 tasks built from established benchm...
- [19] GPT-5.5 and the broken state of government evalstransformernews.ai
In other words: we do not know if GPT-5.5 is actually safe to release. All we have to rely on is OpenAI’s word. Such a situation may have been acceptable in 2023. In 2026, with models posing genuine risks to national security and plenty of other vital syste...
- [20] A new look for Artificial Analysisartificialanalysis.ai
DeepSeek is back among the leading open weights models with the release of DeepSeek V4 ... Benchmarks and Analysis of Kimi K2.6. April 21, 2026. Apr 10, 2026
- [21] DeepSeek is back among the leading open weights models with V4 ...artificialanalysis.ai
Large 10 point gain in Intelligence Index: DeepSeek V4 Pro (Max) scores 52 on the Artificial Analysis Intelligence Index, up from 42 for V3.2, ... 3 days ago
- [22] DeepSeek V4 Pro vs Kimi K2.6 - AI Model Comparison | OpenRouteropenrouter.ai
Compare DeepSeek V4 Pro from DeepSeek and Kimi K2.6 from moonshotai on key metrics including benchmarks, price, context length, and other model features.
- [23] [AINews] Moonshot Kimi K2.6: the world's leading Open Model ...latent.space
[AINews] Moonshot Kimi K2.6: the world's leading Open Model refreshes to catch up to Opus 4.6 (ahead of DeepSeek v4?) Yay Kimi!!! Latent ... 6 days ago
- [24] DeepSeek V4 Pro (Reasoning, High Effort) vs Kimi K2.6artificialanalysis.ai
Comparison between DeepSeek V4 Pro (Reasoning, High Effort) and Kimi K2.6 across intelligence, price, speed, context window and more.
- [25] Kimi K2.6 vs DeepSeek V4 - LLM Referencellmreference.com
Compare Kimi K2.6 and DeepSeek V4 side by side. Context window, parameters, pricing, capabilities, and provider availability.
- [26] "DeepSeek v4 is now the #1 open-weight model on our Vibe Code ...reddit.com
"DeepSeek v4 is now the 1 open-weight model on our Vibe Code Benchmark, and it's not close. It leaves the 2 (Kimi K2.6) in the dust, and even ... 3 days ago
- [27] DeepSeek V4 Benchmarks! : r/singularity - Redditreddit.com
V4 flash seems like the real winner though, deepseek v4 flash (high) scores about the same as gemini 3 flash on artificial analaysis, but costs ... 3 days ago
- [28] DeepSeek V4 finally drops—and gets beaten by a smartphone ...x.com
It costs only $462 to run the Artificial Analysis Intelligence Index, compared to $948 for Kimi K2.6 and $544 for GLM 5.1. ➤ MiMo V2.5 Pro ... 2 days ago
- [29] DeepSeek V4 Pro vs Kimi K2.6: Which to Choose? | 2026 - YouTubeyoutube.com
... DeepSeek vs ChatGPT: performance and cost comparison in 2026 - [DeepSeek V4 released today ( ... 2 days ago