Ces résultats s'inscrivent dans une dynamique plus large du laboratoire voix de Qwen. Auparavant, les modèles Fun-Realtime-ASR et Fun-Realtime-AudioChat avaient déjà occupé les premières places sur la même plateforme, et Qwen2.5-Omni-7B domine le classement VoiceBench Avg avec un score de 0,741 .
Les modèles vocaux d'Alibaba ont également surpassé leurs rivaux occidentaux, dont OpenAI et xAI, sur des benchmarks d'accents régionaux et de dialectes, avec un avantage particulier pour les dialectes chinois complexes .
Par ailleurs, Qwen3.5-Omni-Plus — sorti en mars 2026 — a revendiqué 215 résultats « état de l'art » sur des tâches de compréhension audio et audio-visuelle. Sur des benchmarks audio indépendants, il a surpassé Gemini 3.1 Pro de Google en compréhension audio générale, raisonnement et traduction, bien qu'il ait seulement égalé Gemini en compréhension audio-visuelle complète . Une analyse technique nuancée souligne que les victoires en audio sont réelles — avec un taux d'erreur de mots de 6,55 % sur le benchmark Fleurs ASR contre 7,32 % pour Gemini — mais note un retard de 12 points sur le benchmark agentique OmniGAIA
.
Alibaba a livré Qwen3.7-Max le 19 mai 2026. En moins d'une semaine, il est apparu à la 4ᵉ place du classement WebDev de Code Arena avec un Elo de 1 541, à un point derrière Claude Opus 4.6 Thinking et devant tous les modèles d'OpenAI et de Google . Sur la piste de codage React, il est monté jusqu'à la 3ᵉ place avec un Elo de 1 536, derrière deux variantes de Claude Opus uniquement
. Certaines sources indiquent même qu'il a brièvement atteint la 2ᵉ place sur certains sous-classements
.
La famille Claude Opus 4.7/4.6 d'Anthropic occupait les trois premières places en WebDev, ce qui signifie qu'Alibaba était le seul développeur en dehors d'Anthropic — et le seul laboratoire non américain — à se hisser dans le top 5 . Le modèle se positionne devant GPT-5.5, Gemini 3.5 Flash et GLM-5.1 sur des tâches de développement web agentique qui mesurent la préférence humaine réelle sur des flux de travail de codage en plusieurs étapes
.
Au-delà de Code Arena, les modèles Qwen ont enregistré des résultats compétitifs sur d'autres benchmarks :
L'instantané des scores Elo de l'Arena par l'Index AI 2026 de Stanford, en mars 2026, montre des laboratoires de tête très proches :
| Laboratoire | Elo Arena |
|---|---|
| Anthropic | 1 503 |
| xAI | 1 495 |
| 1 494 | |
| OpenAI | 1 481 |
| Alibaba | 1 449 |
| DeepSeek | 1 424 |
Alibaba se classe 5ᵉ, à environ 50–55 points du leader. L'écart est suffisamment faible pour que les auteurs du rapport décrivent une pression concurrentielle qui se déplace désormais vers le coût, la fiabilité et la performance spécifique à un domaine, plutôt que la capacité brute .
Ces résultats s'inscrivent dans une année où l'écart de performance entre les meilleurs modèles américains et chinois a presque disparu. L'Index AI 2026 de Stanford montre un écart passé de 17,5 à 31,6 points de pourcentage en mai 2023 à seulement 2,7 % en mars 2026. Les deux pays « échangent constamment leurs places au sommet des benchmarks » — une rupture nette avec l'ère de domination américaine jusqu'en 2024 .
Ce rattrapage s'est produit malgré des États-Unis dépensant environ 23 fois plus que la Chine en investissements privés dans l'IA : 285,9 milliards de dollars contre 12,4 milliards sur la période la plus récente suivie .
Les analystes pointent plusieurs facteurs explicatifs :
Il convient de noter que d'autres évaluations voient un écart plus important. Une analyse de Brookings en 2026 soutient que les modèles américains de pointe conservent une avance de « plusieurs mois ou plus » sur les modèles chinois, notamment sur l'échelle de calcul et les tâches agentiques de longue haleine . Un témoignage devant le Congrès américain à la même période va dans le même sens
.
Pour les entreprises et les développeurs, la conséquence pratique est néanmoins claire : plus de concurrence, une itération plus rapide, des prix plus bas et davantage d'options viables, qu'elles viennent de fournisseurs américains ou chinois .
Comments
0 comments