Estos resultados son la continuación de un impulso más amplio del laboratorio de voz Qwen. Anteriormente, los modelos Fun-Realtime-ASR y Fun-Realtime-AudioChat ya habían reclamado los primeros puestos en la misma plataforma, y el Qwen2.5-Omni-7B lidera la tabla VoiceBench Avg con una puntuación de 0,741 .
Los modelos de voz de Alibaba también han superado a rivales occidentales como OpenAI y xAI en pruebas de acentos regionales y dialectos, con una ventaja particular en dialectos chinos complejos .
Por separado, Qwen3.5-Omni-Plus—lanzado en marzo de 2026—reportó 215 resultados de vanguardia en tareas de comprensión de audio y audio-visual. En pruebas de audio independientes, superó a Gemini 3.1 Pro de Google en comprensión general de audio, razonamiento y traducción, aunque solo igualó a Gemini en comprensión audio-visual integral . Una revisión técnica detallada señala que las victorias en audio son genuinas—con una tasa de error de palabras del 6,55% en la prueba Fleurs ASR frente al 7,32% de Gemini—pero que el modelo va por detrás de Gemini por unos 12 puntos en la prueba de agentes OmniGAIA
.
Alibaba lanzó Qwen3.7-Max el 19 de mayo de 2026 y, en una semana, apareció en el puesto N° 4 en la tabla de desarrollo web (WebDev) de Code Arena con un Elo de 1.541, un punto por detrás de Claude Opus 4.6 Thinking y por delante de todos los modelos de OpenAI y Google . En la pista de codificación React, ascendió al N° 3 con 1.536 Elo, solo por detrás de dos variantes de Claude Opus
. Algunas fuentes informan que escaló brevemente al segundo puesto en ciertas sub-tablas de Code Arena
.
La línea Claude Opus 4.7/4.6 de Anthropic ocupó los puestos del uno al tres en WebDev, lo que significa que Alibaba fue el único desarrollador fuera de Anthropic—y el único laboratorio no estadounidense—en irrumpir en el top cinco de codificación . El modelo se sitúa por delante de GPT-5.5, Gemini 3.5 Flash y GLM-5.1 en tareas de desarrollo web agéntico que puntúan la preferencia humana en flujos de trabajo de codificación de múltiples pasos
.
Más allá de Code Arena, los modelos Qwen han estado registrando resultados competitivos en otras pruebas de codificación y razonamiento:
La instantánea de Elo de Arena del Índice de IA 2026 de Stanford a marzo de 2026 muestra a los mejores laboratorios agrupados de forma compacta :
| Laboratorio | Elo en Arena |
|---|---|
| Anthropic | 1.503 |
| xAI | 1.495 |
| 1.494 | |
| OpenAI | 1.481 |
| Alibaba | 1.449 |
| DeepSeek | 1.424 |
Alibaba ocupa el 5° puesto en general, aproximadamente a 50–55 puntos del líder. Es una distancia lo suficientemente corta como para que los autores del informe describan que la presión competitiva se ha desplazado hacia el costo, la fiabilidad y el rendimiento en dominios específicos, en lugar de la capacidad bruta .
Los resultados de las pruebas llegan en un año en el que la brecha de rendimiento entre los mejores modelos de IA de EE. UU. y China casi ha desaparecido. El Índice de IA 2026 de Stanford constata que la brecha se desplomó de 17,5–31,6 puntos porcentuales en mayo de 2023 a solo un 2,7% en marzo de 2026. Ambos países están ahora "intercambiando constantemente los primeros puestos en las pruebas de rendimiento", un cambio radical respecto a la era dominada por EE. UU. hasta 2024 .
Esto ocurrió a pesar de que EE. UU. gastó aproximadamente 23 veces más que China en inversión privada en IA: 285.900 millones de dólares frente a 12.400 millones en el período más reciente registrado .
Los analistas apuntan a varias fuerzas detrás de este acercamiento:
Vale la pena señalar que otras evaluaciones ven una brecha más amplia. Un análisis de 2026 de Brookings sostiene que los modelos de frontera estadounidenses todavía lideran a los chinos por "varios meses o más" y que los laboratorios de EE. UU. mantienen una ventaja en escala de cómputo y tareas agénticas de horizonte más largo . Un testimonio en el Congreso del mismo período plantea un punto similar
.
Comments
0 comments