Esses resultados dão sequência a um esforço mais amplo do laboratório de voz do Qwen. Modelos anteriores, como o Fun-Realtime-ASR e o Fun-Realtime-AudioChat, já haviam conquistado as primeiras posições na mesma plataforma, e o Qwen2.5-Omni-7B lidera o ranking VoiceBench Avg com uma nota de 0,741 .
Os modelos de voz da Alibaba também já superaram rivais ocidentais, como OpenAI e xAI, em benchmarks de sotaque regional e dialetos, com uma vantagem especial nos complexos dialetos chineses .
Em outra frente, o Qwen3.5-Omni-Plus — lançado em março de 2026 — reportou 215 resultados de última geração (SOTA, na sigla em inglês) em tarefas de compreensão de áudio e áudio-visual. Em benchmarks independentes de áudio, superou o Gemini 3.1 Pro do Google em compreensão geral, raciocínio e tradução, embora tenha apenas empatado com o Gemini na compreensão áudio-visual abrangente . Uma análise técnica ponderada observa que as vitórias em áudio são genuínas — com uma taxa de erro de palavra de 6,55% no benchmark Fleurs ASR contra 7,32% do Gemini —, mas que o modelo fica atrás do Gemini por cerca de 12 pontos no benchmark agentivo OmniGAIA
.
A Alibaba lançou o Qwen3.7-Max em 19 de maio de 2026 e, em uma semana, ele já aparecia em 4º lugar no ranking WebDev da Code Arena com um Elo de 1.541, um ponto atrás do Claude Opus 4.6 Thinking e à frente de todos os modelos da OpenAI e do Google . Na pista de código React, subiu para o 3º lugar com 1.536 de Elo, atrás apenas de duas variantes do Claude Opus
. Algumas fontes reportam que ele chegou a alcançar o 2º lugar em certos sub-rankings da Code Arena
.
A linha Claude Opus 4.7/4.6, da Anthropic, ocupava as três primeiras posições no WebDev, o que significa que a Alibaba foi a única desenvolvedora fora da Anthropic — e o único laboratório não americano — a entrar no top 5 de código . O modelo supera o GPT-5.5, o Gemini 3.5 Flash e o GLM-5.1 em tarefas de desenvolvimento web agentivo que avaliam a preferência humana real em fluxos de trabalho de código com múltiplas etapas
.
Além da Code Arena, os modelos Qwen têm registrado resultados competitivos em outros benchmarks de código e raciocínio:
O retrato do Elo na Arena feito pelo Índice de IA de Stanford 2026, com dados de março de 2026, mostra os principais laboratórios muito próximos :
| Laboratório | Elo na Arena |
|---|---|
| Anthropic | 1.503 |
| xAI | 1.495 |
| 1.494 | |
| OpenAI | 1.481 |
| Alibaba | 1.449 |
| DeepSeek | 1.424 |
A Alibaba figura em 5º lugar geral, cerca de 50 a 55 pontos atrás do líder. Essa distância é pequena o suficiente para que os autores do relatório descrevam a pressão competitiva como algo que está migrando para custo, confiabilidade e desempenho em domínios específicos, em vez de capacidade bruta .
Os resultados dos benchmarks surgem num ano em que a diferença de desempenho entre os melhores modelos de IA americanos e chineses praticamente desapareceu. O Índice de IA 2026 de Stanford constata que a lacuna desabou de 17,5–31,6 pontos percentuais em maio de 2023 para apenas 2,7% em março de 2026. Os dois países estão agora "constantemente trocando de lugar no topo dos benchmarks" — um contraste radical com a era de domínio americano até 2024 .
Isso aconteceu apesar de os EUA gastarem cerca de 23 vezes mais em investimento privado em IA — US$ 285,9 bilhões contra US$ 12,4 bilhões no período mais recente rastreado .
Analistas apontam várias forças por trás dessa aproximação:
Vale notar que outras avaliações enxergam uma distância maior. Uma análise da Brookings de 2026 argumenta que os modelos de fronteira americanos ainda estão "vários meses ou mais" à frente dos chineses e que os laboratórios dos EUA mantêm vantagem em escala computacional e tarefas agentivas de horizonte mais longo . Um depoimento ao Congresso americano no mesmo período faz uma observação semelhante
.
Mesmo assim, o resultado prático para empresas e desenvolvedores é claro: mais competição, iteração mais rápida, preços mais baixos e um leque mais amplo de opções viáveis, tanto de fornecedores americanos quanto chineses .
Comments
0 comments