Những kết quả này nối tiếp một nỗ lực mở rộng hơn từ phòng thí nghiệm giọng nói Qwen. Trước đó, hai mô hình Fun-Realtime-ASR và Fun-Realtime-AudioChat đã từng chiếm giữ những vị trí dẫn đầu trên cùng nền tảng này, và Qwen2.5-Omni-7B thì đang dẫn đầu bảng xếp hạng VoiceBench Avg với số điểm 0.741 . Mô hình giọng nói của Alibaba cũng được ghi nhận là vượt trội hơn các đối thủ phương Tây như OpenAI và xAI ở khả năng xử lý giọng địa phương và phương ngữ phức tạp của tiếng Trung
.
Cũng cần nhắc đến Qwen3.5-Omni-Plus, phát hành vào tháng 3/2026, đã báo cáo 215 kết quả tiên tiến nhất (SOTA) trên các tác vụ hiểu âm thanh và nghe-nhìn. Trên các bài kiểm tra độc lập về âm thanh, nó đánh bại Gemini 3.1 Pro của Google ở các tác vụ hiểu âm thanh tổng quát, suy luận và dịch thuật, dù chỉ đạt mức ngang bằng với Gemini về khả năng hiểu nghe-nhìn tổng hợp . Một đánh giá kỹ thuật chuyên sâu ghi nhận chiến thắng về âm thanh là thật – với tỷ lệ lỗi từ (WER) 6,55% trên bài kiểm tra Fleurs ASR so với 7,32% của Gemini – nhưng cũng chỉ ra rằng mô hình này thua Gemini khoảng 12 điểm trên bài kiểm tra tác tử OmniGAIA
.
Alibaba phát hành Qwen3.7-Max vào ngày 19/5/2026 và chỉ trong vòng một tuần, nó xuất hiện ở vị trí thứ 4 trên Code Arena WebDev với điểm Elo 1.541, chỉ kém một điểm so với Claude Opus 4.6 Thinking và xếp trên mọi mô hình từ OpenAI và Google . Trên hạng mục lập trình React, nó vươn lên hạng 3 với 1.536 Elo, chỉ xếp sau hai phiên bản Claude Opus
. Một số nguồn tin cho rằng nó đã có thời điểm leo lên vị trí thứ 2 trên một số bảng xếp hạng phụ của Code Arena
.
Dòng Claude Opus 4.7/4.6 của Anthropic chiếm giữ ba vị trí dẫn đầu, điều đó có nghĩa Qwen là mô hình duy nhất không đến từ Anthropic – và là phòng lab duy nhất bên ngoài nước Mỹ – lọt vào top 5 lập trình . Mô hình này xếp trên GPT-5.5, Gemini 3.5 Flash và GLM-5.1 trong các tác vụ phát triển web dạng tác tử – những tác vụ chấm điểm dựa trên sở thích thực tế của con người đối với các quy trình lập trình nhiều bước
.
Vượt ra ngoài Code Arena, các mô hình Qwen cũng ghi nhận kết quả cạnh tranh trên các bài kiểm tra lập trình và suy luận khác:
Báo cáo Stanford 2026 AI Index công bố ảnh chụp nhanh về điểm Arena Elo tính đến tháng 3/2026 cho thấy các phòng lab hàng đầu đang bám sát nhau kinh ngạc :
| Phòng lab | Arena Elo |
|---|---|
| Anthropic | 1.503 |
| xAI | 1.495 |
| 1.494 | |
| OpenAI | 1.481 |
| Alibaba | 1.449 |
| DeepSeek | 1.424 |
Alibaba đứng thứ 5 chung cuộc, kém người dẫn đầu khoảng 50-55 điểm. Khoảng cách này đủ gần để các tác giả của báo cáo mô tả rằng áp lực cạnh tranh đã chuyển dịch sang chi phí, độ tin cậy và hiệu năng chuyên biệt theo lĩnh vực, thay vì chỉ là sức mạnh thô .
Những kết quả benchmark này rơi vào một năm mà khoảng cách hiệu năng giữa các mô hình AI Mỹ và Trung Quốc gần như đã bị xóa nhòa. Stanford 2026 AI Index chỉ ra khoảng cách đã thu hẹp từ 17,5–31,6 điểm phần trăm vào tháng 5/2023 xuống chỉ còn 2,7% tính đến tháng 3/2026. Hai quốc gia hiện 'liên tục hoán đổi vị trí dẫn đầu trên các bảng xếp hạng' – một sự thay đổi mạnh mẽ so với kỷ nguyên thống trị của Mỹ trước năm 2024 .
Điều này xảy ra bất chấp việc Mỹ chi tiêu cho đầu tư AI tư nhân nhiều gấp 23 lần Trung Quốc – 285,9 tỷ USD so với 12,4 tỷ USD trong giai đoạn gần nhất được theo dõi .
Các nhà phân tích chỉ ra một số động lực đằng sau sự bắt kịp này:
Tuy nhiên, cũng nên lưu ý rằng có những đánh giá khác cho thấy khoảng cách rộng hơn. Một phân tích năm 2026 của Viện Brookings lập luận rằng các mô hình tiên tiến của Mỹ vẫn dẫn trước Trung Quốc 'vài tháng hoặc hơn', và các phòng lab Mỹ giữ lợi thế về quy mô tính toán và các tác vụ tác tử dài hạn . Các bằng chứng điều trần tại Quốc hội Mỹ trong cùng thời kỳ cũng đưa ra quan điểm tương tự
.
Dù vậy, hệ quả thiết thực cho các doanh nghiệp và nhà phát triển là rất rõ ràng: cạnh tranh nhiều hơn, vòng lặp cải tiến nhanh hơn, giá thấp hơn và nhiều lựa chọn khả thi hơn từ cả các nhà cung cấp Mỹ lẫn Trung Quốc .
Comments
0 comments