此外,今年3月發布的Qwen3.5-Omni-Plus 則在215項音訊與影音理解子任務中取得「業界最優」成績,在通用音訊理解、推理與翻譯等項目上超越Google的Gemini 3.1 Pro,僅在影音整合理解上與Gemini打成平手。一份審慎的技術評論點出,音訊領域的勝出的確貨真價實——在Fleurs ASR基準測試中,Qwen的單字錯誤率為6.55%,優於Gemini的7.32%——但在評量AI代理人能力的OmniGAIA基準上,則仍落後Gemini約12個百分點
。
阿里巴巴在5月19日釋出Qwen3.7-Max,不到一週內便登上Code Arena的WebDev網頁開發排行榜第四名,Elo積分1,541,僅落後Anthropic的Claude Opus 4.6 Thinking一分,並超越OpenAI與Google的所有模型。在React程式碼賽道上,它更爬升至第三名,積分1,536,前方只剩兩款Claude Opus變體
。部分消息來源甚至指出,它在Code Arena的某些子榜單上曾短暫衝上第二名
。
Anthropic的Claude Opus 4.7/4.6系列包辦了WebDev前三名,這意味著阿里巴巴是除了Anthropic之外,唯一打進程式碼前五名的開發者——也是唯一的非美國實驗室。在評測模型處理多步驟、需使用工具的「代理人型」網頁開發任務時,Qwen3.7-Max的排名壓過了GPT-5.5、Gemini 3.5 Flash,以及中國對手智譜的GLM-5.1
。
在Code Arena之外,Qwen系列模型也在其他程式碼與推理基準上繳出競爭力十足的成績:
| 實驗室 | 競技場Elo |
|---|---|
| Anthropic | 1,503 |
| xAI | 1,495 |
| 1,494 | |
| OpenAI | 1,481 |
| 阿里巴巴 | 1,449 |
| DeepSeek | 1,424 |
這些跑分成績出爐的這一年,美國與中國最佳AI模型的效能差距幾乎已經消失。史丹佛2026 AI指數發現,這個差距從2023年5月的17.5至31.6個百分點,戲劇性縮小至2026年3月的僅2.7%。兩國如今在跑分榜上「不斷互換領先位置」,徹底顛覆了直到2024年仍由美國主宰的AI競賽格局。
分析師們歸納出幾股促成追趕的驅動力:
Comments
0 comments