另外,2026年3月發布嘅Qwen3.5-Omni-Plus,聲稱喺音頻同音視頻理解任務創下215項最先進成果。喺獨立音頻基準測試入面,佢喺通用音頻理解、推理同翻譯方面都跑贏咗Google嘅Gemini 3.1 Pro,不過喺全面音視頻理解就只係打個平手 。一份審慎嘅技術評論指出,音頻方面嘅勝利係實至名歸——Fleurs ASR基準測試嘅詞錯率得6.55%,對比Gemini嘅7.32%——但喺OmniGAIA智能體基準測試就落後Gemini大約12個百分點
。
阿里巴巴喺2026年5月19號推出Qwen3.7-Max,唔夠一個禮拜就喺Code Arena嘅WebDev排行榜以 1,541 Elo登上 第四位,僅以一分落後Claude Opus 4.6 Thinking,仲爬過晒OpenAI同Google嘅所有模型 。喺React編程賽道,佢更加升到 第三位,攞到1,536 Elo,僅僅畀兩個Claude Opus版本領先
。有啲消息仲話佢曾經短暫升到Code Arena某啲子排行榜嘅第二位
。
Anthropic嘅Claude Opus 4.7/4.6系列霸住WebDev頭三甲,意味住阿里巴巴係Anthropic以外唯一——亦係美國以外唯一——打入編程前五嘅開發者 。Qwen3.7-Max喺評分多步驟編程工作流程真人偏好嘅智能體網頁開發任務入面,排喺GPT-5.5、Gemini 3.5 Flash同GLM-5.1前面
。
除咗Code Arena,Qwen模型喺其他編程同推理基準測試都攞到唔錯嘅成績:
| 實驗室 | Arena Elo |
|---|---|
| Anthropic | 1,503 |
| xAI | 1,495 |
| 1,494 | |
| OpenAI | 1,481 |
| 阿里巴巴 | 1,449 |
| DeepSeek | 1,424 |
呢啲基準測試成績出爐嗰年,最強美國同中國AI模型嘅性能差距幾乎消失晒。史丹福2026 AI指數發現,差距由2023年5月嘅17.5至31.6個百分點,跌到2026年3月得返 2.7%。兩國而家「喺基準測試排行榜頂端反覆交換位置」——同2024年前美國獨大嘅局面好大分別 。
分析師指出幾個推動追趕嘅力量:
值得留意嘅係,有其他評估睇到比較大嘅差距。布魯金斯學會一份2026年分析認為,美國前沿模型仍然領先中國模型「幾個月甚至更長時間」,而且美國實驗室喺計算規模同長周期智能體任務方面仲保持優勢 。同期國會證詞都有類似觀點
。
Comments
0 comments