更值得关注的是其全面性。在构成语音交互的三大核心赛道——
——该模型均斩获国内第一,实现了语音交互领域的“大满贯” 。在此之前,其同门模型 Fun-Realtime-ASR 和 Fun-Realtime-AudioChat 也已在同一平台登顶,展现出强大的家族实力
。此外,在 VoiceBench Avg 排行榜上,阿里更早的 Qwen2.5-Omni-7B 也占据榜首
。
今年 3 月发布的 Qwen3.5-Omni-Plus 也值得一提。它在 215 项音频与音视频理解子任务上取得当时最优结果,在通用音频理解、推理和翻译任务上超越了谷歌的 Gemini 3.1 Pro 。不过,一份技术测评也冷静指出,虽然音频单项确实领先(例如 Fleurs ASR 词错率 6.55%,优于 Gemini 的 7.32%),但在综合性要求更高的 OmniGAIA 智能体基准测试中,仍落后 Gemini 约 12 个百分点
。
5 月 19 日发布的 Qwen3.7-Max,在一周内便登上了 Code Arena 的 WebDev(网页开发)排行榜第四名,Elo 评分达到 1541 分,超越了 OpenAI 和谷歌的所有模型,仅落后于 Anthropic 的 Claude Opus 4.6 思考版一分 。在 React 编程赛道,它更是升至第三名
。
在 Code Arena 榜单上,前五名中有四席被 Anthropic 的 Claude Opus 系列占据。这使得阿里巴巴成为除 Anthropic 之外,唯一一家闯入编程领域前五的开发商,也是唯一做到这一点的非美国实验室 。在考验多步骤、工具调用能力的真实世界编程任务中,Qwen3.7-Max 已经能与美国最顶尖的模型并驾齐驱
。
在其他编程与推理榜单上,Qwen 系列同样可圈可点:
这些跑分成绩,是中美 AI 竞争进入新阶段的一个缩影。斯坦福 2026 年 AI 指数报告显示,截至 2026 年 3 月,美国在 AI 领域的私人投资额是中国的 23 倍(2859 亿美元 vs 124 亿美元),但这种巨额的资本优势并未转化为等比例的模型性能优势。两国最佳模型的差距已被压缩至 2.7%,在多个榜单上交替领先 。
分析人士将中国 AI 的快速追赶归结为几个驱动力:
但对于使用这些技术的企业和开发者而言,一个不争的事实是:更多的竞争,意味着更快的技术迭代、更低的使用成本和更丰富的选择。过去只能在几家美国公司中挑选顶级模型的时代已经过去,中国模型已成为商业和研发应用中值得严肃对待的可行选项 。
Comments
0 comments