答案已發布2 個月前Last edited 上個月23 來源

Qwen3.7‑Max：阿里巴巴為自主 AI Agent 打造的新一代模型

Qwen3.7‑Max 係阿里巴巴為 AI Agent 時代打造嘅旗艦模型，可自動拆解任務、寫程式、調用工具並執行長時間工作流程。[1][12] 官方示範顯示模型曾經自主運行約 35 小時完成內核優化，期間進行超過 1,000 次工具調用。[4][12] 早期基準測試顯示其 Artificial Analysis Intelligence Index 約為 57，LM Arena 文本能力排名約全球第 13，同時係當時排名最高嘅中國模型之一。[6][18][39]

使用 Studio Global AI 搜尋並查核事實瀏覽更多熱門頁面

Concept illustration of Alibaba’s Qwen3.7‑Max AI model executing autonomous agent tasks — What is Alibaba’s new Qwen3.7‑Max AI model, and what are its key capabilities, benchmarks, and real‑world applications—including its agenticQwen3.7‑Max is designed as a foundation model for AI agents capable of performing long‑running, multi‑step tasks.
AI 提示
Create a landscape editorial hero image for this Studio Global article: What is Alibaba’s new Qwen3.7‑Max AI model, and what are its key capabilities, benchmarks, and real‑world applications—including its agentic. Article summary: Alibaba’s Qwen3.7-Max is a new flagship Qwen large language model positioned less as a chatbot and more as an “agent-era” model: it is built for coding, tool use, reasoning, office automation, and long-running autonomous. Topic tags: general, news, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "# Alibaba launches Qwen3-Max, its largest and most capable AI model to date. **Alibaba has released Qwen3-Max, the biggest and most capable AI model in its lineup. The new model is" source context "Alibaba launches Qwen3-Max, its largest and most capable AI ..." Reference image 2: visual subject "# Alibaba
openai.com

人工智能模型正逐漸由「回答問題」轉型為「幫人完成工作」。阿里巴巴最新發布嘅旗艦模型 Qwen3.7‑Max，正正就係為呢個方向而設計。

2026 年喺阿里雲峰會（Alibaba Cloud Summit）亮相之後，Qwen3.7‑Max 被定位為 AI Agent 的基礎模型——可以規劃任務、寫同除錯程式、調用外部工具，以及長時間執行多步驟流程。換句話講，佢唔再只係一個聊天機械人，而係一個可以 自己完成實際工作 嘅 AI 系統。

乜嘢係 Qwen3.7‑Max？

Qwen3.7‑Max 係阿里巴巴 Qwen（通義千問）大型語言模型系列最新旗艦版本，專門針對 agentic 工作負載（AI Agent 任務） 設計。呢類場景要求 AI 可以自己拆解問題、用工具同執行多個步驟。

官方強調幾個核心能力：

多步驟推理與問題拆解
軟件工程任務，例如寫程式同 debug
與外部工具或 API 整合
可以執行數百甚至數千步驟嘅長流程任務

呢個方向其實反映整個 AI 行業嘅趨勢：模型唔再只係生成內容，而係 直接幫用戶完成任務。

可以連續運行幾十個鐘嘅 AI

Qwen3.7‑Max 最引人注目嘅展示之一，就係 長時間自主運行能力。

根據阿里巴巴內部測試同媒體報導，模型曾經完成一個 長達約 35 小時嘅內核優化任務。喺整個過程中，AI 進行超過 1,000 次工具調用，包括：

寫程式
編譯與測試
分析測試結果
再修改程式並重試

整個流程完全自動進行。

呢類流程通常被稱為 agent loop：

理解任務目標
拆解成多個子任務
產生程式或操作
調用工具或測試
評估結果再迭代

對大型語言模型嚟講，要喺幾十個鐘嘅任務中保持邏輯一致其實非常困難，因為好多模型會逐漸忘記目標或者陷入無限循環。所以呢個示範被視為 AI Agent 能力嘅一個重要指標。不過目前仍然主要來自官方示範，仍需要更多獨立測試驗證。

基準測試：全球前列，但未必第一

Artificial Analysis Intelligence Index

喺 Artificial Analysis 的 Intelligence Index 綜合評測中，Qwen3.7‑Max 得分大約 57 分，屬於全球頂級模型梯隊。

同一排行榜中，一些美國 AI 實驗室模型（例如 GPT 系列或 Claude）仍然略高，但差距已經相對接近。

LM Arena 排名

喺眾包評測平台 LM Arena 上，Qwen3.7‑Max‑Preview：

Elo 評分約 1,475
文本能力 全球第 13 位

細分能力排名包括：

數學推理：約 第 7 位
專家問題／專業提示：約 第 9 位
編程能力：約 第 10 位

同時，呢個版本亦被認為係 當時 Arena 排名最高嘅中國 AI 模型。

強調「寫程式」同 AI Agent 工作流程

Qwen3.7‑Max 特別針對 AI 編程代理（coding agents）。

報導同測試顯示佢喺以下任務表現突出：

多檔案軟件開發
程式 debug 同優化
GPU 或 kernel 層級優化
自動化測試循環

模型可以與編譯器、開發環境、API 等工具互動，並反覆修改程式直到達到目標。

呢種模式同傳統「打一個 prompt → 得到答案」完全唔同，而係 持續運作嘅 AI 工程代理。

長上下文能力

Qwen 系列模型近年亦強調 長上下文（long context） 能力。

部分 Qwen 模型已經支援 數十萬到接近 100 萬 token 的上下文視窗，可以一次處理：

大型程式碼庫
長文件
大量數據

不過，目前公開資料未完全確認 Qwen3.7‑Max 的最終最大上下文限制，因此常見嘅「100 萬 token」說法仍需以官方文件為準。

實際應用場景

阿里巴巴將 Qwen3.7‑Max 定位為 企業 AI Agent 的基礎模型。

常見應用包括：

軟件開發

自動寫程式
Debug 同重構
分析大型 codebase
GPU／kernel 優化

辦公自動化

文件整理與摘要
生產力工具流程自動化
複雜辦公流程管理

企業運營

數據分析
客戶服務
業務流程自動化

喺呢啲情境中，AI 不只生成文字，而係 規劃任務 → 調用工具 → 執行多步驟行動 去完成目標。

中美 AI 競爭格局

喺中國 AI 生態中，Qwen3.7‑Max 被視為當前最強模型之一，並喺多個測試中超越其他中國模型，例如 Kimi、DeepSeek 或 GLM 系列。

不過放眼全球，形勢更加微妙。

雖然 Qwen3.7‑Max 已經進入全球第一梯隊，但部分綜合基準測試顯示，美國頂級模型（例如 GPT、Claude、Gemini）仍然保持領先。

這反映 AI 競賽已經變成多維度競爭：

推理能力
編程能力
成本效率
Agent 工作能力

一個更重要嘅趨勢：AI 從聊天走向「做事」

Qwen3.7‑Max 最重要嘅意義，其實唔係排行榜分數。

而係佢代表一個清晰趨勢——AI 正逐漸變成 自主代理（autonomous agents）。

未來嘅 AI 模型會更加強調：

規劃多步驟任務
使用軟件工具
長時間持續運作
反覆改進直到完成目標

從呢個角度睇，Qwen3.7‑Max 可以說係目前最典型嘅 Agent 時代 AI 模型之一：唔只係回答問題，而係開始真正幫人做工作。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查核事實

人們還問