呢類流程通常被稱為 agent loop:
對大型語言模型嚟講,要喺幾十個鐘嘅任務中保持邏輯一致其實非常困難,因為好多模型會逐漸忘記目標或者陷入無限循環。所以呢個示範被視為 AI Agent 能力嘅一個重要指標。不過目前仍然主要來自官方示範,仍需要更多獨立測試驗證。
喺眾包評測平台 LM Arena 上,Qwen3.7‑Max‑Preview:
細分能力排名包括:
Qwen3.7‑Max 特別針對 AI 編程代理(coding agents)。
報導同測試顯示佢喺以下任務表現突出:
呢種模式同傳統「打一個 prompt → 得到答案」完全唔同,而係 持續運作嘅 AI 工程代理。
Qwen 系列模型近年亦強調 長上下文(long context) 能力。
部分 Qwen 模型已經支援 數十萬到接近 100 萬 token 的上下文視窗,可以一次處理:
阿里巴巴將 Qwen3.7‑Max 定位為 企業 AI Agent 的基礎模型。
常見應用包括:
喺呢啲情境中,AI 不只生成文字,而係 規劃任務 → 調用工具 → 執行多步驟行動 去完成目標。
不過放眼全球,形勢更加微妙。
這反映 AI 競賽已經變成多維度競爭:
Qwen3.7‑Max 最重要嘅意義,其實唔係排行榜分數。
而係佢代表一個清晰趨勢——AI 正逐漸變成 自主代理(autonomous agents)。
未來嘅 AI 模型會更加強調:
從呢個角度睇,Qwen3.7‑Max 可以說係目前最典型嘅 Agent 時代 AI 模型之一:唔只係回答問題,而係開始真正幫人做工作。
Comments
0 comments