主要規格一眼睇晒:
一個關鍵嘅架構創新係「IndexShare」機制。為咗令個 100 萬 token 上下文窗口喺經濟上可行,Z.ai 喺每四層稀疏注意力層入面重用一個輕量級索引器。根據技術分析,呢招喺 100 萬 token 上下文長度下,可以將每個 token 嘅運算量大約降低 2.9 倍,防止咗成日困擾長上下文模型嘅性能衰減問題 。
Z.ai 直接將 GLM-5.2 同 GPT-5.5 以及 Claude Opus 4.8 擺埋一齊比較。下面個表係 Z.ai 自己報告嘅分數,包括佢哋引用競爭對手嘅數據。呢啲數據代表單一供應商嘅測量結果,仲未被競爭對手嘅實驗室獨立重現 。
GLM-5.2 喺多項編程同推理評估都領先 GPT-5.5。 喺 SWE-bench Pro 上面,佢攞到 62.1 分,對比 GPT-5.5 嘅 58.6 分 。喺要求更高嘅 FrontierSWE(一個為期 20 個鐘嘅自主工程基準測試)上面,佢以 74.4 分對 GPT-5.5 嘅 72.6 分
。數學方面,佢喺 AIME 2026 攞到接近滿分嘅 99.2 分,稍微領先兩個美國競爭對手
。
同 Claude Opus 4.8 喺代理編程方面嘅差距已經大幅收窄。 雖然 Opus 4.8 喺幾個基準測試仍然有明顯優勢——特別係 SWE-bench Pro 以 69.2 分領先 GLM-5.2 嘅 62.1 分 ——但喺長周期代理任務嘅結果就接近好多。喺 FrontierSWE 上面,GLM-5.2 只係落後 Opus 4.8 0.7 分 (74.4 對 75.1)
。喺 MCP-Atlas 上面,都只係差 0.8 分 (77.0 對 77.8)
。
對比上一代 GLM-5.1,進步幅度極大。 最戲劇性嘅進步係喺 Terminal-Bench 2.1,GLM-5.2 攞到 81.0 分,比上一代嘅 62.0 分跳升咗 19 分 。呢個令 GLM-5.2 成為第一個喺呢個基準測試突破 80% 大關嘅開源權重模型
。
都要留意返 GLM-5.2 仍然落後嘅地方。喺最難、周期最長嘅任務,例如 SWE-Marathon(超長周期工程),Opus 4.8 以 26.0% 領先 GLM-5.2 嘅 13.0%——呢個差距幾大,表明美國嘅前沿模型喺非常長嘅代理運行可靠性方面仍然有優勢 。
GLM-5.2 嘅競爭力故事,價錢同行能一樣咁重要。
zai-org/GLM-5.2 呢度可以用 MIT 授權下載,仲有一個量化版嘅 FP8 版本,等你喺本地部署起嚟更加順手 呢種寬鬆嘅 MIT 授權同基礎設施無關嘅部署模型組合,等開發者可以自己託管個模型,將佢集成到 CI/CD 流程入面,仲可以避免俾供應商鎖定——同佢主要競爭對手嗰種封閉、只能用 API 訪問嘅模式形成咗強烈對比。
GLM-5.2 發布嘅時機,既係技術上嘅,亦都係象徵性嘅。佢撞正美國政府升級咗對 Anthropic Claude Fable 5 限制嘅同一星期,據報呢個舉動受到亞馬遜 CEO 同白宮官員對話嘅影響 。呢種對比係有意為之,而且好強烈:一個完全開放嘅中國前沿模型,喺美國啱啱收緊對佢領先實驗室控制嘅時候出現。
Comments
0 comments