核心规格速览:
一个关键的架构创新是其 “IndexShare(索引共享)” 机制。为了在支持百万级长上下文窗口的同时保证经济可行性,智谱的工程师在每四个稀疏注意力层中复用了同一个轻量级索引器。据技术解析,这个巧思在全长 1M 上下文下,将单个 token 的计算量减少了约 2.9 倍,有效规避了许多长上下文模型容易出现的尾部性能衰减问题 。
智谱直接将 GLM-5.2 的评测目标对准了 GPT-5.5 和 Claude Opus 4.8。下表中所列的分数均由智谱官方自行报告和提供,包括其引用的竞品数据,代表了单一厂商的测评结果,尚未经 OpenAI 或 Anthropic 等竞争实验室独立复现 。
GLM-5.2 在多项编程与推理评测中力压 GPT-5.5。 在 SWE-bench Pro 上,它以 62.1 对 58.6 的分数胜出 ;在耗时可达 20 小时的自主工程任务基准 FrontierSWE 上,它以 74.4 分力克 GPT-5.5 的 72.6 分
。在数学方面,它在 AIME 2026 中拿下了近乎完美的 99.2 分,力压其两大美国竞争对手
。
与 Claude Opus 4.8 在智能体编程上的差距急剧缩小。 诚然,Opus 4.8 在多项基准上依然保有清晰优势——尤其是在 SWE-bench Pro 上,69.2 对 62.1 的领先颇具分量 ——但在衡量长周期智能体表现的测试中,差距已极其微小。在 FrontierSWE 中,GLM-5.2 仅落后 0.7 个百分点 (74.4 vs 75.1)
;在 MCP-Atlas 上,差距也仅为 0.8 个百分点 (77.0 vs 77.8)
。可以说,这已是“贴身紧逼”之势。
相较上一代 GLM-5.1 的跨代飞跃极其巨大。 最引人瞩目的进步来自 Terminal-Bench 2.1,GLM-5.2 的 81.0 分相较上一代的 62.0 分,跃升了足足 19 个百分点 。这也使其成为首个在该基准上突破 80% 大关的开源权重模型
。
当然,我们应当客观看待 GLM-5.2 依然落后的领域。在那些最具挑战性的超长周期任务中,如 SWE-Marathon(超长周期工程),Opus 4.8 以 26.0% 对 13.0% 的通过率保持着显著优势,揭示出美国前沿模型在极长时间跨度的智能体任务中,依然具备更强的可靠性 。
GLM-5.2 的故事,价格与性能同等重要。
zai-org/GLM-5.2 路径下载,采用 MIT 协议,并提供了量化的 FP8 版本,便于本地部署 如此宽松的 MIT 许可,加上与底层设施松耦合的部署模式,使得开发者可以自由地将模型部署在自有环境、集成到 CI/CD 流水线中,完全规避了厂商锁定——这与其主要竞争对手那种纯闭源、仅提供 API 访问的模式,形成了天壤之别。
GLM-5.2 的发布时机,颇具象征意义。它亮相的同一周,恰逢美国政府升级了对 Anthropic 旗下 Claude Fable 5 的管制措施,据报此举的背后推手与亚马逊 CEO 同白宫官员的会谈有关 。这种对比是刻意且尖锐的:一个完全开放的、达到前沿水准的中国模型,在美国刚刚对一家顶尖美国 AI 实验室收紧管制之时,横空出世。
智谱创始人用一句响亮的口号直接诠释了此次 MIT 开源行为的双重意图:“前沿智能,属于人人”(Frontier Intelligence Belongs to Everyone)” 。GLM-5.2 的诞生,既是一个技术发布,也是愈演愈烈的中美科技角力中的一个清晰的政治注脚。
Comments
0 comments