主要スペック一覧:
特筆すべきアーキテクチャ上の革新は、「IndexShare」メカニズムです。巨大な100万トークンのコンテキストウィンドウを経済的に実現するため、Z.aiは軽量なインデクサーを4つの疎なアテンション層ごとに再利用しています。技術解説によると、この工夫により完全な100万トークンのコンテキスト長において、トークンあたりの計算コストが約2.9分の1に削減され、長文コンテキストモデルにありがちな性能劣化を防いでいます 。
Z.aiはGLM-5.2を、GPT-5.5とClaude Opus 4.8に真っ向からぶつけています。以下の表のスコアはZ.aiによる自己申告であり、競合モデルの数値も同社の測定によるものです。これらは単一ベンダーによる計測であり、競合ラボによる独立した再現検証は行われていません 。
GLM-5.2は複数のコーディング・推論評価でGPT-5.5をリード。 SWE-bench Proでは、GLM-5.2が62.1を獲得し、GPT-5.5の58.6を上回りました 。自律的なエンジニアリング能力を測る20時間規模の高難度テスト「FrontierSWE」では、GLM-5.2が74.4、GPT-5.5が72.6と、ここでもリードしています
。数学では、AIME 2026において99.2というほぼ満点に近いスコアを叩き出し、米国のライバル2モデルをわずかに凌駕しました
。
エージェントによるコーディングで、Claude Opus 4.8との差が劇的に縮小。 Opus 4.8がSWE-bench Proのような複数のベンチマークで依然として明確なリードを保っている一方で(例:Opus 4.8の69.2に対し、GLM-5.2は62.1 )、長期的なエージェントタスクの結果差はごく僅かです。FrontierSWEでは、GLM-5.2はOpus 4.8にわずか0.7ポイント差(74.4 vs 75.1)の肉薄を見せています
。MCP-Atlasでも、その差は0.8ポイント(77.0 vs 77.8)に過ぎません
。
前世代のGLM-5.1からの世代間飛躍は計り知れない。 最も劇的な改善が見られたのはTerminal-Bench 2.1で、GLM-5.2の81.0というスコアは、前世代の62.0から19ポイントものジャンプアップを意味します 。これによりGLM-5.2は、このベンチマークで80%の壁を突破した初めてのオープンウェイトモデルとなりました
。
GLM-5.2が依然として後れを取っている領域にも注意が必要です。超長期のエンジニアリングタスク「SWE-Marathon」においては、Opus 4.8が26.0%でリードし、GLM-5.2は13.0%と、非常に長いエージェント実行における信頼性では、まだ米国の最前線モデルが優位にあることを示す大きな差が見られます 。
GLM-5.2の競争力は、性能と同じくらい、あるいはそれ以上に価格にあります。
zai-org/GLM-5.2 からダウンロード可能です。より手軽にローカル環境で動かせる、FP8量子化版も提供されています 寛容なMITライセンスと、特定のインフラに依存しないデプロイモデルの組み合わせにより、開発者はこのモデルをセルフホスティングしたり、CI/CDパイプラインに統合したり、ベンダーロックインを回避したりすることができます。これは、API経由でのみアクセス可能なクローズドな主要競合他社とは、全く対照的なアプローチです。
GLM-5.2のリリース時期は、技術的な意味合いと同じくらい、象徴的な意味合いを持っていました。それは、米国政府がAnthropicの「Claude Fable 5」に対する規制を強化したのと同じ週に発表されたのです。この規制強化の動きは、Amazon CEOとホワイトハウス高官との会話が影響したとも報じられています 。この対比は意図的で、なおかつ鮮明でした。米国が自国の主要ラボへの締め付けを強めるまさにその時、完全にオープンな中国発の最先端モデルが登場したのです。
Z.aiの創業者は、MITライセンスでのリリースに際し、「最先端の知能は全ての人のもの(Frontier Intelligence Belongs to Everyone)」というスローガンを掲げ、GLM-5.2を技術的なリリースであると同時に、激化する米中テクノロジー競争における一つの政治的声明として位置づけました 。
Comments
0 comments