答案已發布2 個月前Last edited 上個月14 來源

Zyphra ZAYA1‑8B‑Diffusion‑Preview點樣做到一次出16個Token

Zyphra將原本嘅ZAYA1‑8B自回歸MoE模型轉成擴散語言模型，每一步可同時生成16個token，理論推理速度可提升4.6×至7.7×。[8] 新方法把逐token順序生成改為區塊並行生成，減少KV cache記憶體頻寬瓶頸，令GPU計算資源用得更滿。[3][8] 如果實際部署效果接近理論數據，可能降低AI推理成本，亦能加快依賴大量生成樣本嘅強化學習訓練流程。[8]

使用 Studio Global AI 搜尋並查核事實瀏覽更多熱門頁面

Conceptual illustration of a diffusion language model generating multiple tokens in parallel — What is Zyphra’s new ZAYA1-8B-Diffusion-Preview model, how does converting its autoregressive ZAYA1-8B into a Mixture-of-Experts diffusion lDiffusion-style language models can draft multiple tokens simultaneously instead of generating them sequentially.
AI 提示
Create a landscape editorial hero image for this Studio Global article: What is Zyphra’s new ZAYA1-8B-Diffusion-Preview model, how does converting its autoregressive ZAYA1-8B into a Mixture-of-Experts diffusion l. Article summary: Zyphra’s ZAYA1-8B-Diffusion-Preview is an experimental diffusion-language version of its ZAYA1-8B MoE model, designed to decode blocks of text in parallel rather than strictly one token at a time. Zyphra claims it can ge. Topic tags: general, academic, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "# Zyphra Releases ZAYA1-8B: A Reasoning MoE Trained on AMD Hardware That Punches Far Above Its Weight Class. Zyphra AI has released ZAYA1-8B, a small Mixture of Experts (MoE) langu" source context "Zyphra Releases ZAYA1-8B: A Reasoning MoE Trained on AMD Hardware That Punches Far Above Its Weight Class
openai.com

一種唔同嘅LLM生成方式：Diffusion解碼

Zyphra推出嘅 ZAYA1‑8B‑Diffusion‑Preview，係一個實驗性版本語言模型。佢最大嘅變化係：唔再用傳統 autoregressive（自回歸）逐token生成，而係改用 diffusion（擴散式）生成方法。

傳統LLM通常一次只生成 1個token，但Zyphra呢個版本可以 每一步同時生成16個token。根據官方技術報告，理論上解碼速度可以提升：

約4.6×（lossless sampler）
最高約7.7×（logit‑mixing sampler）

而且在某些配置下質量下降非常有限。

另一個重要點係：呢個模型 並唔係由零開始訓練嘅diffusion模型，而係將原本嘅自回歸模型 checkpoint 轉換成擴散式解碼架構。呢個做法意味住未來可能可以將現有LLM直接升級到新解碼方式。

基礎模型：ZAYA1‑8B

Diffusion Preview建立喺 ZAYA1‑8B 基礎上。呢個模型本身係 Mixture‑of‑Experts（MoE）架構。

整體規模：

約 80億參數
但推理時只會啟動約 7.6億參數

MoE嘅原理係：每次生成token時，只會調用一部分「專門化神經網絡（experts）」。

好處係：

推理計算量更低
同樣硬件可以跑更大模型

因此ZAYA1‑8B主打嘅定位係 高效率推理模型。

點解傳統LLM生成會慢

現時大部分LLM都係 autoregressive generation（自回歸生成）。

流程基本上係：

生成下一個token
更新KV cache
再生成下一個token

因為每一步都要依賴之前嘅結果，所以整個過程 必須順序進行。

呢種方式帶來一個問題：

GPU其實計算力好高
但生成時好多時間卡喺 記憶體頻寬（memory bandwidth） 上

因為每一步都要讀寫KV cache。

Diffusion模型點樣一次生成16個Token

Zyphra嘅方法係 區塊式生成（block generation）。

唔係逐個token預測，而係：

每一步 提出一整段token草稿
目前設定係 16個token一組。

大致流程係：

模型同時生成多個token候選
sampler判斷哪些token可以接受
接受嘅token加入輸出
再處理下一個區塊

因為同一個區塊共享 同一個prefix同KV cache，所以可以喺 一次forward pass內並行計算多個token。

結果係：

減少頻繁讀取記憶體
把工作轉成 GPU擅長嘅並行計算

呢個就係速度提升嘅核心原因。

兩種Sampler：速度與質量嘅取捨

Zyphra提供兩種解碼策略。

Lossless sampler

類似 speculative decoding
速度提升 約4.6×
設計目標係避免評測性能下降

即係話：比較穩定，但冇咁快。

Logit‑mixing sampler

混合 diffusion 同 autoregressive logits
提高token接受率

官方表示最高可達 7.7×加速，但可能會有一定質量下降。

而且目前數據主要來自 Zyphra 自家測試，實際部署環境仍需要第三方驗證。

AMD訓練堆疊點解值得留意

另一個少見嘅地方係 硬件平台。

Zyphra表示：

呢個模型係 第一個喺AMD GPU訓練嘅diffusion語言模型。

目前大部分大型AI模型都係：

NVIDIA CUDA
H100 / A100 GPU

如果AMD生態可以支持呢類模型訓練與實驗，可能會帶來：

AI硬件市場更多競爭
模型開發不再完全依賴NVIDIA

但呢方面仍然需要更多團隊驗證。

Compressed Convolutional Attention（CCA）

ZAYA1‑8B仲加入咗一個機制：

Compressed Convolutional Attention（CCA）。

目的係降低 attention 計算成本。

呢點對 diffusion 解碼尤其重要，因為：

一次生成多個token
類似大型 prefill階段

如果attention計算成本低，模型就可以 更有效率地並行處理token區塊。

簡單講：

diffusion負責並行生成
CCA負責降低並行運算成本

兩者配合先能實現速度提升。

對AI推理成本可能有咩影響

如果呢種方法喺實際部署都成立，潛在影響包括：

每張GPU每秒生成更多token
降低 每token推理成本
長回覆延遲更低

不過Zyphra亦提到，目前 diffusion語言模型嘅推理堆疊仍未完全優化，所以真實效果可能同理論數據有差距。

對強化學習訓練（RL Rollouts）嘅意義

很多推理型AI模型依賴 reinforcement learning rollouts。

即係：

同一個prompt生成大量候選答案
再用評分或獎勵信號訓練模型

生成速度直接影響：

訓練成本
可探索嘅解題路徑數量

如果生成速度大幅提升，理論上可以：

降低RL訓練成本
允許更多測試時間計算（test‑time compute）
探索更多推理策略

所以推理速度其實係 RL訓練最大成本之一。

AI效率競賽嘅另一條路

ZAYA1‑8B‑Diffusion‑Preview其實反映一個新趨勢：

AI研究唔再只追求更大模型，而係追求 「每美元智能密度」（intelligence per dollar）。

Zyphra呢個案例結合咗幾個效率策略：

MoE模型架構
diffusion解碼
新型attention機制
AMD訓練基礎設施

如果呢類方法證明可行，未來LLM競爭可能唔只係 誰的模型最大，而係 誰的推理效率最高。

而ZAYA1‑8B‑Diffusion‑Preview目前可以視為一個早期實驗：展示將自回歸LLM轉成diffusion解碼，可能係提升AI生成速度嘅一條新路。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查核事實

人們還問