答え公開済み2 か月前Last edited 先月14 ソース

ZyphraのZAYA1‑8B‑Diffusion‑Previewとは：16トークン同時生成でAI推論を加速する拡散LLM

ZyphraのZAYA1‑8B‑Diffusion‑Previewは、自己回帰型LLMを拡散モデルへ変換し、16トークンを並列生成することで推論を高速化する実験モデル。従来のトークン逐次生成からブロック並列生成へ切り替えることで、メモリ帯域のボトルネックを減らしGPU計算効率を高める。

Studio Global AIで検索して事実確認さらにトレンドページを見る

Conceptual illustration of a diffusion language model generating multiple tokens in parallel — What is Zyphra’s new ZAYA1-8B-Diffusion-Preview model, how does converting its autoregressive ZAYA1-8B into a Mixture-of-Experts diffusion lDiffusion-style language models can draft multiple tokens simultaneously instead of generating them sequentially.
AI プロンプト
Create a landscape editorial hero image for this Studio Global article: What is Zyphra’s new ZAYA1-8B-Diffusion-Preview model, how does converting its autoregressive ZAYA1-8B into a Mixture-of-Experts diffusion l. Article summary: Zyphra’s ZAYA1-8B-Diffusion-Preview is an experimental diffusion-language version of its ZAYA1-8B MoE model, designed to decode blocks of text in parallel rather than strictly one token at a time. Zyphra claims it can ge. Topic tags: general, academic, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "# Zyphra Releases ZAYA1-8B: A Reasoning MoE Trained on AMD Hardware That Punches Far Above Its Weight Class. Zyphra AI has released ZAYA1-8B, a small Mixture of Experts (MoE) langu" source context "Zyphra Releases ZAYA1-8B: A Reasoning MoE Trained on AMD Hardware That Punches Far Above Its Weight Class
openai.com

拡散モデルで言語生成を高速化

AIスタートアップのZyphraが公開した ZAYA1‑8B‑Diffusion‑Preview は、既存の大規模言語モデル（LLM）の生成方法を大きく変える実験的モデルです。最大の特徴は、従来のようにテキストを1トークンずつ生成するのではなく、16トークンを同時に生成する拡散型のデコーディング方式を採用している点です。

Zyphraによると、この方式により推論のデコード速度は

「lossless sampler」使用時：約4.6倍高速
「logit‑mixing sampler」使用時：最大7.7倍高速

になる可能性があると報告されています。設定によっては品質への影響を抑えたまま高速化できるとされています。

さらに注目されているのは、このモデルがゼロから拡散モデルとして学習されたわけではなく、既存の自己回帰型モデルを変換して作られている点です。つまり、従来のLLMを拡散型に適応させる新しい道筋を示した例でもあります。

ベースとなるモデル「ZAYA1‑8B」

ZAYA1‑8B‑Diffusion‑Previewの基盤は、Zyphraが公開した ZAYA1‑8B という推論特化型の言語モデルです。

このモデルは Mixture‑of‑Experts（MoE） アーキテクチャを採用しており、

総パラメータ：約80億
推論時に実際に使われるパラメータ：約7.6億

という構成になっています。

MoEでは複数の専門サブネットワーク（エキスパート）のうち必要なものだけを使うため、同規模の密なモデルよりも計算コストを抑えつつ性能を維持できるのが特徴です。

なぜ従来のLLMは遅いのか

現在主流のLLMは 自己回帰（autoregressive）生成 を採用しています。

仕組みはシンプルで、

次のトークンを予測
そのトークンをKVキャッシュに追加
それを前提に次のトークンを生成

という処理を繰り返します。

しかしこの方式には大きな制約があります。各トークンが前のトークンに依存するため、処理が完全に逐次的になることです。

その結果、推論ではKVキャッシュへのアクセスが繰り返され、メモリ帯域がボトルネックになるケースが多くなります。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AIで検索して事実確認

人々も尋ねます