ZAYA1‑8B‑Diffusion‑Previewでは、このデコード方法を拡散モデルに近い形へ変えています。
基本的な流れは次のようになります。
同じ接頭文とKVキャッシュを共有した状態で複数トークンを処理できるため、1回のフォワードパスで並列計算が可能になります。
この結果、処理の性質が
から
Zyphraは、異なるトレードオフを持つ2つのサンプリング方法を紹介しています。
これらの結果は主にZyphra自身の報告に基づいているため、実際の運用環境での独立ベンチマークが今後重要になります。
このプロジェクトでもう一つ注目されているのが、AMDのGPUでトレーニングされた拡散言語モデルだという点です。
現在のAIトレーニングはNVIDIAのGPUが事実上の標準になっていますが、Zyphraは
もし同様の成果が再現できれば、AIインフラにおけるハードウェア競争が広がる可能性があります。
ZAYA1‑8Bでは Compressed Convolutional Attention(CCA) という独自の注意機構も導入されています。
拡散デコーディングでは複数トークンをまとめて処理するため、処理の性質は「prefill(長い文脈を一度に処理する段階)」に近くなります。
もし報告された高速化が実運用でも成立すれば、AIサービスのコスト構造にも影響します。
生成速度が上がると
といったメリットが期待できます。
もう一つの重要なポイントは、強化学習(RL)トレーニングのコストです。
最近の推論モデルでは、オンポリシーのロールアウトとして大量の回答サンプルを生成します。
生成速度が速くなると
といった研究上のメリットが生まれます。
実際、多くの研究チームにとって推論生成そのものがトレーニングコストの大部分を占めています。
ZAYA1‑8B‑Diffusion‑Previewは、AI開発の方向性が変わりつつあることも示しています。
最近は単にモデルを巨大化するだけでなく、
といった技術を組み合わせて、「1ドルあたりの知能(intelligence per dollar)」を高める研究が増えています。
Comments
0 comments