JawabanDipublikasikan2 bulan yang laluLast edited bulan lalu14 sumber

ZAYA1‑8B‑Diffusion‑Preview: Cara Baru Mempercepat Generasi Teks AI Hingga 7,7×

Zyphra mengubah model ZAYA1‑8B berbasis autoregresif menjadi model difusi yang dapat menghasilkan blok 16 token sekaligus, dengan klaim percepatan decoding hingga 4,6× sampai 7,7× tergantung metode sampling. Pendekatan ini menggeser proses generasi teks dari urutan token satu‑per‑satu menjadi komputasi paralel, meng...

Cari dan periksa fakta dengan Studio Global AI Jelajahi lebih banyak halaman Trending

Conceptual illustration of a diffusion language model generating multiple tokens in parallel — What is Zyphra’s new ZAYA1-8B-Diffusion-Preview model, how does converting its autoregressive ZAYA1-8B into a Mixture-of-Experts diffusion lDiffusion-style language models can draft multiple tokens simultaneously instead of generating them sequentially.
AI Perintah
Create a landscape editorial hero image for this Studio Global article: What is Zyphra’s new ZAYA1-8B-Diffusion-Preview model, how does converting its autoregressive ZAYA1-8B into a Mixture-of-Experts diffusion l. Article summary: Zyphra’s ZAYA1-8B-Diffusion-Preview is an experimental diffusion-language version of its ZAYA1-8B MoE model, designed to decode blocks of text in parallel rather than strictly one token at a time. Zyphra claims it can ge. Topic tags: general, academic, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "# Zyphra Releases ZAYA1-8B: A Reasoning MoE Trained on AMD Hardware That Punches Far Above Its Weight Class. Zyphra AI has released ZAYA1-8B, a small Mixture of Experts (MoE) langu" source context "Zyphra Releases ZAYA1-8B: A Reasoning MoE Trained on AMD Hardware That Punches Far Above Its Weight Class
openai.com

Model eksperimental ZAYA1‑8B‑Diffusion‑Preview dari startup AI Zyphra menawarkan pendekatan baru untuk mempercepat cara model bahasa besar (LLM) menghasilkan teks. Alih‑alih membuat kata atau token satu per satu seperti LLM tradisional, model ini mampu membuat blok berisi 16 token sekaligus dalam satu langkah komputasi. Hasilnya, Zyphra melaporkan percepatan decoding hingga 4,6× dengan sampler “lossless” dan sampai 7,7× dengan teknik logit‑mixing dalam konfigurasi tertentu.

Menariknya, model ini tidak dilatih dari nol sebagai model difusi. Zyphra justru mengonversi model autoregresif yang sudah ada menjadi model difusi, membuka kemungkinan bahwa LLM konvensional dapat ditingkatkan kecepatannya tanpa harus membangun arsitektur baru dari awal.

Model dasar: ZAYA1‑8B

ZAYA1‑8B‑Diffusion‑Preview dibangun di atas model ZAYA1‑8B, sebuah model reasoning berbasis arsitektur mixture‑of‑experts (MoE). Model ini memiliki sedikit di atas 8 miliar parameter, tetapi hanya sekitar 760 juta parameter yang aktif saat inferensi, sehingga lebih hemat komputasi dibanding model dense dengan ukuran serupa.

Dalam arsitektur MoE, jaringan terdiri dari beberapa sub‑model kecil yang disebut "expert". Untuk setiap token, hanya sebagian expert yang diaktifkan. Pendekatan ini membantu menekan biaya komputasi tanpa mengorbankan performa secara signifikan.

Mengapa decoding LLM biasanya lambat

Sebagian besar LLM saat ini menggunakan metode autoregressive generation. Prosesnya sederhana tetapi tidak efisien untuk paralelisme:

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Cari dan periksa fakta dengan Studio Global AI

Orang-orang juga bertanya

Apa jawaban singkat untuk "ZAYA1‑8B‑Diffusion‑Preview: Cara Baru Mempercepat Generasi Teks AI Hingga 7,7×"?

Apa poin penting yang harus divalidasi terlebih dahulu?

Apa yang harus saya lakukan selanjutnya dalam latihan?

Jika terbukti stabil dalam penggunaan nyata, teknik ini berpotensi menurunkan biaya inferensi, mempercepat proses reinforcement learning, dan meningkatkan efisiensi model AI secara keseluruhan.

ZAYA1‑8B‑Diffusion‑Preview: Cara Baru Mempercepat Generasi Teks AI Hingga 7,7×

Model dasar: ZAYA1‑8B

Mengapa decoding LLM biasanya lambat

Search, cite, and publish your own answer

Orang-orang juga bertanya

Apa jawaban singkat untuk "ZAYA1‑8B‑Diffusion‑Preview: Cara Baru Mempercepat Generasi Teks AI Hingga 7,7×"?

Apa poin penting yang harus divalidasi terlebih dahulu?

Apa yang harus saya lakukan selanjutnya dalam latihan?

Sumber

Bagaimana model difusi menghasilkan 16 token sekaligus

Dua strategi sampling dan perbedaan kecepatannya

Mengapa penggunaan GPU AMD menarik perhatian

Peran Compressed Convolutional Attention (CCA)

Dampaknya terhadap biaya inferensi

Mengapa ini penting untuk reinforcement learning

Arah baru dalam efisiensi model AI