Karena setiap token bergantung pada token sebelumnya, proses ini harus berjalan secara berurutan. Hal ini sering menyebabkan bottleneck bandwidth memori ketika model terus‑menerus mengakses KV cache selama generasi teks.
Pendekatan difusi mengubah mekanisme decoding tersebut.
Alih‑alih memprediksi satu token per langkah, model mengusulkan blok kandidat token secara paralel. Dalam versi preview ini, satu langkah difusi menghasilkan 16 token sekaligus.
Alur kerjanya kira‑kira seperti ini:
Karena token dalam satu blok berbagi awalan (prefix) dan keadaan KV cache yang sama, komputasi bisa dilakukan secara paralel dalam satu forward pass GPU. Ini menggeser pekerjaan dari proses yang terikat bandwidth memori menjadi komputasi paralel yang lebih cocok untuk GPU modern.
Performa model bergantung pada metode sampling yang digunakan saat decoding.
Lossless sampler
Logit‑mixing sampler
Perlu dicatat bahwa angka tersebut sebagian besar berasal dari laporan internal Zyphra, sehingga benchmark independen masih diperlukan untuk memverifikasi performanya di berbagai skenario penggunaan.
Proyek ini juga menonjol karena menggunakan infrastruktur GPU AMD untuk pelatihannya—sesuatu yang relatif jarang dalam ekosistem AI modern yang didominasi Nvidia.
Zyphra menyebut model ini sebagai model bahasa difusi pertama yang dilatih di GPU AMD, menunjukkan bahwa pelatihan dan eksperimen LLM skala besar tidak harus bergantung pada satu vendor hardware saja.
Jika pendekatan ini terbukti efektif dan dapat direplikasi, persaingan di pasar hardware AI bisa menjadi lebih terbuka.
ZAYA1‑8B juga menggunakan mekanisme yang disebut Compressed Convolutional Attention (CCA). Tujuannya adalah menurunkan biaya komputasi pada tahap perhatian (attention), terutama saat operasi paralel besar.
Hal ini penting untuk decoding difusi karena proses menghasilkan banyak token sekaligus mirip dengan fase prefill pada inferensi—fase yang biasanya sangat bergantung pada efisiensi mekanisme attention.
Dengan menekan biaya attention, CCA membantu membuat generasi multi‑token secara paralel menjadi lebih praktis dalam skala besar.
Jika percepatan decoding ini terbukti konsisten di sistem produksi, dampaknya bisa signifikan bagi ekonomi AI:
Namun Zyphra juga mencatat bahwa pipeline inferensi model difusi masih belum seoptimal sistem autoregresif yang sudah matang, sehingga hasil di dunia nyata mungkin berbeda dari pengukuran teoritis.
Banyak model reasoning modern dilatih menggunakan reinforcement learning dengan rollouts, yaitu proses menghasilkan banyak kandidat jawaban selama pelatihan.
Karena proses ini sangat bergantung pada kecepatan generasi, decoding yang lebih cepat dapat:
Dalam praktiknya, proses generasi sering menjadi salah satu komponen biaya terbesar dalam pipeline pelatihan berbasis RL.
ZAYA1‑8B‑Diffusion‑Preview menunjukkan tren yang semakin jelas dalam riset AI: bukan hanya membuat model lebih besar, tetapi juga membuatnya lebih efisien per dolar komputasi.
Pendekatan Zyphra menggabungkan beberapa strategi sekaligus:
Comments
0 comments