Phần lớn mô hình ngôn ngữ hiện nay hoạt động theo cơ chế autoregressive. Quy trình tạo văn bản diễn ra tuần tự:
Vì mỗi token phụ thuộc vào toàn bộ chuỗi trước đó, quá trình này không thể song song hóa tốt. Ngoài ra, việc liên tục truy cập KV cache khiến hệ thống thường bị giới hạn bởi băng thông bộ nhớ, đặc biệt khi chạy trên GPU.
Ở phiên bản diffusion, quy trình giải mã thay đổi đáng kể.
Thay vì dự đoán từng token, mô hình đề xuất cả một khối token ứng viên cùng lúc—trong bản preview là 16 token mỗi bước diffusion.
Quy trình cơ bản:
Do tất cả token trong khối dùng chung tiền tố và trạng thái KV cache, GPU có thể tính toán song song trong một lần forward pass. Điều này chuyển gánh nặng từ truy cập bộ nhớ sang tính toán song song, vốn là thế mạnh của GPU.
Hiệu quả tăng tốc phụ thuộc vào cách chọn token trong quá trình giải mã.
Lossless sampler
Logit‑mixing sampler
Các con số này chủ yếu dựa trên báo cáo kỹ thuật của Zyphra, vì vậy cần thêm benchmark độc lập để xác nhận hiệu quả trong môi trường sản xuất.
Một yếu tố đáng chú ý là hạ tầng phần cứng. Zyphra cho biết đây là mô hình ngôn ngữ diffusion đầu tiên được huấn luyện trên GPU AMD, thay vì hệ sinh thái Nvidia vốn thống trị ngành AI.
Nếu các kết quả này được tái lập rộng rãi, điều đó cho thấy việc huấn luyện và triển khai LLM quy mô lớn không nhất thiết phụ thuộc hoàn toàn vào Nvidia, mở ra cạnh tranh lớn hơn trong thị trường phần cứng AI.
ZAYA1‑8B còn sử dụng cơ chế Compressed Convolutional Attention (CCA).
Điều này đặc biệt hữu ích cho diffusion decoding, vì việc tạo nhiều token cùng lúc tương tự giai đoạn prefill lớn trong suy luận. Khi attention rẻ hơn, việc xử lý khối token song song cũng trở nên khả thi hơn ở quy mô lớn.
Nếu tốc độ tăng như báo cáo được giữ nguyên trong thực tế, lợi ích có thể rất đáng kể:
Tuy vậy, Zyphra cũng thừa nhận rằng hệ sinh thái inference cho mô hình diffusion vẫn chưa được tối ưu hóa bằng autoregressive, nên kết quả thực tế có thể khác các con số lý thuyết.
Các mô hình reasoning hiện đại thường dựa nhiều vào reinforcement learning với on‑policy rollouts — tức là mô hình phải tạo ra rất nhiều phản hồi mẫu trong quá trình huấn luyện.
Vì vậy, tốc độ sinh token nhanh hơn có thể:
Trong nhiều pipeline huấn luyện hiện nay, chi phí suy luận chính là phần tốn kém nhất.
ZAYA1‑8B‑Diffusion‑Preview phản ánh xu hướng mới trong phát triển AI: không chỉ chạy theo mô hình lớn hơn, mà tập trung vào “trí tuệ trên mỗi đô la chi phí”.
Dự án của Zyphra kết hợp nhiều chiến lược tối ưu hiệu quả:
Nếu các kỹ thuật này chứng minh được hiệu quả ở quy mô lớn, chúng có thể thay đổi cách ngành AI tối ưu mô hình — không chỉ về năng lực, mà còn về tốc độ, chi phí và hiệu suất phần cứng. Hiện tại, ZAYA1‑8B‑Diffusion‑Preview vẫn là một bước thử nghiệm, nhưng nó cho thấy khả năng chuyển đổi LLM tự hồi quy sang bộ giải mã diffusion có thể là con đường mới để tăng tốc tạo văn bản AI.
Comments
0 comments