Câu trả lờiĐã xuất bản2 tháng trướcLast edited tháng trước14 nguồn

ZAYA1‑8B‑Diffusion‑Preview: Khi mô hình ngôn ngữ khuếch tán tạo 16 token một lúc

Zyphra chuyển đổi mô hình ZAYA1‑8B từ kiến trúc tự hồi quy sang mô hình ngôn ngữ khuếch tán, cho phép tạo 16 token song song trong mỗi bước suy luận. Cách tiếp cận này giảm nút thắt băng thông bộ nhớ của KV cache và chuyển phần lớn khối lượng công việc sang tính toán song song trên GPU.

Tìm kiếm và kiểm chứng sự thật với Studio Global AI Duyệt thêm trang xu hướng

Conceptual illustration of a diffusion language model generating multiple tokens in parallel — What is Zyphra’s new ZAYA1-8B-Diffusion-Preview model, how does converting its autoregressive ZAYA1-8B into a Mixture-of-Experts diffusion lDiffusion-style language models can draft multiple tokens simultaneously instead of generating them sequentially.
Prompt AI
Create a landscape editorial hero image for this Studio Global article: What is Zyphra’s new ZAYA1-8B-Diffusion-Preview model, how does converting its autoregressive ZAYA1-8B into a Mixture-of-Experts diffusion l. Article summary: Zyphra’s ZAYA1-8B-Diffusion-Preview is an experimental diffusion-language version of its ZAYA1-8B MoE model, designed to decode blocks of text in parallel rather than strictly one token at a time. Zyphra claims it can ge. Topic tags: general, academic, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "# Zyphra Releases ZAYA1-8B: A Reasoning MoE Trained on AMD Hardware That Punches Far Above Its Weight Class. Zyphra AI has released ZAYA1-8B, a small Mixture of Experts (MoE) langu" source context "Zyphra Releases ZAYA1-8B: A Reasoning MoE Trained on AMD Hardware That Punches Far Above Its Weight Class
openai.com

Hướng tiếp cận khuếch tán để tăng tốc giải mã LLM

ZAYA1‑8B‑Diffusion‑Preview là phiên bản thử nghiệm của mô hình ngôn ngữ ZAYA1‑8B do startup AI Zyphra phát triển. Điểm khác biệt nằm ở cách tạo văn bản: thay vì giải mã từng token một như hầu hết LLM hiện nay, mô hình này sử dụng quy trình kiểu diffusion để tạo cả khối 16 token cùng lúc.

Theo Zyphra, cách làm này có thể tăng tốc độ suy luận đáng kể: khoảng 4,6× khi dùng “lossless sampler” và tối đa 7,7× với kỹ thuật logit‑mixing sampler, với mức suy giảm chất lượng nhỏ tùy cấu hình.

Đáng chú ý hơn, mô hình khuếch tán này không được huấn luyện từ đầu, mà được chuyển đổi trực tiếp từ checkpoint của mô hình tự hồi quy hiện có, cho thấy một con đường mới để nâng cấp LLM truyền thống.

Mô hình nền: ZAYA1‑8B

Phiên bản diffusion preview được xây dựng trên ZAYA1‑8B, một mô hình reasoning dạng mixture‑of‑experts (MoE) của Zyphra.

Tổng số tham số: hơn 8 tỷ
Tham số được kích hoạt khi suy luận: khoảng 760 triệu

Trong kiến trúc MoE, mỗi token chỉ kích hoạt một số “chuyên gia” nhỏ trong mạng neural thay vì toàn bộ mô hình. Điều này giúp trong khi vẫn duy trì hiệu năng cạnh tranh so với các mô hình lớn hơn.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Tìm kiếm và kiểm chứng sự thật với Studio Global AI

Người ta cũng hỏi

Câu trả lời ngắn gọn cho "ZAYA1‑8B‑Diffusion‑Preview: Khi mô hình ngôn ngữ khuếch tán tạo 16 token một lúc" là gì?

Zyphra chuyển đổi mô hình ZAYA1‑8B từ kiến trúc tự hồi quy sang mô hình ngôn ngữ khuếch tán, cho phép tạo 16 token song song trong mỗi bước suy luận.

Những điểm chính cần xác nhận đầu tiên là gì?

Tôi nên làm gì tiếp theo trong thực tế?

Nếu hiệu quả thực tế đúng như báo cáo, kỹ thuật này có thể giảm chi phí suy luận AI và tăng tốc các quy trình huấn luyện reinforcement learning cần tạo hàng loạt phản hồi.

ZAYA1‑8B‑Diffusion‑Preview: Khi mô hình ngôn ngữ khuếch tán tạo 16 token một lúc

Hướng tiếp cận khuếch tán để tăng tốc giải mã LLM

Mô hình nền: ZAYA1‑8B

Search, cite, and publish your own answer

Người ta cũng hỏi

Câu trả lời ngắn gọn cho "ZAYA1‑8B‑Diffusion‑Preview: Khi mô hình ngôn ngữ khuếch tán tạo 16 token một lúc" là gì?

Những điểm chính cần xác nhận đầu tiên là gì?

Tôi nên làm gì tiếp theo trong thực tế?

Nguồn

Vì sao giải mã tự hồi quy thường chậm

Cách ZAYA1 tạo 16 token trong một bước

Hai chiến lược sampling và sự đánh đổi tốc độ

Điểm đặc biệt: huấn luyện trên GPU AMD

Compressed Convolutional Attention (CCA)

Tác động tiềm năng đến chi phí suy luận

Ý nghĩa đối với huấn luyện reinforcement learning

Một hướng mới cho AI hiệu quả