คำตอบเผยแพร่แล้ว2 เดือนที่ผ่านมาLast edited เดือนที่แล้ว14 แหล่งที่มา

ZAYA1‑8B‑Diffusion‑Preview: วิธีที่โมเดล AI ของ Zyphra สร้างข้อความทีละ 16 โทเค็นเพื่อเร่งความเร็วอินเฟอเรนซ์

Zyphra เปิดตัว ZAYA1‑8B‑Diffusion‑Preview โมเดลที่แปลงจาก LLM แบบ autoregressive ให้สร้างข้อความเป็นบล็อก 16 โทเค็นพร้อมกัน บริษัทระบุว่าสามารถเร่งความเร็วการถอดรหัสได้ประมาณ 4.6 เท่าด้วย lossless sampler และสูงสุด 7.7 เท่าด้วย logit‑mixing sampler แนวทางนี้อาจลดต้นทุนการรันโมเดล เพิ่มความเร็วในการฝึกแบบ reinforceme...

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI ดูหน้าที่กำลังมาแรงเพิ่มเติม

Conceptual illustration of a diffusion language model generating multiple tokens in parallel — What is Zyphra’s new ZAYA1-8B-Diffusion-Preview model, how does converting its autoregressive ZAYA1-8B into a Mixture-of-Experts diffusion lDiffusion-style language models can draft multiple tokens simultaneously instead of generating them sequentially.
AI พรอมต์
Create a landscape editorial hero image for this Studio Global article: What is Zyphra’s new ZAYA1-8B-Diffusion-Preview model, how does converting its autoregressive ZAYA1-8B into a Mixture-of-Experts diffusion l. Article summary: Zyphra’s ZAYA1-8B-Diffusion-Preview is an experimental diffusion-language version of its ZAYA1-8B MoE model, designed to decode blocks of text in parallel rather than strictly one token at a time. Zyphra claims it can ge. Topic tags: general, academic, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "# Zyphra Releases ZAYA1-8B: A Reasoning MoE Trained on AMD Hardware That Punches Far Above Its Weight Class. Zyphra AI has released ZAYA1-8B, a small Mixture of Experts (MoE) langu" source context "Zyphra Releases ZAYA1-8B: A Reasoning MoE Trained on AMD Hardware That Punches Far Above Its Weight Class
openai.com

แนวคิดใหม่: ใช้ diffusion เพื่อเร่งการสร้างข้อความ

Zyphra เปิดตัว ZAYA1‑8B‑Diffusion‑Preview ซึ่งเป็นเวอร์ชันทดลองของโมเดลภาษา ZAYA1‑8B ที่เปลี่ยนวิธีสร้างข้อความจากแบบดั้งเดิมไปใช้แนวทาง diffusion‑style generation แทนการสร้างทีละโทเค็นเหมือนโมเดลภาษาแบบ autoregressive ทั่วไป

แทนที่จะทำนายคำถัดไปเพียงคำเดียว โมเดลนี้สามารถ สร้างร่างข้อความเป็นบล็อก 16 โทเค็นพร้อมกัน ในแต่ละรอบการประมวลผล ทำให้การถอดรหัส (decoding) เร็วขึ้นอย่างมีนัยสำคัญภายใต้กลยุทธ์การสุ่มตัวอย่างบางแบบ

Zyphra รายงานว่า

ใช้ lossless sampler สามารถเพิ่มความเร็วได้ประมาณ 4.6 เท่า
ใช้ logit‑mixing sampler ความเร็วอาจสูงถึง 7.7 เท่า แต่มีความเสี่ยงเรื่องคุณภาพเล็กน้อย

จุดสำคัญอีกอย่างคือ โมเดลนี้ ไม่ได้ถูกฝึกเป็น diffusion model ตั้งแต่ต้น แต่เป็นการแปลงจาก checkpoint ของโมเดล autoregressive ที่มีอยู่แล้ว แสดงให้เห็นว่า LLM แบบเดิมอาจถูกปรับให้ใช้การถอดรหัสแบบ diffusion ได้ในภายหลัง

โมเดลพื้นฐาน: ZAYA1‑8B

ZAYA1‑8B‑Diffusion‑Preview สร้างขึ้นบนโมเดลหลักชื่อ ZAYA1‑8B ซึ่งเป็นโมเดล reasoning แบบ Mixture‑of‑Experts (MoE) ของ Zyphra

สถาปัตยกรรมนี้มี

พารามิเตอร์รวมมากกว่า 8 พันล้านตัว
แต่ใช้จริงระหว่างอินเฟอเรนซ์เพียงประมาณ 760 ล้านตัว

MoE ทำงานโดยเลือกใช้ "expert" หรือเครือข่ายย่อยเพียงบางส่วนต่อโทเค็น แทนที่จะเปิดใช้งานทั้งโมเดลทั้งหมด จึงช่วยลดต้นทุนการคำนวณเมื่อเทียบกับโมเดล dense ขนาดใกล้เคียงกัน

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

ค้นหาและตรวจสอบข้อเท็จจริงด้วย Studio Global AI

คนยังถาม

คำตอบสั้น ๆ สำหรับ "ZAYA1‑8B‑Diffusion‑Preview: วิธีที่โมเดล AI ของ Zyphra สร้างข้อความทีละ 16 โทเค็นเพื่อเร่งความเร็วอินเฟอเรนซ์" คืออะไร

Zyphra เปิดตัว ZAYA1‑8B‑Diffusion‑Preview โมเดลที่แปลงจาก LLM แบบ autoregressive ให้สร้างข้อความเป็นบล็อก 16 โทเค็นพร้อมกัน

ประเด็นสำคัญที่ต้องตรวจสอบก่อนคืออะไร?

ฉันควรทำอย่างไรต่อไปในทางปฏิบัติ?

แนวทางนี้อาจลดต้นทุนการรันโมเดล เพิ่มความเร็วในการฝึกแบบ reinforcement learning และเพิ่มการแข่งขันด้านฮาร์ดแวร์ AI นอกระบบ Nvidia

ZAYA1‑8B‑Diffusion‑Preview: วิธีที่โมเดล AI ของ Zyphra สร้างข้อความทีละ 16 โทเค็นเพื่อเร่งความเร็วอินเฟอเรนซ์

แนวคิดใหม่: ใช้ diffusion เพื่อเร่งการสร้างข้อความ

โมเดลพื้นฐาน: ZAYA1‑8B

Search, cite, and publish your own answer

คนยังถาม

ประเด็นสำคัญที่ต้องตรวจสอบก่อนคืออะไร?

ฉันควรทำอย่างไรต่อไปในทางปฏิบัติ?

แหล่งที่มา

ทำไมโมเดลภาษาแบบเดิมถึงช้า

diffusion decoder สร้าง 16 โทเค็นพร้อมกันได้อย่างไร

กลยุทธ์ sampler และความเร็วที่แตกต่าง

ทำไมการฝึกบน AMD ถึงน่าสนใจ

Compressed Convolutional Attention (CCA)

ผลกระทบต่อค่าใช้จ่ายในการรัน AI

ความสำคัญต่อการฝึกแบบ reinforcement learning

สัญญาณของการแข่งขันด้าน “AI ที่มีประสิทธิภาพ”