LLM ส่วนใหญ่ในปัจจุบันใช้วิธี autoregressive generation ซึ่งสร้างข้อความทีละโทเค็นตามลำดับ
กระบวนการทั่วไปคือ
เนื่องจากแต่ละขั้นต้องรอผลของขั้นก่อนหน้า การสร้างข้อความจึง ไม่สามารถขนานการประมวลผลได้เต็มที่ และมักติดคอขวดที่การเข้าถึงหน่วยความจำ (memory bandwidth) โดยเฉพาะเมื่อ KV cache โตขึ้นเรื่อย ๆ
การแปลงเป็น diffusion model เปลี่ยนวิธีสร้างข้อความโดยสิ้นเชิง
แทนที่จะทำนายโทเค็นเดียว โมเดลจะ เสนอชุดโทเค็นผู้สมัครหลายตัวพร้อมกันในบล็อกเดียว ซึ่งในเวอร์ชันนี้กำหนดไว้ที่ 16 โทเค็นต่อขั้น diffusion
กระบวนการคร่าว ๆ คือ
เนื่องจากโทเค็นในบล็อกใช้ prefix และ KV cache เดียวกัน การคำนวณจึงสามารถทำ แบบขนานใน forward pass เดียว ได้
ผลลัพธ์คือภาระงานเปลี่ยนจาก
ไปเป็น
Zyphra ทดสอบการถอดรหัสด้วยสองวิธีหลัก
Lossless sampler
Logit‑mixing sampler
ผลลัพธ์เหล่านี้ส่วนใหญ่ยังมาจากรายงานของ Zyphra เอง ดังนั้นการทดสอบจากนักวิจัยภายนอกยังจำเป็นเพื่อยืนยันประสิทธิภาพในงานจริง
อีกจุดที่ถูกพูดถึงมากคือ สแต็กฮาร์ดแวร์ ที่ใช้ฝึกโมเดล
Zyphra ระบุว่าโมเดลนี้เป็น
ปัจจุบันงานฝึกโมเดลขนาดใหญ่ส่วนใหญ่ยังใช้ระบบของ Nvidia เป็นหลัก ดังนั้นการแสดงให้เห็นว่าโมเดลระดับนี้สามารถฝึกบนสแต็ก AMD ได้ อาจช่วยเพิ่มการแข่งขันในตลาดฮาร์ดแวร์ AI
ZAYA1‑8B ยังใช้กลไก attention ที่ Zyphra เรียกว่า Compressed Convolutional Attention (CCA)
แนวคิดคือการ
สิ่งนี้สำคัญเพราะ diffusion decoding มีลักษณะคล้ายช่วง prefill ของโมเดล ซึ่งต้องประมวลผลโทเค็นจำนวนมากพร้อมกัน หาก attention ถูกทำให้เบาลง การสร้างโทเค็นหลายตัวในแต่ละรอบก็จะทำได้มีประสิทธิภาพมากขึ้น
หากตัวเลขความเร็วที่ Zyphra รายงานสามารถเกิดขึ้นจริงในระบบโปรดักชัน ผลกระทบอาจมีขนาดใหญ่ เช่น
อย่างไรก็ตาม Zyphra ระบุเองว่า สแต็ก inference สำหรับ diffusion ยังไม่ถูกปรับแต่งเท่า autoregressive ดังนั้นผลลัพธ์จริงอาจแตกต่างจากการวัดเชิงทฤษฎี
โมเดล reasoning จำนวนมากในปัจจุบันต้องใช้ reinforcement learning ที่สร้างคำตอบจำนวนมากระหว่างการฝึก
ความเร็วในการสร้างข้อความจึงมีผลโดยตรงต่อค่าใช้จ่าย
หาก decoding เร็วขึ้น นักวิจัยอาจสามารถ
ในระบบฝึกโมเดลขั้นสูง ค่า inference มักเป็นหนึ่งในต้นทุนหลัก
ZAYA1‑8B‑Diffusion‑Preview สะท้อนแนวโน้มใหม่ในวงการ AI ที่ไม่ได้มุ่งเพียงสร้างโมเดลใหญ่ขึ้น แต่พยายามเพิ่ม ประสิทธิภาพต่อค่าใช้จ่าย (intelligence per dollar)
ตัวอย่างนี้รวมหลายแนวทางเข้าด้วยกัน เช่น
หากเทคนิคเหล่านี้พิสูจน์ได้ในระดับโปรดักชัน อาจเปลี่ยนวิธีที่อุตสาหกรรมออกแบบโมเดลภาษาในอนาคต โดยให้ความสำคัญกับ ความเร็ว ต้นทุน และประสิทธิภาพฮาร์ดแวร์ มากพอ ๆ กับความสามารถของโมเดลเอง
Comments
0 comments