Google ได้สร้างมาตรฐานใหม่ให้กับการเข้าถึง AI ขั้นสูงด้วยการเปิดตัวเช็คพอยต์ Quantization-Aware Training (QAT) สำหรับโมเดลตระกูล Gemma 4 ในวันที่ 4 มิถุนายน 2026 ![]()
![]()
นี่ไม่ใช่แค่การอัปเดตธรรมดา แต่เป็นการปฏิวัติวิธีที่เราจะรันโมเดลภาษาขนาดใหญ่บนอุปกรณ์ส่วนตัวของเรา
Quantization คืออะไร และ QAT ดียังไง?
หัวใจหลักของเรื่องนี้คือ Quantization หรือการลดความแม่นยำของตัวเลขที่ใช้เก็บและคำนวณค่าพารามิเตอร์ในโมเดล AI ลองนึกภาพว่าปกติโมเดลจะเก็บค่าต่างๆ เป็นตัวเลขทศนิยม 16 บิต (BF16) แต่ QAT ย่อเหลือเพียง 4 บิต (int4) ซึ่งคิดเป็นการลดขนาดข้อมูลลงถึง 4 เท่า ![]()
แต่การย่อข้อมูลมักทำให้คุณภาพของโมเดลลดลง ปัญหานี้คือสิ่งที่ QAT เข้ามาแก้
Post-Training Quantization (PTQ) แบบเดิมที่เราใช้กันจะบีบอัดโมเดลหลังจากเทรนเสร็จแล้ว ซึ่งมักทำให้ประสิทธิภาพตก
Quantization-Aware Training (QAT) ต่างออกไป เพราะมันจำลองกระบวนการบีบอัดนี้ตั้งแต่ ขั้นตอนการเทรน ทำให้โมเดลเรียนรู้ที่จะปรับตัวและชดเชยความผิดพลาดที่อาจเกิดขึ้นตั้งแต่แรก ส่งผลให้โมเดลเวอร์ชัน 4 บิตมีประสิทธิภาพใกล้เคียงกับเวอร์ชัน 16 บิตแบบดั้งเดิมมาก ![]()
สำหรับ Gemma 4 รุ่นตระกูล Dense (ไม่ใช่ MoE) จะใช้โครงสร้าง W4A16 กล่าวคือใช้ค่าน้ำหนัก (Weights) แบบจำนวนเต็ม 4 บิต และการกระตุ้น (Activations) แบบ 16 บิต โดยมี และมาในฟอร์แมต
Comments
0 comments