גוגל סיפקה נקודות ביקורת רשמיות של אימון מודע קוונטיזציה (Quantization-Aware Training, או בקיצור QAT) עבור סדרת Gemma 4. המגוון כולל את הדגמים E2B, E4B, 12B, 26B A4B ו-31B ![]()
![]()
. המטרה היא לאפשר הרצה של בינה מלאכותית מתקדמת על מכשירים עם משאבים מוגבלים, כמו סמארטפונים. הנה כל מה שאתם צריכים לדעת.
גישת הקוונטיזציה
קוונטיזציה היא תהליך שמקטין את הדיוק המספרי המשמש לאחסון וחישוב של הפרמטרים במודל. בשיטת int4, כל ערך מיוצג בעזרת 4 סיביות בלבד, במקום 16 סיביות (BF16). זהו קיצוץ של פי 4 בגודל הנתונים
.
החידוש בגישה של גוגל הוא שיטת ה-QAT. בניגוד לקוונטיזציה רגילה שמתבצעת לאחר סיום האימון (Post-Training Quantization) ועלולה לפגוע באיכות, אימון מודע קוונטיזציה משלב סימולציה של תהליך הכיווץ במהלך שלב האימון עצמו. המודל לומד לפצות על אובדן הדיוק, וכך ניתן לשמר ביצועים קרובים למקור תוך שימוש בזיכרון קטן משמעותית
.
נקודות הביקורת הרשמיות משתמשות בסכמה בשם W4A16 עבור דגמי ה-dense במשפחת Gemma 4. פירוש הדבר הוא שימוש במשקלים (weights) באורך 4 סיביות (int4) והפעלות (activations) באורך 16 סיביות בפורמט compressed-tensors, עם .
Comments
0 comments