Google har gjort QAT-checkpoints tilgængelige for alle fem størrelser i Gemma 4-serien, som spænder fra ultra-mobil til krævende opgaver. Det officielle format for dense-modellerne er W4A16, hvilket betyder 4-bit heltalsvægte og 16-bit aktiveringer .
De komprimerede modeller frigør markant plads, men det er vigtigt at forstå, at 26B A4B er en MoE-model (Mixture-of-Experts), der ved hvert token kun aktiverer ca. 3,8 af sine 26 milliarder parametre. Det giver en meget effektiv inferens-profil, der ligner en langt mindre model i praksis .
Google udgiver QAT-modellerne i flere formater for at sikre bred kompatibilitet:
Vigtig advarsel: QAT’s fordel er størst ved 4-bit. Hvis man naivt konverterer QAT-vægte til et Q4_0-format uden om de officielle pipelines, kan kvaliteten falde dramatisk. For 26B-modellen er der set et fald i top-1 nøjagtighed til blot 70,2 %
. Brug derfor altid de officielle QAT-orienterede formater for at bevare kvaliteten
.
Den praktiske konsekvens er, at AI-landskabet på forbrugerhardware rykkes markant.
Det er ikke længere nødvendigt med et serverkort til titusindvis af kroner for at eksperimentere med topmodellerne. QAT rykker avanceret, multimodal AI ned på forbrugerens skrivebord og ned i lommen.
Comments
0 comments