Förenklat kan man säga att Gemma 4 QAT-modellerna är ungefär 72 % minnessnålare än sina BF16-förlagor, utan att bli märkbart "dummare" .
Gemma 4-familjen består av fem modeller, alla nu tillgängliga i QAT-optimerade versioner. Tabellen nedan ger en överblick över de ungefärliga minnesbehoven i 4-bitarsläge .
Det är värt att notera att den officiella QAT-dokumentationen varnar för att en naiv konvertering till det populära Q4_0-formatet drastiskt kan sänka kvaliteten. För 26B-modellen nådde en sådan konvertering till exempel bara 70,2 % top-1 noggrannhet, vilket understryker hur viktigt det är att använda rätt format för ändamålet .
Släppet av Gemma 4 QAT suddar ut gränsen mellan vad som är "server-AI" och "fick-AI". Här är några konkreta scenarier:
Om det finns en röd tråd i Gemma 4 QAT-dokumentationen så är det denna: välj rätt format. Eftersom QAT-modellerna är specifikt tränade för att fungera bra i ett visst kvantiserat format, kan en godtycklig konvertering till ett annat format (som Q4_0) leda till en dramatisk kvalitetsförsämring . Vill du vara på den säkra sidan och bevara de prestandaförbättringar som QAT ger, ska du hålla dig till de officiella, QAT-orienterade formaten som
compressed-tensors .
Comments
0 comments