De QAT-release omvat de volledige Gemma 4-reeks in vijf groottes. Van een model dat op je smartphone past tot een model dat op een krachtige thuis-pc draait :
De 26B A4B is een zogenaamd Mixture-of-Experts-model. Hoewel het in totaal 26 miljard parameters heeft, worden er per taak slechts ongeveer 3.8 miljard actief. Dit maakt het model razendsnel bij inferentie, vergelijkbaar met een 4B-model, terwijl het de 'slimheid' van een 26B-model benadert .
Een belangrijke waarschuwing: het simpelweg converteren van QAT-gewichten naar een standaard Q4_0-formaat kan, vreemd genoeg, de kwaliteit schaden. Bij het 26B-model kan de top-1 accuracy daarmee zakken tot slechts 70.2% . Gebruik dus bij voorkeur de officiële QAT-formaten om de kwaliteitsvoordelen te behouden.
Deze release is een gamechanger voor wie met AI wil werken op gangbare apparatuur:
Met de QAT-release van Gemma 4 vervaagt Google de grens tussen 'cloud-AI' en 'device-AI'. De belofte van krachtige, open-source AI die direct op jouw apparaat draait, met behoud van je privacy en zonder dure abonnementen, is een flinke stap dichterbij gekomen. Het is niet langer de vraag óf je een groot taalmodel lokaal kunt draaien, maar wélk model het beste bij jouw hardware past .
Comments
0 comments