Gemma 4-familien består av fem modellstørrelser, og QAT-sjekkpunktene er tilgjengelige for alle . Her er en oversikt over modellene og hva slags minnebruk du kan forvente med 4-bits QAT-distribusjon:
Det som er spesielt interessant her er 26B A4B-modellen. Den er en «Mixture of Experts» (MoE)-modell med totalt 26 milliarder parametere, men aktiverer bare rundt 3,8 milliarder av dem per token under inferens . Det betyr at du får intelligensen til en mye større modell, men med et beregningsbehov som ligner en 4B-modell. For deg som sluttbruker betyr det at du potensielt kan kjøre en svært kapabel modell på en forbruker-GPU med 16 GB VRAM.
Google distribuerer QAT-modellene i flere formater, tilpasset ulike behov:
group_size=32) Den praktiske konsekvensen av denne lanseringen er enorm. La oss se på hva du nå kan oppnå på forskjellige typer maskinvare:
Den kanskje viktigste tekniske detaljen å ta med seg er denne: Ikke alle filformater er skapt like. QATs store fordel er nettopp at modellen er trent for å yte optimalt under kvantisering. Hvis du bare tar QAT-vektene og konverterer dem direkte til et vanlig Q4_0-format uten videre behandling, risikerer du å miste mye av denne fordelen. Som nevnt viste tester med 26B-modellen en nøyaktighet på bare drøyt 70 % ved naiv konvertering . For å bevare den høye kvaliteten bør du fortrinnsvis bruke de offisielle
compressed-tensors-formatene eller dedikerte konverteringsverktøy som er optimalisert for oppgaven .
Comments
0 comments