| Modello | Tipo | Memoria in 4 bit (QAT) | A chi è rivolto |\n|---|---|---|---|\n| E2B | Denso (~2,3B parametri) | Circa 1 GB (formato mobile) a 3,2 GB | Smartphone, Raspberry Pi, browser web. Perfetto per chi vuole l'IA sempre in tasca
. |\n| E4B | Denso (~4,5B parametri) | Circa 5 GB
| Laptop senza GPU dedicata. Il passo successivo per prestazioni più robuste on-the-go
. |\n| 12B | Denso e multimodale unificato | Circa 7 GB
| GPU con 8 GB di VRAM. Il punto d'incontro tra potenza e accessibilità, supporta nativamente testo, immagini e audio
. |\n| 26B A4B | Mixture of Experts (MoE) | Circa 15-16 GB
| GPU con 12-16 GB di VRAM. Un'intelligenza da 26B con il costo computazionale di un modello da 4B
. |\n| 31B | Denso (30,7B parametri) | Circa 18-20 GB
| GPU con +20 GB di VRAM (es. RTX 3090). Per ragionamento complesso e coding spinto direttamente sul tuo PC
. |
Un aspetto cruciale da comprendere è che non tutti i formati a 4 bit sono creati uguali. Il vero vantaggio del QAT si apprezza appieno solo utilizzando i checkpoint ufficiali pensati per questa tecnica .
vLLM, con pesi a 4 bit e attivazioni a 16 bit.llama.cpp e Ollama, è il formato ideale per l'uso hobbistico e su CPU.Attenzione alla fregatura: convertire “ingenuamente” un modello QAT in un formato non ottimizzato vanifica i benefici. La documentazione avverte che una conversione diretta in Q4_0 del modello 26B, senza i giusti accorgimenti, può far crollare l'accuratezza al 70,2% . La solida scelta ufficiale rimane la via più sicura per avere la qualità promessa.
Con questa mossa, Google non si limita a rilasciare dei modelli; sta davvero democratizzando l'accesso all'IA più avanzata, spostando il confine tra il “possibile solo in cloud” e il “fattibile nel mio zaino, sul mio comodino, nel mio ufficio” .
Comments
0 comments