Resmi QAT kontrol noktaları, yoğun (dense) Gemma 4 modelleri için W4A16 şemasını kullanıyor. Bu, ağırlıkların 4-bit tam sayı, aktivasyonların ise 16-bit olarak tutulduğu, group_size=32 ayarına sahip ve compressed-tensors formatında sunulan bir yapı .
Gemma 4 ailesi, farklı ihtiyaçlara yönelik beş farklı parametre boyutunda sunuluyor: E2B, E4B, 12B, 26B A4B ve 31B . QAT sayesinde tüm bu modeller, orijinal BF16 hallerine kıyasla yaklaşık %72 daha az bellek kullanıyor ve neredeyse aynı kaliteyi koruyor
.
Bilgi Notu: "26B A4B" modelindeki "A", İngilizce "active" (aktif) kelimesinden gelir. Bu, Uzman Karması (Mixture of Experts) mimarisi sayesinde, modelin her bir işlem için toplam 26 milyar parametresinin yalnızca yaklaşık 3.8 milyarını kullanması anlamına gelir. Bu sayede, 26B seviyesinde bir zeka sunarken, işlem maliyeti 4B'lık bir modele yakın olur
.
Modelleri kullanmak için birkaç farklı seçenek mevcut. Seçiminiz, kullandığınız yazılıma ve amacınıza göre değişecektir :
Bu yeni modellerin asıl devrim yarattığı nokta, onları çalıştırmak için gereken donanımı demokratikleştirmesi:
QAT'nin kalite avantajı, özellikle 4-bit seviyesinde kritik önem taşır. Google'ın Gemma 4 QAT belgeleri, QAT ağırlıklarını doğrudan standart bir Q4_0 formatına dönüştürmenin, 26B modelinde doğruluğu sadece %85.6'ya kadar düşürebildiği konusunda açıkça uyarıyor . Bu nedenle, eğer amacınız QAT'nin sunduğu yüksek kaliteyi korumaksa, resmi
compressed-tensors formatındaki kontrol noktalarını kullanmak en güvenli ve doğru yöntemdir .
Comments
0 comments