Wyobraź sobie, że masz do dyspozycji wydajność modelu, który normalnie potrzebowałby karty graficznej za kilkadziesiąt tysięcy złotych, ale uruchamiasz go na swoim domowym komputerze. To właśnie obietnica, którą spełnia Gemma 4 QAT.
Oficjalne checkpointy QAT od Google używają schematu W4A16 dla modeli dense („gęstych” w architekturze): wagi są 4-bitowymi liczbami całkowitymi (int4), a aktywacje pozostają w precyzji 16-bitowej. Dodatkowo obowiązuje parametr group_size=32 .
W praktyce mamy do wyboru kilka formatów wdrożeniowych:
compressed-tensors – oficjalny format W4A16 zoptymalizowany pod silniki takie jak vLLM wNa8o8) – zupełnie nowy, eksperymentalny schemat, który dla najmniejszych modeli (E2B, E4B) wykorzystuje mieszankę różnych szerokości kwantyzacji, by zmieścić model w zaledwie ~1 GB pamięci Gemma 4 jest dostępna w pięciu rozmiarach . Tabela poniżej pokazuje, jak drastycznie spada zapotrzebowanie na pamięć po zastosowaniu QAT:
Oto realne scenariusze uruchamiania modeli Gemma 4 QAT na sprzęcie konsumenckim:
Dokumentacja Google i Unsloth zawiera kluczowe ostrzeżenie: samodzielna, naiwna konwersja wag QAT do formatu Q4_0 może prowadzić do katastrofalnego spadku dokładności. W przypadku modelu 26B, top-1 accuracy potrafi spaść do zaledwie 70.2% . Dlatego tak ważne jest korzystanie z oficjalnych, gotowych checkpointów QAT w formacie
compressed-tensors lub dedykowanych plików GGUF, gdzie proces konwersji został przeprowadzony prawidłowo . Zespół Unsloth opracował nawet własną, dynamiczną metodę, która podnosi dokładność takiej konwersji do 85.6%, zachowując przy tym mniejszy rozmiar pliku
.
Podsumowując, Google oddało w ręce społeczności potężne narzędzie. Gemma 4 QAT burzy dotychczasowe bariery sprzętowe, demokratyzując dostęp do modeli AI o ogromnych możliwościach. Niezależnie od tego, czy chcesz eksperymentować na telefonie, czy uruchomić zaawansowanego asystenta kodowania na domowym PC, z Gemma 4 QAT jest to teraz wreszcie realne.
Comments
0 comments