Офіційні чекпоінти від Google для щільних (dense) моделей Gemma 4 використовують схему W4A16: 4-бітні цілочисельні ваги (weights) та 16-бітні активації (activations) з group_size=32 у форматі compressed-tensors .
Моделі E2B та E4B спочатку позиціонувалися для периферійних та мобільних пристроїв — вони підтримують текст, зображення й аудіо . 12B — це відносно нова уніфікована мультимодальна модель без зовнішнього енкодера, а 26B A4B належить до класу суміші експертів, де на кожен токен активується лише мала частина параметрів, що забезпечує ефективність при високій загальній «місткості»
. 31B — це флагманська щільна модель із контекстним вікном до 256 тисяч токенів
.
Google подбала про сумісність із популярними фреймворками для інференсу. Ось основні варіанти, які ви знайдете на Hugging Face :
llama.cpp, Ollama, MLX та інших сумісних бібліотек. Це «народний» стандарт для локального запуску Найбільша перевага QAT — це можливість запускати ШІ там, де раніше про це годі було й думати.
Для порівняння, звичайна BF16-версія 31B-моделі потребує близько 58–64 ГБ відеопам'яті . Тож QAT перетворює її з «серверного монстра» на «домашнього помічника».
Потужний потенціал QAT вимагає обережності. Google прямо попереджає: наївне конвертування QAT-ваг у звичайний Q4_0 формат призводить до значної втрати якості. Наприклад, для моделі 26B A4B точність топ-1 може впасти до жалюгідних 70.2%. Це як взяти суперкар і залити в нього низькооктанове пальне — їхати буде, але динаміка втрачена .
Розробники повинні використовувати або офіційні compressed-tensors чекпоінти для vLLM, або спеціально оптимізовані GGUF-збірки, щоб зберегти ті самі «~72% економії пам'яті з майже оригінальною якістю», які обіцяє QAT .
Загалом, вихід Gemma 4 QAT — це не просто черговий реліз, а тектонічний зсув у доступності передового ШІ. Він стирає межу між «великими хмарними обчисленнями» та «локальним, приватним і безплатним інтелектом» на вашому власному пристрої.
Comments
0 comments