Официальные чекпоинты используют схему W4A16: 4-битные целочисленные веса с 16-битными активациями, group_size равным 32 и форматом compressed-tensors . Это тот же подход, который Google документирует для инференса на vLLM, где комбинация низкоразрядных весов и высокоточных активаций позволяет сбалансировать экономию памяти и пропускную способность
.
Пять размеров моделей получили QAT-чекпоинты, а также соответствующие drafter-модели для спекулятивного декодирования. Каждая доступна в нескольких форматах (обсуждаемых ниже), и практические объемы занимаемой памяти сильно меняются при переходе от BF16 к QAT 4-bit .
| Модель | Архитектура | Активных параметров | Память BF16 | Память QAT 4-bit | Ключевое оборудование |
|---|---|---|---|---|---|
| E2B | Dense + PLE | ~2.3B эффективных (5.1B с эмбеддингами) | ~9.6 ГБ | ~3.2 ГБ (Q4_0); 1 ГБ (мобильный формат) | Смартфоны, периферийные устройства, браузеры |
| E4B | Dense + PLE | ~4.5B эффективных (8B с эмбеддингами) | ~15 ГБ | ~5 ГБ (Q4_0) | Видеокарты среднего уровня, мобильные устройства с большим объемом ОЗУ |
| 12B | Dense, унифицированная мультимодальная без энкодера | 11.95B | ~24 ГБ | ~7 ГБ (Q4_0) | Видеокарты на 8 ГБ, ноутбуки с дискретной графикой |
| 26B A4B | Mixture of Experts | ~3.8B активных (26B всего) | ~48 ГБ | ~15 ГБ (Q4_0) | Видеокарты на 12–16 ГБ, мощные рабочие станции |
| 31B | Dense | 30.7B | ~58 ГБ | ~17–18 ГБ (Q4_0) | Видеокарты на 24 ГБ (RTX 3090/4090), конфигурации с большим объемом VRAM |
Цифры по памяти основаны на официальном обзоре моделей Google и документации Unsloth, где значения Q4_0 представляют популярный уровень квантизации GGUF . Показатель в ~1 ГБ для E2B в мобильном формате — это та самая цифра, которая приковывает внимание: Google специально разработала кастомную схему с целевыми 2-битными слоями декодирования и оптимизированными KV-кэшами, чтобы достичь этого
. Для текстовых моделей без послойных эмбеддингов (Per-Layer Embeddings) объем, по сообщениям, может опускаться ниже 1 ГБ
.
Модель 26B A4B заслуживает особого внимания. Это архитектура Mixture of Experts, которая активирует только около 3.8 миллиарда параметров на каждый токен, несмотря на общее количество в 26 миллиардов. Это означает, что она демонстрирует вычислительное поведение, близкое к 4B-модели, предлагая при этом качество рассуждений, примерно сопоставимое с гораздо более крупными плотными моделями . В 4-битной форме она помещается на видеокарты с 12-16 ГБ памяти — такое оборудование уже есть у многих разработчиков
.
Google выпустила QAT-чекпоинты в четырех различных формах, и выбор формата напрямую влияет на качество :
Самая важная оговорка во всем релизе касается наивной конвертации форматов. Прямая конвертация QAT-весов в Q4_0 без надлежащей обработки может резко снизить точность. Согласно документации Unsloth, наивная конвертация 26B QAT-модели в Q4_0 достигает лишь около 70.2% точности top-1 . Их собственный метод Dynamic quantization повышает этот показатель до 85.6% — улучшение на 15.4 процентных пункта, — но суть в том, что выбор формата и методология конвертации критически важны для сохранения того качества, которое должен обеспечивать QAT
.
Для большинства пользователей официальные чекпоинты compressed-tensors или GGUF — самая безопасная отправная точка.
QAT не просто уменьшает объем памяти — он меняет ландшафт оборудования для локального ИИ-инференса. Модели, которые раньше требовали GPU для центров обработки данных, теперь могут работать на потребительском оборудовании и даже на смартфонах.
Смартфоны и периферийные устройства: E2B целенаправленно создана для мобильных платформ. Фреймворк Google LiteRT-LM может запускать E2B менее чем на 1.5 ГБ ОЗУ с 2-битной и 4-битной квантизацией, а собственное приложение Google AI Edge Gallery в Play Store позволяет пользователям выбирать и запускать E2B или E4B полностью на устройстве . Обе модели поддерживают текстовый, графический и аудиоввод — синхронный перевод речи, ответы на вопросы по изображениям и работа ассистентов на устройстве становятся реальностью без подключения к облаку
.
Видеокарты с 8 ГБ: «Золотая середина» для развертывания QAT. E2B (~3.2 ГБ), E4B (~5 ГБ) и 12B-модель (~7 ГБ) комфортно помещаются в 8 ГБ VRAM при квантизации Q4_0 . Это означает, что ноутбук среднего уровня с мобильной RTX 4060 или старый десктоп с RTX 2070 теперь может запускать унифицированную мультимодальную модель с контекстным окном в 256K — то, что раньше требовало 24 ГБ или более при 16-битной точности.
Видеокарты с 12–16 ГБ: Модель 26B A4B MoE попадает в эту категорию с примерно 15 ГБ в форме Q4_0, помещаясь на такие карты, как RTX 3080, 4070 Ti или 4080 . Ее MoE-архитектура также означает меньшую задержку инференса по сравнению с плотной моделью аналогичного размера, так как на каждый токен активируется лишь часть параметров
.
Видеокарты с 20–24 ГБ: Плотная 31B-модель требует около 17–18 ГБ при квантизации Q4_0, что делает ее доступной для владельцев RTX 3090 и 4090 с некоторым запасом для KV-кэша и размера пакета . При полной 16-битной точности этой модели требуется почти 60 ГБ — совершенно недостижимо для потребительских GPU. QAT делает самую большую модель Gemma 4 по-настоящему практичной на одной мощной потребительской карте.
Важная ремарка: Обсуждаемые здесь цифры памяти представляют собой размер весов модели, а не общее потребление VRAM. Накладные расходы времени выполнения — особенно KV-кэш для длинных контекстных окон — могут добавлять гигабайты сверху. 31B-модель с контекстом в 256K будет потреблять значительно больше памяти, чем базовый размер весов, и отзывы сообщества предполагают, что задачи с интенсивным использованием контекста могут увеличить требования до нижней границы в 20 ГБ . Всегда закладывайте дополнительный запас сверх указанного объема весов Q4_0.
Ключевое обещание QAT — производительность, близкая к оригиналу, при кардинально сокращенном объеме памяти — и бенчмарки в целом это подтверждают. Собственная документация Google описывает производительность как «близкую к оригинальной» при сокращении памяти примерно на 72%, а бенчмарки сообщества предполагают потерю качества в диапазоне 3–5% для квантизации Q4 по сравнению с BF16 .
Но дьявол кроется в деталях. Предупреждение от Unsloth о наивной конвертации — 70.2% точности top-1 на 26B-модели против 85.6% после их Dynamic-оптимизации — демонстрирует, что итоговое качество сильно зависит от того, как вы конвертируете и развертываете QAT-веса . Если вы просто возьмете QAT-чекпоинт и прогоните его через стандартный конвертер GGUF без учета особенностей QAT, вы можете не получить ожидаемого качества.
Для production-использования самый безопасный подход — использовать официальные QAT-чекпоинты Google напрямую в их формате compressed-tensors (для vLLM) или официальные файлы GGUF с Hugging Face . Если вам нужна кастомная квантизация, выходящая за рамки предоставленной Google, запланируйте время на бенчмаркинг — QAT-веса более чувствительны к методологии конвертации, чем стандартные веса после посттренировочной квантизации.
На практическом уровне этот релиз меняет ответ по умолчанию на вопрос «смогу ли я запустить эту модель локально?». Впервые крупное семейство моделей с открытыми весами поставляется с QAT-чекпоинтами как с полноправным продуктом, а не как с запоздалой мыслью. Последствия затрагивают несколько категорий приложений:
Чувствительные к приватности задачи: Медицинские, юридические и персональные ассистенты, которые раньше требовали облачного API, теперь могут полностью работать на устройстве — на ноутбуке или телефоне, — при этом QAT сохраняет достаточно качества, чтобы сделать локальный инференс по-настоящему полезным .
Автономное и периферийное развертывание: Полевые исследования, реагирование на чрезвычайные ситуации и промышленные условия без надежной связи могут развертывать мощные мультимодальные модели на стандартном оборудовании. Поддержка аудио в E2B в паре с мобильной квантизацией в 1 ГБ делает синхронный перевод речи на телефоне среднего класса практической реальностью .
Инструменты разработчика и IDE: Модели 12B и 26B помещаются на том оборудовании, которое у разработчиков уже есть, позволяя выполнять автодополнение кода, рефакторинг и генерацию документации локально, без задержек и ограничений по стоимости. Google специально позиционирует квантованные версии для «IDE, ассистентов по кодингу и агентных рабочих процессов» .
Эксперименты и файнтюнинг: Небольшие исследовательские группы и независимые разработчики, которые не могли позволить себе кластеры A100 или H100, теперь могут работать с моделями в диапазоне 12B–31B на потребительском оборудовании, резко снижая порог входа для кастомизации моделей и доменно-специфичного файнтюнинга.
Google выпустила чекпоинты под той же лицензией Apache 2.0, что и базовые модели Gemma 4, и они уже доступны на Hugging Face для всех пяти размеров .
Comments
0 comments