ОтветыОпубликовано4 дня назадLast edited позавчера30 источники

Gemma 4 QAT: как запустить 31B-модели на домашних ПК и смартфонах с 1 ГБ ОЗУ

Новые чекпоинты Gemma 4 с обучением с учетом квантизации (QAT) от Google сокращают использование памяти примерно на 72% по сравнению с 16 битной точностью, позволяя запускать 31B модели на одной потребительской видеок... Доступно пять размеров моделей — E2B, E4B, 12B, 26B A4B (MoE) и 31B — с форматами развертывания,...

Искать и проверять факты с Studio Global AI Смотреть больше популярных страниц

281K0

Google Gemma 4 QAT model compression unlocking mobile and consumer GPU deployment illustrated as a large neural network being compressed efficiently into a smartphone. — What are the key details of Google's June 4 release of Gemma 4 QAT models, including their quantization approach, supported model sizes andGoogle's QAT checkpoints compress Gemma 4 models by roughly 72%, enabling deployment on hardware from smartphones to consumer GPUs.
Промпт ИИ
Create a landscape editorial hero image for this Studio Global article: What are the key details of Google's June 4 release of Gemma 4 QAT models, including their quantization approach, supported model sizes and. Article summary: Google provides official Quantization-Aware Training (QAT) checkpoints for Gemma 4, and the Gemma 4 lineup includes E2B, E4B, 12B, 26B A4B, and 31B sizes [1][4][5]. Here are the key details.. Topic tags: general, documentation, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "# What Is Google Gemma 4? Google Gemma 4 is the most capable open model family from DeepMind yet, shipping four sizes under Apache 2.0 with multimodal input, native reasoning, and" source context "What Is Google Gemma 4? Architecture, Benchmarks, and Why It ..." Reference image 2: visual subject "# What Is Google Gemma 4? Google
openai.com

Google выпустила официальные чекпоинты с обучением с учетом квантизации (Quantization-Aware Training, QAT) для всего семейства Gemma 4, и это фундаментально меняет представление о том, где могут работать эти модели. Вместо того чтобы сжимать готовую 16-битную модель постфактум — процесс, который обычно ухудшает качество, — QAT имитирует квантизацию прямо во время обучения. Модель учится компенсировать потерю точности, так что финальная 4-битная версия сохраняет производительность, очень близкую к оригиналу, сокращая потребление памяти примерно на 72% .

Релиз охватывает пять размеров моделей и представляет новый формат квантизации, специально разработанный для мобильных устройств, который раздвигает границы возможного еще дальше. Для разработчиков и исследователей, которые до сих пор наблюдали за большими моделями со стороны из-за аппаратных ограничений, практические последствия наступают немедленно.

Почему QAT важнее обычной квантизации

Стандартная посттренировочная квантизация (Post-Training Quantization, PTQ) берет полностью обученную модель и преобразует ее веса в более низкую точность — например, из bfloat16 в int4. Проблема в том, что модель никогда не обучалась работать с такой точностью, и качество часто заметно падает .

QAT встраивает симуляцию квантизации непосредственно в цикл обучения. Модель взаимодействует с квантованными значениями как при прямом, так и при обратном распространении ошибки, поэтому она учится быть устойчивой к более узкому представлению чисел. В результате получается 4-битная модель, обеспечивающая «производительность, близкую к оригинальной», а не ухудшенную версию ее 16-битного «я» .

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Люди также спрашивают

Каков краткий ответ на вопрос «Gemma 4 QAT: как запустить 31B-модели на домашних ПК и смартфонах с 1 ГБ ОЗУ»?

Какие ключевые моменты необходимо проверить в первую очередь?

Что мне делать дальше на практике?

На практике это означает запуск 12B моделей на видеокартах с 8 ГБ, 26B MoE — на 16 ГБ, а флагманской 31B — на картах от 18–20 ГБ; мобильный формат открывает дорогу для работы ИИ прямо на устройстве через LiteRT LM [18...

Источники

Comments

0 comments

Loading comments...

Модель	Архитектура	Активных параметров	Память BF16	Память QAT 4-bit	Ключевое оборудование
E2B	Dense + PLE	~2.3B эффективных (5.1B с эмбеддингами)	~9.6 ГБ	~3.2 ГБ (Q4_0); 1 ГБ (мобильный формат)	Смартфоны, периферийные устройства, браузеры
E4B	Dense + PLE	~4.5B эффективных (8B с эмбеддингами)	~15 ГБ	~5 ГБ (Q4_0)	Видеокарты среднего уровня, мобильные устройства с большим объемом ОЗУ
12B	Dense, унифицированная мультимодальная без энкодера	11.95B	~24 ГБ	~7 ГБ (Q4_0)	Видеокарты на 8 ГБ, ноутбуки с дискретной графикой
26B A4B	Mixture of Experts	~3.8B активных (26B всего)	~48 ГБ	~15 ГБ (Q4_0)	Видеокарты на 12–16 ГБ, мощные рабочие станции
31B	Dense	30.7B	~58 ГБ	~17–18 ГБ (Q4_0)	Видеокарты на 24 ГБ (RTX 3090/4090), конфигурации с большим объемом VRAM

Gemma 4 QAT: как запустить 31B-модели на домашних ПК и смартфонах с 1 ГБ ОЗУ

Почему QAT важнее обычной квантизации

Search, cite, and publish your own answer

Люди также спрашивают

Каков краткий ответ на вопрос «Gemma 4 QAT: как запустить 31B-модели на домашних ПК и смартфонах с 1 ГБ ОЗУ»?

Какие ключевые моменты необходимо проверить в первую очередь?

Что мне делать дальше на практике?

Источники

Comments

Полный состав моделей Gemma 4 QAT

Форматы развертывания: выбирайте с умом

Какое оборудование реально может запускать эти модели?

Сохранение качества и практические ограничения

Что открывает этот релиз