RespuestasPublicadohace 4 díasLast edited anteayer30 fuentes

Gemma 4 con QAT: Cómo Google logró que modelos de 31B funcionen en tu tarjeta gráfica y en móviles de 1 GB

Los checkpoints de Entrenamiento Consciente de Cuantización (QAT) de Google para Gemma 4 reducen la memoria en 72 %, permitiendo que un modelo de 31B corra en una sola GPU de consumo y que el modelo E2B ocupe solo 1 G... Hay cinco tamaños disponibles: E2B, E4B, 12B, 26B A4B (mezcla de expertos) y 31B.

Buscar y verificar hechos con Studio Global AI Explora más páginas en tendencia

281K0

Google Gemma 4 QAT model compression unlocking mobile and consumer GPU deployment illustrated as a large neural network being compressed efficiently into a smartphone. — What are the key details of Google's June 4 release of Gemma 4 QAT models, including their quantization approach, supported model sizes andGoogle's QAT checkpoints compress Gemma 4 models by roughly 72%, enabling deployment on hardware from smartphones to consumer GPUs.
Prompt de IA
Create a landscape editorial hero image for this Studio Global article: What are the key details of Google's June 4 release of Gemma 4 QAT models, including their quantization approach, supported model sizes and. Article summary: Google provides official Quantization-Aware Training (QAT) checkpoints for Gemma 4, and the Gemma 4 lineup includes E2B, E4B, 12B, 26B A4B, and 31B sizes [1][4][5]. Here are the key details.. Topic tags: general, documentation, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "# What Is Google Gemma 4? Google Gemma 4 is the most capable open model family from DeepMind yet, shipping four sizes under Apache 2.0 with multimodal input, native reasoning, and" source context "What Is Google Gemma 4? Architecture, Benchmarks, and Why It ..." Reference image 2: visual subject "# What Is Google Gemma 4? Google
openai.com

Google ha lanzado los puntos de control oficiales de Entrenamiento Consciente de Cuantización (QAT, por sus siglas en inglés) para toda la familia Gemma 4, un movimiento que cambia radicalmente dónde pueden ejecutarse estos modelos. En lugar de tomar un modelo de 16 bits ya terminado y comprimirlo después —un proceso que normalmente degrada la calidad—, el QAT simula la cuantización durante el propio entrenamiento. El modelo aprende a compensar la pérdida de precisión, de modo que el despliegue final en 4 bits mantiene un rendimiento muy cercano al original a la vez que reduce el uso de memoria en aproximadamente un 72 % .

Este lanzamiento cubre cinco tamaños de parámetros e introduce un nuevo formato de cuantización específico para móviles que lleva los límites aún más lejos. Para los desarrolladores e investigadores que han estado observando los grandes modelos desde lejos por las limitaciones de hardware, las implicaciones prácticas son inmediatas.

Por qué el QAT importa más que la cuantización estándar

La Cuantización Post-Entrenamiento (PTQ) estándar toma un modelo completamente entrenado y convierte sus pesos a una precisión más baja —por ejemplo, de bfloat16 a int4—. El problema es que el modelo nunca fue entrenado para operar con esa precisión, y la calidad a menudo se degrada notablemente .

El QAT integra la simulación de la cuantización directamente en el ciclo de entrenamiento. El modelo "ve" los valores cuantizados durante las pasadas hacia adelante y hacia atrás, por lo que aprende a ser robusto a la representación numérica más estrecha. El resultado es un modelo que ofrece un "rendimiento casi original" en su forma de 4 bits, en lugar de una versión degradada de su yo de 16 bits .

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Buscar y verificar hechos con Studio Global AI

La gente también pregunta

¿Cuál es la respuesta corta a "Gemma 4 con QAT: Cómo Google logró que modelos de 31B funcionen en tu tarjeta gráfica y en móviles de 1 GB"?

¿Cuáles son los puntos clave a validar primero?

¿Qué debo hacer a continuación en la práctica?

En la práctica, esto significa modelos de 12B en GPUs de 8 GB, el MoE de 26B en tarjetas de 16 GB, y el 31B completo en 18 20 GB.

Fuentes

Comments

0 comments

Loading comments...

Modelo	Arquitectura	Parámetros Activos	Memoria BF16	Memoria QAT 4-bit	Hardware Clave
E2B	Denso + PLE	~2.3B efectivos (5.1B con embeddings)	~9.6 GB	~3.2 GB (Q4_0); 1 GB (formato móvil)	Smartphones, edge, navegadores
E4B	Denso + PLE	~4.5B efectivos (8B con embeddings)	~15 GB	~5 GB (Q4_0)	GPUs de gama media, móviles con más RAM
12B	Denso, multimodal unificado sin codificador	11.95B	~24 GB	~7 GB (Q4_0)	GPUs de 8 GB, portátiles con gráficos dedicados
26B A4B	Mezcla de Expertos (MoE)	~3.8B activos (26B totales)	~48 GB	~15 GB (Q4_0)	GPUs de 12–16 GB, estaciones de trabajo de gama alta
31B	Denso	30.7B	~58 GB	~17–18 GB (Q4_0)	GPUs de 24 GB (RTX 3090/4090), mucha VRAM

Gemma 4 con QAT: Cómo Google logró que modelos de 31B funcionen en tu tarjeta gráfica y en móviles de 1 GB

Por qué el QAT importa más que la cuantización estándar

Search, cite, and publish your own answer

La gente también pregunta

¿Cuál es la respuesta corta a "Gemma 4 con QAT: Cómo Google logró que modelos de 31B funcionen en tu tarjeta gráfica y en móviles de 1 GB"?

¿Cuáles son los puntos clave a validar primero?

¿Qué debo hacer a continuación en la práctica?

Fuentes

Comments

La familia completa de modelos Gemma 4 QAT

Formatos de despliegue: elige con cuidado

¿Qué hardware puede realmente ejecutar estos modelos?

Preservación de la calidad y límites prácticos

Lo que este lanzamiento desbloquea