RespuestasPublicadohace 2 mesesLast edited el mes pasado25 fuentes

Por qué Google lanzó Gemini 3.5 Flash Low y cómo resuelve silenciosamente una pesadilla para desarrolladores

Gemini 3.5 Flash Low es la respuesta de Google a una revuelta de desarrolladores por el consumo de tokens: el comportamiento de razonamiento por defecto agotaba las cuotas en menos de una hora y ejecutaba tareas con u... La variante Low reduce la producción de tokens en aproximadamente un 45 % en comparación con la...

Buscar y verificar hechos con Studio Global AI Explora más páginas en tendencia

Google Gemini 3.5 Flash model configuration interface showing thinking level options with the Low variant highlighted — What prompted Google to introduce the "Low" thinking level in Gemini 3.5 Flash on Antigravity, and how does this change address developer frGoogle's Gemini 3.5 Flash now offers four thinking levels—including the new Low variant—giving developers direct control over token consumption and cost per task.
Prompt de IA
Create a landscape editorial hero image for this Studio Global article: What prompted Google to introduce the "Low" thinking level in Gemini 3.5 Flash on Antigravity, and how does this change address developer fr. Article summary: Google introduced the **Gemini 3.5 Flash (Low)** thinking level in Antigravity in direct response to a firestorm of developer backlash triggered by the model's launch at I/O 2026 on May 19. The core problem: Gemini 3.5 F. Topic tags: general, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "Product naming/UX confusion around Gemini CLI vs Antigravity CLI and broader interface design criticism (zachtratar, kchonyc, teortaxesTex). ## Gemini 3.5 Flash: the main technica" source context "[AINews] Google I/O 2026: Gemini 3.5 Flash, Omni (NanoBanana for ..." Reference image 2: visual subject "4M views • 6
openai.com

Cuando Google presentó Gemini 3.5 Flash en el I/O 2026 el 19 de mayo, lo promocionó como su modelo agéntico y de programación más potente hasta la fecha . Lo que siguió fue una semana de furia de los desarrolladores, cambios de emergencia en las cuotas y un giro silencioso del producto que reescribió la forma en que el modelo razona.

El problema central: el comportamiento de razonamiento predeterminado de Gemini 3.5 Flash quemaba tokens tan agresivamente que los usuarios de pago de Antigravity agotaban sus cuotas en menos de una hora . A pesar de un precio por token que parecía competitivo en el papel —1,50 $ por millón de tokens de entrada y 9,00 $ por millón de tokens de salida— el costo total para completar tareas reales era otra historia. Artificial Analysis descubrió que ejecutar un conjunto de pruebas de referencia estándar costaba 1.552 $ con Gemini 3.5 Flash, en comparación con 282 $ del anterior Gemini 3 Flash —un aumento de 5,5 veces .

La reacción que forzó a Google a actuar

La frustración de los desarrolladores estalló casi de inmediato. El foro de Antigravity, Reddit y X se llenaron de quejas sobre el consumo extremo de cuotas . Los desarrolladores que pagaban por el plan Pro de Antigravity informaron que sus cuotas, que antes duraban un día entero de trabajo, desaparecían en 30 a 60 minutos tras cambiar a Gemini 3.5 Flash .

Un análisis cuantificado publicado en Reddit por u/tadanada denunció explícitamente la inflación de costos, comparando una ejecución de referencia de 1.552 $ para Gemini 3.5 Flash contra 278 $ para Gemini 3 Flash —una diferencia de 5,6 veces que explicaba por qué los planes de pago colapsaban tan rápido .

La respuesta de Google llegó en dos oleadas:

21 de mayo: Varun Mohan, miembro principal del equipo de Antigravity, reconoció públicamente los errores y triplicó todas las cuotas de Gemini de pago, restableciendo el uso semanal .
Días después: Google triplicó las cuotas una segunda vez —un aumento acumulado de 9 veces— y cambió el nivel de razonamiento predeterminado de high a medium .

Incluso el aumento de cuota de 9x no resolvió completamente el problema. Algunos desarrolladores informaron que alcanzaron el bloqueo semanal de Flash a los 30 minutos de reanudar el trabajo tras el reinicio de la cuota .

Exactamente lo que cambia el nivel de razonamiento Low

Gemini 3.5 Flash Low representa una solución más precisa: en lugar de simplemente dar a los desarrolladores más cuota bruta (una tirita por el lado de la oferta), les dio una forma de usar menos tokens por tarea (un control por el lado de la demanda).

La documentación oficial de Google describe la variante Low como "significativamente mejorada para tareas de código y agentes que requieren menos pasos, ofreciendo una gran calidad con menor latencia y costo" . La compañía afirma que la variante Low genera aproximadamente un 45 % menos de tokens de salida que la variante ahora renombrada como Medium .

Para los desarrolladores, esto significa que ahora pueden establecer


thinking_level: "low"

explícitamente en sus llamadas a la API para generación de código sencilla, completados simples o bucles de agentes ligeros, y reservar presupuestos de razonamiento más altos para tareas de razonamiento genuinamente complejas .

Esto efectivamente da a los desarrolladores un dial de cuatro niveles para el esfuerzo de razonamiento —minimal, low, medium, high— en lugar de una elección binaria entre "razonamiento activado" y "razonamiento desactivado" .

El cambio silencioso que la mayoría de los desarrolladores no notó

Una de las mayores trampas de la API en el lanzamiento de Gemini 3.5 Flash fue el cambio no anunciado del thinking_level predeterminado de high a medium. Los desarrolladores que migraron directamente desde gemini-3-flash-preview sin establecer explícitamente un nivel de razonamiento estaban obteniendo, sin saberlo, un comportamiento de razonamiento diferente . Esto significó que, incluso después del lanzamiento de la variante Low, muchos desarrolladores seguían usando más tokens de los necesarios para tareas simples porque no se habían dado cuenta de que el valor predeterminado había cambiado.

La variante Low completa la solución al dar a los desarrolladores un nivel explícito, documentado y diseñado específicamente para el tipo de trabajo sensible a los costos para el que se diseñó originalmente la familia Flash.

Lo que esto significa para los desarrolladores ahora

El despliegue de Gemini 3.5 Flash Low, combinado con los aumentos de cuota de 9x y el ajuste del nivel de razonamiento predeterminado, ha estabilizado la experiencia de desarrollo en Antigravity. Los desarrolladores ahora pueden:

Usar
```
thinking_level: "low"
```
para la programación diaria, diseños de Bootstrap y lógica PHP que no necesitan un razonamiento profundo .
Reservar los modos de razonamiento Medium o High para la ejecución autónoma de múltiples archivos o bucles agénticos complejos.
Hacer un seguimiento de sus costos por tarea de manera más predecible, ya que el consumo de tokens para tareas simples ahora se acerca más a lo que los modelos Flash ofrecían históricamente.

La variante Low no es un reemplazo de los aumentos de cuota de Google, sino un complemento. Los desarrolladores que utilizan tanto el nuevo nivel de razonamiento como las cuotas ampliadas en 9x ahora pueden trabajar en sesiones de programación significativas sin alcanzar los límites o agotar sus presupuestos mensuales de Antigravity en una tarde.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Buscar y verificar hechos con Studio Global AI

La gente también pregunta

¿Cuál es la respuesta corta a "Por qué Google lanzó Gemini 3.5 Flash Low y cómo resuelve silenciosamente una pesadilla para desarrolladores"?

¿Cuáles son los puntos clave a validar primero?

¿Qué debo hacer a continuación en la práctica?

Esta función llegó junto con dos aumentos de emergencia de cuotas de 9x y un cambio silencioso del nivel de razonamiento predeterminado de 'high' a 'medium', todo en la misma semana después del lanzamiento en el I/O 2...

Fuentes

← Back to Trending