Un análisis cuantificado publicado en Reddit por u/tadanada denunció explícitamente la inflación de costos, comparando una ejecución de referencia de 1.552 $ para Gemini 3.5 Flash contra 278 $ para Gemini 3 Flash —una diferencia de 5,6 veces que explicaba por qué los planes de pago colapsaban tan rápido .
La respuesta de Google llegó en dos oleadas:
high a medium Incluso el aumento de cuota de 9x no resolvió completamente el problema. Algunos desarrolladores informaron que alcanzaron el bloqueo semanal de Flash a los 30 minutos de reanudar el trabajo tras el reinicio de la cuota .
Gemini 3.5 Flash Low representa una solución más precisa: en lugar de simplemente dar a los desarrolladores más cuota bruta (una tirita por el lado de la oferta), les dio una forma de usar menos tokens por tarea (un control por el lado de la demanda).
La documentación oficial de Google describe la variante Low como "significativamente mejorada para tareas de código y agentes que requieren menos pasos, ofreciendo una gran calidad con menor latencia y costo" . La compañía afirma que la variante Low genera aproximadamente un 45 % menos de tokens de salida que la variante ahora renombrada como Medium
.
Para los desarrolladores, esto significa que ahora pueden establecer thinking_level: "low".
Esto efectivamente da a los desarrolladores un dial de cuatro niveles para el esfuerzo de razonamiento —minimal, low, medium, high— en lugar de una elección binaria entre "razonamiento activado" y "razonamiento desactivado" .
Una de las mayores trampas de la API en el lanzamiento de Gemini 3.5 Flash fue el cambio no anunciado del thinking_level predeterminado de high a medium. Los desarrolladores que migraron directamente desde gemini-3-flash-preview sin establecer explícitamente un nivel de razonamiento estaban obteniendo, sin saberlo, un comportamiento de razonamiento diferente . Esto significó que, incluso después del lanzamiento de la variante Low, muchos desarrolladores seguían usando más tokens de los necesarios para tareas simples porque no se habían dado cuenta de que el valor predeterminado había cambiado.
La variante Low completa la solución al dar a los desarrolladores un nivel explícito, documentado y diseñado específicamente para el tipo de trabajo sensible a los costos para el que se diseñó originalmente la familia Flash.
El despliegue de Gemini 3.5 Flash Low, combinado con los aumentos de cuota de 9x y el ajuste del nivel de razonamiento predeterminado, ha estabilizado la experiencia de desarrollo en Antigravity. Los desarrolladores ahora pueden:
thinking_level: "low"La variante Low no es un reemplazo de los aumentos de cuota de Google, sino un complemento. Los desarrolladores que utilizan tanto el nuevo nivel de razonamiento como las cuotas ampliadas en 9x ahora pueden trabajar en sesiones de programación significativas sin alcanzar los límites o agotar sus presupuestos mensuales de Antigravity en una tarde.
Comments
0 comments