Один из количественных анализов, опубликованный пользователем u/tadanada на Reddit, прямо указывал на инфляцию затрат, сравнивая прогон бенчмарков за $1,552 для Gemini 3.5 Flash против $278 для Gemini 3 Flash — разница в 5,6 раз, которая наглядно объясняла, почему платные тарифы рушились так быстро .
Реакция Google прошла в две волны:
high на medium Но даже девятикратного увеличения квот оказалось недостаточно. Некоторые разработчики сообщали, что упирались в недельный лимит Flash уже через 30 минут после возобновления работы .
Gemini 3.5 Flash Low — это более тонкое решение: вместо того чтобы просто дать разработчикам больше сырой квоты (решение со стороны «предложения»), им дали способ расходовать меньше токенов на каждую задачу (контроль со стороны «спроса»).
Официальная документация Google описывает вариант Low как «значительно улучшенный для кода и агентных задач, требующих меньшего числа шагов, обеспечивающий высокое качество при меньшей задержке и стоимости» . Компания утверждает, что вариант Low генерирует примерно на 45% меньше выходных токенов, чем переименованный теперь вариант Medium
.
Для разработчиков это означает, что теперь можно явно указывать thinking_level: "low".
По сути, это даёт разработчикам четырёхступенчатую шкалу усилий на рассуждение — minimal, low, medium, high — вместо бинарного выбора между «мышление включено» и «мышление выключено» .
Одной из главных ловушек API при запуске Gemini 3.5 Flash стало необъявленное изменение уровня thinking_level по умолчанию с high на medium. Разработчики, которые напрямую портировали код с gemini-3-flash-preview, не задавая явно уровень мышления, незаметно для себя получали иное поведение рассуждений . Это означало, что даже после выхода варианта Low многие всё ещё использовали больше токенов, чем нужно для простых задач, потому что не заметили смены умолчания.
Вариант Low по сути завершает исправление: он даёт разработчикам явный, документированный и целенаправленно созданный уровень для той работы, чувствительной к затратам, для которой семейство Flash изначально и проектировалось.
Выпуск Gemini 3.5 Flash Low, вкупе с девятикратным увеличением квот и корректировкой уровня мышления по умолчанию, стабилизировал опыт использования Antigravity. Теперь разработчики могут:
thinking_level: "low"Вариант Low не заменяет собой увеличение квот от Google — это дополнение. Разработчики, которые используют и новый уровень мышления, и расширенные в 9 раз квоты, теперь могут продуктивно работать над серьёзными сессиями программирования, не упираясь в лимиты и не сжигая свой месячный бюджет на Antigravity за один день.
Comments
0 comments