Eine quantitative Analyse, die auf Reddit von u/tadanada veröffentlicht wurde, prangerte die Kosteninflation explizit an und verglich einen Benchmark-Durchlauf für 1.552 $ bei Gemini 3.5 Flash mit 278 $ bei Gemini 3 Flash – ein Kostenunterschied von 560 %, der erklärte, warum die kostenpflichtigen Pläne so schnell zusammenbrachen .
Googles Antwort erfolgte in zwei Wellen:
hoch auf mittel Selbst die 9-fache Erhöhung der Kontingente löste das Problem nicht vollständig. Einige Entwickler berichteten, dass sie ihre wöchentliche Flash-Sperre bereits nach 30 Minuten Arbeitszeit nach dem Kontingent-Reset erreichten .
Gemini 3.5 Flash Low stellt einen präziseren Eingriff dar: Anstatt den Entwicklern einfach nur mehr rohes Kontingent zu geben (ein angebotsseitiges Pflaster), erhielten sie eine Möglichkeit, weniger Token pro Aufgabe zu verbrauchen (eine nachfrageseitige Kontrolle).
Die offizielle Dokumentation von Google beschreibt die Low-Variante als „deutlich verbessert für Code- und agentenbasierte Aufgaben, die weniger Schritte erfordern, und bietet starke Qualität bei geringerer Latenz und niedrigeren Kosten“ . Das Unternehmen gibt an, dass die Low-Variante etwa 45 % weniger Ausgabe-Token generiert als die nun in Medium umbenannte Variante
.
Für Entwickler bedeutet dies, dass sie nun explizit thinking_level: "low".
Dies gibt Entwicklern effektiv eine vierstufige Steuerung für den Denkaufwand – minimal, niedrig, mittel, hoch – anstelle einer binären Wahl zwischen "Denken an" und "Denken aus" .
Eine der größten API-Fallen beim Start von Gemini 3.5 Flash war die nicht angekündigte Änderung des standardmäßigen thinking_level von hoch auf mittel. Entwickler, die direkt von gemini-3-flash-preview migrierten, ohne explizit ein Denkniveau festzulegen, erhielten stillschweigend ein anderes Denkverhalten . Dies bedeutete, dass selbst nach der Einführung der Low-Variante viele Entwickler für einfache Aufgaben immer noch mehr Token als nötig verbrauchten, weil sie nicht bemerkt hatten, dass der Standardwert sich verschoben hatte.
Die Low-Variante vervollständigt die Lösung im Grunde: Sie gibt Entwicklern ein explizites, dokumentiertes und zweckgebundenes Niveau für die Art von kostenkritischer Arbeit, für die die Flash-Familie ursprünglich entwickelt wurde.
Die Einführung von Gemini 3.5 Flash Low, kombiniert mit der 9-fachen Kontingenterhöhung und der Anpassung des Standard-Denkniveaus, hat die Erfahrung der Antigravity-Entwickler stabilisiert. Entwickler können jetzt:
thinking_level: "low"Die Low-Variante ist kein Ersatz für Googles Kontingenterhöhungen – sie ist eine Ergänzung. Entwickler, die sowohl das neue Denkniveau als auch die um das 9-Fache erweiterten Kontingente nutzen, können jetzt sinnvolle Programmiersitzungen durchführen, ohne an Grenzen zu stoßen oder ihre monatlichen Antigravity-Budgets an einem Nachmittag zu verbrauchen.
Comments
0 comments