u/tadanadaがRedditに投稿した定量的な分析は、このコスト増を明確に批判していた。Gemini 3.5 Flashのベンチマーク実行コスト1,552ドルを、Gemini 3 Flashの278ドルと比較し、その5.6倍もの差こそが、有料プランがあっという間に崩壊する原因だと指摘したのだ 。
Googleの対応は二段階で行われた。
Gemini 3.5 Flash Lowは、より外科的な修正を意味する。つまり、開発者に単純にクオータを与える(供給側のバンドエイド)のではなく、タスクごとのトークン消費そのものを減らす手段(要求側の制御)を提供したのだ。
Googleの公式ドキュメントでは、Lowバリアントは「より少ないステップで済むコードやエージェントタスク向けに大幅に改善され、低レイテンシと低コストで高い品質を提供する」と説明されている 。また、このバリアントは、Mediumと改名された元のバリアントに比べ、出力トークンを約45%削減するという
。
開発者にとって、これは何を意味するのか。簡単なコード生成や、軽量なエージェントループのような処理では、API呼び出しで明示的にthinking_level: "low"。
これにより、開発者は思考努力を4段階(minimal, low, medium, high)で調整できるダイヤルを手に入れた。それは、「考える」か「考えないか」という二者択一の世界からの完全な脱却だった 。
Gemini 3.5 FlashのAPIで最大の罠の一つは、アナウンスもなく、デフォルトのthinking_levelがhighからmediumに変更されていたことだ。gemini-3-flash-previewからコードをそのまま移植し、思考レベルを明示的に設定しなかった開発者は、知らぬ間に異なる推論挙動のモデルを使わされていた 。これはつまり、Lowバリアントが登場した後でさえ、多くの開発者がデフォルト変更に気づかず、単純なタスクに必要以上のトークンを消費し続けていたということを示している。
Lowバリアントは、この一連の修正を完成させる最後のピースと言える。Flashファミリーが本来設計された目的である「コスト重視のワークロード」のために、明示的でドキュメント化された専用のレベルを、開発者の手に届けたのだ。
Gemini 3.5 Flash Lowの登場は、クオータの9倍増加やデフォルト思考レベルの調整と相まって、Antigravityの開発体験をようやく安定させた。今、開発者は次のようなことができる。
Lowバリアントは、Googleが行ったクオータ増加の代わりではない。それは補完関係にある。新しい思考レベルと9倍に拡大されたクオータの両方を使いこなすことで、開発者はようやく、昼食の間に月間のAntigravity予算を使い果たすことなく、意味のあるコーディングセッションを再開できるようになったのだ。
Comments
0 comments