Sebuah analisis terukur yang diposting di Reddit oleh u/tadanada secara eksplisit menyoroti inflasi biaya ini, membandingkan biaya tolok ukur $1.552 untuk Gemini 3.5 Flash dengan $278 untuk Gemini 3 Flash—perbedaan 5,6 kali lipat yang menjelaskan mengapa paket berbayar jebol begitu cepat .
Respons Google datang dalam dua gelombang:
high menjadi medium Bahkan peningkatan kuota 9x pun tidak sepenuhnya menyelesaikan masalah. Beberapa developer melaporkan bahwa mereka masih terkena penguncian Flash mingguan dalam waktu 30 menit setelah kembali bekerja pasca reset kuota .
Gemini 3.5 Flash Low merepresentasikan perbaikan yang lebih presisi: alih-alih hanya memberi developer lebih banyak kuota mentah (solusi dari sisi suplai), ia memberi mereka cara untuk menggunakan lebih sedikit token per tugas (kontrol dari sisi permintaan).
Dokumentasi resmi Google menggambarkan varian Low sebagai telah "ditingkatkan secara signifikan untuk tugas kode dan agen yang memerlukan lebih sedikit langkah, menawarkan kualitas kuat dengan latensi dan biaya lebih rendah" . Perusahaan menyatakan bahwa varian Low menghasilkan sekitar 45% lebih sedikit token keluaran daripada varian yang sekarang dinamai ulang menjadi Medium
.
Bagi para developer, ini berarti mereka sekarang dapat mengatur thinking_level: "low".
Ini secara efektif memberi developer sebuah pengatur empat tingkat untuk upaya penalaran—minimal, low, medium, high—bukan pilihan biner antara "thinking on" dan "thinking off" .
Salah satu jebakan API terbesar dalam peluncuran Gemini 3.5 Flash adalah perubahan yang tidak diumumkan pada thinking_level default dari high ke medium. Developer yang mem-port kode langsung dari gemini-3-flash-preview tanpa secara eksplisit mengatur tingkat berpikir, secara diam-diam mendapatkan perilaku penalaran yang berbeda . Ini berarti bahwa bahkan setelah varian Low dikirimkan, banyak developer masih menggunakan lebih banyak token daripada yang diperlukan untuk tugas-tugas sederhana karena mereka tidak menyadari bahwa default-nya telah bergeser.
Varian Low pada dasarnya melengkapi perbaikannya: ia memberi developer sebuah tingkat yang eksplisit, terdokumentasi, dan dibuat khusus untuk jenis pekerjaan yang sensitif terhadap biaya, yang memang menjadi tujuan awal desain keluarga Flash.
Peluncuran Gemini 3.5 Flash Low, dikombinasikan dengan peningkatan kuota 9x dan penyesuaian tingkat berpikir default, telah menstabilkan pengalaman developer Antigravity. Developer sekarang dapat:
thinking_level: "low"Varian Low bukanlah pengganti peningkatan kuota Google—melainkan sebuah pelengkap. Developer yang menggunakan tingkat berpikir baru dan kuota yang diperluas 9x sekarang dapat menjalani sesi koding yang bermakna tanpa menabrak batasan atau menghabiskan anggaran bulanan Antigravity mereka dalam satu sore.
Comments
0 comments