Reddit 用戶 u/tadanada 仲出咗個量化分析帖,明確指出成本膨脹嘅問題,比較 Gemini 3.5 Flash 跑基準要 1,552 美元,而 Gemini 3 Flash 只係 278 美元——呢個 5.6 倍嘅差異就解釋到點解啲付費 Plan 死得咁快 。
Google 嘅回應分咗兩波:
Gemini 3.5 Flash Low 代表一個更加精準嘅修復:唔再係單方面畀開發者更多配額(一種「供應端」嘅止血貼),而係畀佢哋一個方法去減少每個 Task 用嘅 Token 數量(一種「需求端」嘅控制)。
根據 Google 嘅官方文件,呢個 Low 變體係「為咗需要較少步驟嘅編程同代理任務而大幅改進咗,可以用更低嘅延遲同成本,提供強勁嘅品質」。公司仲話,相比起而家改咗名叫 Medium 嘅版本,Low 變體產生嘅輸出 Token 大約少咗 45%
。
對開發者嚟講,即係佢哋而家可以喺 API 呼叫入面明確咁設定 thinking_level: "low"。
Gemini 3.5 Flash 發布其中一個最大嘅 API 陷阱,就係冇事先聲明之下,將預設嘅 thinking_level 由 high 轉咗做 medium。啲開發者由 gemini-3-flash-preview 直接移植程式碼過嚟,又冇特別設定思考等級嘅話,就會喺神不知鬼不覺嘅情況下,得到唔同咗嘅推理行為 。即係話,就算 Low 模式出咗街,好多開發者做簡單 Task 嗰陣都仲係用緊多過實際需要嘅 Token,因為佢哋冇留意到個預設值已經變咗。
Low 變體可以話係完成咗呢個修復:佢畀咗開發者一個明確、有文件記錄、專門為嗰種對成本好敏感嘅工作而設嘅模式,而呢種工作正正係 Flash 系列本嚟設計嚟做嘅嘢。
Gemini 3.5 Flash Low 嘅推出,加上 9 倍配額提升同預設思考等級嘅調整,令到 Antigravity 嘅開發者體驗終於穩定落嚟。開發者而家可以:
Low 變體並唔係要取代 Google 嘅配額增加——而係一個補充。開發者只要同時用新嘅思考等級同嗰 9 倍配額,就可以進行有意義嘅編碼工作,唔使再成日撞限額,或者一個下午就燒晒成個月嘅 Antigravity 預算。
Comments
0 comments