此次延遲源於早期測試中發現的效能品質問題,而非安全或基礎設施方面的問題 。根據 Business Insider 報導,Google 正利用這段額外的時間,收集早期測試者的回饋,並根據真實世界的商業使用案例來調整模型
。社群媒體上的傳聞指出,早期測試者回報模型「在處理困難任務時會偷懶」,促使 Google 推遲發布,並可能推出包含 200 萬 token 記憶體與 Deep Think 推理模式等改進的版本
。
Pichai 在 I/O 大會上的宣布從一開始就設下了不佳的期望。他在台上說:「我知道你們等不及想用。給我們到(下個月)把它交到你們手上」。當時並未說明模型尚未準備好的具體原因
。隨後,六月的截止日期在沒有任何官方解釋的情況下流失,給人一種「打破承諾」的印象
。
Google 宣稱 3.5 Flash 的輸出 token 每秒處理速度約為其他前沿模型的 4 倍 。API 定價約為每百萬個輸入 token 1.50 美元、每百萬個輸出 token 9 美元,輸入成本比 Gemini 3.1 Pro 便宜約 40%
。
在 15 項已公布的評測中,Gemini 3.5 Flash 在 11 項上打敗了 Gemini 3.1 Pro 。不過,在 Humanity's Last Exam(40.2% 對比 44.4%)和 ARC-AGI-2(72.1% 對比 77.1%)等純推理評測中,它仍落後於 Pro 模型,因此並非在所有面向都是全面升級
。
開發者們對 Google 的溝通方式和發布節奏提出了嚴厲批評。
當 Gemini 3.5 Pro 最終推出時,預計將補足 Flash 仍存在的推理能力差距。已確認的功能包括 200 萬 token 的上下文窗口(Context Window)——這是所有量產模型中最高的——以及一個 Deep Think 推理模式 。定價預計與 Flash 層級相似,約為每百萬輸入 token 1.50 美元、每百萬輸出 token 9 美元
。
對於開發者來說,這次延遲雖然令人沮喪,但最終可能會造就一個更強大的產品。然而,Google 在做出堅定的「下個月」承諾後,又陷入沉默,這無疑加劇了在競爭對手穩定發布新產品的背景下,開發者的不滿情緒。
結論: 這次延期關乎的是效能品質,而非安全或基礎設施。與此同時,Gemini 3.5 Flash 已經是針對生產環境代理任務的最佳選擇——它是一款極具成本效益的替代方案,在開發者最重視的評測指標上,超越了去年的 Pro 模型。
Comments
0 comments