延遲係因為早期測試發現表現品質問題,唔關安全或基建事 。Business Insider 引述消息人士話,Google 用多咗時間收集早期測試者嘅反饋,再根據真實商業用例調整模型
。社交媒體上嘅爆料暗示,早期測試者報告話個模型「遇到難任務會偷懶」,令 Google 決定推遲發布,可能仲會加返 200 萬 token 記憶同 Deep Think 推理模式
。
Pichai 喺 I/O 嘅講法令期望管理好差。佢喺台上話:「我知道你哋好想快啲用到。俾我哋多一個月,等我哋送到俾你哋」。佢當時冇解釋點解個模型未準備好
。到咗六月限期,Google 冇任何官方解釋就過咗,俾人感覺係「承諾咗但做唔到」
。
Google 公布嘅主要基準測試結果:
Google 話 3.5 Flash 嘅輸出 token 每秒速度快大約 4 倍 。API 定價大約係 每百萬 token 輸入 $1.50 / 輸出 $9,比 Gemini 3.1 Pro 輸入成本平大約 40%
。
喺 15 個已公布嘅基準測試入面,Gemini 3.5 Flash 贏咗 11 個 。不過,佢喺純推理基準測試(好似 Humanity's Last Exam 嘅 40.2% vs. 44.4% 同 ARC-AGI-2 嘅 72.1% vs. 77.1%)仍然落後俾 Pro 版,所以唔係每個方面都升級
。
開發者嘅反應係鬧爆 Google 嘅溝通同節奏。
當 Gemini 3.5 Pro 終於出到,預計會補返 Flash 仲有嘅推理短板。已確認嘅功能包括 200 萬 token 嘅上下文窗口——係所有生產模型入面最大——同 Deep Think 推理模式 。定價預計大約係每百萬 token 輸入 $1.50 / 輸出 $9,同 Flash 級別差唔多
。
雖然延遲令開發者好沮喪,但最終可能會出到一個更強嘅產品。不過,Google 一開始講到明「下個月」會出,之後甩轆又唔出聲,令開發者更加唔耐煩,尤其係對手不斷出新嘢。
總結: 延遲係因為表現品質問題,唔關安全或基建事。而家 Gemini 3.5 Flash 已經係做 agent 工作嘅最佳選擇——佢成本效益高,喺開發者最關心嘅基準測試上仲贏咗上年嘅 Pro 版。
Comments
0 comments