此次延迟源于早期测试中发现的性能质量问题,而非安全或基础设施问题 。据 Business Insider 报道,谷歌正在利用额外时间收集早期测试者的反馈,并根据真实世界的业务用例调整模型
。社交媒体上的爆料显示,早期测试者报告该模型“在处理困难任务时变得懒惰”,这促使谷歌推迟发布,并可能在此基础上推出 200 万 token 记忆和 Deep Think 推理等改进功能
。
Pichai 在 I/O 大会上的发言设定了一个糟糕的预期。他在台上说:“我知道你们迫不及待想拿到它。再给我们一个月,我们把它带给你们” 。当时没有给出模型尚未准备好的具体原因
。随后六月截止日期在没有官方解释的情况下再次延期,给人留下了承诺落空的印象
。
谷歌公布的关键基准测试结果:
谷歌声称,3.5 Flash 的输出 tokens 每秒速度大约是其他前沿模型的 4 倍 。API 定价约为每百万 tokens 输入 1.50 美元 / 输出 9 美元,输入价格比 Gemini 3.1 Pro 便宜约 40%
。
在已发布的 15 项基准测试中,Gemini 3.5 Flash 有 11 项超越了 Gemini 3.1 Pro 。然而,在 Humanity‘s Last Exam (40.2% 对比 44.4%) 和 ARC-AGI-2 (72.1% 对比 77.1%) 等纯推理基准测试中,它仍落后于 Pro 模型,因此并非在所有维度上都是直接升级
。
开发者对谷歌的沟通方式和开发节奏提出了尖锐批评。
当 Gemini 3.5 Pro 最终到来时,预计将弥补 Flash 在推理方面的不足。已确认的功能包括 200 万 token 的上下文窗口——这是所有生产模型中最大的——以及 Deep Think 推理模式 。定价预计约为每百万 tokens 输入 1.50 美元 / 输出 9 美元,与 Flash 层级相似
。
虽然此次延迟令开发者感到沮丧,但最终可能会带来更强的产品。然而,通过做出明确的“下个月”承诺,然后在延期时保持沉默,谷歌在竞争对手稳定发布新品的背景下,进一步加剧了开发者的不满。
结论: 此次延迟源于性能质量问题,而非安全或基础设施问题。与此同时,Gemini 3.5 Flash 已经是生产环境中智能体工作负载的最佳选择——它作为一款高性价比的替代方案,在开发者最看重的基准测试中超越了去年的 Pro 模型。
Comments
0 comments