延期の原因は、安全性やインフラの問題ではなく、初期テストで発見されたパフォーマンスの品質問題にあります 。Business Insiderによると、Googleはこの追加期間を利用して、早期テスターからのフィードバックを収集し、実際のビジネスユースケースに基づいてモデルを調整しています
。ソーシャルメディアへのリーク情報によれば、初期テスターは「難しいタスクでモデルが怠ける」と報告しており、これを受けてGoogleはリリースを延期し、200万トークンのメモリやDeep Think推論機能などの改善を盛り込む可能性があるとされています
。
I/Oでのピチャイ氏の発表は、期待値の設定を誤ったものとなりました。ステージ上で彼は「あなたたちが待ちきれないのは分かっている。来月までに提供できるようにしてくれ」と述べました 。当時、モデルがなぜ準備できていないのか、具体的な理由は明らかにされませんでした
。そして6月の期限は、公式な説明がないまま過ぎ去り、約束が破られたという認識を生み出しました
。
Googleが報告した主なベンチマーク結果:
Googleは、3.5 Flashが他のフロンティアモデルと比較して、出力トークン/秒で約4倍高速であると主張しています 。API料金は、入力100万トークンあたり約1.50ドル、出力100万トークンあたり9ドルで、Gemini 3.1 Proと比較して入力コストが約40%安くなっています
。
公開された15のベンチマークのうち11で、Gemini 3.5 FlashはGemini 3.1 Proを上回っています 。ただし、Humanity's Last Exam(40.2% vs. 44.4%)やARC-AGI-2(72.1% vs. 77.1%)といった純粋な推論ベンチマークでは依然としてProモデルに劣っており、あらゆる面での完全なアップグレードとは言えません
。
開発者コミュニティの反応は、Googleのコミュニケーションと開発ペースに対する鋭い批判に満ちています。
Gemini 3.5 Proがリリースされる際には、Flashがまだ示している推論のギャップを埋めることが期待されています。確認されている機能には、200万トークンのコンテキストウィンドウ(これはすべてのプロダクションモデルの中で最大)と、Deep Think推論モードが含まれます 。価格はFlash層と同様に、100万トークンあたり入力1.50ドル、出力9ドル程度になると予想されています
。
今回の延期は開発者にとってはフラストレーションの種ですが、最終的にはより強力な製品につながる可能性があります。しかし、「来月」と固く約束し、それが果たせなかった際に沈黙したことで、Googleは競合他社が着実にリリースを続ける中で、開発者のフラストレーションを増幅させる結果となりました。
結論: 今回の延期は、安全性やインフラの問題ではなく、パフォーマンスの品質に起因するものです。一方、Gemini 3.5 Flashは、プロダクションのエージェントワークロードにとってすでに最良の選択肢であり、開発者にとって最も重要なベンチマークで昨年のProモデルを凌駕する、コスト効率の高い代替手段として登場しています。
Comments
0 comments