重要なポイント:これまでもGeminiアプリでは、テキストや画像を使った画像生成・編集(nano-banana 2による機能)が利用できました。今回のGemini Liveのアップデートは、この生成・編集のループを、音声とカメラを使ったリアルタイムの会話の中に完全に溶け込ませたという点が画期的です 。
このリアルタイム画像処理を支える画像モデルが、**Gemini 2.5 Flash Image(通称:nano-banana)**です。グーグルはこれを「最先端の画像生成・編集モデル」と位置づけています 。主な能力は以下の通りです:
この動きをさらに加速させる大型発表が、2026年5月のGoogle I/Oで行われました。核となるのは、以下の3つです。
「あらゆるインプットから、あらゆるアウトプットを生み出す」というコンセプトの新モデルです 。まずは動画生成・編集からスタートし、テキストや画像、音声を組み合わせて、Geminiの世界理解力を背景にした高品質な動画を作れます
。最大の特徴は、ChatGPTと話すように「この部分の背景を変えて」「もっと明るくして」と会話しながら動画を編集できることで、「Nano Banana for Video(動画版ナノバナナ)」とも表現されています
。
GeminiアプリとGoogle検索の「AIモード」のデフォルトモデルが、この「3.5 Flash」に置き換わりました 。グーグルによると、同クラスのフロンティアモデルと比較してトークン出力が4倍高速で、特に複数ステップのツール利用やコーディングといった「エージェント的」なタスクで真価を発揮するよう設計されています
。
今回の一連の発表で改めて明確になったのは、グーグルが「会話・カメラ入力・画像生成・動画生成をシームレスに統合した、リアルタイムのマルチモーダルパイプライン」を圧倒的な強みとして打ち出している点です 。
グーグルが築こうとしている優位性は、「統合の深さ」です。「見せて、話して、作ってもらう」という一連の流れを、複数のアプリやツールを切り替えることなく、一つの会話の中で完結させる。今回のアップデートは、そのビジョンが現実のものとして動き出した瞬間と言えるでしょう。今後の焦点は、この野心的な統合ワークフローが、実際にどこまで実用的でクリエイティブな体験を提供できるかに移っていきます 。
Comments
0 comments