Gemini Omni Flashは単なる画像のツギハギではありません。その内部構造は、テキスト、画像、音声、動画のあらゆる組み合わせを横断的に「推論」し、単一のまとまりのある出力を生み出すTransformerベースのモデルです 。Googleは、この仕組みによってモデルに一種の「世界に根ざした」知性がもたらされると説明します。つまり、物理学、運動力学、歴史、文化的な文脈に基づくルールを適用し、生成されたシーンが現実味を保つようにするのです
。
このモデルは、Geminiの推論エンジンと、Veo、Nano Banana、Genieといった既存の実績ある生成メディアモデルを組み合わせています 。その結果、テキストプロンプト、参照画像、音声サンプル、既存の動画クリップを一度にすべて読み込み、それらを織り交ぜて、音声同期された10秒の新たなクリップを作り出すことが可能になりました
。
Omni Flashが生成するすべての動画には、AI生成コンテンツの来歴や識別を容易にするため、GoogleのSynthID技術によって不可視の電子透かしが埋め込まれます 。なお、現時点では10秒という長さが制限となっていますが、Googleはこれはモデル自体の限界ではなく、最初のリリースにおける設計上の選択であると述べています
。
また、注意すべき点として、音声同期された動画を生成することはできますが、現在のところ、生成された動画内の「音声」や「セリフ」だけを独立して編集する機能は提供されていません。これはGoogleが意図的に差し控えている機能です 。
開発者や企業向けのAPIアクセスはまだ提供されていません。Googleは、これまでのGeminiモデルリリースのパターンに従い、Gemini APIとVertex AIを通じて「数週間以内」に公開する予定だとしています 。
Googleの発表から数週間後、これとは対照的な哲学が舞台に上がりました。2026年5月下旬、ライカ監修のカメラとGemini Omni機能の両方を搭載した「Xiaomi 17T Pro」のウィーンでの発表会において、ライカは生成AIに対する明確な立場を表明しました 。
ライカカメラAGのビジネスユニットモバイル担当副社長、マリウス・エシュバイラー(Marius Eschweiler)氏は、同社の哲学は「現実を複製する真正なイメージ」を創り出すことにあると述べました 。彼はOmniのようなツールとの直接的な対比として、「ほぼ間違いなく、ライカM型カメラにこれが搭載されることはないでしょう」と語り、光学技術による職人技と、切り取られた瞬間の純粋性に対するブランドのコミットメントを強調しました
。
しかし、ライカはこの技術を完全に否定したわけではありません。同社の幹部は、生成AIがスマートフォンに搭載されることには完全に理屈が通ると認めています。コンピュテーショナルフォトグラフィー(計算写真術)がすでに標準となっているエコシステムにおいて、AI駆動のクリエイションや編集は、伝統からの断絶ではなく、ユーザー体験の自然な進化だと捉えているのです 。この姿勢は、明確なデュアル戦略を生み出しています。すなわち、専用のライカカメラは光を捉える純粋主義者の道具として残り、一方でスマートフォンはAI支援による創造のキャンバスとなる、という戦略です。
Googleは、今回のFlashモデルがほんの第一歩に過ぎないことを、異例なほど率直に語っています。サンダー・ピチャイCEOとDeepMindのCTOであるコレイ・カヴクチュオール氏はともに、Omniを「最終的にはあらゆる入力からあらゆるものを創造する」ために設計されたモデルファミリーだと説明しています 。
具体的には、近い将来、次の二つの方向性が示されています。
より高次の視点では、GoogleはOmniを完全な「ワールドモデル」への布石と見ています。それは単にメディアを生成するだけでなく、あらゆるモダリティ(様式)を通じて環境を理解し、シミュレーションし、対話できるシステムです 。しかし当面は、Omniが生成できるフォーマットを拡大し、開発者の手にAPIアクセスを届けることに焦点が当てられています。
Comments
0 comments