Gemini Omni Flash 唔係一個簡單嘅圖片拼接工具。佢底層係一個基於 Transformer 架構嘅模型(一種深度學習模型),可以混合文字、圖片、音頻同影片輸入,推理出一個連貫嘅輸出 。Google 認為,呢個設計令個模型有咗一種「世界基礎」嘅智能,即係話佢會運用物理、動力學、歷史同文化背景嘅規則,去確保生成嘅場景睇落合理
。
佢將 Gemini 嘅推理引擎同 Google 現有嘅生成式媒體模型(例如 Veo、Nano Banana 同 Genie)溝埋一齊用 。結果就係一個可以直接食文字提示、參考圖、音頻樣本同現有影片,再將佢哋結合成一段 10 秒長、有同步聲音嘅新影片嘅系統
。
每段由 Omni Flash 生成嘅影片,都會用 Google 嘅 SynthID 技術加咗隱形水印,方便溯源同辨認係咪 AI 生成嘅內容 。雖然 output 限咗 10 秒好似有啲短,但 Google 講明呢個係佢哋第一波推出嘅設計決定,而唔係模型本身嘅限制
。
Google 公布完冇幾耐,另一個完全相反嘅理念就登場。喺 2026 年 5 月底,Xiaomi 17T Pro 喺維也納舉行嘅發布會上面(呢部機 Sell 嘅係 Leica 調校嘅鏡頭同 Gemini Omni 功能),Leica 清晰咁表達咗佢哋對生成式 AI 嘅立場 。
Leica Camera AG 副總裁 Marius Eschweiler 表示,公司嘅理念係創造能夠真實反映現實嘅影像 。佢直接將呢個理念同 Omni 呢類工具對比,講明:「你好大機會唔會喺 Leica M 相機上面見到佢。」強調品牌對光學工藝同捕捉純粹瞬間嘅堅持
。
不過,Leica 又冇完全否定呢項技術。公司領導層承認,生成式 AI 喺智能電話上面係完全合理嘅。喺一個計算攝影已經係基本嘢嘅生態系統入面,AI 驅動嘅創作同編輯,感覺上係用戶體驗嘅自然進化,而唔係脫離傳統 。呢個立場形成咗一個清晰嘅雙線策略:專門嘅 Leica 相機繼續係純粹主義者用嚟捕捉光影嘅工具,而手機就變成 AI 輔助創作嘅畫布。
Google 今次罕有咁坦白,話 Flash 模型只係第一步。Sundar Pichai 同 DeepMind CTO Koray Kavukcuoglu 都形容 Omni 係一個最終會「用任何輸入去創造任何嘢」嘅模型家族 。
具體嚟講,短期內嘅發展有兩大方向:
喺更高層次,Google 將 Omni 視為邁向完整「世界模型」嘅一步——呢啲系統唔單止生成媒體,仲可以跨模式咁理解、模擬同環境互動 。不過暫時嚟講,焦點係擴展 Omni 可以生成嘅格式,同埋將 API 權限交到開發者手上。
Comments
0 comments