有一點要留意:Gemini 本身一直都有圖片生成功能,但以前嗰啲係要靠打字 Prompt 去觸發,而 Gemini Live 今次嘅升級係將呢個能力嵌入實時語音同鏡頭嘅對話情境入面 。換句話講,你同 AI 嘅互動變得更自然、更流暢,唔使中斷對話去等結果。
佢嘅核心能力包括:
呢個模型已經可以透過 Gemini API 同 Google AI Studio 畀開發者使用,企業用戶亦可以經 Vertex AI 存取。收費方面,每 100 萬個輸出 Token 收 30 美元,每張圖大約消耗 1290 個輸出 Token 。
今次 Gemini Live 嘅升級只係 Google I/O 2026 大會嘅其中一個重點。成個大會嘅發布圍繞住一個核心訊息:Google 要將 Gemini 打造成一個統一嘅多模態 AI 平台,由文字、圖片、影片到語音,所有嘢都喺同一個生態入面即時互動。
官方畀出嘅數據相當震撼:
Google DeepMind 首席技術總監 Koray Kavukcuoglu 形容:「3.5 Flash 提供咗一個難以置信嘅品質同低延遲組合。」 簡單講,就係又快又聰明,仲要成本低過其他頂尖模型一大截。Google 仲估計,如果企業將 80% 嘅工作負載轉去用 Flash,每年可以慳超過 10 億美元
。
Gemini Omni 嘅核心賣點:
首批推出嘅係 Gemini Omni Flash 版本,會開放畀所有 Google AI Plus、Pro 同 Ultra 訂閱用戶,可以喺 Gemini App、Google Flow 同 YouTube Shorts 用到 。目前 Flash 版本限制輸出 10 秒長嘅影片,Google 話呢個係運算資源嘅取捨,唔係模型本身嘅限制
。
睇完成堆發布,Google 嘅策略藍圖其實好清楚:佢唔係要喺單一功能上砌低對手,而係要建立一個端對端嘅即時多模態 AI 管線。
具體嚟講:
Google 嘅真正優勢在於整合深度。當你用手機鏡頭對住一樣嘢,AI 唔單止睇得明,仲可以即時幫你生成新嘅視覺內容,然後你又可以用同一把口叫佢改,甚至進一步將呢個概念延伸去整片。呢個循環係封閉同即時嘅,唔使跳 App,唔使等 Processing。
當然,暫時呢啲功能仲係逐步推出嘅階段,實際表現會唔會打折扣,要等大規模開放之後先見真章 。但方向已經好明確:Google 想將 Gemini 變成你隨身嘅 AI 創作夥伴,無論你係想整張圖、改條片,定係做資料搜集,都可以就咁同佢傾偈搞掂。
對於香港用家嚟講,最大嘅好消息係呢堆功能唔係只限英文。只要 Gemini App 喺你個地區上到架,你就可以用廣東話自然噉同 AI 互動。想像下,你行緊街見到個得意嘅招牌,舉起手機講句「幫我將呢個招牌嘅字換做『叉燒飯』,背景轉做舊式冰室」,幾秒後 AI 就出圖畀你——呢種「講得出,即刻有」嘅體驗,就係 Google 想打造嘅未來。
Comments
0 comments