這一切的技術核心,仰賴 Google DeepMind 的最新影像模型:Gemini 2.5 Flash Image,它有個可愛的內部暱稱 「nano-banana」,是 Google 目前最先進的影像生成與編輯模型 。它的關鍵能力包括:
Google 在 I/O 2026 上的一系列重磅發布,清晰地展現了其圍繞著 Gemini 打造一條「從理解到創造」的統一多模態管線的野心。除了 Gemini Live 的影像功能,還有更多重大更新:
Google 的策略核心,並非只開發一個強大的影像或影片模型,而是建立深度整合的即時多模態管線。
Google 的優勢在於其生態系統的垂直整合能力,從底層的 Gemini 模型、上層的應用程式(搜尋、Workspace),到終端設備(Android 手機),形成一個能直接面向數十億用戶的封閉迴路。關鍵挑戰則在於,當這些功能大規模上線後,其實際體驗能否如展示般流暢且可靠 。
從「nano-banana」到「Omni」,Google 正將 AI 助理的角色從「問答機」轉變為一個能理解你的意圖、看見你的世界,並即時為你創造內容的「全能夥伴」。
Comments
0 comments