Trải nghiệm được đồng bộ hóa chặt chẽ giữa hai nền tảng, nhưng Google cung cấp một số chi tiết riêng biệt:
Tóm lại, điểm mấu chốt không phải là sự phân mảnh nền tảng, mà là bước chuyển: khả năng tạo ảnh mạnh mẽ của nano-banana nay được nhúng vào dòng chảy đàm thoại, tương tác tự nhiên như đang trò chuyện với một người cộng sự sáng tạo có mắt thần .
Sức mạnh cốt lõi đến từ Gemini 2.5 Flash Image, mô hình tạo và chỉnh sửa ảnh tiên tiến nhất của Google, thường được gọi là nano-banana . Google mô tả đây là mô hình hình ảnh thế hệ mới, với những khả năng nổi bật
:
Mô hình này có sẵn qua Gemini API và Google AI Studio cho nhà phát triển, và được định giá 30 USD cho mỗi 1 triệu token đầu ra, với mỗi ảnh tính là 1290 token .
Tại hội nghị nhà phát triển thường niên I/O 2026, Google đã công bố hàng loạt cập nhật xây dựng trực tiếp trên đà này:
Gemini Omni — Mô hình mới "có thể tạo bất cứ thứ gì từ bất kỳ đầu vào nào", bắt đầu với video. Google mô tả Omni như sự kết hợp giữa trí thông minh của Gemini với các mô hình tạo nội dung đa phương thức tốt nhất, mang đến khả năng hiểu biết thế giới, đa phương thức và chỉnh sửa ở tầm mới . Ghi chú phát hành ứng dụng Gemini mô tả Omni biến việc sáng tạo và chỉnh sửa video trở nên dễ dàng như một cuộc trò chuyện, "giống như Nano Banana cho video," cho phép kết hợp văn bản, ảnh và video làm đầu vào
. Người dùng có thể chỉnh sửa video qua nhiều lượt đối thoại mà không cần tạo lại toàn bộ clip
. Về lâu dài, Google nói Omni sẽ hướng tới tạo ra "bất kỳ đầu ra nào từ bất kỳ đầu vào nào"
. Biến thể đầu tiên, Gemini Omni Flash, hỗ trợ clip 10 giây, đang được triển khai cho người dùng Gemini AI Plus, Pro, Ultra, cũng như YouTube Shorts và Google Flow
.
Gemini 3.5 Flash — Mô hình mặc định mới cho ứng dụng Gemini và "Chế độ AI" trên Google Tìm kiếm . Google cho biết 3.5 Flash xuất token nhanh gấp 4 lần các mô hình tiên tiến cùng phân khúc và được thiết kế riêng cho các tác vụ "tác tử" (agentic), lập trình, quy trình làm việc nhiều bước và tác vụ kéo dài
. Trên các bài kiểm tra chuẩn, 3.5 Flash vượt qua Gemini 3.1 Pro ở khả năng lập trình và tác tử (Terminal-Bench 2.1: 76.2%, MCP Atlas: 83.6%)
. Mô hình có ngữ cảnh 1 triệu token, đầu ra tối đa 65k token, và 4 cấp độ "suy nghĩ" (minimal/low/medium/high)
.
Các điểm đáng chú ý khác:
Chiến lược của Google xoay quanh một quy trình đa phương thức thời gian thực hợp nhất – từ hội thoại, nhập liệu camera, tạo ảnh, đến sáng tạo video :
Lợi thế của Google, dựa trên những công bố này, là độ sâu tích hợp. Họ không đơn thuần ra mắt từng mô hình rời rạc. Họ khép kín vòng lặp giữa "cho Gemini thấy những gì tôi thấy" và "yêu cầu Gemini tạo hoặc chỉnh sửa thứ gì đó", rồi mở rộng mô hình đàm thoại tương tự sang video . Từ khóa "Nano Banana cho video" được chính Google và giới truyền thông sử dụng rộng rãi như một phép ẩn dụ cho cách tiếp cận này: biến thao tác phức tạp thành một cuộc trò chuyện tự nhiên
.
Sự thống nhất này đặt ra câu hỏi về hiệu năng thực tế khi các luồng công việc này được triển khai rộng rãi hơn. Tuy nhiên, hướng đi đã rất rõ ràng: Google muốn Gemini trở thành một trợ lý sáng tạo đa phương thức mà ở đó, người dùng không cần nghĩ về việc chuyển đổi công cụ – chỉ cần nói và cho thấy .
Comments
0 comments