Gemini Omni Flash không chỉ đơn thuần là một công cụ ghép ảnh. Kiến trúc nền tảng của nó là một mô hình chuyển đổi (transformer) có khả năng suy luận trên mọi tổ hợp đầu vào như văn bản, hình ảnh, âm thanh và video để tạo ra một đầu ra thống nhất và mạch lạc . Google lập luận rằng điều này mang lại cho mô hình một dạng "trí thông minh có căn cứ thế giới thực", nghĩa là nó áp dụng các quy luật vật lý, động lực học, lịch sử và bối cảnh văn hóa để giữ cho các cảnh quay được tạo ra trở nên hợp lý
.
Nó kết hợp công cụ suy luận của Gemini với các mô hình truyền thông tạo sinh đã được kiểm chứng như Veo, Nano Banana, và Genie . Kết quả là một hệ thống có thể cùng lúc tiếp nhận một câu lệnh văn bản, một hình ảnh tham chiếu, một mẫu âm thanh và một clip video có sẵn, rồi kết hợp chúng thành một clip mới dài 10 giây với âm thanh đồng bộ
.
Mỗi video được tạo bởi Omni Flash đều được gắn một hình mờ (watermark) vô hình bằng công nghệ SynthID của Google để giúp xác minh nguồn gốc và nhận dạng nội dung do AI tạo ra . Mặc dù có giới hạn về thời lượng 10 giây, Google cho biết đây là một lựa chọn thiết kế cho lần ra mắt đầu tiên chứ không phải là hạn chế của mô hình
.
Cần lưu ý rằng, dù người dùng có thể tạo video với âm thanh đồng bộ, mô hình hiện tại chưa cho phép chỉnh sửa độc lập giọng nói hoặc âm thanh bên trong video — một khả năng mà Google đang cố tình giữ lại vào lúc này .
Google đã triển khai Gemini Omni Flash trên toàn cầu ngay trong ngày công bố, với quyền truy cập được phân bổ trên các gói miễn phí và trả phí .
API cho nhà phát triển và doanh nghiệp hiện chưa khả dụng. Google cho biết sẽ triển khai "trong vài tuần tới" thông qua Gemini API và nền tảng Vertex AI, theo mô hình quen thuộc của các lần phát hành mô hình Gemini trước đây .
Chỉ vài tuần sau thông báo của Google, một triết lý cạnh tranh đã xuất hiện. Tại sự kiện ra mắt Xiaomi 17T Pro ở Vienna vào cuối tháng 5 năm 2026 — chiếc điện thoại tự hào có camera được Leica tinh chỉnh và tích hợp khả năng của Gemini Omni — Leica đã làm rõ lập trường của mình về AI tạo sinh .
Ông Marius Eschweiler, Phó Chủ tịch Mảng Kinh doanh Di động tại Leica Camera AG, đã tuyên bố triết lý của công ty xoay quanh việc tạo ra những hình ảnh chân thực, tái tạo lại hiện thực . Ông đã vẽ ra một sự tương phản trực tiếp với các công cụ như Omni, nói rằng: "Rất có thể, bạn sẽ không thấy nó trên một chiếc máy ảnh Leica M," nhấn mạnh cam kết của thương hiệu đối với sự khéo léo quang học và sự thuần khiết của khoảnh khắc được ghi lại
.
Tuy nhiên, Leica không hoàn toàn bác bỏ công nghệ này. Ban lãnh đạo công ty thừa nhận AI tạo sinh là hoàn toàn hợp lý trên điện thoại thông minh. Trong một hệ sinh thái mà nhiếp ảnh điện toán đã là tiêu chuẩn, việc sáng tạo và chỉnh sửa bằng AI giống như một sự tiến hóa tự nhiên của trải nghiệm người dùng, chứ không phải là sự phá vỡ truyền thống . Lập trường này tạo ra một chiến lược kép rõ ràng: máy ảnh Leica chuyên dụng vẫn là công cụ thuần túy để bắt giữ ánh sáng, trong khi điện thoại trở thành nền tảng cho sự sáng tạo được AI hỗ trợ.
Google đã tỏ ra thẳng thắn khác thường khi nói rằng mô hình Flash mới chỉ là bước khởi đầu. Cả CEO Sundar Pichai và Giám đốc Công nghệ của DeepMind, Koray Kavukcuoglu, đều mô tả Omni là một dòng mô hình được thiết kế để cuối cùng có thể "tạo ra bất cứ thứ gì từ mọi đầu vào" .
Cụ thể, điều này đồng nghĩa với hai hướng phát triển chính trong tương lai gần:
Ở một cấp độ cao hơn, Google xem Omni như một bước tiến tới các "mô hình thế giới" hoàn chỉnh — những hệ thống không chỉ tạo ra phương tiện truyền thông, mà còn có thể hiểu, mô phỏng và tương tác với môi trường trên tất cả các phương thức . Hiện tại, trọng tâm trước mắt là mở rộng các định dạng mà Omni có thể tạo ra và đưa API vào tay các nhà phát triển.
Comments
0 comments