Gemini Omni: AI tạo video đa phương thức mới của Google
Google công bố Gemini Omni tại I/O 2026 — mô hình AI đa phương thức có thể tạo video chất lượng cao từ kết hợp văn bản, hình ảnh, âm thanh và video; phiên bản đầu tiên là Gemini Omni Flash.[8][9] Khác với Veo (mô hình video chuyên dụng trước đây), Gemini Omni là mô hình nền tảng hợp nhất nhiều dạng đầu vào và tích h...
What did Google announce with Gemini Omni at I/O 2026, how does it differ from Veo, what can Gemini Omni Flash do with text, image, audio, aGemini Omni is Google’s new multimodal AI model designed to generate video from combined text, image, audio, and video inputs.
Prompt AI
Create a landscape editorial hero image for this Studio Global article: What did Google announce with Gemini Omni at I/O 2026, how does it differ from Veo, what can Gemini Omni Flash do with text, image, audio, a. Article summary: Google announced Gemini Omni at I/O 2026 as a new multimodal generation model that combines Gemini reasoning with creative generation, starting with video: it can take text, images, audio, and video together as input and. Topic tags: general, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "# Google's Gemini Omni can generate 'anything from any input,' starting with video. Google didn't forget AI creators in its latest round of Gemini announcements. Google didn't forg" source context "Google's Gemini Omni Can Generate 'Anything From Any Input ..." Reference image 2: visual subject "# Gemini Omni Vid
openai.com
Tại sự kiện Google I/O 2026, Google đã giới thiệu Gemini Omni — một thế hệ mô hình AI đa phương thức mới có khả năng tạo và chỉnh sửa nội dung media từ nhiều loại đầu vào khác nhau. Điểm nổi bật là khả năng tạo video từ kết hợp văn bản, hình ảnh, âm thanh và video có sẵn. Phiên bản đầu tiên của dòng này, Gemini Omni Flash, bắt đầu được triển khai ngay trong ngày diễn ra sự kiện.
Dưới đây là những điểm chính giúp hiểu rõ Gemini Omni hoạt động ra sao, khác gì so với mô hình video Veo trước đây, Omni Flash có thể làm gì, và cách Google triển khai hệ thống watermark SynthID để nhận diện nội dung AI.
Gemini Omni là gì?
Gemini Omni là một dòng mô hình AI đa phương thức (multimodal) được thiết kế để tạo nội dung từ gần như mọi dạng đầu vào. Google mô tả nó là sự kết hợp giữa khả năng suy luận của Gemini và hệ thống tạo nội dung sáng tạo bằng AI.
Ở giai đoạn ra mắt, trọng tâm của Omni là tạo video.
Người dùng có thể:
Kết hợp văn bản, hình ảnh, âm thanh và video trong cùng một prompt
Tạo video chất lượng cao dựa trên kiến thức thế giới thực của Gemini
, ví dụ thay đổi cảnh, vật thể hoặc phong cách bằng ngôn ngữ tự nhiên
Studio Global AI
Search, cite, and publish your own answer
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
Câu trả lời ngắn gọn cho "Gemini Omni: AI tạo video đa phương thức mới của Google" là gì?
Google công bố Gemini Omni tại I/O 2026 — mô hình AI đa phương thức có thể tạo video chất lượng cao từ kết hợp văn bản, hình ảnh, âm thanh và video; phiên bản đầu tiên là Gemini Omni Flash.[8][9]
Những điểm chính cần xác nhận đầu tiên là gì?
Google công bố Gemini Omni tại I/O 2026 — mô hình AI đa phương thức có thể tạo video chất lượng cao từ kết hợp văn bản, hình ảnh, âm thanh và video; phiên bản đầu tiên là Gemini Omni Flash.[8][9] Khác với Veo (mô hình video chuyên dụng trước đây), Gemini Omni là mô hình nền tảng hợp nhất nhiều dạng đầu vào và tích hợp khả năng suy luận của Gemini với hệ thống tạo nội dung media.[20][23]
Tôi nên làm gì tiếp theo trong thực tế?
Google đồng thời mở rộng hệ thống watermark SynthID và đưa tính năng phát hiện nội dung AI vào các sản phẩm như Google Search và Chrome, cùng với sự tham gia của các đối tác như OpenAI, Kakao, ElevenLabs và Nvidia.[17...
Google cho biết mô hình được cải thiện khả năng mô phỏng chuyển động, vật lý và tương tác giữa các vật thể, giúp video tạo ra trông tự nhiên và nhất quán hơn.
Trong tương lai, Google dự định mở rộng Omni để có thể tạo nhiều loại đầu ra khác ngoài video, bao gồm hình ảnh và văn bản trực tiếp từ đầu vào đa phương thức.
Gemini Omni khác gì so với Veo?
Trước Gemini Omni, hệ thống tạo video AI của Google chủ yếu dựa trên Veo, một mô hình chuyên biệt cho video.
Sự khác biệt chính nằm ở phạm vi kiến trúc:
Veo
Mô hình tạo video chuyên dụng
Thuộc một stack riêng cho generative media
Gemini Omni
Mô hình đa phương thức thống nhất
Nhận đồng thời text, hình ảnh, âm thanh và video
Kết hợp suy luận của Gemini với hệ thống tạo media
Điều này có nghĩa Omni được thiết kế như một mô hình nền tảng duy nhất tích hợp nhiều khả năng trước đây nằm ở các công cụ khác nhau như Veo và các mô hình media khác.
Nhờ vậy, người dùng có thể tạo hoặc chỉnh sửa video bằng cách kết hợp nhiều loại dữ liệu đầu vào — chẳng hạn như đối thoại, hình ảnh tham chiếu và đoạn video gốc trong cùng một workflow.
Gemini Omni Flash có thể làm gì?
Gemini Omni Flash là phiên bản đầu tiên được phát hành của dòng Omni.
Mô hình này hỗ trợ nhiều loại đầu vào trong cùng một prompt:
Văn bản
Hình ảnh
Âm thanh
Video
Từ các dữ liệu đó, hệ thống có thể tạo video chân thực và cho phép chỉnh sửa thông qua hội thoại.
Một số kịch bản sử dụng Google đã trình diễn bao gồm:
Tạo cảnh video từ mô tả văn bản và hình ảnh tham chiếu
Chỉnh sửa video tải lên bằng lệnh ngôn ngữ tự nhiên
Dùng lệnh giọng nói kết hợp tài nguyên hình ảnh để thay đổi nội dung cảnh
Nhờ khả năng hiểu chuyển động và tương tác vật lý, video tạo ra có xu hướng mô phỏng thế giới thực nhất quán hơn so với các mô hình trước đây.
Gemini Omni Flash có ở đâu và khi nào?
Google bắt đầu triển khai Gemini Omni Flash vào 19/05/2026, cùng ngày diễn ra keynote của Google I/O.
Các nền tảng được triển khai ban đầu gồm:
Ứng dụng Gemini
Google Flow (studio sáng tạo AI)
YouTube Shorts và YouTube Create cho nhà sáng tạo
Trong hệ sinh thái Gemini, quyền truy cập gắn với các gói đăng ký AI của Google.
Các gói hỗ trợ gồm:
Google AI Plus
Google AI Pro
Google AI Ultra
Các tính năng Omni được tích hợp trong trải nghiệm Gemini của các gói này, trong đó gói cao hơn có giới hạn sử dụng lớn hơn và nhiều khả năng nâng cao hơn.
Tại I/O 2026, Google cũng giới thiệu gói AI Ultra giá 100 USD/tháng, nhắm tới nhà phát triển và các nhà sáng tạo chuyên nghiệp cần tài nguyên tính toán lớn hơn.
SynthID: watermark và phát hiện nội dung AI
Song song với việc ra mắt công cụ tạo nội dung mới, Google cũng nhấn mạnh các biện pháp minh bạch nội dung AI thông qua hệ thống SynthID.
SynthID là công nghệ watermark vô hình có thể nhúng tín hiệu nhận diện vào nội dung do AI tạo ra, bao gồm:
Hình ảnh
Video
Âm thanh
Văn bản
Các watermark này không thể nhìn thấy bằng mắt thường nhưng có thể phát hiện bằng phần mềm, giúp xác định nội dung được tạo bởi AI.
Tại I/O 2026, Google đã mở rộng SynthID theo nhiều hướng.
1. Phát hiện trực tiếp trong sản phẩm Google
Google đang tích hợp khả năng kiểm tra nội dung AI vào Google Search và trình duyệt Chrome, cho phép người dùng nhận biết liệu hình ảnh trên internet có được tạo hoặc chỉnh sửa bằng AI hay không.
2. Hợp tác với các công ty AI khác
Google cũng cho biết nhiều công ty đang áp dụng watermark SynthID trong hệ thống của họ, bao gồm:
OpenAI
Kakao
ElevenLabs
Nvidia
Mục tiêu là xây dựng chuẩn chung trong ngành để nhận diện nội dung AI trên internet.
3. Công cụ kiểm tra nội dung
Google cung cấp cổng SynthID Detector, cho phép người dùng tải lên media để kiểm tra watermark SynthID trong nhiều định dạng khác nhau. Công cụ này đặc biệt hữu ích cho nhà báo, nhà nghiên cứu và các tổ chức xác minh thông tin.
Vì sao Gemini Omni quan trọng?
Gemini Omni cho thấy hướng phát triển mới của các mô hình AI tạo nội dung.
Thay vì các công cụ riêng cho văn bản, hình ảnh và video, Google đang chuyển sang mô hình đa phương thức thống nhất có thể hiểu và tạo nội dung trên nhiều định dạng trong cùng một hệ thống.
Video chỉ là bước khởi đầu. Mục tiêu dài hạn của Omni là một mô hình có thể tạo bất kỳ loại nội dung nào từ bất kỳ loại đầu vào nào — điều mà Google xem là bước tiến lớn trong việc xây dựng AI hiểu thế giới và tạo media số.
Song song với đó, các công cụ minh bạch như SynthID được triển khai để giảm rủi ro deepfake và giúp người dùng phân biệt nội dung AI với nội dung thật.
Comments
0 comments