Một báo cáo tiếp theo còn dẫn thêm dòng copy trong ứng dụng Gemini trên di động: “Meet our new video model. Remix your videos, edit directly in chat, try a template, and more.” Nếu chính xác, đây không chỉ là tên backend của một mô hình, mà có thể là một trải nghiệm sản phẩm cho phép tạo, remix và chỉnh video ngay trong Gemini.
Từ các dòng giao diện bị phát hiện, có bốn tính năng người dùng có thể nhìn thấy nếu Omni thực sự được ra mắt:
Điều chưa nên suy diễn: rò rỉ này không xác nhận thời lượng clip, độ phân giải, tốc độ tạo, chất lượng âm thanh, giới hạn prompt, khả năng gọi API, cơ chế an toàn hay giá sử dụng. Hiện vẫn chưa có thông số chính thức từ Google.
Veo 3.1 là mốc so sánh chắc chắn nhất vì đây là dòng mô hình đã được Google xác nhận. Google đã phát hành Veo 3.1 và Veo 3.1 Fast dưới dạng bản xem trước trả phí qua Gemini API, Google AI Studio và Vertex AI; đồng thời cho biết Veo 3.1 cũng có mặt trong ứng dụng Gemini và Flow. Theo Google, Veo 3.1 cải thiện âm thanh gốc, tăng khả năng kiểm soát câu chuyện và cho kết quả tốt hơn khi tạo video từ hình ảnh.
Google cũng tiếp tục mở rộng họ Veo 3.1. Tháng 1/2026, công ty nói Veo 3.1 có thể tạo video biểu cảm hơn từ hình ảnh, tạo video dọc cho các nền tảng như YouTube Shorts và upscale lên 1080p hoặc 4K trên Gemini, Flow, Gemini API, Vertex AI và Google Vids. Đến tháng 3/2026, Google giới thiệu Veo 3.1 Lite là mô hình video tiết kiệm chi phí nhất của hãng, với chi phí thấp hơn 50% so với Veo 3.1 Fast nhưng vẫn cùng tốc độ.
Vì vậy, nếu so với Veo 3.1, điểm rõ nhất từ rò rỉ Omni chưa phải là “mạnh hơn bao nhiêu”, mà là “dùng khác thế nào”. Templates, remix và chỉnh sửa trong chat có thể là hướng Google muốn đẩy: biến Gemini thành nơi người dùng nghĩ ý tưởng, tạo video, sửa tiếp và lặp lại trong cùng một giao diện.
Ngoài chuỗi giao diện, còn có các báo cáo về demo sớm và clip lan truyền. Gadgets360 cho biết các demo ban đầu được mô tả là có chuyển động thực hơn, chữ hiển thị sạch hơn và bố cục cảnh tốt hơn. Một video thảo luận do người dùng đăng trên YouTube cũng nói về hai clip lan truyền trên X, với metadata được cho là trỏ tới “Google Gemini Omni Mode”.
Nhưng các clip này là bằng chứng yếu hơn nhiều so với dòng UI trong Gemini. Google chưa công bố Omni chính thức trong các nguồn hiện có, và những clip lan truyền chưa được xác minh độc lập là đầu ra của Omni.
Hiện có ba khả năng, và cả ba vẫn để ngỏ.
Một là Omni chỉ là tên mới hoặc lớp giao diện mới cho đường video hiện có. WaveSpeed nói dòng “Powered by Omni” xuất hiện gần “Toucan”, được mô tả là tên nội bộ của công cụ video hiện tại trong Gemini, vốn đang dựa trên Veo 3.1. Nếu vị trí này chính xác, Omni có thể là đường thay thế, cờ thử nghiệm hoặc tên hiển thị mới cho một pipeline tạo video.
Hai là Omni là một mô hình video mới thật sự. Dòng copy được báo cáo có câu “Meet our new video model”, còn Gadgets360 mô tả Gemini Omni như một mô hình có thể cho phép người dùng tạo và chỉnh video trực tiếp trong Gemini.
Ba là Omni thuộc một kiến trúc đa phương thức rộng hơn. Một số bài tổng hợp rò rỉ suy đoán Omni có thể hợp nhất văn bản, hình ảnh, video và âm thanh trong một hệ thống Gemini. Đây là hướng sản phẩm nghe hợp lý trong bối cảnh AI đa phương thức, nhưng vẫn chỉ là suy đoán từ các nguồn được cung cấp. Google chưa xác nhận “Omni” là tên sản phẩm công khai, mã nội bộ, họ mô hình, lớp UI hay một kiến trúc rộng hơn.
Chưa có đủ bằng chứng đáng tin cậy để nói Omni tốn bao nhiêu chi phí tính toán hoặc người dùng sẽ phải trả thế nào. Các nguồn hiện tại chưa xác nhận giá, độ trễ, quota, độ dài video, kích thước mô hình, khả năng truy cập API hay yêu cầu phần cứng của Omni.
Điểm so sánh gần nhất vẫn là chiến lược của Google với Veo. Việc ra mắt Veo 3.1 Lite với chi phí dưới 50% Veo 3.1 Fast nhưng cùng tốc độ cho thấy Google đang phân tầng mô hình video theo chi phí và hiệu năng. Tuy nhiên, điều đó không cho biết Omni sẽ rẻ, đắt, chỉ dành cho gói cao cấp, mở cho nhà phát triển hay giới hạn trong thử nghiệm nội bộ.
Nói cách khác: mọi tuyên bố rằng Omni chậm, rất tốn kém, chỉ tạo clip ngắn hoặc chỉ dành cho tester nội bộ đều nên được xem là chưa xác nhận nếu không có bằng chứng từ Google hoặc nguồn thử nghiệm có thể kiểm chứng.
Hiện chưa thể xếp hạng Omni cạnh Runway, Pika hay OpenAI Sora một cách nghiêm túc. Các nguồn được cung cấp không có benchmark đối đầu, và bản thân bằng chứng về Omni cũng chưa đủ để đánh giá độ chân thực, khả năng điều khiển, độ dài video, độ ổn định theo thời gian, hệ thống an toàn hay chi phí.
So sánh hợp lý nhất lúc này là về định vị sản phẩm. Nếu các dòng giao diện bị rò rỉ là thật, Google có thể không chỉ cạnh tranh bằng chất lượng video đầu ra, mà bằng quy trình làm việc: nhập ý tưởng trong Gemini, chọn template, remix clip và chỉnh sửa bằng chat trong cùng một nơi. Đây có thể là khác biệt đáng kể so với các công cụ video AI độc lập, nhưng chưa phải bằng chứng rằng Omni tạo video đẹp hơn Sora, Runway hay Pika.
Nếu Google nói về Omni tại I/O, các câu hỏi quan trọng sẽ là:
Cho tới khi có câu trả lời, Gemini Omni nên được xem là một tín hiệu đáng chú ý về hướng đi video AI của Google, không phải một bảng thông số đã được xác nhận. Câu chuyện hiện nằm ở các dòng giao diện; phần còn lại vẫn chờ Google biến thành sản phẩm thật.
Comments
0 comments