Đột phá cốt lõi của Gemini 3.5 Live Translate nằm ở kiến trúc truyền phát hai chiều, liên tục. Điều này khác biệt hoàn toàn so với các hệ thống dịch thuật theo lượt truyền thống và được tạo nên từ sự kết hợp của một số khả năng then chốt.
Mô hình không chờ người nói kết thúc. Nó nhận luồng âm thanh đầu vào và đồng thời tạo ra bản dịch đầu ra. Google mô tả rằng mô hình này chỉ "chậm hơn người nói vài giây", từ đó xóa bỏ hoàn toàn những khoảng dừng gượng gạo có thể làm hỏng một cuộc trò chuyện tự nhiên .
Người dùng không cần phải chọn ngôn ngữ nguồn một cách thủ công. Mô hình sẽ tự động phát hiện ngôn ngữ đang được nói một cách linh hoạt. Khả năng này hoạt động ngay cả trong môi trường hỗn hợp nhiều ngôn ngữ, cực kỳ phù hợp với các tình huống giao tiếp thực tế và đa dạng .
Một yếu tố then chốt cho trải nghiệm người dùng chính là đầu ra đã dịch không hề nghe như giọng robot. Mô hình được thiết kế để giữ lại ngữ điệu, tốc độ và cao độ gốc của người nói, tạo ra một giọng dịch nghe giống hệt như người thật, chứ không phải từ một công cụ chuyển văn bản thành giọng nói (text-to-speech) khô cứng .
Với khả năng hỗ trợ hơn 70 ngôn ngữ, mô hình này bao phủ hàng nghìn cặp dịch hai chiều. Nó được thiết kế cho các cuộc hội thoại tay đôi, nơi mỗi người tham gia đều có thể nghe thấy lời nói của đối phương được dịch sang ngôn ngữ của mình một cách trôi chảy .
Đối với các nhà phát triển, mô hình được truy cập thông qua Gemini Live API. Nó yêu cầu đầu vào âm thanh ở định dạng cụ thể: PCM 16-bit, little-endian, tần số lấy mẫu 16kHz. Đầu ra âm thanh đã dịch cũng là PCM 16-bit thô, nhưng ở tần số lấy mẫu cao hơn là 24kHz . Cửa sổ ngữ cảnh của mô hình cho phép lên đến 128.000 token đầu vào và 64.000 token đầu ra
.
Chặng đường đưa công nghệ này đến tay công chúng là một quá trình theo từng giai đoạn, với dòng mô hình Gemini 3.5 lần đầu được công bố tại hội nghị nhà phát triển Google I/O vào tháng 5/2026 .
gemini-3.1-flash-live-preview vào ngày 26/03/2026, như một phần của quá trình phát triển lặp đi lặp lại này gemini-3.5-live-translate-preview chính thức được phát hành cho các nhà phát triển thông qua Gemini Live API và Google AI Studio, và cho người tiêu dùng toàn cầu qua các bản cập nhật ứng dụng Google Dịch trên cả Android và iOS Công nghệ này đang được cung cấp trên một loạt các nền tảng dành cho người tiêu dùng, nhà phát triển và doanh nghiệp của Google, với các cấp độ truy cập khác nhau.
Đây là cách tiếp cận đơn giản nhất cho người dùng phổ thông. Tính năng đang được triển khai toàn cầu trong ứng dụng Google Dịch. Người dùng có thể nhấn vào nút "Live translate" ở góc dưới cùng bên trái màn hình ứng dụng khi đang đeo tai nghe. Trên Android, Google cũng đang tung ra "chế độ nghe" rảnh tay, phát bản dịch qua loa thoại của điện thoại, cho phép bạn áp điện thoại vào tai như một cuộc gọi thông thường .
Đối với các nhà phát triển, mô hình hiện ở chế độ xem trước công khai. Điều này cho phép tích hợp vào các ứng dụng và dịch vụ của bên thứ ba thông qua Gemini Live API với cấu hình dịch thuật cụ thể. Google AI Studio cũng cung cấp một môi trường 'hộp cát' để các nhà phát triển tạo mẫu và thử nghiệm các khả năng của mô hình .
Quyền truy cập dành cho doanh nghiệp bị hạn chế hơn. Gemini 3.5 Live Translate cho Google Meet sẽ ra mắt dưới dạng bản xem trước riêng tư dành cho một số khách hàng doanh nghiệp được chọn bắt đầu từ tháng 6 năm nay. Khi khả dụng, nó sẽ tự động phát hiện ngôn ngữ của người nói và dịch sang ngôn ngữ ưa thích của từng người tham gia cuộc họp. Đợt triển khai rộng rãi hơn được lên kế hoạch vào cuối năm 2026 . Tính năng này sẽ dành cho những người đăng ký các gói Google Workspace Business Standard và Plus, Enterprise Standard và Plus, Google AI Pro và Google AI Ultra
.
Các nền tảng giao tiếp thời gian thực như Agora, Fishjam, LiveKit, Pipecat và Vision Agents đang trong quá trình tích hợp Gemini Live API để đưa mô hình dịch thuật vào hệ thống truyền thông đa phương tiện của riêng họ .
Một trong những thử nghiệm thực tế hấp dẫn nhất chính là với Grab, nền tảng gọi xe và giao đồ ăn hàng đầu Đông Nam Á. Grab đang thí điểm công nghệ này để cung cấp khả năng dịch giọng nói theo thời gian thực giữa tài xế và hành khách. Công ty này xử lý hơn 10 triệu cuộc gọi thoại mỗi tháng, và thí điểm này trực tiếp giải quyết bài toán về một thị trường cực kỳ phân mảnh về mặt ngôn ngữ (như tiếng Thái, tiếng Việt, tiếng Mã Lai, tiếng Indonesia và tiếng Philippines) .
Bước chuyển từ dịch thuật theo lượt sang dịch thuật liên tục là một thay đổi cơ bản về trải nghiệm người dùng. Bằng cách tích hợp sâu mô hình này vào các sản phẩm phổ biến như Google Dịch và Meet, đồng thời mở ra cho hệ sinh thái nhà phát triển, Google đang biến dịch thuật giọng nói tức thì từ một tính năng riêng lẻ trở thành một lớp cơ sở hạ tầng tiêu chuẩn cho giao tiếp toàn cầu . Cuộc thí điểm với Grab minh chứng rõ ràng cho sự dịch chuyển này, khẳng định vị thế một tiện ích thiết yếu của dịch thuật tức thì, tự nhiên, thay vì chỉ là một điểm nhấn công nghệ mới lạ
.
Để phòng ngừa rủi ro, tất cả âm thanh do AI tạo ra từ mô hình này đều được gắn watermark (thủy vân) bằng công nghệ SynthID của Google, đảm bảo nguồn gốc của nó có thể được phát hiện và giảm thiểu các hành vi sử dụng sai mục đích. Đây là một bước đi quan trọng khi công nghệ giọng nói tổng hợp ngày càng trở nên thuyết phục và phổ biến .
Comments
0 comments