Nền tảng cốt lõi là Mô hình Giọng nói Đàm thoại (CSM) của Sesame, một hệ thống chuyển văn bản thành giọng nói (TTS) bằng mạng nơ-ron được phát triển từ năm 2024 đến năm 2026 . Không giống như các hệ thống TTS truyền thống đọc văn bản với ngữ điệu đều đều, CSM xử lý toàn bộ ngữ cảnh hội thoại - bao gồm các lượt đối thoại gần đây - và tạo âm thanh trực tiếp, kết hợp thời gian, tông giọng và điều biến cảm xúc theo thời gian thực
.
Sequoia Capital, một nhà đầu tư, nhận xét rằng mô hình này "không chỉ đơn thuần chuyển đầu ra của mô hình ngôn ngữ lớn (LLM) thành âm thanh — nó tạo ra lời nói trực tiếp, nắm bắt nhịp điệu, cảm xúc và sức biểu đạt của đối thoại thực sự" .
Mô hình có các kích thước từ 1 tỷ đến 8 tỷ tham số, một lựa chọn có chủ đích để đủ nhẹ, cuối cùng có thể chạy trên phần cứng tiêu dùng và thiết bị đeo . Một phiên bản mã nguồn mở 1 tỷ tham số đã được phát hành trên GitHub theo giấy phép Apache 2.0, với các điểm kiểm tra mô hình (checkpoints) được lưu trữ trên Hugging Face
.
Sesame mô tả ứng dụng là "Ưu tiên quyền riêng tư", với dòng giới thiệu trên App Store tuyên bố các cuộc trò chuyện chỉ diễn ra giữa người dùng và Sesame, "an toàn và riêng tư theo thiết kế" . Chính sách quyền riêng tư chính thức của công ty, được cập nhật lần cuối vào ngày 7 tháng 5 năm 2026, giải thích cách dữ liệu người dùng được thu thập và xử lý trên trang web, ứng dụng và dịch vụ, bao gồm các trợ lý đàm thoại ảo
.
Điều mà các tài liệu công khai không tiết lộ là các quyền kiểm soát chi tiết mà nhiều người dùng quan tâm đến quyền riêng tư thường tìm kiếm — những công cụ như xóa hội thoại thủ công, từ chối tham gia huấn luyện mô hình hay các cài đặt lưu trữ dữ liệu chi tiết. Chính sách quyền riêng tư đề cập đến các quy trình hủy hoặc ẩn danh thông tin cá nhân khi không còn cần thiết, nhưng không nêu rõ mốc thời gian hay các quyền kiểm soát dành cho người dùng để yêu cầu xóa bỏ .
Xét đến việc dữ liệu giọng nói vốn rất nhạy cảm và có thể là đặc điểm sinh trắc học, khoảng trống thông tin này chắc chắn sẽ thu hút sự giám sát chặt chẽ khi Sesame mở rộng quy mô và các cơ quan quản lý tiếp tục siết chặt các quy định về xử lý dữ liệu AI. Đối với những người dùng muốn tìm hiểu các điều khoản chính xác, chính sách đầy đủ có tại sesame.com/privacy.
Ứng dụng của Sesame là phương tiện để đạt đến mục đích cuối cùng. Chiến lược dài hạn của công ty xoay quanh việc nhúng các trợ lý giọng nói của mình vào kính thông minh siêu nhẹ độc quyền, được thiết kế để đeo cả ngày, với mục tiêu ra mắt vào năm 2027 .
Lý do đằng sau là cả về mặt kỹ thuật lẫn thương mại. Về mặt kỹ thuật, số lượng tham số nhỏ (từ 1 đến 8 tỷ) của CSM được cố tình thiết kế để triển khai trên thiết bị, có nghĩa là kính có thể chạy mô hình giọng nói cục bộ thay vì phụ thuộc vào một vòng khứ hồi lên đám mây . Về mặt kinh doanh, Sesame coi việc kiểm soát cả phần mềm lẫn phần cứng là cách để thu về cả phí đăng ký và doanh số bán thiết bị có biên lợi nhuận cao hơn từ cùng một người dùng
.
Chiến lược "ưu tiên phần cứng" này cho phép Sesame kiểm soát toàn bộ trải nghiệm — hành vi micro, từ đánh thức, độ trễ, thời lượng pin và gói đăng ký — thay vì cạnh tranh trong hệ sinh thái ứng dụng của bên thứ ba . Lý lịch của đội ngũ sáng lập tại Oculus và Meta, nơi họ đã giúp xây dựng phần cứng VR/AR cho người tiêu dùng, mang lại cho tham vọng phần cứng này một mức độ uy tín mà một startup chỉ làm phần mềm thuần túy có thể không có được
.
Các tuyên bố công khai hứa hẹn về kính có "âm thanh chất lượng cao" và một trợ lý AI có thể "quan sát thế giới cùng bạn" . Các báo cáo đề cập đến tích hợp theo dõi mắt và phản hồi hội thoại thời gian thực, mặc dù các thông số kỹ thuật chi tiết vẫn còn ít ỏi
.
Vào ngày 21 tháng 10 năm 2025, Sesame đã hoàn tất vòng gọi vốn Series B trị giá 250 triệu USD, sau khi đã nhận được sự hậu thuẫn trước đó từ Andreessen Horowitz . Các nhà đầu tư bao gồm Sequoia Capital, công ty đã xuất bản một bài viết hợp tác chi tiết phác thảo luận điểm rằng AI ưu tiên giọng nói đại diện cho một sự thay đổi cơ bản trong tương tác giữa người và máy
.
Số vốn này được dành để thúc đẩy mô hình giọng nói, mở rộng đội ngũ kỹ sư và — quan trọng nhất — đẩy nhanh việc phát triển phần cứng đeo tay đồng hành . Vòng gọi vốn đã đẩy mức định giá của Sesame lên khoảng 1 tỷ USD
.
Sesame bước vào một lĩnh vực nơi Apple, Google, Amazon và OpenAI đã có sẵn các trợ lý giọng nói với lượng người dùng cơ sở khổng lồ. Con đường tạo sự khác biệt của công ty dựa trên ba ván cược:
Rủi ro là có thật. Các đối thủ lớn với tiềm lực tài chính mạnh mẽ hoàn toàn có thể bổ sung các cải tiến giọng nói theo thời gian. Phần cứng âm thanh nổi tiếng là khó thiết kế và sản xuất ở quy mô lớn, đặc biệt là phải đủ nhẹ để đeo cả ngày và đủ phong cách để người tiêu dùng chấp nhận. Và những lỗ hổng về quyền riêng tư xung quanh việc xử lý dữ liệu giọng nói có thể dẫn đến phản ứng dữ dội từ phía người dùng và cơ quan quản lý, đúng vào thời điểm Sesame đang cố gắng xây dựng lòng tin.
Liệu sự ấm áp trong đàm thoại và tham vọng phần cứng của Sesame có thể tạo ra một vị thế vững chắc hay không vẫn còn là một câu hỏi mở — một câu hỏi mà màn ra mắt ứng dụng iOS và đợt phát hành kính sắp tới sẽ bắt đầu trả lời.
Comments
0 comments