Câu trả lờiĐã xuất bản2 tháng trướcLast edited tháng trước36 nguồn

Bên trong màn ra mắt iOS của Sesame AI: Trợ lý giọng nói là ưu tiên, 250 triệu USD tài trợ và cuộc đua kính thông minh

Sesame phát hành ứng dụng iOS ưu tiên giọng nói vào 28/05/2026, thay thế lời nhắc văn bản bằng hội thoại sống động, với mục tiêu dài hạn là tích hợp AI tương tự vào kính thông minh siêu nhẹ ra mắt năm 2027. Mô hình Giọng nói Đàm thoại (CSM) của công ty sử dụng các mô hình từ 1 đến 8 tỷ tham số để tạo giọng nói có ng...

Tìm kiếm và kiểm chứng sự thật với Studio Global AI Duyệt thêm trang xu hướng

Sesame AI iOS app voice-first interface concept — What features does Sesame AI's new iOS app offer, how does its voice agent technology work, what privacy options are available, what are itsSesame AI's iOS app launched May 28, 2026, prioritizing voice-first conversation over text input.
Prompt AI
Create a landscape editorial hero image for this Studio Global article: What features does Sesame AI's new iOS app offer, how does its voice agent technology work, what privacy options are available, what are its. Article summary: Here is a comprehensive overview based on the available evidence.. Topic tags: general, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "Home **›** Articles **›** **Sesame AI – A New Voice for AI Assistants**. # Sesame AI – A New Voice for AI Assistants. Voice AI start-up Sesame is tackling this challenge head-on, p" source context "Sesame AI - A New Voice for AI Assistants |" Reference image 2: visual subject "# Sesame, the conversational AI startup from Oculus founders, raises $250M and launches beta. Sesame, a conversational AI startup and smart glasses maker, has raised a $250 million" source co
openai.com

Sesame, startup AI đàm thoại do Brendan Iribe và Ankit Kumar - hai cựu lãnh đạo từ Oculus và Meta - đồng sáng lập, đã chính thức công bố ứng dụng iOS vào ngày 28 tháng 5 năm 2026, tiến một bước dài tới viễn cảnh về một trợ lý AI không cần màn hình . Trong khi hầu hết các trợ lý AI từ OpenAI, Google hay Apple vẫn xoay quanh việc nhập văn bản, Sesame lại theo đuổi trải nghiệm ưu tiên giọng nói, được hỗ trợ bởi một mô hình ngôn ngữ độc quyền mà công ty tuyên bố có thể ngắt lời, cười đùa và chuyển đổi tông giọng giữa câu để đáp lại các tín hiệu cảm xúc. Màn ra mắt ứng dụng diễn ra chưa đầy một năm sau vòng gọi vốn Series B trị giá 250 triệu USD, làm dấy lên nhiều kỳ vọng lẫn hoài nghi về tham vọng phần cứng đeo tay đầy tham vọng của startup này.

Ứng dụng iOS thực sự làm được gì

Ứng dụng của Sesame được thiết kế như một đối tác trò chuyện thực thụ hơn là một chatbot để bạn gõ phím. Chức năng cốt lõi xoay quanh đối thoại bằng giọng nói mở, định vị Sesame như một người cộng sự bằng lời nói thay vì một công cụ tìm kiếm có gắn micro.

Danh sách trên App Store nêu bật một số khả năng vượt ra ngoài những câu hỏi-đáp đơn thuần :

Đàm thoại tự nhiên ưu tiên giọng nói – người dùng nói, AI lắng nghe và phản hồi, không cần nhập văn bản.
Trò chuyện về bất kỳ bức ảnh nào – tải lên một bức ảnh (ghi chú tay, trang phục, ảnh chụp màn hình) cho phép người dùng thảo luận trực tiếp bằng lời nói với trợ lý ảo.
Thẻ tìm kiếm kèm kết quả hình ảnh – AI có thể đưa ra các phương tiện trực quan để bổ trợ cho câu trả lời bằng giọng nói.
Ghi chú – một tính năng tích hợp để nắm bắt các ý chính từ cuộc thảo luận.
Chế độ nhắn tin – tùy chọn chuyển sang nhập văn bản khi nói to không tiện.
Hỗ trợ đào sâu – các yêu cầu tìm hiểu chi tiết hơn sẽ kích hoạt câu trả lời mở rộng.
Cập nhật thông tin web theo thời gian thực – Sesame tuyên bố đã xây dựng các hệ thống tìm kiếm và truy xuất nhanh, cho phép AI tiếp cận thông tin mới nhất và thậm chí thay đổi hướng trò chuyện giữa chừng khi có dữ liệu mới, mô phỏng cách con người điều chỉnh câu chuyện của mình .

Ứng dụng yêu cầu đăng ký trả phí để sử dụng .

Mô hình giọng nói vận hành đằng sau

Nền tảng cốt lõi là Mô hình Giọng nói Đàm thoại (CSM) của Sesame, một hệ thống chuyển văn bản thành giọng nói (TTS) bằng mạng nơ-ron được phát triển từ năm 2024 đến năm 2026 . Không giống như các hệ thống TTS truyền thống đọc văn bản với ngữ điệu đều đều, CSM xử lý toàn bộ ngữ cảnh hội thoại - bao gồm các lượt đối thoại gần đây - và tạo âm thanh trực tiếp, kết hợp thời gian, tông giọng và điều biến cảm xúc theo thời gian thực .

Nghiên cứu công khai của Sesame mô tả một số ưu tiên thiết kế :

Trí thông minh cảm xúc – mô hình hiểu và phản hồi ngữ cảnh cảm xúc, điều chỉnh cao độ và tiết tấu một cách linh hoạt.
Tương tác đàm thoại – nhịp điệu, khoảng dừng, ngắt lời, nhấn nhá và thậm chí cả tiếng cười một cách tự nhiên.
Nhận thức ngữ cảnh – hệ thống ghi nhớ lịch sử hội thoại gần đây và thay đổi cách truyền đạt phù hợp.
Tính cách nhất quán – được thiết kế để duy trì một sự hiện diện mạch lạc thay vì nghe như một tập hợp các giọng nói chung chung.

Sequoia Capital, một nhà đầu tư, nhận xét rằng mô hình này "không chỉ đơn thuần chuyển đầu ra của mô hình ngôn ngữ lớn (LLM) thành âm thanh — nó tạo ra lời nói trực tiếp, nắm bắt nhịp điệu, cảm xúc và sức biểu đạt của đối thoại thực sự" .

Mô hình có các kích thước từ 1 tỷ đến 8 tỷ tham số, một lựa chọn có chủ đích để đủ nhẹ, cuối cùng có thể chạy trên phần cứng tiêu dùng và thiết bị đeo . Một phiên bản mã nguồn mở 1 tỷ tham số đã được phát hành trên GitHub theo giấy phép Apache 2.0, với các điểm kiểm tra mô hình (checkpoints) được lưu trữ trên Hugging Face .

Hiện tại, Sesame cung cấp hai đại diện giọng nói được xây dựng trên CSM: Maya và Miles .

Quyền riêng tư: Mác "Ưu tiên quyền riêng tư" với thông tin chi tiết hạn chế

Sesame mô tả ứng dụng là "Ưu tiên quyền riêng tư", với dòng giới thiệu trên App Store tuyên bố các cuộc trò chuyện chỉ diễn ra giữa người dùng và Sesame, "an toàn và riêng tư theo thiết kế" . Chính sách quyền riêng tư chính thức của công ty, được cập nhật lần cuối vào ngày 7 tháng 5 năm 2026, giải thích cách dữ liệu người dùng được thu thập và xử lý trên trang web, ứng dụng và dịch vụ, bao gồm các trợ lý đàm thoại ảo .

Điều mà các tài liệu công khai không tiết lộ là các quyền kiểm soát chi tiết mà nhiều người dùng quan tâm đến quyền riêng tư thường tìm kiếm — những công cụ như xóa hội thoại thủ công, từ chối tham gia huấn luyện mô hình hay các cài đặt lưu trữ dữ liệu chi tiết. Chính sách quyền riêng tư đề cập đến các quy trình hủy hoặc ẩn danh thông tin cá nhân khi không còn cần thiết, nhưng không nêu rõ mốc thời gian hay các quyền kiểm soát dành cho người dùng để yêu cầu xóa bỏ .

Xét đến việc dữ liệu giọng nói vốn rất nhạy cảm và có thể là đặc điểm sinh trắc học, khoảng trống thông tin này chắc chắn sẽ thu hút sự giám sát chặt chẽ khi Sesame mở rộng quy mô và các cơ quan quản lý tiếp tục siết chặt các quy định về xử lý dữ liệu AI. Đối với những người dùng muốn tìm hiểu các điều khoản chính xác, chính sách đầy đủ có tại sesame.com/privacy.

Canh bạc phần cứng: Kính thông minh trước năm 2027

Ứng dụng của Sesame là phương tiện để đạt đến mục đích cuối cùng. Chiến lược dài hạn của công ty xoay quanh việc nhúng các trợ lý giọng nói của mình vào kính thông minh siêu nhẹ độc quyền, được thiết kế để đeo cả ngày, với mục tiêu ra mắt vào năm 2027 .

Lý do đằng sau là cả về mặt kỹ thuật lẫn thương mại. Về mặt kỹ thuật, số lượng tham số nhỏ (từ 1 đến 8 tỷ) của CSM được cố tình thiết kế để triển khai trên thiết bị, có nghĩa là kính có thể chạy mô hình giọng nói cục bộ thay vì phụ thuộc vào một vòng khứ hồi lên đám mây . Về mặt kinh doanh, Sesame coi việc kiểm soát cả phần mềm lẫn phần cứng là cách để thu về cả phí đăng ký và doanh số bán thiết bị có biên lợi nhuận cao hơn từ cùng một người dùng .

Chiến lược "ưu tiên phần cứng" này cho phép Sesame kiểm soát toàn bộ trải nghiệm — hành vi micro, từ đánh thức, độ trễ, thời lượng pin và gói đăng ký — thay vì cạnh tranh trong hệ sinh thái ứng dụng của bên thứ ba . Lý lịch của đội ngũ sáng lập tại Oculus và Meta, nơi họ đã giúp xây dựng phần cứng VR/AR cho người tiêu dùng, mang lại cho tham vọng phần cứng này một mức độ uy tín mà một startup chỉ làm phần mềm thuần túy có thể không có được .

Các tuyên bố công khai hứa hẹn về kính có "âm thanh chất lượng cao" và một trợ lý AI có thể "quan sát thế giới cùng bạn" . Các báo cáo đề cập đến tích hợp theo dõi mắt và phản hồi hội thoại thời gian thực, mặc dù các thông số kỹ thuật chi tiết vẫn còn ít ỏi .

250 triệu USD – Lá phiếu tín nhiệm khổng lồ

Vào ngày 21 tháng 10 năm 2025, Sesame đã hoàn tất vòng gọi vốn Series B trị giá 250 triệu USD, sau khi đã nhận được sự hậu thuẫn trước đó từ Andreessen Horowitz . Các nhà đầu tư bao gồm Sequoia Capital, công ty đã xuất bản một bài viết hợp tác chi tiết phác thảo luận điểm rằng AI ưu tiên giọng nói đại diện cho một sự thay đổi cơ bản trong tương tác giữa người và máy .

Số vốn này được dành để thúc đẩy mô hình giọng nói, mở rộng đội ngũ kỹ sư và — quan trọng nhất — đẩy nhanh việc phát triển phần cứng đeo tay đồng hành . Vòng gọi vốn đã đẩy mức định giá của Sesame lên khoảng 1 tỷ USD .

Sesame định vị ra sao trong thị trường AI giọng nói đông đúc

Sesame bước vào một lĩnh vực nơi Apple, Google, Amazon và OpenAI đã có sẵn các trợ lý giọng nói với lượng người dùng cơ sở khổng lồ. Con đường tạo sự khác biệt của công ty dựa trên ba ván cược:

Chất lượng đàm thoại như một lợi thế cạnh tranh bền vững – Sesame lập luận rằng khả năng biểu đạt cảm xúc, ngữ điệu tự nhiên và tương tác đàm thoại thời gian thực (ngắt lời, cười đùa, thay đổi hướng giữa câu) tạo ra trải nghiệm mà các chatbot ưu tiên văn bản và trợ lý đời cũ không thể sánh kịp .
Ưu tiên giọng nói, không phải thêm giọng nói – Không giống ChatGPT hay Gemini, nơi giọng nói là một tính năng được bổ sung trên mô hình văn bản, Sesame coi trò chuyện bằng lời nói là giao diện chính .
Tích hợp phần cứng – Lộ trình kính thông minh tạo ra một điểm chạm vật lý, tách biệt Sesame khỏi các trợ lý AI thuần phần mềm. Sở hữu phần cứng đồng nghĩa với việc kiểm soát mối quan hệ với người dùng, chứ không chỉ đơn thuần thuê một vị trí trên lưới ứng dụng điện thoại .

Rủi ro là có thật. Các đối thủ lớn với tiềm lực tài chính mạnh mẽ hoàn toàn có thể bổ sung các cải tiến giọng nói theo thời gian. Phần cứng âm thanh nổi tiếng là khó thiết kế và sản xuất ở quy mô lớn, đặc biệt là phải đủ nhẹ để đeo cả ngày và đủ phong cách để người tiêu dùng chấp nhận. Và những lỗ hổng về quyền riêng tư xung quanh việc xử lý dữ liệu giọng nói có thể dẫn đến phản ứng dữ dội từ phía người dùng và cơ quan quản lý, đúng vào thời điểm Sesame đang cố gắng xây dựng lòng tin.

Liệu sự ấm áp trong đàm thoại và tham vọng phần cứng của Sesame có thể tạo ra một vị thế vững chắc hay không vẫn còn là một câu hỏi mở — một câu hỏi mà màn ra mắt ứng dụng iOS và đợt phát hành kính sắp tới sẽ bắt đầu trả lời.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Tìm kiếm và kiểm chứng sự thật với Studio Global AI

Người ta cũng hỏi

Câu trả lời ngắn gọn cho "Bên trong màn ra mắt iOS của Sesame AI: Trợ lý giọng nói là ưu tiên, 250 triệu USD tài trợ và cuộc đua kính thông minh" là gì?

Những điểm chính cần xác nhận đầu tiên là gì?

Tôi nên làm gì tiếp theo trong thực tế?

Sesame định vị ứng dụng là "Ưu tiên quyền riêng tư" và yêu cầu đăng ký trả phí, nhưng các tài liệu công khai chưa nêu rõ các quyền kiểm soát chi tiết như xóa hội thoại hay từ chối huấn luyện dữ liệu.

Nguồn

← Back to Trending