Sesame 的核心是它的对话语音模型(Conversational Speech Model,CSM),一个从 2024 年起研发、持续迭代至 2026 年的神经文本转语音系统 。和那些用平淡语调照本宣科的传统 TTS 流程不同,CSM 会处理完整的对话背景——包括最近的对话回合——并直接生成音频,实时融入时机、语气和情绪调节
。
这款模型的参数量从 10 亿到 80 亿不等,这个刻意设计是为了让它足够轻量,最终能在消费级和可穿戴硬件上运行 。一个开源版的 10 亿参数模型已在 GitHub 上以 Apache 2.0 许可证发布,模型检查点托管在 Hugging Face 上
。
Sesame 将应用描述为“隐私优先”,App Store 的文案说,对话只留在你和 Sesame 之间,而且在设计上“安全且私密” 。公司正式的隐私政策最近一次更新于 2026 年 5 月 7 日,解释了其网站、应用和服务(包括虚拟对话代理)如何收集和处理用户数据
。
然而,公开文件没有透露许多隐私意识强的用户所看重的那种精细控制——比如手动删除对话、拒绝将数据用于模型训练、或具体的数据保留时长设置。隐私政策提到了在不再需要个人信息时进行销毁或匿名化的程序,但没有说明具体的时间表,也无用户请求删除的入口细节 。
考虑到语音数据本身就十分敏感且可能含有生物特征信息,随着 Sesame 扩大规模,以及监管机构继续收紧 AI 数据处理的规则,这种信息缺失很可能会招来审视。如果你想了解具体条款,完整的隐私政策可在 sesame.com/privacy 查阅。
这个逻辑既有技术面,也有商业面。在技术上,CSM 较小的参数量(10 亿到 80 亿)就是为了在设备端部署而刻意设计的,这意味着眼镜理论上可以在本地运行语音模型,而不是每次都依赖云端来回传输 。在商业上,Sesame 认为同时掌控软件和硬件,可以从同一个用户身上同时获得订阅费与利润率更高的设备销售收入
。
这种“硬件优先”的策略,让 Sesame 能控制完整的用户体验——麦克风行为、唤醒词、延迟、电池续航以及订阅套餐——而不是在第三方的应用生态里和其他人抢饭吃 。创始团队在 Oculus 和 Meta 期间帮助打造了消费级 VR/AR 硬件,这给他们做硬件的野心增添了纯粹的软件创业公司难以具备的可信度
。
2025 年 10 月 21 日,Sesame 完成了 2.5 亿美元的 B 轮融资 。投资方包括红杉资本,它专门发布了一篇详尽的合伙人署名文章,阐述该公司认为“语音优先的 AI 代表着人机交互的根本性转变”这一核心论点
。
Sesame 进入的战场里,Apple、Google、Amazon 和 OpenAI 早已拥有安装基数庞大的语音助手。它的差异化路径押注在三点上:
当然,风险也很真实。资金充裕的巨头完全可以在日后逐步改善语音表现。音频硬件的设计与大规模量产出了名地难,尤其还要轻到能全天佩戴、漂亮到能让消费者接受。而围绕语音数据处理所存在的隐私细节缺失,正好可能在 Sesame 试图建立信任的时候,招致监管和用户的双重反弹。
Sesame 是否能凭借对话的温暖质感与硬件野心,在竞争中切出自己的阵地,仍是一个悬而未决的问题——而 iOS 应用的发布,以及后续智能眼镜的面世,将开始给出答案。
Comments
0 comments