背後的核心技術是 Sesame 的對話語音模型(Conversational Speech Model,簡稱 CSM),一套從 2024 年開發至 2026 年的神經文字轉語音系統 。有別於傳統以平板語調朗讀文字的 TTS 流程,CSM 會處理完整的對話脈絡(包含近期的對話轉折),並直接生成語音,即時融入時間節奏、語氣與情緒變化
。
該模型的參數量從 10 億到 80 億不等,這是一項刻意的選擇,目的是保持模型足夠輕巧,最終能在消費級和穿戴式裝置上運作 。一個 10 億參數的開源版本已在 GitHub 上以 Apache 2.0 授權釋出,模型檢查點則託管在 Hugging Face
。
Sesame 將 App 定位為「隱私優先」,App Store 的說明文字寫道,對話僅限於使用者與 Sesame 之間,「從設計上就確保安全與隱私」。該公司正式的隱私權政策(最近更新於 2026 年 5 月 7 日)解釋了如何在其官網、應用程式、產品及服務(包含虛擬對話角色)中蒐集與處理使用者資料
。
然而,公開文件並未揭露許多注重隱私的使用者所在意的細部控制選項——例如手動刪除對話紀錄、拒絕將資料用於模型訓練,或精細的資料保留設定等工具。隱私政策雖提及,當個人資訊不再需要時,會執行銷毀或去識別化的程序,但並未說明具體時程,也未提供讓使用者主動請求刪除的前台控制選項 。
有鑑於語音資料本質上極其敏感且可能涉及生物特徵,隨著 Sesame 擴大規模,以及監管機關持續收緊 AI 資料處理的規範,這項缺口勢必引來更多關注。想了解確切條款的使用者,可至 sesame.com/privacy 查看完整政策。
這套邏輯兼具技術與商業考量。技術面上,CSM 較小的參數量(10 億至 80 億)是刻意為裝置端部署設計的,意味著眼鏡可以直接在本地執行語音模型,而不必仰賴雲端往返傳輸 。商業面上,Sesame 認為同時掌控軟體與硬體,是從同一名使用者身上同時獲取訂閱費和利潤較高的裝置銷售額的一種方式
。
這套「硬體優先」的策略,讓 Sesame 得以掌控完整的體驗——麥克風行為、喚醒詞、延遲時間、電池續航,乃至訂閱組合——而不是在第三方的 App 生態系裡頭競爭 。創始團隊在 Oculus 和 Meta 期間曾協助打造消費型 VR/AR 硬體,這樣的背景為這份硬體野心,增添了純軟體新創公司所欠缺的說服力
。
2025 年 10 月 21 日,Sesame 完成了 2.5 億美元的 B 輪融資,在此之前已獲得創投 a16z(Andreessen Horowitz)的支持 。投資人包含紅杉資本(Sequoia Capital),該公司發表了一篇詳盡的合作夥伴文章,闡述其認為語音優先的 AI 代表著人機互動根本性轉變的論點
。
Sesame 進入的是一個 Apple、Google、Amazon 和 OpenAI 早已憑藉語音助理擁有龐大安裝基底的戰場。它的差異化路徑建立在三個賭注上:
風險同樣真實存在。資金充裕的現有巨頭可以隨著時間推進改良語音功能。音訊硬體的設計與大規模製造素以高難度著稱,尤其要做得夠輕、適合全天佩戴,同時又夠時尚,以贏得消費者青睞。此外,語音資料處理上的隱私缺口,可能在 Sesame 試圖建立信任之際,引來監管與使用者的反彈。
Sesame 的對話溫度和硬體野心,能否開闢出一個可防守的市場位置,仍是個懸而未決的問題——而 iOS App 的推出,以及即將到來的眼鏡產品,將開始為這個問題提供線索。
Comments
0 comments