答案已發布2 個月前Last edited 上個月36 個來源

前 Oculus 高層打造 Sesame AI：用會插話、會笑的語音模型，強攻無螢幕 AI 伴侶

Sesame 於 2026 年 5 月 28 日推出語音優先 iOS 應用，以逼真的口語對話取代文字輸入，長遠目標是在 2027 年將同一套 AI 嵌入輕量智慧眼鏡。該公司的「對話語音模型（CSM）」採用參數量 10 億至 80 億的小型模型，能生成帶有情緒脈絡、自然停頓與即時語氣調整的語音，瞄準未來在裝置端直接運算。

使用 Studio Global AI 搜尋並查證事實瀏覽更多熱門頁面

Sesame AI iOS app voice-first interface concept — What features does Sesame AI's new iOS app offer, how does its voice agent technology work, what privacy options are available, what are itsSesame AI's iOS app launched May 28, 2026, prioritizing voice-first conversation over text input.
AI 提示詞
Create a landscape editorial hero image for this Studio Global article: What features does Sesame AI's new iOS app offer, how does its voice agent technology work, what privacy options are available, what are its. Article summary: Here is a comprehensive overview based on the available evidence.. Topic tags: general, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "Home **›** Articles **›** **Sesame AI – A New Voice for AI Assistants**. # Sesame AI – A New Voice for AI Assistants. Voice AI start-up Sesame is tackling this challenge head-on, p" source context "Sesame AI - A New Voice for AI Assistants |" Reference image 2: visual subject "# Sesame, the conversational AI startup from Oculus founders, raises $250M and launches beta. Sesame, a conversational AI startup and smart glasses maker, has raised a $250 million" source co
openai.com

由前 Oculus 與 Meta 高層 Brendan Iribe 和 Ankit Kumar 創立的對話式 AI 新創 Sesame，在 2026 年 5 月 28 日正式向大眾推出其 iOS 應用，朝「無螢幕 AI 伴侶」的願景邁出關鍵一步。當 OpenAI、Google 和 Apple 的多數 AI 助理仍圍繞著文字輸入打轉時，Sesame 卻大力推動一種語音優先的體驗。其背後的專利語音模型，據稱能在對話中插話、發笑，並即時根據情緒線索改變語氣。這款應用的問世，距離該公司完成 2.5 億美元的 B 輪融資不到一年，這筆資金在拉高期待的同時，也引來外界對其野心勃勃的穿戴式硬體計畫的檢視。

iOS 應用能做什麼？

Sesame 的 App 定位更像一位口語對話夥伴，而非讓你打字的聊天機器人。核心功能圍繞在開放式的語音對話，將 Sesame 定位為一個口頭協作者，而不僅僅是掛著麥克風的搜尋引擎。

App Store 的列表顯示了幾項超越單純問答的功能：

語音優先的自然對話 – 使用者開口說，AI 聆聽並以語音回應，完全無需打字。
討論任何照片 – 上傳一張圖片（手寫筆記、穿搭照、螢幕截圖），就能用語音和 AI 討論內容。
附帶圖片的搜尋卡片 – AI 能提供視覺輔助，來補充口頭回答。
筆記功能 – 內建可擷取對話重點的功能。
文字模式 – 當不方便開口說話時，可切換至打字模式。
深度追問支援 – 要求更多細節時，會觸發更深入的後續回應。
即時網路資訊整合 – Sesame 聲稱已建立快速的搜尋與檢索系統，讓 AI 能取得最新資訊，甚至在說話途中，當接收到更新資料時，句子會在中途轉向，模仿人類說話時即時修正的模樣。

使用該 App 需要付費訂閱。

驅動一切的語音模型

背後的核心技術是 Sesame 的對話語音模型（Conversational Speech Model，簡稱 CSM），一套從 2024 年開發至 2026 年的神經文字轉語音系統。有別於傳統以平板語調朗讀文字的 TTS 流程，CSM 會處理完整的對話脈絡（包含近期的對話轉折），並直接生成語音，即時融入時間節奏、語氣與情緒變化。

Sesame 公開的研究描述了幾個設計重點：

情緒智力 – 模型能讀取並回應情緒脈絡，動態調整音高與抑揚頓挫。
對話動態 – 自然的時間點、停頓、插話、語氣強調，甚至是笑聲。
脈絡感知 – 系統會記住近期的對話歷史，並相應地改變表達方式。
一致的性格 – 旨在維持一個連貫的存在感，而非聽起來像一系列泛泛的罐頭語音在輪番上陣。

投資人紅杉資本指出，該模型「不只是將 LLM 的輸出轉為語音，而是直接生成語音，捕捉真實對話的節奏、情感與表現力」。

該模型的參數量從 10 億到 80 億不等，這是一項刻意的選擇，目的是保持模型足夠輕巧，最終能在消費級和穿戴式裝置上運作。一個 10 億參數的開源版本已在 GitHub 上以 Apache 2.0 授權釋出，模型檢查點則託管在 Hugging Face 。

Sesame 目前提供兩個建構在 CSM 之上的具名語音角色：Maya 和 Miles 。

隱私：「隱私優先」的標籤，但細節有限

Sesame 將 App 定位為「隱私優先」，App Store 的說明文字寫道，對話僅限於使用者與 Sesame 之間，「從設計上就確保安全與隱私」。該公司正式的隱私權政策（最近更新於 2026 年 5 月 7 日）解釋了如何在其官網、應用程式、產品及服務（包含虛擬對話角色）中蒐集與處理使用者資料。

然而，公開文件並未揭露許多注重隱私的使用者所在意的細部控制選項——例如手動刪除對話紀錄、拒絕將資料用於模型訓練，或精細的資料保留設定等工具。隱私政策雖提及，當個人資訊不再需要時，會執行銷毀或去識別化的程序，但並未說明具體時程，也未提供讓使用者主動請求刪除的前台控制選項。

有鑑於語音資料本質上極其敏感且可能涉及生物特徵，隨著 Sesame 擴大規模，以及監管機關持續收緊 AI 資料處理的規範，這項缺口勢必引來更多關注。想了解確切條款的使用者，可至 sesame.com/privacy 查看完整政策。

硬體豪賭：2027 年的智慧眼鏡

Sesame 的 App 只是達到目的的手段。該公司的長遠策略圍繞在將其語音角色嵌入專有的輕量智慧眼鏡中，設計成適合全天佩戴，目標是在 2027 年推出。

這套邏輯兼具技術與商業考量。技術面上，CSM 較小的參數量（10 億至 80 億）是刻意為裝置端部署設計的，意味著眼鏡可以直接在本地執行語音模型，而不必仰賴雲端往返傳輸。商業面上，Sesame 認為同時掌控軟體與硬體，是從同一名使用者身上同時獲取訂閱費和利潤較高的裝置銷售額的一種方式。

這套「硬體優先」的策略，讓 Sesame 得以掌控完整的體驗——麥克風行為、喚醒詞、延遲時間、電池續航，乃至訂閱組合——而不是在第三方的 App 生態系裡頭競爭。創始團隊在 Oculus 和 Meta 期間曾協助打造消費型 VR/AR 硬體，這樣的背景為這份硬體野心，增添了純軟體新創公司所欠缺的說服力。

公開聲明中承諾，眼鏡將具備「高品質音訊」，以及一個能「與你一同觀察世界」的 AI 伴侶。報導中提及眼球追蹤整合與即時對話回饋，但具體技術規格仍相當稀少。

2.5 億美元的信任票

2025 年 10 月 21 日，Sesame 完成了 2.5 億美元的 B 輪融資，在此之前已獲得創投 a16z（Andreessen Horowitz）的支持。投資人包含紅杉資本（Sequoia Capital），該公司發表了一篇詳盡的合作夥伴文章，闡述其認為語音優先的 AI 代表著人機互動根本性轉變的論點。

這筆資金指定用於推進語音模型、擴大工程團隊，以及——至關重要的——加速伴侶型穿戴式硬體的開發。此輪融資讓 Sesame 的估值達到約 10 億美元。

Sesame 在擁擠的語音 AI 市場中的定位

Sesame 進入的是一個 Apple、Google、Amazon 和 OpenAI 早已憑藉語音助理擁有龐大安裝基底的戰場。它的差異化路徑建立在三個賭注上：

以對話品質作為護城河 – Sesame 主張，情緒表達力、自然的語韻，以及即時對話動態（插話、笑聲、話語中轉向）能創造出文字優先的聊天機器人和舊式助理無法比擬的體驗。
語音優先，而非附加語音功能 – 不同於 ChatGPT 或 Gemini 是將語音當作附加在文字模型上的功能，Sesame 把口語對話視為主要的介面。
硬體整合 – 智慧眼鏡的路線圖創造了一個實體接觸點，讓 Sesame 有別於純軟體的 AI 伴侶。擁有硬體意味著掌控關係，而不僅僅是在手機的 App 方格上租用一個位置。

風險同樣真實存在。資金充裕的現有巨頭可以隨著時間推進改良語音功能。音訊硬體的設計與大規模製造素以高難度著稱，尤其要做得夠輕、適合全天佩戴，同時又夠時尚，以贏得消費者青睞。此外，語音資料處理上的隱私缺口，可能在 Sesame 試圖建立信任之際，引來監管與使用者的反彈。

Sesame 的對話溫度和硬體野心，能否開闢出一個可防守的市場位置，仍是個懸而未決的問題——而 iOS App 的推出，以及即將到來的眼鏡產品，將開始為這個問題提供線索。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查證事實

大家也會問