答案已發布2 個月前Last edited 上個月21 來源

Sesame AI 反轉聊天機械人玩法：靠把聲食糊仲要踩入眼鏡硬件

Sesame 喺 2026 年 5 月 28 日推出 iOS App，完全「語音主導」，標榜對話 feel 似真人多過似打字機械人，終極目標係 2027 年起將技術塞入自家智能眼鏡 [1, 8]。佢哋自研嘅「對話語音模型 (CSM)」參數量由 10 億到 80 億不等，可生成帶情緒、自然停頓同語氣變化嘅語音，為咗日後可以喺眼鏡上離線運行而設計 [34, 52]。

使用 Studio Global AI 搜尋並查核事實瀏覽更多熱門頁面

Sesame AI iOS app voice-first interface concept — What features does Sesame AI's new iOS app offer, how does its voice agent technology work, what privacy options are available, what are itsSesame AI's iOS app launched May 28, 2026, prioritizing voice-first conversation over text input.
AI 提示
Create a landscape editorial hero image for this Studio Global article: What features does Sesame AI's new iOS app offer, how does its voice agent technology work, what privacy options are available, what are its. Article summary: Here is a comprehensive overview based on the available evidence.. Topic tags: general, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "Home **›** Articles **›** **Sesame AI – A New Voice for AI Assistants**. # Sesame AI – A New Voice for AI Assistants. Voice AI start-up Sesame is tackling this challenge head-on, p" source context "Sesame AI - A New Voice for AI Assistants |" Reference image 2: visual subject "# Sesame, the conversational AI startup from Oculus founders, raises $250M and launches beta. Sesame, a conversational AI startup and smart glasses maker, has raised a $250 million" source co
openai.com

當 OpenAI、Google、Apple 嘅 AI 仲係圍住文字框打轉，由前 Oculus 同 Meta 高層 Brendan Iribe、Ankit Kumar 創立嘅對話 AI 初創 Sesame，選擇用「把聲」殺出重圍。佢哋喺 2026 年 5 月 28 日正式推出 iOS App，賣點係一個識打斷你、識笑、仲會跟住你嘅情緒高低音轉 tone 嘅語音模型。呢舖唔止係 App 咁簡單，背後係一個焗住要睇埋硬件嘅大局：Sesame 已經袋緊 2.5 億美元（約 19.5 億港元）B 輪融資，目標係 2027 年推出輕到可以戴足全日嘅智能眼鏡 [40, 8]。

iOS App 玩緊乜？唔係打字，係「傾偈」

Sesame 個 App 嘅定位，係一個你可以開口同佢 brainstorm 嘅「傾偈夥伴」，而唔係一支識聽指令嘅咪高峰。App Store 列出咗幾樣核心功能 [2, 12, 1]：

語音主導自然對話：全程用口講，AI 聽完直接畀反應，唔使打字。
「同張相傾偈」：上載手寫 notes、衫嘅相、screenshot 等等，然後直接用口同 AI 討論內容。
搜尋卡連圖片結果：AI 答你嘢時，會自動攝埋相關圖片出嚟輔助解釋。
內置 Notes 功能：傾完偈可以即刻 cap 低重點。
打字模式：唔方便開口時，可以切換返文字輸入。
Deep Dive 深入模式：要求詳盡解釋時，AI 會自動畀更深層次嘅跟進回答。
即時聯網搜料：Sesame 聲稱自己整咗套快速搜尋系統，AI 可以即時扯最新資訊，甚至講講吓嘢中途收到新料會立即「轉軚」改口風，模仿真人傾偈嘅自然反應。

要留意嘅係，呢個 App 需要課金訂閱先用得 [3, 4, 13]。

識笑識打斷嘅「對話語音模型 (CSM)」

App 背後嘅靈魂，係 Sesame 由 2024 年磨到 2026 年嘅 對話語音模型 (Conversational Speech Model, CSM) 。傳統 TTS 文字轉語音技術，讀出嚟嗰把聲多數死氣沉沉冇抑揚頓挫；CSM 就唔同玩法，佢會睇晒成個對話上文下理（包括最近幾輪對答），然後直接生成包埋 timing、語氣同情緒變化嘅音頻 [33, 52]。

Sesame 公開嘅研究列出咗幾個設計重點 [52, 51]：

情緒智能：識睇情緒 context，即時調整音調高低同抑揚。
對話動態：自然嘅 timing、停頓、插嘴、強調語氣，甚至笑聲。
處境感知：記住近期對話歷史，跟住改變講嘢方式。
一致性格：確保成個 AI 人格連貫，唔會好似次次都換咗第二個人把聲咁。

佢哋嘅投資者之一 Sequoia Capital 形容，呢個模型「唔係淨係將 LLM 輸出翻譯成音頻——而係直接生成講嘢，捕捉到真人對話嗰種節奏、情感同表現力」。

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

使用 Studio Global AI 搜尋並查核事實

人們還問