「「タイピングは不要」：元Oculus創業者が仕掛ける、音声対話AI Sesameの実力と野望」の短い答えは何ですか?

Sesameは2026年5月28日、テキスト入力ではなく「声」で対話するiOSアプリを公開。最終目標は2027年投入予定の軽量スマートグラスへのAI搭載。

最初に検証する重要なポイントは何ですか?

Sesameは2026年5月28日、テキスト入力ではなく「声」で対話するiOSアプリを公開。最終目標は2027年投入予定の軽量スマートグラスへのAI搭載。音声対話モデル「CSM」は10億～80億パラメータで動作。感情や「間」を理解し、デバイス上で直接稼働することを想定。

次の実践では何をすればいいでしょうか？

アプリは「プライバシーファースト」を掲げ、プレミアムサブスクリプションが必要だが、会話削除や学習データ除外といった詳細なユーザー制御機能は未公開。

「タイピングは不要」：元Oculus創業者が仕掛ける、音声対話AI Sesameの実力と野望 | 答え

studioglobal

かつてOculus（現Meta）やMetaで幹部を務めたブレンダン・アイリブとアンキット・クマールが創業した音声対話AIスタートアップ「Sesame」が、2026年5月28日、ついにiOSアプリを一般公開した。OpenAI、Google、AppleのAIアシスタントが依然としてテキスト入力に重きを置く中、Sesameは「声による自然な対話」に照準を絞り、独自の音声モデルで会話の途中に割り込み、笑い、感情に応じて声色を変える体験を提供する。このアプリ公開は、注目を集める250億ドル規模の大型資金調達と、同社が秘めるウェアラブルハードウェアへの野望と、表裏一体の動きである。

アプリで何ができるのか

Sesameのアプリは、文字を打ち込むチャットボットではなく、音声で対話するパートナーとして設計されている。中核は、ユーザーが話しかけることで成立する自由形式の会話にある。従来のマイク付き検索エンジンというよりは、言葉で協働する相棒という立ち位置だ。

App Storeの情報によると、主な機能は以下の通り。

音声ファーストの自然な会話 – ユーザーが話すだけで、AIが聞き、理解し、応答する。タイピングは不要。
写真について話す – 画像（手書きメモ、服装のコーディネート、スクリーンショットなど）をアップロードすると、その内容を音声で議論できる。
画像付き検索カード – 音声での回答に加えて、視覚的な補足情報を提示。
ノート機能 – 会話の要点を保存する機能を内蔵。
テキストモード – 声を出しにくい状況では、テキスト入力に切り替え可能。
深掘りサポート – より詳細な情報を求めると、さらに踏み込んだ回答を返す。
リアルタイムのWeb情報取得 – 最新情報を引き出す高速な検索・取得システムを構築。新しい情報が入り次第、人間が話しながら話題を変えるかのように、会話の途中で内容を修正できるという。

アプリの利用にはプレミアムサブスクリプション（有料会員登録）が必要だ。

心を通わせる「会話型音声モデル」

この体験を支えるのが、Sesameが開発した「会話型音声モデル（Conversational Speech Model：CSM）」である。2024年から2026年にかけて開発されたこのニューラル音声合成（TTS）システムは、単にテキストを棒読みする既存技術とは一線を画す。CSMは、直近のやり取りを含む対話全体の文脈を処理し、タイミング、口調、感情表現をリアルタイムに織り込みながら音声を直接生成する。

Sesameが公開している研究資料では、設計上の優先項目がいくつか示されている。

感情的知性 – 感情の文脈を読み取り、それに応じてピッチや抑揚を動的に調整。
会話の力学 – 自然な間、ポーズ、割り込み、強調、さらには笑い声も再現。
文脈認識 – 過去の会話を記憶し、その内容に基づいて話し方を変える。
一貫した性格 – 複数の無機質な音声を切り替えるのではなく、一貫した人格を維持するよう設計。

投資家であるSequoia Capitalは、このモデルについて「LLM（大規模言語モデル）の出力を音声に変換するだけではない。本物の会話が持つリズム、感情、表現力を捉えた音声を直接生成する」と評している。

モデルサイズは10億から80億パラメータで、一般消費者向けハードウェアや、将来のウェアラブル端末上で動かせる軽量さを意図した設計だ。10億パラメータ版はApache 2.0ライセンスの下でGitHubにてオープンソース公開されており、Hugging Faceでチェックポイントも入手可能である。

現在、CSMをベースに「Maya（マヤ）」と「Miles（マイルズ）」という2種類の音声対話エージェントが提供されている。

「プライバシーファースト」の実態

Sesameはアプリを「プライバシーファースト」と位置づけ、App Storeの説明文では「会話はユーザーとSesameだけのもの。設計レベルで安全かつプライベートに保護される」と謳っている。2026年5月7日付で更新された公式プライバシーポリシーでは、ウェブサイトやアプリ、バーチャル会話エージェントを通じて収集・処理されるユーザーデータの取り扱いについて説明されている。

しかし、現時点で一般公開されている情報からは、プライバシー意識の高いユーザーが求める詳細な制御機能（会話履歴の手動削除、モデル学習へのデータ提供拒否、データ保持期間の細かな設定など）の有無は明らかになっていない。プライバシーポリシーには、個人情報が不要になった場合に、破棄、削除、または匿名化する手続きに言及されているが、その具体的な期限や、ユーザーが削除を要求するための明示的な手段は記載されていない。

音声データは本質的に機密性が高く、生体情報にもなりうる性質を持つだけに、この情報開示の不足は、Sesameのサービスが拡大し、AIのデータ取り扱いに対する規制が厳格化するにつれて、厳しい視線にさらされる可能性が高い。正確な条件を確認したい場合、プライバシーポリシーの全文はsesame.com/privacyで確認できる。

真の狙いは2027年のスマートグラス

Sesameにとってアプリは、あくまで通過点に過ぎない。長期的な戦略の中核は、一日中身につけられる軽量な独自スマートグラスに音声エージェントを組み込むことにあり、2027年の市場投入を目標としている。

この構想には技術的・商業的な二つの狙いがある。技術面では、CSMのパラメータ数が10億～80億と比較的小さいのは、クラウドを経由せずデバイス上で直接モデルを動かす「オンデバイス処理」を想定しているからだ。ビジネス面では、ソフトウェアとハードウェアの両方を自社で掌握することで、同一ユーザーからサブスクリプション料金と、より利益率の高いデバイス販売収益の両方を獲得できると見ている。

この「ハードウェアファースト」戦略により、マイクの挙動、ウェイクワード（起動ワード）、応答遅延、バッテリー駆動時間、サブスクリプションとの抱き合わせに至るまで、体験全体を制御できる。サードパーティのアプリ環境のなかで戦う必要もない。創業者チームがOculusとMetaで消費者向けVR/ARハードウェアの開発を主導してきた実績は、このハードウェア構想に、純粋なソフトウェア企業にはない信憑性を与えている。

公開された声明によれば、このグラスは「高品質なオーディオ」を搭載し、ユーザーと「ともに世界を観察する」AIコンパニオンになるという。視線追跡技術やリアルタイムの会話フィードバックの統合が報じられているが、詳細な技術仕様はまだ明らかになっていない。

250億ドルの「信任投票」

2025年10月21日、SesameはAndreessen Horowitzなどからの初期投資に続き、2億5000万ドル（約375億円）のシリーズBラウンドを完了した。このラウンドにはSequoia Capitalも参加しており、音声ファーストAIこそがヒューマン・コンピュータ・インタラクションの根本的な変化になるとする投資理論を詳細なパートナー記事で公開している。

この資金は、音声モデルの高度化、エンジニアリングチームの拡充、そして最も重要な、コンパニオンウェアラブルハードウェアの開発加速に充てられる。この資金調達により、Sesameの企業評価額は約10億ドル（約1500億円）に達したと報じられている。

音声AI「戦国時代」で生き残れるか

Sesameが飛び込む市場には、Apple、Google、Amazon、OpenAIといった、すでに巨大なユーザーベースを持つ音声アシスタントがひしめいている。差別化のカギは、以下の3つの賭けにかかっている。

「会話の質」という競争優位性 – 感情表現の豊かさ、自然な抑揚、会話のダイナミズム（割り込み、笑い、話の方向転換）が、テキストベースのチャットボットや旧来のアシスタントでは真似できない体験を生み出すと主張する。
「音声を後付けしない」設計思想 – 音声が単なる追加機能であるChatGPTやGeminiとは異なり、Sesameは音声対話こそが主インターフェースだと捉えている。
ハードウェアとの統合 – スマートグラスという物理的な接点をつくることで、純粋なソフトウェアのAIコンパニオンとの差別化を図る。ハードウェアを握ることは、スマホのアプリ一覧の一角を借りるのではなく、ユーザーとの関係そのものを掌握することを意味する。

もっとも、リスクは現実である。潤沢な資金を持つ巨大IT企業は、時間をかければ音声機能を改良できる。音声重視のハードウェアを一日中身につけられるほど軽く、かつ消費者に受け入れられるスタイリッシュさで大量生産するのは極めて難しい。さらに、音声データの取り扱いに関するプライバシー情報の不足は、信頼を築こうとしているまさにその時に、規制当局やユーザーからの反発を招く可能性もある。

Sesameの「会話のぬくもり」とハードウェアへの野心が、守りを固められる市場を切り拓けるのか――その答えは、iOSアプリの公開、そして今後のスマートグラス発売を通じて、徐々に明らかになっていくだろう。

「タイピングは不要」：元Oculus創業者が仕掛ける、音声対話AI Sesameの実力と野望