この体験を支えるのが、Sesameが開発した「会話型音声モデル(Conversational Speech Model:CSM)」である。2024年から2026年にかけて開発されたこのニューラル音声合成(TTS)システムは、単にテキストを棒読みする既存技術とは一線を画す 。CSMは、直近のやり取りを含む対話全体の文脈を処理し、タイミング、口調、感情表現をリアルタイムに織り込みながら音声を直接生成する
。
投資家であるSequoia Capitalは、このモデルについて「LLM(大規模言語モデル)の出力を音声に変換するだけではない。本物の会話が持つリズム、感情、表現力を捉えた音声を直接生成する」と評している 。
モデルサイズは10億から80億パラメータで、一般消費者向けハードウェアや、将来のウェアラブル端末上で動かせる軽量さを意図した設計だ 。10億パラメータ版はApache 2.0ライセンスの下でGitHubにてオープンソース公開されており、Hugging Faceでチェックポイントも入手可能である
。
Sesameはアプリを「プライバシーファースト」と位置づけ、App Storeの説明文では「会話はユーザーとSesameだけのもの。設計レベルで安全かつプライベートに保護される」と謳っている 。2026年5月7日付で更新された公式プライバシーポリシーでは、ウェブサイトやアプリ、バーチャル会話エージェントを通じて収集・処理されるユーザーデータの取り扱いについて説明されている
。
しかし、現時点で一般公開されている情報からは、プライバシー意識の高いユーザーが求める詳細な制御機能(会話履歴の手動削除、モデル学習へのデータ提供拒否、データ保持期間の細かな設定など)の有無は明らかになっていない。プライバシーポリシーには、個人情報が不要になった場合に、破棄、削除、または匿名化する手続きに言及されているが、その具体的な期限や、ユーザーが削除を要求するための明示的な手段は記載されていない 。
音声データは本質的に機密性が高く、生体情報にもなりうる性質を持つだけに、この情報開示の不足は、Sesameのサービスが拡大し、AIのデータ取り扱いに対する規制が厳格化するにつれて、厳しい視線にさらされる可能性が高い。正確な条件を確認したい場合、プライバシーポリシーの全文はsesame.com/privacyで確認できる。
Sesameにとってアプリは、あくまで通過点に過ぎない。長期的な戦略の中核は、一日中身につけられる軽量な独自スマートグラスに音声エージェントを組み込むことにあり、2027年の市場投入を目標としている 。
この構想には技術的・商業的な二つの狙いがある。技術面では、CSMのパラメータ数が10億~80億と比較的小さいのは、クラウドを経由せずデバイス上で直接モデルを動かす「オンデバイス処理」を想定しているからだ 。ビジネス面では、ソフトウェアとハードウェアの両方を自社で掌握することで、同一ユーザーからサブスクリプション料金と、より利益率の高いデバイス販売収益の両方を獲得できると見ている
。
この「ハードウェアファースト」戦略により、マイクの挙動、ウェイクワード(起動ワード)、応答遅延、バッテリー駆動時間、サブスクリプションとの抱き合わせに至るまで、体験全体を制御できる。サードパーティのアプリ環境のなかで戦う必要もない 。創業者チームがOculusとMetaで消費者向けVR/ARハードウェアの開発を主導してきた実績は、このハードウェア構想に、純粋なソフトウェア企業にはない信憑性を与えている
。
公開された声明によれば、このグラスは「高品質なオーディオ」を搭載し、ユーザーと「ともに世界を観察する」AIコンパニオンになるという 。視線追跡技術やリアルタイムの会話フィードバックの統合が報じられているが、詳細な技術仕様はまだ明らかになっていない
。
2025年10月21日、SesameはAndreessen Horowitzなどからの初期投資に続き、2億5000万ドル(約375億円)のシリーズBラウンドを完了した 。このラウンドにはSequoia Capitalも参加しており、音声ファーストAIこそがヒューマン・コンピュータ・インタラクションの根本的な変化になるとする投資理論を詳細なパートナー記事で公開している
。
この資金は、音声モデルの高度化、エンジニアリングチームの拡充、そして最も重要な、コンパニオンウェアラブルハードウェアの開発加速に充てられる 。この資金調達により、Sesameの企業評価額は約10億ドル(約1500億円)に達したと報じられている
。
Sesameが飛び込む市場には、Apple、Google、Amazon、OpenAIといった、すでに巨大なユーザーベースを持つ音声アシスタントがひしめいている。差別化のカギは、以下の3つの賭けにかかっている。
もっとも、リスクは現実である。潤沢な資金を持つ巨大IT企業は、時間をかければ音声機能を改良できる。音声重視のハードウェアを一日中身につけられるほど軽く、かつ消費者に受け入れられるスタイリッシュさで大量生産するのは極めて難しい。さらに、音声データの取り扱いに関するプライバシー情報の不足は、信頼を築こうとしているまさにその時に、規制当局やユーザーからの反発を招く可能性もある。
Sesameの「会話のぬくもり」とハードウェアへの野心が、守りを固められる市場を切り拓けるのか――その答えは、iOSアプリの公開、そして今後のスマートグラス発売を通じて、徐々に明らかになっていくだろう。
Comments
0 comments