В основе лежит Разговорная речевая модель (Conversational Speech Model, CSM) — нейросетевая система преобразования текста в речь, разрабатывавшаяся с 2024-го по 2026 год . В отличие от традиционных TTS-пайплайнов, которые зачитывают текст с плоской интонацией, CSM обрабатывает полный контекст диалога — включая последние реплики — и генерирует аудио напрямую, в реальном времени выстраивая ритм, тон и эмоциональную окраску
.
Инвестор, фонд Sequoia Capital, отметил, что модель «не просто переводит результат большой языковой модели в аудио — она генерирует речь напрямую, улавливая ритм, эмоции и выразительность живого диалога» .
Модель выпускается в размерах от 1 до 8 миллиардов параметров — осознанный выбор, позволяющий сделать ее достаточно легкой для работы на потребительских и носимых устройствах . Версия на 1 миллиард параметров была выложена в открытый доступ на GitHub под лицензией Apache 2.0, а контрольные точки размещены на Hugging Face
.
Sesame описывает приложение как «Privacy First» («Приватность прежде всего»), а в App Store указано, что разговоры остаются строго между пользователем и Sesame и «защищены приватностью по своей архитектуре» . Официальная политика конфиденциальности компании, обновленная 7 мая 2026 года, описывает сбор и обработку пользовательских данных на веб-сайте, в приложении и сервисах, включая виртуальных голосовых агентов
.
Чего в публичных документах не раскрыто, так это тонких пользовательских настроек, которых ждут многие заботящиеся о приватности люди: ручное удаление диалогов, отказ от использования данных для обучения моделей, гибкие настройки сроков хранения. Политика конфиденциальности упоминает процедуры уничтожения или анонимизации персональной информации, когда она больше не нужна, но не уточняет сроков и не описывает механизмов, с помощью которых пользователь мог бы запросить удаление .
Поскольку голосовые данные по своей природе чувствительны и потенциально содержат биометрические признаки, этот пробел, вероятно, вызовет вопросы по мере масштабирования Sesame и ужесточения регуляторных требований к обработке ИИ-данных. Пользователи, желающие изучить точные условия, могут ознакомиться с полной политикой на сайте sesame.com/privacy.
Приложение Sesame — это средство достижения цели. Долгосрочная стратегия компании строится вокруг внедрения ее голосовых агентов в легкие фирменные умные очки, предназначенные для повседневного ношения; ориентировочный срок запуска — 2027 год .
Логика здесь и техническая, и коммерческая. С технической стороны малые размеры CSM (1–8 миллиардов параметров) специально подобраны для работы прямо на устройстве, то есть очки смогут запускать голосовую модель локально, не обращаясь постоянно к облаку . С коммерческой — Sesame видит контроль одновременно над софтом и над железом как способ получать от одного пользователя и абонентскую плату, и доход от высокомаржинальных продаж девайса
.
Такая «железоцентричная» стратегия позволяет компании управлять всем опытом целиком — поведением микрофонов, кодовым словом для активации, задержкой, временем работы от батареи и абонентским пакетом — вместо того чтобы конкурировать внутри чужой экосистемы приложений . Опыт основателей, создававших потребительское VR/AR-железо в Oculus и Meta, придает этим аппаратным амбициям достоверность, которой чистым софтверным стартапам может не хватать
.
В публичных заявлениях обещаны очки с «высококачественным аудио» и ИИ-компаньон, способный «наблюдать мир вместе с вами» . В отчетах упоминаются технологии отслеживания взгляда и разговорная обратная связь в реальном времени, однако технические спецификации пока остаются скудными
.
21 октября 2025 года Sesame закрыла раунд серии B на $250 миллионов; ранее стартап уже получал финансирование от Andreessen Horowitz . Среди инвесторов значится Sequoia Capital, опубликовавшая развернутую партнерскую статью с тезисом о том, что голосовой ИИ представляет собой фундаментальный сдвиг во взаимодействии человека и компьютера
.
Привлеченный капитал направляется на развитие речевой модели, расширение инженерной команды и — что критически важно — на ускорение разработки носимого «железа» для компаньона . Раунд поднял оценку Sesame примерно до $1 миллиарда
.
Sesame выходит на поле, где у Apple, Google, Amazon и OpenAI уже есть голосовые ассистенты с огромной пользовательской базой. Ставка на дифференциацию держится на трех элементах:
Риски реальны. Крупные игроки с большими бюджетами со временем могут улучшить голосовые функции. Аудиожелезо, как известно, сложно проектировать и производить в масштабе — особенно достаточно легкое для ежедневного ношения и достаточно стильное, чтобы получить массовое признание. А пробелы в регулировании обработки голосовых данных могут вызвать претензии как у регуляторов, так и у пользователей — именно тогда, когда Sesame пытается завоевать доверие.
Сможет ли разговорная теплота и аппаратные амбиции Sesame создать защитимую рыночную позицию — пока открытый вопрос. Запуск iOS-приложения и грядущий релиз очков начнут давать на него первые ответы.
Comments
0 comments