Sous le capot se trouve le Modèle de Parole Conversationnelle (CSM, pour Conversational Speech Model) de Sesame, un système neuronal de synthèse vocale développé de 2024 à 2026 . Contrairement aux pipelines TTS (Text-to-Speech) traditionnels qui se contentent de lire un texte avec une intonation plate, le CSM traite l'intégralité du contexte du dialogue — y compris les derniers tours de parole — et génère l'audio directement, en intégrant le rythme, le ton et la modulation émotionnelle en temps réel
.
Sequoia Capital, l'un des investisseurs, a noté que le modèle « ne se contente pas de traduire le résultat d'un LLM en audio — il génère la parole directement, capturant le rythme, l'émotion et l'expressivité d'un vrai dialogue » .
Le modèle est disponible dans des tailles allant de 1 à 8 milliards de paramètres, un choix délibéré pour le garder suffisamment léger afin de fonctionner, à terme, sur du matériel grand public et portable . Une version open source de 1 milliard de paramètres a été publiée sur GitHub sous licence Apache 2.0, avec des points de contrôle hébergés sur Hugging Face
.
Sesame décrit l'application comme « Privacy First » (la vie privée d'abord), la fiche App Store indiquant que les conversations restent entre l'utilisateur et Sesame et sont « sécurisées et privées par conception » . La politique de confidentialité officielle de l'entreprise, mise à jour pour la dernière fois le 7 mai 2026, explique comment les données des utilisateurs sont collectées et traitées sur son site web, son application et ses services, y compris ses agents conversationnels virtuels
.
Ce que les documents accessibles au public ne révèlent pas, ce sont les contrôles granulaires que recherchent de nombreux utilisateurs soucieux de leur vie privée — des outils comme la suppression manuelle d'une conversation, la possibilité de refuser l'utilisation de ses données pour l'entraînement des modèles, ou des paramètres fins de conservation des données. La politique de confidentialité fait référence à des procédures de destruction ou d'anonymisation des informations personnelles lorsqu'elles ne sont plus nécessaires, mais ne précise aucun calendrier ni aucun contrôle pour l'utilisateur lui permettant de demander leur suppression .
Étant donné que les données vocales sont intrinsèquement sensibles et potentiellement biométriques, cette zone d'ombre fera probablement l'objet d'une attention accrue à mesure que Sesame se développe et que les régulateurs continuent de durcir les règles sur le traitement des données par l'IA. Pour les utilisateurs souhaitant connaître les conditions exactes, la politique complète est disponible sur sesame.com/privacy.
L'application de Sesame est un moyen, pas une fin. La stratégie à long terme de l'entreprise repose sur l'intégration de ses agents vocaux dans des lunettes connectées légères, conçues pour être portées toute la journée, avec une fenêtre de lancement ciblée pour 2027 .
La logique est à la fois technique et commerciale. Sur le plan technique, le faible nombre de paramètres du CSM (1 à 8 milliards) est délibérément dimensionné pour un déploiement sur l'appareil, ce qui signifie que les lunettes pourraient faire tourner le modèle vocal localement plutôt que de dépendre d'un aller-retour avec le cloud . Sur le plan commercial, Sesame voit le contrôle à la fois du logiciel et du matériel comme un moyen de capter les revenus d'abonnement et les ventes de matériel à plus forte marge auprès du même utilisateur
.
Cette stratégie « orientée matériel » permet à Sesame de contrôler l'expérience complète — comportement du microphone, mot d'activation, latence, autonomie et offre d'abonnement — plutôt que de rivaliser au sein de l'écosystème d'une application tierce . L'expérience de l'équipe fondatrice chez Oculus et Meta, où ils ont contribué à la création de matériel grand public de réalité virtuelle/augmentée, confère à cette ambition matérielle une crédibilité qu'une startup purement logicielle n'aurait peut-être pas
.
Les déclarations publiques promettent des lunettes offrant un « audio de haute qualité » et un compagnon IA capable d'« observer le monde à vos côtés » . Des rapports mentionnent l'intégration du suivi oculaire et un retour conversationnel en temps réel, bien que les spécifications techniques restent rares
.
Le 21 octobre 2025, Sesame a clôturé un tour de table de série B de 250 millions de dollars, après un soutien antérieur d'Andreessen Horowitz . Les investisseurs incluent Sequoia Capital, qui a publié un article détaillé expliquant la thèse du fonds selon laquelle l'IA axée sur la voix représente un changement fondamental dans l'interaction humain-machine
.
Ce capital est destiné à faire progresser le modèle vocal, à élargir l'équipe d'ingénieurs et — surtout — à accélérer le développement du matériel portable compagnon . Cette levée de fonds a propulsé Sesame vers une valorisation estimée à environ 1 milliard de dollars
.
Sesame entre dans un domaine où Apple, Google, Amazon et OpenAI disposent déjà d'assistants vocaux avec des bases installées massives. Sa stratégie de différenciation repose sur trois paris :
Les risques sont réels. Des concurrents bien financés peuvent ajouter des améliorations vocales au fil du temps. Le matériel audio est notoirement difficile à concevoir et à fabriquer à grande échelle, surtout pour qu'il soit assez léger pour un port continu et assez esthétique pour être adopté par les consommateurs. Et les lacunes en matière de confidentialité des données vocales pourraient susciter des réactions négatives de la part des régulateurs et des utilisateurs précisément au moment où Sesame essaie d'instaurer la confiance.
Reste à savoir si la chaleur conversationnelle et l'ambition matérielle de Sesame parviendront à se tailler une position défendable — une question à laquelle le lancement de l'application iOS et la sortie prochaine des lunettes commenceront à répondre.
Comments
0 comments