Bajo el capó se encuentra el Modelo de Habla Conversacional (CSM, por sus siglas en inglés) de Sesame, un sistema neuronal de conversión de texto a voz desarrollado entre 2024 y 2026 . A diferencia de los sistemas tradicionales de TTS que leen el texto en voz alta con una entonación plana, el CSM procesa el contexto completo del diálogo —incluyendo los turnos de conversación recientes— y genera el audio directamente, incorporando la sincronización, el tono y la modulación emocional en tiempo real
.
Sequoia Capital, un inversor, señaló que el modelo "no se limita a traducir la salida del LLM en audio, sino que genera el habla directamente, capturando el ritmo, la emoción y la expresividad del diálogo real" .
El modelo está disponible en tamaños que van de los 1.000 a los 8.000 millones de parámetros, una elección deliberada para que sea lo suficientemente ligero como para ejecutarse eventualmente en hardware de consumo y portátil . Se lanzó una versión de código abierto de 1.000 millones de parámetros en GitHub bajo una licencia Apache 2.0, con puntos de control alojados en Hugging Face
.
Sesame ofrece actualmente dos agentes de voz con nombre propio construidos sobre el CSM: Maya y Miles .
Sesame describe la aplicación como "Prioridad en Privacidad", con una descripción en la App Store que indica que las conversaciones se quedan entre el usuario y Sesame y son "seguras y privadas por diseño" . La política de privacidad formal de la compañía, actualizada por última vez el 7 de mayo de 2026, explica cómo se recopilan y procesan los datos del usuario a través de su sitio web, aplicación y servicios, incluidos sus agentes conversacionales virtuales
.
Lo que los documentos disponibles públicamente no revelan son los controles granulares para el usuario que muchas personas preocupadas por la privacidad buscan: herramientas como la eliminación manual de conversaciones, la opción de no participar en el entrenamiento del modelo o configuraciones detalladas de retención de datos. La política de privacidad hace referencia a procedimientos para destruir o anonimizar la información personal cuando ya no es necesaria, pero no especifica plazos ni controles para que el usuario solicite la eliminación .
Dado que los datos de voz son intrínsecamente sensibles y potencialmente biométricos, esta laguna probablemente atraerá el escrutinio a medida que Sesame escale y los reguladores continúen endureciendo las normas sobre el manejo de datos de IA. Para los usuarios que busquen los términos exactos, la política completa está disponible en sesame.com/privacy.
La aplicación de Sesame es un medio para un fin. La estrategia a largo plazo de la compañía gira en torno a integrar sus agentes de voz en unas gafas inteligentes ligeras patentadas, diseñadas para usarse todo el día, con una ventana de lanzamiento prevista para 2027 .
La lógica es tanto técnica como comercial. En el aspecto técnico, el bajo número de parámetros del CSM (1.000M–8.000M) está deliberadamente dimensionado para su implementación en el propio dispositivo, lo que significa que las gafas podrían ejecutar el modelo de voz localmente en lugar de depender de un viaje de ida y vuelta a la nube . En el aspecto comercial, Sesame ve el control tanto del software como del hardware como una forma de captar tarifas de suscripción y ventas de dispositivos de mayor margen del mismo usuario
.
Esta estrategia de "prioridad en el hardware" permite a Sesame controlar la experiencia completa —comportamiento del micrófono, palabra de activación, latencia, duración de la batería y el paquete de suscripción— en lugar de competir dentro de un ecosistema de aplicaciones de terceros . La trayectoria del equipo fundador en Oculus y Meta, donde ayudaron a construir hardware de consumo de RV/RA, da a esta ambición de hardware una credibilidad de la que una startup puramente de software podría carecer
.
Las declaraciones públicas prometen gafas con "audio de alta calidad" y un compañero de IA que puede "observar el mundo a tu lado" . Los informes mencionan la integración de seguimiento ocular y retroalimentación conversacional en tiempo real, aunque las especificaciones técnicas siguen siendo escasas
.
El 21 de octubre de 2025, Sesame cerró una ronda de Serie B de $250 millones, tras el respaldo previo de Andreessen Horowitz . Entre los inversores se encuentra Sequoia Capital, que publicó un artículo detallado describiendo la tesis de la firma de que la IA que prioriza la voz representa un cambio fundamental en la interacción persona-ordenador
.
El capital está destinado a avanzar en el modelo de voz, expandir el equipo de ingeniería y, de manera crucial, acelerar el desarrollo del hardware portátil complementario . La ronda situó a Sesame en una valoración estimada de aproximadamente $1.000 millones
.
Sesame entra en un campo donde Apple, Google, Amazon y OpenAI ya tienen asistentes de voz con enormes bases instaladas. Su camino hacia la diferenciación se basa en tres apuestas:
Los riesgos son reales. Los gigantes tecnológicos con abundante financiación pueden añadir mejoras de voz con el tiempo. El hardware de audio es notoriamente difícil de diseñar y fabricar a escala, especialmente lo suficientemente ligero para usarse todo el día y con estilo para lograr la adopción por parte del consumidor. Y las lagunas de privacidad en torno al manejo de datos de voz podrían invitar a una reacción regulatoria y de los usuarios precisamente cuando Sesame intenta construir confianza.
Si la calidez conversacional y la ambición de hardware de Sesame pueden forjar una posición defendible sigue siendo una pregunta abierta, una que el lanzamiento de la aplicación de iOS y la próxima salida al mercado de las gafas comenzarán a responder.
Comments
0 comments