Sob o capô está o Modelo de Fala Conversacional (CSM, na sigla em inglês) do Sesame, um sistema neural de texto-para-fala desenvolvido entre 2024 e 2026 . Diferente dos sistemas TTS (text-to-speech) tradicionais, que leem um texto em voz alta com entonação plana, o CSM processa o contexto completo do diálogo — incluindo as últimas interações — e gera o áudio de forma direta, incorporando ritmo, tom e modulação emocional em tempo real
.
A Sequoia Capital, uma das investidoras, destacou que o modelo "não se limita a traduzir a saída de um LLM (grande modelo de linguagem) em áudio — ele gera a fala diretamente, capturando o ritmo, a emoção e a expressividade de um diálogo real" .
O modelo está disponível em tamanhos que variam de 1 bilhão a 8 bilhões de parâmetros, uma escolha deliberada para mantê-lo leve o suficiente para, no futuro, rodar em hardware de consumo e vestível . Uma versão open-source de 1B de parâmetros foi lançada no GitHub sob a licença Apache 2.0, com checkpoints hospedados no Hugging Face
.
O Sesame descreve o app como "Privacidade em Primeiro Lugar" (Privacy First), com a cópia da App Store afirmando que as conversas ficam entre o usuário e o Sesame e são "seguras e privadas por design" . A política de privacidade formal da empresa, atualizada pela última vez em 7 de maio de 2026, explica como os dados do usuário são coletados e processados em seu site, app e serviços, incluindo seus agentes conversacionais virtuais
.
O que os documentos disponíveis publicamente não revelam são os controles granulares que muitos usuários preocupados com privacidade procuram — ferramentas como exclusão manual de conversas, opção de não participar do treinamento do modelo (opt-out) ou configurações detalhadas de retenção de dados. A política de privacidade menciona procedimentos para destruir ou anonimizar informações pessoais quando não forem mais necessárias, mas não especifica prazos ou controles de usuário para solicitar a exclusão .
Considerando que dados de voz são inerentemente sensíveis e potencialmente biométricos, essa lacuna provavelmente atrairá um forte escrutínio à medida que o Sesame escala e os órgãos reguladores continuam a apertar as regras sobre o tratamento de dados por IAs. Para usuários que buscam os termos exatos, a política completa está disponível em sesame.com/privacy.
O aplicativo do Sesame é um meio para um fim. A estratégia de longo prazo da empresa gira em torno de incorporar seus agentes de voz em óculos inteligentes leves e proprietários, projetados para uso durante todo o dia, com uma janela de lançamento prevista para 2027 .
A lógica é tanto técnica quanto comercial. Do lado técnico, as contagens de parâmetros reduzidas do CSM (1B–8B) são deliberadamente dimensionadas para execução no próprio dispositivo, o que significa que os óculos poderiam rodar o modelo de voz localmente, em vez de depender de uma ida e volta à nuvem . Do lado comercial, o Sesame vê o controle tanto do software quanto do hardware como uma forma de capturar receitas de assinatura e vendas de dispositivos com margens mais altas do mesmo usuário
.
Essa estratégia de "hardware-first" permite que o Sesame controle a experiência completa — comportamento do microfone, palavra de ativação, latência, duração da bateria e o pacote de assinatura — em vez de competir dentro do ecossistema de aplicativos de terceiros . O histórico da equipe fundadora no Oculus e na Meta, onde ajudaram a construir hardware de consumo de VR/AR, dá a essa ambição uma credibilidade que uma startup puramente de software não teria
.
Declarações públicas prometem óculos com "áudio de alta qualidade" e um companheiro de IA que pode "observar o mundo ao seu lado" . Relatórios mencionam integração de rastreamento ocular e feedback conversacional em tempo real, embora as especificações técnicas ainda sejam escassas
.
Em 21 de outubro de 2025, o Sesame fechou uma rodada Série B de US$ 250 milhões, após um financiamento anterior da Andreessen Horowitz . Os investidores incluem a Sequoia Capital, que publicou um artigo detalhado de um parceiro delineando a tese da firma de que a IA guiada por voz representa uma mudança fundamental na interação humano-computador
.
O capital está destinado a avançar o modelo de voz, expandir a equipe de engenharia e — ponto crítico — acelerar o desenvolvimento do hardware vestível complementar . A rodada elevou o Sesame a uma avaliação de mercado reportada de aproximadamente US$ 1 bilhão
.
O Sesame entra em um campo onde Apple, Google, Amazon e OpenAI já possuem assistentes de voz com bases instaladas massivas. Seu caminho para a diferenciação se apoia em três apostas:
Os riscos são reais. Empresas estabelecidas e bem financiadas podem adicionar melhorias de voz ao longo do tempo. Hardware de áudio é notoriamente difícil de projetar e fabricar em escala, especialmente leve o suficiente para uso diário e com estilo suficiente para conquistar a adoção do consumidor. E as lacunas de privacidade em torno do tratamento de dados de voz podem gerar reações negativas de reguladores e usuários exatamente no momento em que o Sesame tenta construir confiança.
Se o calor conversacional do Sesame e sua ambição de hardware podem conquistar uma posição defensável no mercado ainda é uma pergunta em aberto — uma que o lançamento do app iOS e a futura chegada dos óculos começarão a responder.
Comments
0 comments