Unter der Haube sitzt Sesames Conversational Speech Model (CSM), ein neuronales Text-to-Speech-System, das zwischen 2024 und 2026 entwickelt wurde . Anders als herkömmliche TTS-Pipelines, die Text mit monotoner Betonung vorlesen, verarbeitet das CSM den gesamten Dialogkontext – inklusive der jüngsten Gesprächswendungen – und generiert Audio direkt, wobei Timing, Tonfall und emotionale Modulation in Echtzeit einfließen
.
Sequoia Capital, ein Investor, notierte, das Modell „übersetze nicht bloß LLM-Output in Audio – es generiert Sprache direkt und fängt dabei den Rhythmus, die Emotion und die Ausdruckskraft echter Dialoge ein“ .
Das Modell kommt in Größen von 1 bis 8 Milliarden Parametern – eine bewusste Entscheidung, um es leichtgewichtig genug zu halten, damit es später auch auf Consumer-Hardware und tragbaren Geräten laufen kann . Eine Open-Source-Variante mit 1 Milliarde Parametern wurde auf GitHub unter der Apache-2.0-Lizenz veröffentlicht, mit Checkpoints auf Hugging Face
.
Sesame beschreibt die App als „Privacy First“; die App-Store-Angaben erklären, Gespräche blieben zwischen Nutzer und Sesame und seien „datenschutzfreundlich und privat per Design“ . In der offiziellen Datenschutzerklärung des Unternehmens, zuletzt am 7. Mai 2026 aktualisiert, wird erläutert, wie Nutzerdaten auf der Website, in der App und in den Diensten, einschließlich der virtuellen Konversations-Agenten, erfasst und verarbeitet werden
.
Was die öffentlich verfügbaren Dokumente nicht preisgeben, sind die granularen Nutzerkontrollen, nach denen viele datenschutzbewusste Anwender suchen – Werkzeuge wie manuelles Löschen von Gesprächen, Opt-out vom Modelltraining oder fein abgestufte Einstellungen zur Datenspeicherdauer. Die Datenschutzerklärung verweist auf Verfahren zur Vernichtung oder Anonymisierung personenbezogener Daten, wenn sie nicht mehr benötigt werden, nennt aber keine Zeitpläne oder nutzerseitige Kontrollmöglichkeiten, um eine Löschung zu beantragen .
Da Sprachdaten naturgemäß sensibel und potenziell biometrisch sind, dürfte diese Lücke für kritische Nachfragen sorgen, während Sesame skaliert und die Regulierungsbehörden ihre Regeln für den Umgang mit KI-Daten weiter verschärfen. Wer die genauen Bedingungen einsehen möchte, findet die vollständige Richtlinie unter sesame.com/privacy.
Sesames App ist Mittel zum Zweck. Die langfristige Strategie des Unternehmens zielt darauf, seine Sprach-Agenten in eine eigene, leichte smarte Brille einzubetten, die für das Tragen über den ganzen Tag konzipiert ist – mit einer anvisierten Markteinführung 2027 .
Die Logik dahinter ist technisch wie ökonomisch. Auf der technischen Seite ist die geringe Parameterzahl des CSM (1–8 Mrd.) gezielt auf den Betrieb direkt auf dem Gerät ausgelegt; die Brille könnte das Sprachmodell also lokal ausführen, statt auf eine Cloud-Verbindung angewiesen zu sein . Geschäftlich sieht Sesame die gleichzeitige Kontrolle von Soft- und Hardware als Weg, um von ein und demselben Nutzer sowohl Abogebühren als auch margenstärkere Geräteumsätze zu erzielen
.
Diese „Hardware-First“-Strategie erlaubt es Sesame, das gesamte Erlebnis zu kontrollieren – Mikrofonverhalten, Aufwachwort, Latenz, Akkulaufzeit und das Abo-Bündel –, anstatt sich innerhalb eines fremden App-Ökosystems behaupten zu müssen . Die Erfolgsbilanz des Gründungsteams bei Oculus und Meta, wo es half, Consumer-Hardware für VR/AR zu entwickeln, verleiht diesem Hardware-Vorstoß eine Glaubwürdigkeit, die einem reinen Software-Startup fehlen dürfte
.
Öffentliche Ankündigungen versprechen eine Brille mit „hochwertigem Audio“ und einem KI-Gefährten, der „die Welt an deiner Seite beobachten“ kann . Berichte erwähnen die Integration von Eye-Tracking und konversationellem Echtzeit-Feedback; technische Spezifikationen bleiben jedoch spärlich
.
Am 21. Oktober 2025 schloss Sesame eine Series-B-Runde über 250 Millionen Dollar ab, nachdem es zuvor bereits von Andreessen Horowitz unterstützt worden war . Zum Investorenkreis zählt Sequoia Capital, das einen ausführlichen Partner-Artikel publizierte, in dem die These vertreten wird, dass Voice-First-KI einen fundamentalen Wandel in der Mensch-Computer-Interaktion darstellt
.
Das Kapital ist vorgesehen für die Weiterentwicklung des Sprachmodells, den Ausbau des Entwicklungsteams und – entscheidend – die Beschleunigung der Entwicklung der begleitenden Wearable-Hardware . Die Runde katapultierte Sesame auf eine berichtete Bewertung von rund einer Milliarde Dollar
.
Sesame betritt ein Feld, in dem Apple, Google, Amazon und OpenAI bereits Sprachassistenten mit massiver installierter Basis betreiben. Sein Differenzierungsansatz ruht auf drei Wetten:
Die Risiken sind real. Gut finanzierte Platzhirsche können ihre Sprachfähigkeiten mit der Zeit nachbessern. Audio-Hardware ist notorisch schwierig in großem Maßstab zu designen und zu fertigen, vor allem leicht genug für das Tragen über den ganzen Tag und stilvoll genug, um von Konsumenten angenommen zu werden. Und die Datenschutzlücken im Umgang mit Sprachdaten könnten regulatorische und nutzerseitige Gegenreaktionen genau dann auslösen, wenn Sesame Vertrauen aufbauen will.
Ob Sesames gesprächsorientierte Wärme und sein Hardware-Ehrgeiz eine verteidigungsfähige Position schaffen können, bleibt eine offene Frage – eine, die der iOS-App-Start und die kommende Brillen-Veröffentlichung zunehmend beantworten werden.
Comments
0 comments