इसके केंद्र में Sesame का कन्वर्सेशनल स्पीच मॉडल (CSM) है, जो 2024 से 2026 तक विकसित एक न्यूरल टेक्स्ट-टू-स्पीच प्रणाली है । पारंपरिक TTS प्रणालियों के विपरीत, जो सपाट स्वर में टेक्स्ट को ज़ोर से पढ़ती हैं, CSM पूरे संवाद संदर्भ को प्रोसेस करता है — जिसमें हाल के वार्तालाप मोड़ शामिल हैं — और रीयल-टाइम में समय, लहज़े और भावनात्मक उतार-चढ़ाव को शामिल करते हुए सीधे ऑडियो उत्पन्न करता है
।
एक निवेशक, Sequoia Capital ने कहा कि यह मॉडल "सिर्फ LLM आउटपुट को ऑडियो में अनुवाद नहीं करता है — यह सीधे भाषण उत्पन्न करता है, वास्तविक संवाद की लय, भावना और अभिव्यंजना को कैप्चर करता है" ।
यह मॉडल 1 बिलियन से 8 बिलियन पैरामीटर तक के आकार में आता है, एक जानबूझकर किया गया विकल्प ताकि इसे अंततः उपभोक्ता-ग्रेड और पहनने योग्य हार्डवेयर पर चलाने के लिए पर्याप्त हल्का रखा जा सके । एक ओपन-सोर्स 1B-पैरामीटर संस्करण Apache 2.0 लाइसेंस के तहत GitHub पर जारी किया गया था, जिसके चेकपॉइंट Hugging Face पर होस्ट किए गए हैं
।
Sesame ऐप को "प्राइवेसी फर्स्ट" के रूप में वर्णित करता है, ऐप स्टोर की कॉपी में कहा गया है कि बातचीत उपयोगकर्ता और Sesame के बीच रहती है और "डिज़ाइन द्वारा सुरक्षित और निजी" है । कंपनी की औपचारिक गोपनीयता नीति, जिसे अंतिम बार 7 मई, 2026 को अपडेट किया गया था, बताती है कि उपयोगकर्ता डेटा को इसकी वेबसाइट, ऐप और सेवाओं, जिसमें इसके वर्चुअल संवादी एजेंट शामिल हैं, में कैसे एकत्र और संसाधित किया जाता है
।
सार्वजनिक रूप से उपलब्ध दस्तावेज़ यह नहीं बताते हैं कि कई गोपनीयता के प्रति जागरूक उपयोगकर्ता जिन विस्तृत उपयोगकर्ता नियंत्रणों की तलाश करते हैं — जैसे मैन्युअल बातचीत हटाना, मॉडल प्रशिक्षण से ऑप्ट-आउट, या बारीक डेटा प्रतिधारण सेटिंग्स। गोपनीयता नीति व्यक्तिगत जानकारी को नष्ट करने या गुमनाम करने की प्रक्रियाओं का संदर्भ देती है जब इसकी आवश्यकता नहीं रह जाती है, लेकिन यह समयसीमा या हटाने का अनुरोध करने के लिए उपयोगकर्ता-सामना करने वाले नियंत्रणों को निर्दिष्ट नहीं करती है ।
यह देखते हुए कि वॉइस डेटा स्वाभाविक रूप से संवेदनशील और संभावित रूप से बायोमेट्रिक है, यह अंतर संभवतः जांच को आकर्षित करेगा क्योंकि Sesame का विस्तार होता है और नियामक AI डेटा हैंडलिंग के आसपास के नियमों को सख्त करना जारी रखते हैं। सटीक शर्तों की तलाश करने वाले उपयोगकर्ताओं के लिए, पूरी नीति sesame.com/privacy पर उपलब्ध है।
Sesame का ऐप एक साध्य का साधन है। कंपनी की दीर्घकालिक रणनीति पूरे दिन पहनने के लिए डिज़ाइन किए गए मालिकाना हल्के स्मार्ट ग्लासों में अपने वॉयस एजेंटों को एम्बेड करने के इर्द-गिर्द घूमती है, जिसका लक्ष्य लॉन्च 2027 है ।
इसका तर्क तकनीकी और व्यावसायिक दोनों है। तकनीकी पक्ष पर, CSM की छोटी पैरामीटर संख्या (1B–8B) जानबूझकर ऑन-डिवाइस तैनाती के लिए आकार दी गई है, जिसका अर्थ है कि चश्मा क्लाउड राउंड-ट्रिप पर निर्भर होने के बजाय स्थानीय रूप से वॉइस मॉडल चला सकता है । व्यावसायिक पक्ष पर, Sesame सॉफ्टवेयर और हार्डवेयर दोनों को नियंत्रित करने को एक ही उपयोगकर्ता से सब्सक्रिप्शन शुल्क और उच्च-मार्जिन वाली डिवाइस बिक्री हासिल करने के एक तरीके के रूप में देखता है
।
यह "हार्डवेयर-फर्स्ट" रणनीति Sesame को पूरे अनुभव को नियंत्रित करने देती है — माइक्रोफ़ोन व्यवहार, वेक वर्ड, विलंबता, बैटरी लाइफ और सब्सक्रिप्शन बंडल — बजाय इसके कि किसी तीसरे पक्ष के ऐप इकोसिस्टम के अंदर प्रतिस्पर्धा करे । Oculus और Meta में संस्थापक टीम का ट्रैक रिकॉर्ड, जहाँ उन्होंने उपभोक्ता VR/AR हार्डवेयर बनाने में मदद की, इस हार्डवेयर महत्वाकांक्षा को वह विश्वसनीयता देता है जिसकी एक शुद्ध-सॉफ्टवेयर स्टार्टअप में कमी हो सकती है
।
सार्वजनिक बयान "उच्च-गुणवत्ता वाले ऑडियो" और एक AI साथी वाले चश्मे का वादा करते हैं जो "आपके साथ दुनिया का निरीक्षण कर सकता है" । रिपोर्टों में नेत्र-ट्रैकिंग एकीकरण और रीयल-टाइम संवादी प्रतिक्रिया का उल्लेख है, हालाँकि तकनीकी विनिर्देश अभी भी कम हैं
।
21 अक्टूबर, 2025 को, Sesame ने Andreessen Horowitz से पहले के समर्थन के बाद, $250 मिलियन का सीरीज़ B राउंड हासिल किया । निवेशकों में Sequoia Capital शामिल है, जिसने एक विस्तृत भागीदार लेख प्रकाशित किया जिसमें फर्म की इस थीसिस को रेखांकित किया गया कि वॉइस-फर्स्ट AI मानव-कंप्यूटर संपर्क में एक मौलिक बदलाव का प्रतिनिधित्व करता है
।
यह पूंजी वॉइस मॉडल को आगे बढ़ाने, इंजीनियरिंग टीम का विस्तार करने, और — महत्वपूर्ण रूप से — साथी पहनने योग्य हार्डवेयर के विकास में तेजी लाने के लिए निर्धारित है । इस राउंड ने Sesame को लगभग $1 बिलियन के मूल्यांकन की ओर धकेल दिया
।
Sesame एक ऐसे क्षेत्र में प्रवेश कर रहा है जहाँ Apple, Google, Amazon और OpenAI के पास पहले से ही विशाल इंस्टॉल्ड बेस वाले वॉइस असिस्टेंट मौजूद हैं। इसके अलग होने का रास्ता तीन दांवों पर टिका हुआ है:
जोखिम वास्तविक हैं। अच्छी तरह से वित्त पोषित स्थापित कंपनियाँ समय के साथ आवाज़ में सुधार जोड़ सकती हैं। ऑडियो हार्डवेयर को बड़े पैमाने पर डिजाइन और निर्माण करना बेहद मुश्किल है, खासकर पूरे दिन पहनने के लिए पर्याप्त हल्का और उपभोक्ता अपनाने के लिए पर्याप्त स्टाइलिश। और वॉइस डेटा हैंडलिंग के आसपास की गोपनीयता की कमियाँ ठीक उसी समय नियामक और उपयोगकर्ता प्रतिक्रिया को आमंत्रित कर सकती हैं जब Sesame विश्वास बनाने की कोशिश कर रहा है।
क्या Sesame की संवादी गर्मजोशी और हार्डवेयर महत्वाकांक्षा एक सुरक्षात्मक स्थिति बना सकती है, यह एक खुला प्रश्न बना हुआ है — जिसका उत्तर iOS ऐप लॉन्च और आने वाले ग्लास रिलीज़ से मिलना शुरू हो जाएगा।
Comments
0 comments