หัวใจของระบบคือ Conversational Speech Model (CSM) ซึ่งเป็นระบบแปลงข้อความเป็นเสียงพูด (TTS) แบบโครงข่ายประสาทเทียม ที่พัฒนาขึ้นระหว่างปี 2024 ถึง 2026 แตกต่างจากระบบ TTS ทั่วไปที่อ่านข้อความด้วยน้ำเสียงราบเรียบ CSM จะประมวลผลบริบทของบทสนาทั้งหมด — รวมถึงประโยคสนทนาก่อนหน้า — และสร้างเสียงพูดโดยตรง โดยผสมผสานจังหวะ น้ำเสียง และการปรับอารมณ์แบบเรียลไทม์
Sequoia Capital หนึ่งในผู้ลงทุน ระบุว่า โมเดลนี้ "ไม่ได้แค่แปลผลลัพธ์จาก LLM เป็นเสียงพูด — มันสร้างคำพูดโดยตรง ถ่ายทอดจังหวะ อารมณ์ และการแสดงออกของบทสนทนาจริง"
โมเดลมีขนาดตั้งแต่ 1 ถึง 8 พันล้านพารามิเตอร์ ซึ่งเป็นการตัดสินใจที่จงใจให้มีขนาดเบาพอที่จะรันบนฮาร์ดแวร์ระดับผู้บริโภคและอุปกรณ์สวมใส่ได้ในที่สุด มีการปล่อยโมเดลโอเพนซอร์สขนาด 1B พารามิเตอร์บน GitHub ภายใต้สัญญาอนุญาต Apache 2.0 โดยมีเช็กพอยต์อยู่บน Hugging Face
Sesame อธิบายว่าแอปนี้ให้ความสำคัญกับ "ความเป็นส่วนตัวเป็นอันดับหนึ่ง" โดยข้อความบน App Store ระบุว่าบทสนทนาจะอยู่ระหว่างผู้ใช้กับ Sesame เท่านั้น และ "ปลอดภัยและเป็นส่วนตัวโดยการออกแบบ" นโยบายความเป็นส่วนตัวอย่างเป็นทางการของบริษัท ซึ่งอัปเดตล่าสุดเมื่อวันที่ 7 พฤษภาคม 2026 ได้อธิบายวิธีการเก็บรวบรวมและประมวลผลข้อมูลผู้ใช้ผ่านเว็บไซต์ แอป และบริการต่างๆ รวมถึงผู้ช่วยสนทนาเสมือนจริง
สิ่งที่เอกสารสาธารณะ ไม่ได้ เปิดเผย คือการควบคุมข้อมูลในระดับที่ผู้ใช้ที่ใส่ใจเรื่องความเป็นส่วนตัวมักมองหา — เครื่องมือต่างๆ เช่น การลบบทสนทนาด้วยตนเอง, การยกเลิกไม่ให้ข้อมูลถูกนำไปใช้ฝึกโมเดล, หรือการตั้งค่าระยะเวลาการเก็บข้อมูลแบบละเอียด นโยบายความเป็นส่วนตัวอ้างถึงขั้นตอนในการทำลายหรือทำให้ข้อมูลส่วนบุคคลไม่สามารถระบุตัวตนได้เมื่อไม่จำเป็นอีกต่อไป แต่ไม่ได้ระบุกรอบเวลาหรือการควบคุมที่ผู้ใช้เข้าถึงได้เพื่อขอให้ลบข้อมูล
เนื่องจากข้อมูลเสียงมีความละเอียดอ่อนและอาจเป็นข้อมูลชีวภาพโดยธรรมชาติ ช่องว่างนี้จึงมีแนวโน้มจะถูกตรวจสอบอย่างเข้มงวดในขณะที่ Sesame ขยายขนาด และหน่วยงานกำกับดูแลยังคงเพิ่มความเข้มงวดของกฎเกี่ยวกับการจัดการข้อมูล AI สำหรับผู้ใช้ที่ต้องการเงื่อนไขที่แน่นอน สามารถดูนโยบายฉบับเต็มได้ที่ sesame.com/privacy
แอปของ Sesame เป็นเพียงวิธีการไปสู่จุดหมาย กลยุทธ์ระยะยาวของบริษัทคือการฝังผู้ช่วย AI แบบเสียงลงในแว่นตาอัจฉริยะน้ำหนักเบาที่เป็นกรรมสิทธิ์ของตนเอง ซึ่งออกแบบมาให้สวมใส่ได้ทั้งวัน โดยมีเป้าหมายเปิดตัวในปี 2027
เหตุผลมีทั้งทางเทคนิคและเชิงพาณิชย์ ในด้านเทคนิค จำนวนพารามิเตอร์ขนาดเล็กของ CSM (1–8 พันล้าน) ถูกกำหนดขนาดอย่างจำเพาะเพื่อการประมวลผลบนอุปกรณ์โดยตรง นั่นหมายความว่าแว่นตาสามารถรันโมเดลเสียงในเครื่องได้โดยไม่ต้องพึ่งพาการส่งข้อมูลไป-กลับกับคลาวด์ ในด้านธุรกิจ Sesame มองว่าการควบคุมทั้งซอฟต์แวร์และฮาร์ดแวร์เป็นหนทางในการเก็บค่าสมาชิก และ ยอดขายอุปกรณ์ที่มีอัตรากำไรสูงจากลูกค้าคนเดียวกัน
กลยุทธ์ "ฮาร์ดแวร์มาก่อน" นี้ทำให้ Sesame ควบคุมประสบการณ์ทั้งหมดได้ — พฤติกรรมไมโครโฟน, คำสั่งปลุก, ความหน่วง, อายุการใช้งานแบตเตอรี่, และแพ็กเกจการสมัครสมาชิก — แทนที่จะต้องไปแข่งขันในระบบนิเวศของแอปบุคคลที่สาม ประวัติของทีมผู้ก่อตั้งที่ Oculus และ Meta ซึ่งพวกเขามีส่วนช่วยสร้างฮาร์ดแวร์ VR/AR สำหรับผู้บริโภค ทำให้ความทะเยอทะยานด้านฮาร์ดแวร์นี้มีความน่าเชื่อถือ ซึ่งสตาร์ทอัปซอฟต์แวร์ล้วนๆ อาจไม่มี
แถลงการณ์สาธารณะให้คำมั่นสัญญาว่าจะมีแว่นตาที่มี "คุณภาพเสียงสูง" และมีผู้ช่วย AI ที่สามารถ "สังเกตโลกร่วมกับคุณ" ได้ มีรายงานกล่าวถึงการผสานเทคโนโลยีติดตามการเคลื่อนไหวของดวงตาและผลตอบรับการสนทนาแบบเรียลไทม์ แม้ว่าข้อกำหนดทางเทคนิคจะยังไม่เปิดเผยมากนัก
เมื่อวันที่ 21 ตุลาคม 2025 Sesame ปิดการระดมทุน Series B มูลค่า 250 ล้านดอลลาร์สหรัฐฯ ตามหลังการสนับสนุนก่อนหน้านี้จาก Andreessen Horowitz ผู้ลงทุนรวมถึง Sequoia Capital ซึ่งเผยแพร่บทความโดยละเอียดระบุถึงแนวคิดของบริษัทที่ว่า AI แบบเสียงมาก่อนเป็นตัวแทนของการเปลี่ยนแปลงขั้นพื้นฐานในการปฏิสัมพันธ์ระหว่างมนุษย์กับคอมพิวเตอร์
เงินทุนจำนวนนี้มีวัตถุประสงค์เพื่อพัฒนาโมเดลเสียงให้ก้าวหน้า ขยายทีมวิศวกร และที่สำคัญคือเร่งการพัฒนาฮาร์ดแวร์อุปกรณ์สวมใส่สำหรับผู้ช่วย AI การระดมทุนครั้งนี้ผลักดันให้ Sesame มีมูลค่าบริษัทที่รายงานไว้ประมาณ 1 พันล้านดอลลาร์สหรัฐฯ
Sesame เข้าสู่สนามที่ Apple, Google, Amazon และ OpenAI ต่างมีผู้ช่วยเสียงที่มียอดผู้ใช้มหาศาลอยู่แล้ว เส้นทางสู่การสร้างความแตกต่างของ Sesame ตั้งอยู่บนการเดิมพันสามประการ:
ความเสี่ยงมีอยู่จริง บริษัทยักษ์ใหญ่ที่มีทุนหนาสามารถปรับปรุงฟีเจอร์เสียงได้ตลอดเวลา ฮาร์ดแวร์เสียงเป็นสิ่งที่ออกแบบและผลิตจำนวนมากได้ยาก โดยเฉพาะที่ต้องเบาพอให้สวมใส่ได้ตลอดวันและมีดีไซน์ที่ผู้บริโภคยอมรับ และช่องว่างด้านความเป็นส่วนตัวเกี่ยวกับการจัดการข้อมูลเสียงอาจเชิญชวนให้เกิดการต่อต้านจากผู้ใช้และหน่วยงานกำกับดูแล ในช่วงเวลาที่ Sesame กำลังพยายามสร้างความไว้วางใจ
ไม่ว่าความอบอุ่นในการสนทนาของ Sesame และความทะเยอทะยานด้านฮาร์ดแวร์จะสามารถสร้างตำแหน่งที่ป้องกันได้หรือไม่ ยังคงเป็นคำถามปลายเปิด — ซึ่งการเปิดตัวแอป iOS และการเปิดตัวแว่นตาที่กำลังจะมาถึงจะเริ่มให้คำตอบ
Comments
0 comments