Di balik layar, terdapat Conversational Speech Model (CSM), sistem neural text-to-speech (TTS) yang dikembangkan dari 2024 hingga 2026 . Tidak seperti TTS konvensional yang membacakan teks dengan intonasi datar, CSM memproses konteks dialog secara penuh — termasuk giliran percakapan terbaru — dan menghasilkan audio secara langsung, menggabungkan pengaturan waktu, nada, dan modulasi emosional secara real-time
.
Sequoia Capital, salah satu investor, menyebut bahwa model ini "tidak sekadar menerjemahkan output LLM menjadi audio — ia menghasilkan ucapan secara langsung, menangkap ritme, emosi, dan ekspresivitas dialog nyata" .
Model ini hadir dalam ukuran mulai dari 1 miliar hingga 8 miliar parameter, sebuah pilihan yang disengaja agar cukup ringan untuk dapat berjalan di perangkat keras konsumen dan wearable . Versi open-source 1 miliar parameter telah dirilis di GitHub dengan lisensi Apache 2.0, dengan checkpoint di-hosting di Hugging Face
.
Sesame menggambarkan aplikasi ini sebagai "Privasi Utama" (Privacy First), dengan keterangan di App Store yang menyatakan bahwa percakapan hanya antara pengguna dan Sesame, serta "aman dan privat sesuai desain" . Kebijakan privasi resmi perusahaan, yang terakhir diperbarui pada 7 Mei 2026, menjelaskan bagaimana data pengguna dikumpulkan dan diproses di seluruh situs web, aplikasi, dan layanannya, termasuk agen percakapan virtualnya
.
Yang tidak diungkapkan oleh dokumen publik adalah kontrol pengguna yang lebih rinci — fitur seperti penghapusan percakapan manual, penolakan dari pelatihan model, atau pengaturan retensi data yang terperinci. Kebijakan privasi merujuk pada prosedur untuk menghancurkan atau menganonimkan informasi pribadi saat tidak lagi diperlukan, tetapi tidak merinci jadwal waktu atau kontrol bagi pengguna untuk meminta penghapusan .
Mengingat data suara bersifat sensitif dan bisa menjadi data biometrik, celah informasi ini kemungkinan akan mengundang perhatian seiring berkembangnya Sesame dan semakin ketatnya regulasi penanganan data AI. Bagi pengguna yang mencari ketentuan persisnya, kebijakan lengkap tersedia di sesame.com/privacy.
Aplikasi Sesame adalah sarana untuk mencapai tujuan akhir. Strategi jangka panjang perusahaan berpusat pada penanaman agen suaranya ke dalam kacamata pintar ringan eksklusif yang dirancang untuk dipakai seharian, dengan target peluncuran pada tahun 2027 .
Logikanya bersifat teknis dan komersial. Secara teknis, jumlah parameter CSM yang kecil (1–8 miliar) sengaja dipilih untuk penerapan langsung di perangkat. Artinya, kacamata tersebut dapat menjalankan model suara secara lokal, tanpa perlu bergantung pada koneksi bolak-balik ke cloud . Secara bisnis, Sesame melihat kendali atas perangkat lunak dan perangkat keras sebagai cara untuk meraup biaya langganan dan penjualan perangkat dengan margin lebih tinggi dari pengguna yang sama
.
Strategi "hardware-first" ini memungkinkan Sesame mengendalikan pengalaman penuh — perilaku mikrofon, kata kunci aktivasi, latensi, masa pakai baterai, dan paket langganan — alih-alih bersaing di dalam ekosistem aplikasi pihak ketiga . Rekam jejak tim pendiri di Oculus dan Meta, tempat mereka membantu membangun perangkat keras VR/AR konsumen, memberikan kredibilitas pada ambisi perangkat keras ini yang mungkin tidak dimiliki oleh startup perangkat lunak murni
.
Pernyataan publik menjanjikan kacamata dengan "audio berkualitas tinggi" dan pendamping AI yang dapat "mengamati dunia bersama Anda" . Laporan menyebutkan integrasi pelacakan mata dan umpan balik percakapan real-time, meskipun spesifikasi teknisnya masih terbatas
.
Pada 21 Oktober 2025, Sesame menutup putaran Seri B senilai $250 juta (sekitar Rp3,7 triliun), setelah sebelumnya menerima dukungan dari Andreessen Horowitz . Investornya termasuk Sequoia Capital, yang menerbitkan artikel mitra terperinci yang menguraikan tesis perusahaan bahwa AI berbasis suara mewakili perubahan mendasar dalam interaksi manusia-komputer
.
Modal ini dialokasikan untuk memajukan model suara, memperluas tim teknik, dan — yang paling krusial — mempercepat pengembangan perangkat keras wearable pendamping . Putaran pendanaan ini mendorong valuasi Sesame ke kisaran sekitar $1 miliar (sekitar Rp14,8 triliun)
.
Sesame memasuki arena di mana Apple, Google, Amazon, dan OpenAI telah memiliki asisten suara dengan basis pengguna masif. Jalan untuk diferensiasi bertumpu pada tiga taruhan:
Risikonya nyata. Perusahaan besar mapan dengan pendanaan kuat bisa menambahkan peningkatan suara seiring waktu. Desain dan produksi perangkat keras audio dalam skala besar sangat sulit, terutama harus cukup ringan untuk dipakai seharian dan cukup bergaya untuk diadopsi konsumen. Dan celah privasi seputar penanganan data suara dapat mengundang reaksi keras dari regulator dan pengguna tepat saat Sesame mencoba membangun kepercayaan.
Apakah kehangatan percakapan dan ambisi perangkat keras Sesame mampu menciptakan posisi yang dapat dipertahankan masih menjadi pertanyaan terbuka — yang akan mulai terjawab oleh peluncuran aplikasi iOS dan perilisan kacamata pintarnya mendatang.
Comments
0 comments