세서미 앱 뒤에는 이 회사가 2024년부터 2026년까지 다듬어온 **대화형 음성 모델(Conversational Speech Model, CSM)**이 있다 . 기존 TTS(텍스트를 음성으로 읽어주는 기술)가 마치 로봇이 기계적으로 글을 읽는 느낌이었다면, CSM은 하나의 완성된 대화 맥락을 파악한 후 거기에 어울리는 타이밍, 톤, 감정을 실시간으로 입혀서 직접 오디오를 생성한다
.
주요 투자사인 세쿼이아 캐피털은 “세서미의 대화 레이어는 기존 LLM(거대 언어 모델)의 출력을 단순히 소리로 바꾸는 게 아니라, 실제 대화의 리듬과 감정, 표현력을 포착하는 음성을 직접 생성한다”고 평가했다 .
이 모델은 10억에서 80억 개 수준의 매개변수를 가지고 있는데, 이는 스마트 안경 같은 작은 웨어러블 기기(입거나 착용하는 컴퓨터 기기) 안에서도 클라우드 서버를 거치지 않고 자체적으로 실행될 수 있을 만큼 가볍다 . 참고로 오픈소스 10억 매개변수 버전은 아파치 2.0 라이선스로 깃허브에 공개돼 있어, 관심 있는 개발자라면 직접 만져볼 수도 있다
. 현재 CSM을 기반으로 한 상용 목소리 에이전트로는 **마야(Maya)**와 **마일스(Miles)**가 제공된다
.
세서미는 앱스토어 판매글에서 “당신과 세서미 사이의 대화는 설계 단계부터 안전하고 비공개”라며 ‘프라이버시 우선(Privacy First)’ 원칙을 내걸고 있다 . 2026년 5월 개정된 공식 개인정보 처리방침 역시 웹사이트, 앱, 서비스 전반에 걸쳐 데이터를 어떻게 수집하고 처리하는지 설명하고 있다
.
하지만, 아무리 둘러봐도 일반 사용자들이 직관적으로 느낄 수 있는 ‘통제권’ 에 대한 설명은 공개된 자료 어디에도 없다. “이 대화 지워줘”, “내 목소리 데이터 AI 학습에 쓰지 마” 같은 기능들이 과연 앱 안에 있을지, 혹은 언제 삭제되는지에 대한 구체적인 타임라인도 불분명하다. 처리방침에는 개인정보가 더 이상 필요하지 않을 경우 파기나 익명화 절차를 밟는다고 되어 있지만, ‘필요하지 않은 시점’이 언제인지는 나와 있지 않다 .
음성 데이터는 지문처럼 개인 식별이 가능한 예민한 생체 정보라는 점에서, 법적 규제가 강화될수록 이 ‘애매모호함’은 세서미가 반드시 풀어야 할 숙제가 될 전망이다.
사실 이 앱은 본게임을 위한 ‘맛보기’에 가깝다. 세서미의 진짜 베팅은 우리 얼굴에 걸치는 스마트 안경이다. 회사 측은 2027년을 목표로 ‘온종일 착용하는 경량 스마트 안경’을 개발 중이다 .
여기에는 기술적 이유와 사업적 이유가 복합적으로 깔려 있다. 기술적으로는 앞서 설명한 대로 CSM이 기기 자체에서 돌아갈 정도로 가벼워, 클라우드와의 통신 지연 없이 더 현실감 있는 대화가 가능하다는 장점이 있다 . 사업적으로는 앱 구독료뿐만 아니라 하드웨어 판매 마진이라는 더 큰 수익원을 동시에 확보할 수 있기 때문이다
.
이는 하드웨어와 소프트웨어를 함께 쥐고 흔드는 ‘수직 통합’ 전략이다. 스마트폰 안에 갇힌 수많은 앱들 사이에서 경쟁하는 대신, 귀에 꽂고 눈에 걸치는 순간 가장 기본이 되는 AI 비서로 자리 잡겠다는 계산이다 . 오큘러스와 메타에서 AR/VR 기기를 만들었던 창업팀의 이력 덕분에, 이 하드웨어 계획은 단순한 ‘엄마는 찍어’ 보다는 훨씬 진지하게 업계에서 받아들여지고 있다
.
세서미는 공개 성명을 통해 이 안경이 “함께 세상을 관찰하는” 고품질 오디오 AI 동반자가 될 것이라고 예고했다 . 업계 보고서에 따르면 시선 추적 기술이 통합될 가능성도 거론되고 있다
.
2025년 10월 21일, 세서미는 안드레센 호로위츠 등에게 초기 투자를 받은 데 이어 세쿼이아 캐피털 주도로 2억 5천만 달러의 시리즈 B 투자를 마무리 지었다 . 이는 척박한 스타트업 시장에서 약 1조 원(정확히는 약 1조 4천억 원)의 기업 가치를 인정받은 것과 다름없다
.
하지만 정작 세서미가 뛰어든 시장에는 애플, 구글, 아마존, 오픈AI라는 절대 강자들이 버티고 있다. 이 공룡들과 싸우기 위해 세서미가 던진 승부수는 총 세 가지다.
위험 요소도 뚜렷하다. 경쟁사들이 자본력을 앞세워 감정 표현 기능을 곧 따라잡을 수 있고, 하루 종일 착용할 만큼 가볍고 멋진 오디오 안경을 대량 생산하는 것은 기술적 난이도가 극도로 높다. 여기에 음성 프라이버시에 대한 미비한 정보 공개는 소비자 신뢰를 얻기도 전에 발목을 잡을 수 있는 뇌관이다.
Comments
0 comments