답변게시됨2개월 전Last edited 지난달36 소스

오큘러스 창업자들, 음성 AI 스타트업 ‘세서미’로 iOS 출시… 2027년 스마트 안경까지 노린다

세서미는 2026년 5월, 텍스트 입력 대신 감정을 담은 생생한 대화를 나누는 음성 기반 iOS 앱을 공개했으며, 장기적으로는 2027년 이 AI를 경량 스마트 안경에 내장할 계획이다. 자체 개발한 ‘대화형 음성 모델(CSM)’은 10억 80억 개의 매개변수를 통해 상황에 맞는 감정과 자연스러운 쉼, 톤 변화를 생성하며, 클라우드 연결 없이도 웨어러블 기기 안에서 직접 실행되도록 설계했다.

Studio Global AI로 검색 및 팩트체크 인기 페이지 더 보기

Sesame AI iOS app voice-first interface concept — What features does Sesame AI's new iOS app offer, how does its voice agent technology work, what privacy options are available, what are itsSesame AI's iOS app launched May 28, 2026, prioritizing voice-first conversation over text input.
AI 프롬프트
Create a landscape editorial hero image for this Studio Global article: What features does Sesame AI's new iOS app offer, how does its voice agent technology work, what privacy options are available, what are its. Article summary: Here is a comprehensive overview based on the available evidence.. Topic tags: general, general web, user generated. Reference image context from search candidates: Reference image 1: visual subject "Home **›** Articles **›** **Sesame AI – A New Voice for AI Assistants**. # Sesame AI – A New Voice for AI Assistants. Voice AI start-up Sesame is tackling this challenge head-on, p" source context "Sesame AI - A New Voice for AI Assistants |" Reference image 2: visual subject "# Sesame, the conversational AI startup from Oculus founders, raises $250M and launches beta. Sesame, a conversational AI startup and smart glasses maker, has raised a $250 million" source co
openai.com

‘오큐러스 창업자’라는 화려한 이력의 브렌던 아이라이브와 메타 출신 앤킷 쿠마르가 이번에는 우리의 ‘목소리’를 정조준했다. 이들이 만든 음성 AI 스타트업 **세서미(Sesame)**가 2026년 5월 28일, 마침내 아이폰용 앱을 공식 출시하며 거대 IT 공룡들이 장악한 AI 비서 시장에 도전장을 냈다 . 이 앱의 최종 목표는 단순한 아이폰 속 앱이 아니다. 불과 1년 전인 2025년 10월, 세서미는 2억 5천만 달러(약 3,400억 원)의 시리즈 B 투자를 유치하며, 2027년 얼굴에 착용하는 경량 스마트 안경을 출시하겠다는 야심 찬 로드맵을 공개했다 .

그냥 시리랑 뭐가 다른데? 말이 통하는 AI의 탄생

지금까지 우리가 써온 챗GPT나 시리, 빅스비는 본질적으로 ‘텍스트 기반’이었다. 하지만 세서미 앱은 키보드를 치는 대신 진짜 사람처럼 말을 주고받는 ‘음성 경험’ 자체를 핵심으로 설계됐다. 단순히 질문에 답하는 검색 엔진이 아니라, 24시간 내내 말동무가 되어주는 음성 협력자를 지향한다 .

앱스토어 설명에 따르면, 세서미 앱은 다음과 같은 기능들을 지원한다 :

진짜 대화: 타이핑 없이 말을 걸면 AI가 듣고, 이해하고, 사람처럼 응답한다 .
사진 보며 수다 떨기: 손글씨 메모, 옷차림, 스크린샷 등 사진을 업로드하고 AI와 함께 그 이미지에 대해 이야기할 수 있다 .
검색 카드: 말로 질문하면 AI가 시각 자료(이미지 카드 등)를 함께 곁들여 답변을 더 풍부하게 만든다 .
핵심 노트: 대화 중에 중요한 내용을 따로 저장해둘 수 있다 .
텍스트 전환 모드: 갑자기 말하기 곤란한 상황에서는 기존 채팅처럼 문자로도 대화를 이어갈 수 있다 .
실시간 정보 접지: 세서미는 빠른 검색 시스템을 통해 최신 정보를 가져오며, 마치 사람이 상대방의 말을 듣다가 중간에 화제를 자연스럽게 돌리듯이 문장 중간에도 새로운 데이터를 실시간으로 녹여낸다 .

물론 이 모든 기능을 쓰려면 프리미엄 구독료를 내야 한다 .

‘끼어들기’와 ‘웃음’까지… 이게 가능한 비결은?

세서미 앱 뒤에는 이 회사가 2024년부터 2026년까지 다듬어온 **대화형 음성 모델(Conversational Speech Model, CSM)**이 있다 . 기존 TTS(텍스트를 음성으로 읽어주는 기술)가 마치 로봇이 기계적으로 글을 읽는 느낌이었다면, CSM은 하나의 완성된 대화 맥락을 파악한 후 거기에 어울리는 타이밍, 톤, 감정을 실시간으로 입혀서 직접 오디오를 생성한다 .

세서미가 공개한 연구 자료를 보면 이 모델의 설계 핵심은 다음 네 가지다 :

감성 지능: 대화의 감정적인 맥락을 읽고 거기에 맞춰 목소리의 높낮이와 억양을 즉시 조절한다.
자연스러운 호흡: 딱딱한 기계음이 아니라 사람처럼 중간에 자연스럽게 말을 끊거나, 강조하거나, 심지어 웃기도 한다.
맥락 기억력: 방금 전까지 나눈 이야기를 기억해뒀다가 이후 말투와 흐름을 그에 맞춰 바꾼다.
일관된 페르소나: 매번 다른 사람 같은 목소리가 아니라, 꾸준히 하나의 인격체처럼 느껴지도록 설계됐다.

주요 투자사인 세쿼이아 캐피털은 “세서미의 대화 레이어는 기존 LLM(거대 언어 모델)의 출력을 단순히 소리로 바꾸는 게 아니라, 실제 대화의 리듬과 감정, 표현력을 포착하는 음성을 직접 생성한다”고 평가했다 .

이 모델은 10억에서 80억 개 수준의 매개변수를 가지고 있는데, 이는 스마트 안경 같은 작은 웨어러블 기기(입거나 착용하는 컴퓨터 기기) 안에서도 클라우드 서버를 거치지 않고 자체적으로 실행될 수 있을 만큼 가볍다 . 참고로 오픈소스 10억 매개변수 버전은 아파치 2.0 라이선스로 깃허브에 공개돼 있어, 관심 있는 개발자라면 직접 만져볼 수도 있다 . 현재 CSM을 기반으로 한 상용 목소리 에이전트로는 **마야(Maya)**와 **마일스(Miles)**가 제공된다 .

“대화는 우리만 아는 비밀이죠”… 하지만 의문은 남는다

세서미는 앱스토어 판매글에서 “당신과 세서미 사이의 대화는 설계 단계부터 안전하고 비공개”라며 ‘프라이버시 우선(Privacy First)’ 원칙을 내걸고 있다 . 2026년 5월 개정된 공식 개인정보 처리방침 역시 웹사이트, 앱, 서비스 전반에 걸쳐 데이터를 어떻게 수집하고 처리하는지 설명하고 있다 .

하지만, 아무리 둘러봐도 일반 사용자들이 직관적으로 느낄 수 있는 ‘통제권’ 에 대한 설명은 공개된 자료 어디에도 없다. “이 대화 지워줘”, “내 목소리 데이터 AI 학습에 쓰지 마” 같은 기능들이 과연 앱 안에 있을지, 혹은 언제 삭제되는지에 대한 구체적인 타임라인도 불분명하다. 처리방침에는 개인정보가 더 이상 필요하지 않을 경우 파기나 익명화 절차를 밟는다고 되어 있지만, ‘필요하지 않은 시점’이 언제인지는 나와 있지 않다 .

음성 데이터는 지문처럼 개인 식별이 가능한 예민한 생체 정보라는 점에서, 법적 규제가 강화될수록 이 ‘애매모호함’은 세서미가 반드시 풀어야 할 숙제가 될 전망이다.

‘입는 AI’가 진짜 목표… 2027년 스마트 안경 출격

사실 이 앱은 본게임을 위한 ‘맛보기’에 가깝다. 세서미의 진짜 베팅은 우리 얼굴에 걸치는 스마트 안경이다. 회사 측은 2027년을 목표로 ‘온종일 착용하는 경량 스마트 안경’을 개발 중이다 .

여기에는 기술적 이유와 사업적 이유가 복합적으로 깔려 있다. 기술적으로는 앞서 설명한 대로 CSM이 기기 자체에서 돌아갈 정도로 가벼워, 클라우드와의 통신 지연 없이 더 현실감 있는 대화가 가능하다는 장점이 있다 . 사업적으로는 앱 구독료뿐만 아니라 하드웨어 판매 마진이라는 더 큰 수익원을 동시에 확보할 수 있기 때문이다 .

이는 하드웨어와 소프트웨어를 함께 쥐고 흔드는 ‘수직 통합’ 전략이다. 스마트폰 안에 갇힌 수많은 앱들 사이에서 경쟁하는 대신, 귀에 꽂고 눈에 걸치는 순간 가장 기본이 되는 AI 비서로 자리 잡겠다는 계산이다 . 오큘러스와 메타에서 AR/VR 기기를 만들었던 창업팀의 이력 덕분에, 이 하드웨어 계획은 단순한 ‘엄마는 찍어’ 보다는 훨씬 진지하게 업계에서 받아들여지고 있다 .

세서미는 공개 성명을 통해 이 안경이 “함께 세상을 관찰하는” 고품질 오디오 AI 동반자가 될 것이라고 예고했다 . 업계 보고서에 따르면 시선 추적 기술이 통합될 가능성도 거론되고 있다 .

2억 5천만 달러짜리 신뢰표, 그리고 험난한 전장

2025년 10월 21일, 세서미는 안드레센 호로위츠 등에게 초기 투자를 받은 데 이어 세쿼이아 캐피털 주도로 2억 5천만 달러의 시리즈 B 투자를 마무리 지었다 . 이는 척박한 스타트업 시장에서 약 1조 원(정확히는 약 1조 4천억 원)의 기업 가치를 인정받은 것과 다름없다 .

하지만 정작 세서미가 뛰어든 시장에는 애플, 구글, 아마존, 오픈AI라는 절대 강자들이 버티고 있다. 이 공룡들과 싸우기 위해 세서미가 던진 승부수는 총 세 가지다.

정서적 교감의 해자: ‘자연스러운 운율, 실시간 끼어들기, 웃음’ 같은 요소들은 단순히 오타를 확인해주는 기존 텍스트 챗봇이 쉽게 따라잡을 수 없는 노하우라고 세서미는 믿는다 .
음성이 부가 기능이 아닌 본질: 텍스트 모델에 목소리 기능을 덧씌운 챗GPT·제미나이와 달리, 구어체 대화 자체가 유일한 인터페이스다 .
하드웨어 종속성 확보: AI 스피커처럼 거추장스럽지 않은 패션 아이템(안경)을 통해 이용자를 묶어두는 것. 이는 단순히 앱 하나 깔고 마는 관계와는 차원이 다르다 .

위험 요소도 뚜렷하다. 경쟁사들이 자본력을 앞세워 감정 표현 기능을 곧 따라잡을 수 있고, 하루 종일 착용할 만큼 가볍고 멋진 오디오 안경을 대량 생산하는 것은 기술적 난이도가 극도로 높다. 여기에 음성 프라이버시에 대한 미비한 정보 공개는 소비자 신뢰를 얻기도 전에 발목을 잡을 수 있는 뇌관이다.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

사람들은 또한 묻습니다.