한국어에서 ‘출시’는 공개 발표와 실제 제품 사용 개시를 한꺼번에 가리킬 때가 많다. Claude Mythos Preview의 경우 이 둘을 나눠 봐야 혼동이 줄어든다.
첫째, 공개 발표라는 의미라면 답은 비교적 분명하다. Anthropic의 Project Glasswing 페이지는 관련 발표를 2026년 4월 7일로 표시하고, 이 프로젝트가 Claude Mythos Preview로 구동된다고 설명한다. Anthropic의 모델 시스템 카드 목록도 Mythos Preview를 2026년 4월 항목에 올려두고 있다.
둘째, 모든 사용자가 쓸 수 있는 제품 출시라는 의미라면 답은 아니다. Anthropic은 Mythos Preview를 general availability, 즉 일반 공개 모델로 출시하지 않았다고 밝혔다.
Project Glasswing은 일반 챗봇 신제품 소개라기보다, AI 시대의 핵심 소프트웨어를 보호하기 위한 보안 프로젝트에 가깝다. Anthropic은 Project Glasswing을 세계적으로 중요한 소프트웨어를 보호하기 위한 이니셔티브라고 설명하며, 이를 자사의 ‘가장 강력한 모델’인 Claude Mythos Preview가 지원한다고 밝혔다.
이런 배경은 왜 Mythos Preview가 일반 사용자에게 바로 열리지 않았는지를 설명한다. Anthropic의 시스템 카드는 이 모델의 역량이 소프트웨어 취약점 발견·수정 같은 방어적 용도뿐 아니라, 더 정교한 악용 방식 설계에도 쓰일 수 있다고 설명한다. Anthropic은 바로 이런 능력 때문에 Mythos Preview를 일반 공개하지 않기로 했다고 밝혔다.
Anthropic의 레드팀 블로그도 같은 맥락을 제시한다. Mythos Preview는 Project Glasswing을 통해 처음에는 제한된 핵심 산업 파트너와 오픈소스 개발자에게 제공됐으며, 유사한 능력의 모델이 더 널리 쓰이기 전에 방어 측이 중요한 시스템을 먼저 강화하도록 돕는 것이 목적이라고 설명한다.
| 벤치마크 | Claude Mythos Preview | Claude Opus 4.6 |
|---|---|---|
| GPQA Diamond | 94.6% | 91.3% |
| Humanity’s Last Exam, 도구 없음 | 56.8% | 40.0% |
| Humanity’s Last Exam, 도구 사용 | 64.7% | 53.1% |
| BrowseComp | 86.9% | 83.7% |
| OSWorld-Verified | 79.6% | 72.7% |
따라서 ‘성능’을 Anthropic이 공개한 고난도 질의응답, 도구 사용, 웹 탐색, 컴퓨터 환경 작업 벤치마크 기준으로 본다면 Mythos Preview는 매우 강한 모델로 볼 수 있다. 특히 Project Glasswing의 목적까지 함께 보면, 공개 자료가 가장 강하게 뒷받침하는 평가는 복잡한 추론, 도구 활용, 소프트웨어 보안 관련 작업에서 전면에 선 모델이라는 것이다.
다만 이 수치를 곧바로 ‘모든 실제 사용 환경에서 압도적’이라는 뜻으로 읽는 것은 조심해야 한다.
첫째, 현재 직접 인용 가능한 비교 점수는 Anthropic이 공개한 공식 자료에서 나온 것이다. 이것이 점수의 의미를 없애는 것은 아니지만, 독립 기관의 외부 재현 결과라기보다는 공식 발표 자료로 읽는 편이 더 안전하다.
둘째, Anthropic 스스로도 Humanity’s Last Exam 점수에 단서를 달았다. Mythos가 낮은 노력, 즉 low-effort 조건에서도 잘 작동하는 점은 어느 정도의 memorization 가능성을 시사할 수 있다고 설명했다. 따라서 HLE 점수는 해당 평가에서의 강한 성과를 보여주지만, 모든 새로운 과제에서 같은 폭으로 앞선다는 증거로 단독 해석하긴 어렵다.
셋째, 안전성·정렬 관련 평가에서는 결과가 더 복잡하다. Anthropic의 Mythos Preview alignment risk update는 Minimal-LinuxBench에서 Mythos의 성능이 설정에 따라 Claude Opus보다 약간 높거나 약간 낮았다고 설명한다. 같은 요약은 SHADE-Arena에서 긴 chain-of-thought 전사 조건의 stealth success rate가 약 0%에서 약 3.8%로 증가했다고도 밝혔다.
정리하면, Claude Mythos Preview는 Anthropic이 공개한 핵심 벤치마크에서 Claude Opus 4.6보다 뚜렷하게 높은 점수를 보였다. 하지만 공개 근거만으로 한국어 글쓰기, 일상 대화, 지연시간, 가격, 일반 업무 전반에서도 항상 같은 정도로 앞선다고 말하기는 어렵다.
일반 사용자 입장에서는 이 부분이 가장 중요하다. 현재 공개 자료 기준으로 Claude Mythos Preview를 대중용 Claude 신모델처럼 보면 안 된다.
Anthropic은 Mythos Preview를 일반 공개하지 않았다고 명확히 밝혔다. 대신 중요 소프트웨어 인프라를 관리하는 일부 파트너 조직에 접근권을 제공했고, 약관상 사용 범위를 사이버보안으로 제한한다고 설명했다.
따라서 Claude.ai에서 바로 모델을 전환할 수 있는지, 일반 API에서 호출 가능한지, 가격이 얼마인지, 지연시간이나 컨텍스트 창이 어느 정도인지를 묻는다면 공개 자료만으로는 완전한 제품 답변을 내리기 어렵다. 지금까지 공개된 정보만 놓고 보면 Mythos Preview는 대중용 Claude 업그레이드라기보다, 고성능이면서 민감도가 높은 방어적 보안 작업용 제한형 프런티어 모델에 가깝다.
Claude Mythos Preview의 가장 정확한 요약은 이렇다. 2026년 4월 Project Glasswing과 함께 공개된, 핵심 소프트웨어 보안 목적의 제한형 프리뷰 모델이다. Anthropic의 공식 벤치마크에서는 여러 항목에서 Claude Opus 4.6을 앞섰지만, Anthropic은 동시에 이 모델을 일반 공개하지 않았고 사이버보안 관련 파트너에게 제한적으로 제공한다고 밝혔다.
그러므로 일반 사용자에게 필요한 결론은 ‘지금 당장 Mythos로 갈아타야 하는가’가 아니다. 더 현실적인 답은 현재 Mythos Preview는 Claude에서 누구나 선택할 수 있는 일반 모델이 아니라는 것이다.
Comments
0 comments