Claude Mythos Preview를 “또 하나의 Claude 신모델” 정도로 보면 핵심을 놓치기 쉽다. Anthropic API 문서는 이 모델을 Project Glasswing의 방어적 사이버보안 워크플로용 별도 연구 프리뷰 모델로 소개하며, 접근은 초대 기반이고 셀프서비스 가입은 제공되지 않는다고 명시한다.[13]
그래서 벤치마크 숫자는 분명 흥미롭지만, 널리 공개된 제품 모델의 리더보드 점수와 같은 방식으로 읽기는 어렵다. 특히 Claude Mythos는 코딩·에이전트·사이버보안 능력에서 강한 신호를 보이지만, 평가 조건과 출처를 함께 봐야 한다.
한눈에 보는 주요 벤치마크
아래의 구체적인 점수는 이 자료 묶음에서 주로 W&B, llm-stats, Authmind, R&D World 같은 제3자 출처가 Anthropic 데이터나 시스템 카드 분석을 바탕으로 정리한 값들이다.[6][
9][
25][
27]
| 분야 | 벤치마크 | 보고된 Claude Mythos 값 | 읽는 법 |
|---|---|---|---|
| 코딩 | SWE-bench Verified | 93.9%[ | W&B는 Claude Opus 4.6의 비교값을 80.8%로 제시한다.[ |
| 다국어 코딩 | SWE-bench Multilingual | 87.3%[ | W&B는 Opus 4.6의 비교값을 77.8%로 제시한다.[ |
| 멀티모달 | 내부 멀티모달 평가 | 59.0%[ | W&B는 같은 평가에서 Opus 4.6을 27.1%로 제시한다.[ |
| 사이버보안 | Cybench | pass@1 = 1.00[ | Authmind는 Cybench를 40개 CTF 챌린지 기반 공개 벤치마크라고 설명하고, Opus 4.6은 0.89였다고 제시한다.[ |
| 사이버보안 | CyberGym | 0.83[ | Authmind는 1,507개 실제 오픈소스 과제에서 표적 취약점 재현을 평가한다고 설명하고, Opus 4.6은 0.67로 제시한다.[ |
| 추론 | GPQA Diamond | 94.6%[ | llm-stats는 Opus 4.6을 91.3%로 제시한다.[ |
| 추론 | Humanity’s Last Exam, 도구 없음 / 도구 사용 | 56.8% / 64.7%[ | llm-stats는 Opus 4.6을 각각 40.0%, 53.1%로 제시한다.[ |
| 터미널 에이전트 | Terminal-Bench 구성 | 92.1%[ | Terminus-2 harness, 최대 adaptive thinking, 과제당 100만 토큰 예산, 4시간 타임아웃, Terminal-Bench 2.1 업데이트 조건이 붙는다.[ |
| 멀티태스크 지식 | MMMLU | 92.7[ | R&D World는 이 값이 Gemini 3.1 Pro의 92.6~93.6 범위와 겹치며, Mythos가 18개 중 17개 벤치마크에서 앞섰다는 보도에서 예외였다고 설명했다.[ |
Anthropic이 공식적으로 확인한 부분
가장 분명하게 공식 확인되는 것은 모델의 지위다. Anthropic 문서에 따르면 Claude Mythos Preview는 Project Glasswing의 방어적 사이버보안 워크플로를 위한 별도 연구 프리뷰 모델이며, 접근은 초대 기반이고 셀프서비스 신청은 없다.[13]
Anthropic의 Project Glasswing 페이지는 Claude Mythos Preview를 범용 프런티어 모델이자, 코딩과 에이전트형 작업에서 Anthropic의 가장 강력한 모델로 설명한다.[16] 또 Anthropic은 사이버보안 역량을 별도의 고립된 기능이 아니라, 복잡한 소프트웨어를 깊이 이해하고 수정할 수 있는 능력의 연장선으로 설명한다.[
16]
제공된 시스템 카드 자료 역시 Claude Mythos Preview를 새로운 대형 언어 모델이자 프런티어 AI 모델로 소개하며, 소프트웨어 엔지니어링, 추론, 컴퓨터 사용, 지식 업무, 연구 보조 등 여러 영역의 능력을 언급한다.[18]
다만 여기서 중요한 구분이 있다. 공식 출처는 모델의 성격과 포지셔닝을 뒷받침하지만, 위 표의 구체적인 점수 대부분은 이 자료 묶음에서는 제3자 출처를 통해 확인된다.[6][
9][
25][
27]
왜 SWE-bench 93.9%가 헤드라인인가
가장 눈에 띄는 단일 숫자는 SWE-bench Verified 93.9%다. W&B는 Claude Mythos Preview의 이 점수를 제시하면서 Claude Opus 4.6의 비교값을 80.8%로 함께 제시했다.[6]
개발 조직 입장에서는 이 수치가 가장 먼저 눈에 들어올 수밖에 없다. SWE-bench 계열 평가는 코드 수정과 소프트웨어 작업에 가까운 과제를 다루기 때문에, 에이전트형 코딩 모델의 실전성을 가늠할 때 자주 거론된다.
다국어 코딩 점수도 높다. W&B는 SWE-bench Multilingual에서 Mythos Preview가 87.3%, Opus 4.6이 77.8%를 기록했다고 전한다.[6] 이는 강점이 단일 영어권 코딩 설정에만 머물지 않을 가능성을 보여주는 신호다.
그렇다고 이 숫자가 모든 저장소, 모든 개발 도구, 모든 코드 리뷰 절차에서 같은 결과를 보장한다는 뜻은 아니다. 게다가 Claude Mythos Preview는 Anthropic 설명상 일반 개발자가 셀프서비스로 접근해 재현 실험을 해볼 수 있는 모델이 아니다.[13]
사이버보안: 강한 숫자, 그러나 특수한 시험장
사이버보안 쪽 숫자도 매우 공격적이다. Authmind는 Claude Mythos Preview가 Cybench에서 pass@1 = 1.00을 기록했다고 전한다. 같은 출처는 Cybench를 4개 주요 대회의 40개 CTF 챌린지에서 나온 공개 벤치마크라고 설명한다.[27]
CyberGym에서는 0.83이라는 값이 제시됐다. Authmind는 CyberGym을 1,507개 실제 오픈소스 소프트웨어 과제에서 AI 에이전트의 표적 취약점 재현 능력을 평가하는 벤치마크로 설명하며, Opus 4.6의 비교값은 0.67로 제시했다.[27]
이 결과는 Anthropic의 공식 포지셔닝과도 맞물린다. Anthropic API 문서는 Mythos Preview를 Project Glasswing의 방어적 사이버보안 워크플로용 연구 프리뷰로 분류한다.[13] Project Glasswing 페이지 역시 사이버보안 성능을 복잡한 소프트웨어를 이해하고 수정하며 취약점을 찾고 고칠 수 있는 더 넓은 능력에서 비롯된 것으로 설명한다.[
16]
하지만 CTF 챌린지와 취약점 재현 과제는 분명한 평가 형식이 있다.[27] 보안 역량을 보여주는 강한 신호인 것은 맞지만, 특정 조직의 보안 정책, 도구 제한, 책임 체계, 검증 절차를 대체하지는 않는다.
추론·멀티모달·터미널 에이전트: 조건이 점수의 일부다
추론 영역에서도 높은 값이 보고됐다. llm-stats는 Claude Mythos Preview가 GPQA Diamond에서 94.6%, Humanity’s Last Exam에서 도구 없이 56.8%, 도구 사용 시 64.7%를 기록했다고 제시한다.[25]
여기서 “도구 사용 여부”는 사소한 주석이 아니다. 검색, 코드 실행, 외부 도구 접근 같은 조건은 모델 성능을 크게 바꿀 수 있다. 따라서 HLE 점수를 볼 때도 도구 없는 값과 도구 사용 값을 분리해 읽어야 한다.[25]
Terminal-Bench 역시 구성 조건이 중요하다. llm-stats는 92.1%라는 값을 제시하면서, Terminus-2 harness, 최대 adaptive thinking, 과제당 100만 토큰 예산, 확장된 4시간 타임아웃, Terminal-Bench 2.1 업데이트라는 설정을 함께 언급한다.[25] 에이전트 벤치마크에서는 모델 자체만큼이나 시간, 컨텍스트, 도구, 토큰 예산이 결과에 영향을 준다.
멀티모달 점수도 조심해서 봐야 한다. W&B는 내부 멀티모달 평가에서 Mythos Preview가 59.0%, Opus 4.6이 27.1%를 기록했다고 전한다.[6] 또 llm-stats는 SWE-bench Multimodal이 내부 구현을 사용하며, 점수를 공개 리더보드 결과와 직접 비교할 수 없다고 설명한다.[
25]
왜 일반 리더보드 점수처럼 비교하기 어려운가
Claude Mythos Preview의 벤치마크를 읽을 때는 네 가지 제약을 기억해야 한다.
-
접근이 제한돼 있다. Anthropic에 따르면 Claude Mythos Preview는 초대 기반 연구 프리뷰 모델이며 셀프서비스 가입이 없다.[
13] 일반 개발팀이 같은 조건에서 독립적으로 재현하기 어렵다.
-
출처가 섞여 있다. 공식 출처는 모델의 성격, 접근 방식, 능력 영역을 뒷받침한다.[
13][
16][
18] 하지만 여기서 정리한 구체적인 점수 다수는 제3자 출처를 통해 확인된다.[
6][
9][
25][
27]
-
내부 평가와 특수 설정이 포함돼 있다. 멀티모달 값은 내부 평가로 보고됐고,[
6] Terminal-Bench 값은 특정 harness, 최대 thinking, 큰 토큰 예산, 긴 타임아웃 조건과 함께 제시됐다.[
25]
-
과제 범위가 명확하다. Cybench는 40개 CTF 챌린지 기반이고, CyberGym은 1,507개 실제 오픈소스 과제에서 취약점 재현을 평가한다.[
27] 중요한 평가지만, 모든 보안 업무를 포괄하는 것은 아니다.
결론
보고된 숫자만 보면 Claude Mythos Preview는 매우 강력하다. SWE-bench Verified 93.9%, SWE-bench Multilingual 87.3%, 내부 멀티모달 평가 59.0%, CyberGym 0.83, Cybench pass@1 = 1.00은 모두 코딩과 에이전트, 방어적 사이버보안 능력에서 강한 신호다.[6][
27]
하지만 핵심은 점수의 높이만이 아니다. Claude Mythos Preview는 Anthropic 설명상 Project Glasswing의 초대 기반 연구 프리뷰 모델이며, 자유롭게 접근 가능한 표준 제품 모델이 아니다.[13] 따라서 이 벤치마크는 “공개 리더보드에서 누구나 같은 방식으로 검증한 순위”라기보다, 제한된 조건에서 관측된 매우 강한 능력 신호로 읽는 편이 안전하다.




