Claude Mythos Preview를 둘러싼 숫자 가운데 가장 눈에 띄는 것은 **SWE-bench 93.9%**다 [1][
2]. 하지만 이 수치는 “AI 모델의 전체 성적표”라기보다 “소프트웨어 엔지니어링 과제에서의 성능 신호”에 가깝다. SWE-bench는 코드 관련 작업을 평가하는 벤치마크이지, 모델의 모든 능력을 한 번에 재는 시험은 아니다 [
1][
2].
핵심 숫자: SWE-bench 93.9%
Claude Mythos Preview에 대해 보고된 대표 수치는 **SWE-bench 93.9%**다 [1][
2]. 이 숫자는 코드 수정, 소프트웨어 엔지니어링 과제, 프로그래밍 에이전트에 가까운 워크플로를 비교할 때 특히 의미가 있다 [
1].
중요한 전제도 있다. SWE-bench에서 높은 점수는 보통 모델이 단순히 한 번 답을 쓰는 방식이 아니라, 에이전트처럼 움직이는 환경에서 나온다. 즉 파일을 읽고, 코드를 실행하고, 테스트 결과를 확인한 뒤, 실패하면 다시 고치는 식으로 반복할 수 있는 조건이다 [1]. 따라서 93.9%라는 수치는 모델 자체의 능력뿐 아니라, 도구 접근과 평가 환경이 결합된 결과로 보는 편이 정확하다.
93.9%가 뜻하지 않는 것
93.9%를 Claude Mythos Preview의 “전체 능력 점수”로 읽으면 과장될 수 있다. 소프트웨어 벤치마크 하나만으로 범용 추론, 안전성, 실제 서비스 사용 가능 여부, 운영 비용, 비코딩 업무 성능까지 판단할 수는 없다 [1].
모델을 비교할 때도 조건을 맞춰야 한다. 한 모델은 파일 접근, 코드 실행, 여러 차례 반복이 가능한 에이전트 환경에서 평가되고, 다른 모델은 그런 도구 없이 평가됐다면 단순 숫자 비교는 오해를 부를 수 있다 [1].
함께 언급되는 다른 벤치마크 수치
| 영역 | 보고된 결과 | 읽는 법 |
|---|---|---|
| 소프트웨어 / SWE-bench | 93.9% | 코딩 작업과 코드 에이전트 성능을 볼 때 가장 직접적인 수치다 [ |
| 사이버보안 역량 | Claude Mythos Preview 83.1% vs. Claude Opus 4.6 66.6% | 사이버보안 역량 벤치마크로 보고된 비교이며, SWE-bench와는 평가 대상이 다르다 [ |
| Cybench | 100% | 사이버보안 과제 벤치마크에 대한 2차 보고 수치로, 모델의 범용 성능 평가로 확대해 읽기는 어렵다 [ |
| 광범위한 벤치마크 묶음 | 18개 중 17개에서 선두 | Anthropic 측정 데이터에 대한 보도에서 나온 종합 주장으로, 일반 순위처럼 받아들이기 전 세부 항목을 확인할 필요가 있다 [ |
소프트웨어 점수와 보안 점수는 따로 봐야 한다
Claude Mythos Preview와 관련해 사이버보안 지표도 자주 거론된다. 한 출처는 사이버보안 역량 벤치마크에서 Mythos Preview가 83.1%, Claude Opus 4.6이 **66.6%**를 기록했다고 전했다 [3]. 또 다른 출처는 사이버보안 과제 벤치마크인 Cybench에서 Mythos가 **100%**를 달성했다고 설명한다 [
5].
Anthropic 쪽 자료도 이 맥락과 맞닿아 있다. Anthropic Red Team은 Claude Mythos Preview의 사이버보안 능력 평가를 공개했고, Project Glasswing은 이 모델을 활용한 취약점 및 익스플로잇 식별 작업을 포함한다 [13][
24]. 보안팀에는 매우 중요한 정보일 수 있지만, 이를 SWE-bench 점수와 한데 묶어 “하나의 총점”처럼 보는 것은 적절하지 않다.
실제 평가에 어떻게 활용할까
사용 목적이 저장소를 읽고, 코드를 고치고, 테스트를 실행하고, 실패를 바탕으로 다시 수정하는 코드 에이전트라면 **SWE-bench 93.9%**가 출발점으로 가장 유용한 숫자다 [1][
2]. 반대로 취약점 분석, 보안 리뷰, 익스플로잇 연구 지원이 목적이라면 사이버보안 벤치마크와 Anthropic의 관련 문서를 따로 보는 편이 맞다 [
3][
5][
13][
24].
정리하면, Claude Mythos Preview의 가장 많이 인용되는 벤치마크 답은 **SWE-bench 93.9%**다 [1][
2]. 다만 엄밀하게는 “특정 평가 조건에서 소프트웨어 작업에 강한 신호”라는 뜻이지, 모든 분야에서 자동으로 우위라는 뜻은 아니다.




