답변게시됨3개월 전Last edited 2개월 전17 소스

Claude Mythos Preview의 SWE-bench 93.9%, 어떻게 읽어야 할까

Claude Mythos Preview에서 가장 자주 언급되는 수치는 SWE bench 93.9%로, 소프트웨어 작업과 코드 에이전트 성능을 볼 때 중요한 지표다 [1][2]. 다만 SWE bench는 범용 추론, 안전성, 비용, 사용 가능 여부까지 평가하는 종합 점수가 아니므로 같은 조건의 벤치마크끼리 비교해야 한다 [1].

Studio Global AI로 검색 및 팩트체크 인기 페이지 더 보기

Ilustración de un panel de benchmark de IA con código y métricas para Claude Mythos Preview — Benchmark de Claude Mythos Preview: 93,9% en SWE-bench, explicadoImagen editorial generada por IA para representar un benchmark de código.
AI 프롬프트
Create a landscape editorial hero image for this Studio Global article: Benchmark de Claude Mythos Preview: 93,9% en SWE-bench, explicado. Article summary: Claude Mythos Preview se reporta con 93,9% en SWE bench; es la cifra más citada para rendimiento en software, pero SWE bench no es una nota general del modelo [1][2].. Topic tags: ai, anthropic, claude, ai benchmarks, coding. Reference image context from search candidates: Reference image 1: visual subject "# Claude Mythos Preview Benchmarks – The AI That Scored 93.9% on SWE-bench and Still Won’t Be Released. On April 7, 2026, Anthropic quietly released something extraordinary — and t" source context "Claude Mythos Preview Benchmarks - The AI That Scored 93.9% on SWE-bench and Still Won't Be Released - Kingy AI" Reference image 2: visual subject "A Tweet from Ramez Naam, American technologist and science fiction writer, citing Epoch A
openai.com

Claude Mythos Preview를 둘러싼 숫자 가운데 가장 눈에 띄는 것은 **SWE-bench 93.9%**다 . 하지만 이 수치는 “AI 모델의 전체 성적표”라기보다 “소프트웨어 엔지니어링 과제에서의 성능 신호”에 가깝다. SWE-bench는 코드 관련 작업을 평가하는 벤치마크이지, 모델의 모든 능력을 한 번에 재는 시험은 아니다 .

핵심 숫자: SWE-bench 93.9%

Claude Mythos Preview에 대해 보고된 대표 수치는 **SWE-bench 93.9%**다 . 이 숫자는 코드 수정, 소프트웨어 엔지니어링 과제, 프로그래밍 에이전트에 가까운 워크플로를 비교할 때 특히 의미가 있다 .

중요한 전제도 있다. SWE-bench에서 높은 점수는 보통 모델이 단순히 한 번 답을 쓰는 방식이 아니라, 에이전트처럼 움직이는 환경에서 나온다. 즉 파일을 읽고, 코드를 실행하고, 테스트 결과를 확인한 뒤, 실패하면 다시 고치는 식으로 반복할 수 있는 조건이다 . 따라서 93.9%라는 수치는 모델 자체의 능력뿐 아니라, 도구 접근과 평가 환경이 결합된 결과로 보는 편이 정확하다.

93.9%가 뜻하지 않는 것

93.9%를 Claude Mythos Preview의 “전체 능력 점수”로 읽으면 과장될 수 있다. 소프트웨어 벤치마크 하나만으로 범용 추론, 안전성, 실제 서비스 사용 가능 여부, 운영 비용, 비코딩 업무 성능까지 판단할 수는 없다 .

모델을 비교할 때도 조건을 맞춰야 한다. 한 모델은 파일 접근, 코드 실행, 여러 차례 반복이 가능한 에이전트 환경에서 평가되고, 다른 모델은 그런 도구 없이 평가됐다면 단순 숫자 비교는 오해를 부를 수 있다 .

함께 언급되는 다른 벤치마크 수치

영역	보고된 결과	읽는 법
소프트웨어 / SWE-bench	93.9%	코딩 작업과 코드 에이전트 성능을 볼 때 가장 직접적인 수치다 .
사이버보안 역량	Claude Mythos Preview 83.1% vs. Claude Opus 4.6 66.6%	사이버보안 역량 벤치마크로 보고된 비교이며, SWE-bench와는 평가 대상이 다르다 .
Cybench	100%	사이버보안 과제 벤치마크에 대한 2차 보고 수치로, 모델의 범용 성능 평가로 확대해 읽기는 어렵다 .
광범위한 벤치마크 묶음	18개 중 17개에서 선두	Anthropic 측정 데이터에 대한 보도에서 나온 종합 주장으로, 일반 순위처럼 받아들이기 전 세부 항목을 확인할 필요가 있다 .

소프트웨어 점수와 보안 점수는 따로 봐야 한다

Claude Mythos Preview와 관련해 사이버보안 지표도 자주 거론된다. 한 출처는 사이버보안 역량 벤치마크에서 Mythos Preview가 83.1%, Claude Opus 4.6이 **66.6%**를 기록했다고 전했다 . 또 다른 출처는 사이버보안 과제 벤치마크인 Cybench에서 Mythos가 **100%**를 달성했다고 설명한다 .

Anthropic 쪽 자료도 이 맥락과 맞닿아 있다. Anthropic Red Team은 Claude Mythos Preview의 사이버보안 능력 평가를 공개했고, Project Glasswing은 이 모델을 활용한 취약점 및 익스플로잇 식별 작업을 포함한다 . 보안팀에는 매우 중요한 정보일 수 있지만, 이를 SWE-bench 점수와 한데 묶어 “하나의 총점”처럼 보는 것은 적절하지 않다.

실제 평가에 어떻게 활용할까

사용 목적이 저장소를 읽고, 코드를 고치고, 테스트를 실행하고, 실패를 바탕으로 다시 수정하는 코드 에이전트라면 **SWE-bench 93.9%**가 출발점으로 가장 유용한 숫자다 . 반대로 취약점 분석, 보안 리뷰, 익스플로잇 연구 지원이 목적이라면 사이버보안 벤치마크와 Anthropic의 관련 문서를 따로 보는 편이 맞다 .

정리하면, Claude Mythos Preview의 가장 많이 인용되는 벤치마크 답은 **SWE-bench 93.9%**다 . 다만 엄밀하게는 “특정 평가 조건에서 소프트웨어 작업에 강한 신호”라는 뜻이지, 모든 분야에서 자동으로 우위라는 뜻은 아니다.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

사람들은 또한 묻습니다.