studioglobal
인기 있는 발견
답변게시됨7 소스

Claude Mythos 벤치마크: 93.9% SWE-bench, 그러나 단순 순위표로 읽긴 어렵다

Claude Mythos Preview에서 가장 눈에 띄는 수치는 SWE bench Verified 93.9%다. 다만 Anthropic은 이 모델을 Project Glasswing의 초대 기반 연구 프리뷰로 설명한다.

17K0
Abstrakte KI-Benchmark-Grafik zu Claude Mythos Preview mit Code- und Score-Elementen
Claude Mythos Benchmarks: 93,9 % SWE-bench und was dahinterstecktSymbolbild: Die Debatte um Claude Mythos dreht sich weniger um einen einzelnen Score als um die Vergleichbarkeit der Evaluationsbedingungen.
AI 프롬프트

Create a landscape editorial hero image for this Studio Global article: Claude Mythos Benchmarks: 93,9 % SWE-bench und was dahintersteckt. Article summary: Claude Mythos Preview wird vor allem durch 93,9 % auf SWE bench Verified auffällig; weitere berichtete Werte sind 87,3 % auf SWE bench Multilingual und 59,0 % in einer internen multimodalen Evaluation.. Topic tags: ai, anthropic, claude, benchmarks, coding. Reference image context from search candidates: Reference image 1: visual subject "# Claude Mythos Preview Benchmarks – The AI That Scored 93.9% on SWE-bench and Still Won’t Be Released. On April 7, 2026, Anthropic quietly released something extraordinary — and t" source context "Claude Mythos Preview Benchmarks - The AI That Scored 93.9% on ..." Reference image 2: visual subject "A score of 93.9% means Claude Mythos correctly resolved approximately 470 of those 500 real-world GitH

openai.com

Claude Mythos Preview를 “또 하나의 Claude 신모델” 정도로 보면 핵심을 놓치기 쉽다. Anthropic API 문서는 이 모델을 Project Glasswing의 방어적 사이버보안 워크플로용 별도 연구 프리뷰 모델로 소개하며, 접근은 초대 기반이고 셀프서비스 가입은 제공되지 않는다고 명시한다.[13]

그래서 벤치마크 숫자는 분명 흥미롭지만, 널리 공개된 제품 모델의 리더보드 점수와 같은 방식으로 읽기는 어렵다. 특히 Claude Mythos는 코딩·에이전트·사이버보안 능력에서 강한 신호를 보이지만, 평가 조건과 출처를 함께 봐야 한다.

한눈에 보는 주요 벤치마크

아래의 구체적인 점수는 이 자료 묶음에서 주로 W&B, llm-stats, Authmind, R&D World 같은 제3자 출처가 Anthropic 데이터나 시스템 카드 분석을 바탕으로 정리한 값들이다.[6][9][25][27]

분야벤치마크보고된 Claude Mythos 값읽는 법
코딩SWE-bench Verified93.9%[6]W&B는 Claude Opus 4.6의 비교값을 80.8%로 제시한다.[6]
다국어 코딩SWE-bench Multilingual87.3%[6]W&B는 Opus 4.6의 비교값을 77.8%로 제시한다.[6]
멀티모달내부 멀티모달 평가59.0%[6]W&B는 같은 평가에서 Opus 4.6을 27.1%로 제시한다.[6]
사이버보안Cybenchpass@1 = 1.00[27]Authmind는 Cybench를 40개 CTF 챌린지 기반 공개 벤치마크라고 설명하고, Opus 4.6은 0.89였다고 제시한다.[27]
사이버보안CyberGym0.83[27]Authmind는 1,507개 실제 오픈소스 과제에서 표적 취약점 재현을 평가한다고 설명하고, Opus 4.6은 0.67로 제시한다.[27]
추론GPQA Diamond94.6%[25]llm-stats는 Opus 4.6을 91.3%로 제시한다.[25]
추론Humanity’s Last Exam, 도구 없음 / 도구 사용56.8% / 64.7%[25]llm-stats는 Opus 4.6을 각각 40.0%, 53.1%로 제시한다.[25]
터미널 에이전트Terminal-Bench 구성92.1%[25]Terminus-2 harness, 최대 adaptive thinking, 과제당 100만 토큰 예산, 4시간 타임아웃, Terminal-Bench 2.1 업데이트 조건이 붙는다.[25]
멀티태스크 지식MMMLU92.7[9]R&D World는 이 값이 Gemini 3.1 Pro의 92.6~93.6 범위와 겹치며, Mythos가 18개 중 17개 벤치마크에서 앞섰다는 보도에서 예외였다고 설명했다.[9]

Anthropic이 공식적으로 확인한 부분

가장 분명하게 공식 확인되는 것은 모델의 지위다. Anthropic 문서에 따르면 Claude Mythos Preview는 Project Glasswing의 방어적 사이버보안 워크플로를 위한 별도 연구 프리뷰 모델이며, 접근은 초대 기반이고 셀프서비스 신청은 없다.[13]

Anthropic의 Project Glasswing 페이지는 Claude Mythos Preview를 범용 프런티어 모델이자, 코딩과 에이전트형 작업에서 Anthropic의 가장 강력한 모델로 설명한다.[16] 또 Anthropic은 사이버보안 역량을 별도의 고립된 기능이 아니라, 복잡한 소프트웨어를 깊이 이해하고 수정할 수 있는 능력의 연장선으로 설명한다.[16]

제공된 시스템 카드 자료 역시 Claude Mythos Preview를 새로운 대형 언어 모델이자 프런티어 AI 모델로 소개하며, 소프트웨어 엔지니어링, 추론, 컴퓨터 사용, 지식 업무, 연구 보조 등 여러 영역의 능력을 언급한다.[18]

다만 여기서 중요한 구분이 있다. 공식 출처는 모델의 성격과 포지셔닝을 뒷받침하지만, 위 표의 구체적인 점수 대부분은 이 자료 묶음에서는 제3자 출처를 통해 확인된다.[6][9][25][27]

왜 SWE-bench 93.9%가 헤드라인인가

가장 눈에 띄는 단일 숫자는 SWE-bench Verified 93.9%다. W&B는 Claude Mythos Preview의 이 점수를 제시하면서 Claude Opus 4.6의 비교값을 80.8%로 함께 제시했다.[6]

개발 조직 입장에서는 이 수치가 가장 먼저 눈에 들어올 수밖에 없다. SWE-bench 계열 평가는 코드 수정과 소프트웨어 작업에 가까운 과제를 다루기 때문에, 에이전트형 코딩 모델의 실전성을 가늠할 때 자주 거론된다.

다국어 코딩 점수도 높다. W&B는 SWE-bench Multilingual에서 Mythos Preview가 87.3%, Opus 4.6이 77.8%를 기록했다고 전한다.[6] 이는 강점이 단일 영어권 코딩 설정에만 머물지 않을 가능성을 보여주는 신호다.

그렇다고 이 숫자가 모든 저장소, 모든 개발 도구, 모든 코드 리뷰 절차에서 같은 결과를 보장한다는 뜻은 아니다. 게다가 Claude Mythos Preview는 Anthropic 설명상 일반 개발자가 셀프서비스로 접근해 재현 실험을 해볼 수 있는 모델이 아니다.[13]

사이버보안: 강한 숫자, 그러나 특수한 시험장

사이버보안 쪽 숫자도 매우 공격적이다. Authmind는 Claude Mythos Preview가 Cybench에서 pass@1 = 1.00을 기록했다고 전한다. 같은 출처는 Cybench를 4개 주요 대회의 40개 CTF 챌린지에서 나온 공개 벤치마크라고 설명한다.[27]

CyberGym에서는 0.83이라는 값이 제시됐다. Authmind는 CyberGym을 1,507개 실제 오픈소스 소프트웨어 과제에서 AI 에이전트의 표적 취약점 재현 능력을 평가하는 벤치마크로 설명하며, Opus 4.6의 비교값은 0.67로 제시했다.[27]

이 결과는 Anthropic의 공식 포지셔닝과도 맞물린다. Anthropic API 문서는 Mythos Preview를 Project Glasswing의 방어적 사이버보안 워크플로용 연구 프리뷰로 분류한다.[13] Project Glasswing 페이지 역시 사이버보안 성능을 복잡한 소프트웨어를 이해하고 수정하며 취약점을 찾고 고칠 수 있는 더 넓은 능력에서 비롯된 것으로 설명한다.[16]

하지만 CTF 챌린지와 취약점 재현 과제는 분명한 평가 형식이 있다.[27] 보안 역량을 보여주는 강한 신호인 것은 맞지만, 특정 조직의 보안 정책, 도구 제한, 책임 체계, 검증 절차를 대체하지는 않는다.

추론·멀티모달·터미널 에이전트: 조건이 점수의 일부다

추론 영역에서도 높은 값이 보고됐다. llm-stats는 Claude Mythos Preview가 GPQA Diamond에서 94.6%, Humanity’s Last Exam에서 도구 없이 56.8%, 도구 사용 시 64.7%를 기록했다고 제시한다.[25]

여기서 “도구 사용 여부”는 사소한 주석이 아니다. 검색, 코드 실행, 외부 도구 접근 같은 조건은 모델 성능을 크게 바꿀 수 있다. 따라서 HLE 점수를 볼 때도 도구 없는 값과 도구 사용 값을 분리해 읽어야 한다.[25]

Terminal-Bench 역시 구성 조건이 중요하다. llm-stats는 92.1%라는 값을 제시하면서, Terminus-2 harness, 최대 adaptive thinking, 과제당 100만 토큰 예산, 확장된 4시간 타임아웃, Terminal-Bench 2.1 업데이트라는 설정을 함께 언급한다.[25] 에이전트 벤치마크에서는 모델 자체만큼이나 시간, 컨텍스트, 도구, 토큰 예산이 결과에 영향을 준다.

멀티모달 점수도 조심해서 봐야 한다. W&B는 내부 멀티모달 평가에서 Mythos Preview가 59.0%, Opus 4.6이 27.1%를 기록했다고 전한다.[6] 또 llm-stats는 SWE-bench Multimodal이 내부 구현을 사용하며, 점수를 공개 리더보드 결과와 직접 비교할 수 없다고 설명한다.[25]

왜 일반 리더보드 점수처럼 비교하기 어려운가

Claude Mythos Preview의 벤치마크를 읽을 때는 네 가지 제약을 기억해야 한다.

  1. 접근이 제한돼 있다. Anthropic에 따르면 Claude Mythos Preview는 초대 기반 연구 프리뷰 모델이며 셀프서비스 가입이 없다.[13] 일반 개발팀이 같은 조건에서 독립적으로 재현하기 어렵다.

  2. 출처가 섞여 있다. 공식 출처는 모델의 성격, 접근 방식, 능력 영역을 뒷받침한다.[13][16][18] 하지만 여기서 정리한 구체적인 점수 다수는 제3자 출처를 통해 확인된다.[6][9][25][27]

  3. 내부 평가와 특수 설정이 포함돼 있다. 멀티모달 값은 내부 평가로 보고됐고,[6] Terminal-Bench 값은 특정 harness, 최대 thinking, 큰 토큰 예산, 긴 타임아웃 조건과 함께 제시됐다.[25]

  4. 과제 범위가 명확하다. Cybench는 40개 CTF 챌린지 기반이고, CyberGym은 1,507개 실제 오픈소스 과제에서 취약점 재현을 평가한다.[27] 중요한 평가지만, 모든 보안 업무를 포괄하는 것은 아니다.

결론

보고된 숫자만 보면 Claude Mythos Preview는 매우 강력하다. SWE-bench Verified 93.9%, SWE-bench Multilingual 87.3%, 내부 멀티모달 평가 59.0%, CyberGym 0.83, Cybench pass@1 = 1.00은 모두 코딩과 에이전트, 방어적 사이버보안 능력에서 강한 신호다.[6][27]

하지만 핵심은 점수의 높이만이 아니다. Claude Mythos Preview는 Anthropic 설명상 Project Glasswing의 초대 기반 연구 프리뷰 모델이며, 자유롭게 접근 가능한 표준 제품 모델이 아니다.[13] 따라서 이 벤치마크는 “공개 리더보드에서 누구나 같은 방식으로 검증한 순위”라기보다, 제한된 조건에서 관측된 매우 강한 능력 신호로 읽는 편이 안전하다.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

주요 시사점

  • Claude Mythos Preview에서 가장 눈에 띄는 수치는 SWE bench Verified 93.9%다. 다만 Anthropic은 이 모델을 Project Glasswing의 초대 기반 연구 프리뷰로 설명한다.
  • 보고된 다른 주요 값은 SWE bench Multilingual 87.3%, 내부 멀티모달 평가 59.0%, CyberGym 0.83, Cybench pass@1 = 1.00 등이다.
  • 점수는 코딩, 에이전트, 방어적 사이버보안 역량의 강한 신호지만, 제3자 출처·내부 평가 구성·제한된 접근성 때문에 일반 공개 리더보드처럼 단순 비교하기는 어렵다.

사람들은 또한 묻습니다.

"Claude Mythos 벤치마크: 93.9% SWE-bench, 그러나 단순 순위표로 읽긴 어렵다"에 대한 짧은 대답은 무엇입니까?

Claude Mythos Preview에서 가장 눈에 띄는 수치는 SWE bench Verified 93.9%다. 다만 Anthropic은 이 모델을 Project Glasswing의 초대 기반 연구 프리뷰로 설명한다.

먼저 검증할 핵심 포인트는 무엇인가요?

Claude Mythos Preview에서 가장 눈에 띄는 수치는 SWE bench Verified 93.9%다. 다만 Anthropic은 이 모델을 Project Glasswing의 초대 기반 연구 프리뷰로 설명한다. 보고된 다른 주요 값은 SWE bench Multilingual 87.3%, 내부 멀티모달 평가 59.0%, CyberGym 0.83, Cybench pass@1 = 1.00 등이다.

실무에서는 다음으로 무엇을 해야 합니까?

점수는 코딩, 에이전트, 방어적 사이버보안 역량의 강한 신호지만, 제3자 출처·내부 평가 구성·제한된 접근성 때문에 일반 공개 리더보드처럼 단순 비교하기는 어렵다.

다음에는 어떤 관련 주제를 탐구해야 할까요?

다른 각도와 추가 인용을 보려면 "Claude Security 공개 베타: 앤트로픽의 AI 코드 취약점 스캐너가 하는 일"으로 계속하세요.

관련 페이지 열기

이것을 무엇과 비교해야 합니까?

"Grok 4.3 API 분석: 100만 토큰과 낮은 단가, xAI의 다음 승부수"에 대해 이 답변을 대조 확인하세요.

관련 페이지 열기

연구를 계속하세요

연구 대화

당신

연구문제

Was sind die Benchmarks von Claude Mythos?

Studio Global AI30 소스

인용 답변

Claude Mythos hat laut den vorliegenden Belegen vor allem öffentlich diskutierte Benchmark-Werte für Coding-, multimodale und mehrsprachige Aufgaben. Die belastbarste Information ist jedoch eingeschränkt: Anthropic beschreibt Claude Mythos Preview als ein separates Research-Preview-Modell für defensive Cybersecurity-Workflows mit Einladungspflicht, nicht als allgemein verfügbares Standardmodell.[1]

Verfügbare Benchmark-Angaben

  • SWE-bench: 93,9% werden in mehreren Drittquellen als Benchmark-Wert für Claude Mythos genannt.[3][5]

  • Multimodal: 59,0% werden als interner multimodaler Evaluationswert für Mythos Preview genannt, gegenüber 27,1% für Opus 4.6.[4]

  • SWE-bench Multilingual: 87,3% werden für Mythos Preview genannt.[4]

  • Terminal-Bench 2.0: Eine Drittquelle erwähnt, dass Terminal-Bench 2.0 mit Terminus-2-Harness, maximalem adaptivem Thinking und einem 1M-Token-Budget pro Aufgabe ausgeführt wurde, nennt im vorliegenden Ausschnitt aber keinen konkreten Score.[7]

Einordnung und Unsicherheit

  • Anthropic selbst bestätigt in den verfügbaren Belegen die Existenz und den eingeschränkten Zugang von Claude Mythos Preview, aber der bereitgestellte offizielle Ausschnitt enthält keine konkreten Benchmark-Zahlen.[1]

  • Die konkreten Scores stammen in den vorliegenden Belegen überwiegend aus Drittquellen oder Snippets, nicht aus vollständig zitierbaren offiziellen Benchmark-Tabellen.[3][4][5]

  • Daher gilt: Insufficient evidence für eine vollständig verifizierte, offizielle Benchmark-Liste von Claude Mythos anhand der bereitgestellten Quellen.

출처

  • [6] Claude Mythos Benchmark Scores | ml-news – Weights & Biases - Wandbwandb.ai

    Image 66 Multimodal and multilingual capabilities The model’s improvements extend to multimodal and multilingual tasks. Internal multimodal evaluations show Mythos Preview scoring 59.0% compared to Opus 4.6’s 27.1%, indicating superior handling of diverse i...

  • [9] Claude Mythos leads 17 of 18 benchmarks Anthropic ... - R&D Worldrdworldonline.com

    Research & Development World Claude Mythos leads 17 of 18 benchmarks Anthropic measured. Muse Spark put Meta back in the frontier club, and OpenAI’s ‘Spud’ model is reportedly near launch By Brian Buntz Anthropic is not planning on publicly releasing it, bu...

  • [13] Models overview - Claude API Docsdocs.anthropic.com

    Models overview - Claude API Docs . Claude Mythos Preview is offered separately as a research preview model for defensive cybersecurity workflows as part of Project Glasswing. Access is invitation-only and there is no self-serve sign-up. Models with the sam...

  • [16] Project Glasswing - Anthropicanthropic.com

    01 /08 Claude Mythos Preview Claude Mythos Preview is a general-purpose frontier model from Anthropic, our most capable yet for coding and agentic tasks. Its strength in cybersecurity is a direct result of that broader capability: a model that can deeply un...

  • [18] [PDF] Claude Mythos Preview System Card - Anthropicwww-cdn.anthropic.com

    Red Teaming benchmark for tool use​ 232 8.3.2.2 Robustness against adaptive attackers across surfaces​ 233 8.3.2.2.1 Coding​ 233 8.3.2.2.2 Computer use​ 234 8.3.2.2.3 Browser use​ 235 8.4 Per-question automated welfare interview results​ 236 8.5 Blocklist u...

  • [25] Claude Mythos Preview: Benchmarks, Pricing & Project Glasswingllm-stats.com

    \SWE-bench Multimodal uses an internal implementation; scores are not directly comparable to public leaderboard results. Terminal-Bench 2.0 was run with the Terminus-2 harness, adaptive thinking at maximum effort, and a 1M token budget per task. With extend...

  • [27] When a Lab Withholds Its Best Model: What the Claude Mythos System Card Signals for Cybersecurityauthmind.com

    On Cybench (a public benchmark drawing from 40 CTF challenges across four major competitions), Claude Mythos Preview achieved a perfect pass@1 score of 1.00. Claude Opus 4.6, the prior generation, scored 0.89. On CyberGym, which evaluates AI agents on targe...