studioglobal
RespuestasURL pública25 abr 202624 fuentes

¿Cuál es el benchmark de Claude Mythos?

Claude Mythos Preview aparece reportado principalmente con un 93.9% en SWE bench, un benchmark de tareas reales de ingeniería de software/corrección de código [2]. También se reportan cifras de ciberseguridad, pero ah...

Claude Mythos Preview aparece reportado principalmente con un 93.9% en SWE bench, un benchmark de tareas reales de ingeniería de software/corrección de código [2]. También se reportan cifras de ciberseguridad, pero ahí la fuente más directa es Anthropic Red Team y el contexto es evaluación de capacidades ofensivas/defe

Conclusiones clave

  • Claude Mythos Preview aparece reportado principalmente con un 93.9% en SWE-bench, un benchmark de tareas reales de ingeniería de software/corrección de código [2]. También se reportan cifras de ciberseguridad, pero ahí la fuente más directa es Anthropic Red Team y el contexto es
  • **Benchmark más citado:** SWE-bench, con **93.9%** para Claude Mythos Preview [2].

Respuesta de investigación

Claude Mythos Preview aparece reportado principalmente con un 93.9% en SWE-bench, un benchmark de tareas reales de ingeniería de software/corrección de código [2]. También se reportan cifras de ciberseguridad, pero ahí la fuente más directa es Anthropic Red Team y el contexto es evaluación de capacidades ofensivas/defensivas, no un benchmark general de IA [1].

  • Benchmark más citado: SWE-bench, con 93.9% para Claude Mythos Preview [2].
  • Ciberseguridad: se menciona una ventaja frente a Claude Opus 4.6, con 83.1% vs. 66.6% en benchmarks de capacidad de ciberseguridad según reportes secundarios [4].
  • Cybench: algunos análisis secundarios afirman 100% en Cybench, un benchmark de retos de ciberseguridad [7].
  • Caveat: no veo una página pública estándar de Anthropic con una tabla completa de benchmarks generales de “Claude Mythos”; la fuente oficial visible se centra en capacidades de ciberseguridad [1]. Por eso, tomaría el 93.9% en SWE-bench como la cifra más citada, pero no como una evaluación completa del modelo.

Imágenes de apoyo

A Tweet from Ramez Naam, American technologist and science fiction writer, citing Epoch AI Research's Epoch Capabilities Index (ECI) frames Mythos as a more incremental step-up fro
A Tweet from Ramez Naam, American technologist and science fiction writer, citing Epoch AI Research's Epoch Capabilities Index (ECI) framesA Tweet from Ramez Naam, American technologist and science fiction writer, citing Epoch AI Research's Epoch Capabilities Index (ECI) frames Mythos as a more incremental step-up from earlier model generartions.
The image displays a bar chart comparing USAMO 2026 scores of various AI models, with Claude Mythos Preview achieving the highest score at 97.6%.
Everything You Need to Know About Claude MythosThe image displays a bar chart comparing USAMO 2026 scores of various AI models, with Claude Mythos Preview achieving the highest score at 97.6%.
BrowseComp benchmark showing Mythos at the top
BrowseComp benchmark showing Mythos at the top
Firefox vulnerability discovery results
Firefox vulnerability discovery results
Cybench results showing Mythos at 100%
Cybench results showing Mythos at 100%
Alignment-relevant behaviors table
Alignment-relevant behaviors table
Alignment-relevant behaviors chart
Alignment-relevant behaviors chart
AI Surgery Detection
AI Surgery Detection
Claude Mythos
Claude Mythos
Researchers give Petri a list of seed instructions targeting scenarios and behaviors they want to test. Petri then operates on each seed instruction in parallel. For each seed inst
Researchers give Petri a list of seed instructions targeting scenarios and behaviors they want to testResearchers give Petri a list of seed instructions targeting scenarios and behaviors they want to test. Petri then operates on each seed instruction in parallel. For each seed instruction, an auditor agent makes a plan and interacts with the target model in a tool use loop. At the end, a judge scores each of the result
To understand which factors might drive whistleblowing behavior, we conducted ablation studies—systematically testing the effect of each factor by varying it while holding others c
To understand which factors might drive whistleblowing behavior, we conducted ablation studies—systematically testing the effect of each facTo understand which factors might drive whistleblowing behavior, we conducted ablation studies—systematically testing the effect of each factor by varying it while holding others constant. We found that three of them—leadership complicity, models’ autonomy/agency, and how concerning the wrongdoing was—had a consistent
The image displays a comparison chart of release dates and performance scores for various AI models, including Claude Opus 4.1, Claude Opus 4, Claude Sonnet 4, OpenAI GPT-3, and Ge
The image displays a comparison chart of release dates and performance scores for various AI models, including Claude Opus 4.1, Claude OpusThe image displays a comparison chart of release dates and performance scores for various AI models, including Claude Opus 4.1, Claude Opus 4, Claude Sonnet 4, OpenAI GPT-3, and Gemini 2.5 Pro, across different tasks and evaluation benchmarks from November 2022 to December 2025.
A table displaying performance metrics of various AI models, including Claude 3's Opus, Sonnet, and Haiku, alongside comparisons with GPT-4, GPT-3.5, and Gemini models across sever
A table displaying performance metrics of various AI models, including Claude 3's Opus, Sonnet, and Haiku, alongside comparisons with GPT-4,A table displaying performance metrics of various AI models, including Claude 3's Opus, Sonnet, and Haiku, alongside comparisons with GPT-4, GPT-3.5, and Gemini models across several educational and problem-solving tasks.
A bar chart comparing the accuracy of different AI models, with Claude Sonnet 4.5 and Sonnet 4 showing high performance at around 82% and 80%, respectively, in the context of softw
A bar chart comparing the accuracy of different AI models, with Claude Sonnet 4.5 and Sonnet 4 showing high performance at around 82% and 80A bar chart comparing the accuracy of different AI models, with Claude Sonnet 4.5 and Sonnet 4 showing high performance at around 82% and 80%, respectively, in the context of software engineering optimization settings.
The image displays a comparison of system performance benchmarks for various AI models, including Claude Mythos, evaluated on different tasks such as agentic terminal coding, multi
The image displays a comparison of system performance benchmarks for various AI models, including Claude Mythos, evaluated on different taskThe image displays a comparison of system performance benchmarks for various AI models, including Claude Mythos, evaluated on different tasks such as agentic terminal coding, multi-task reasoning, and multilingual Q&A.
Manually building alignment evaluations often involves constructing environments, running models, reading transcripts, and aggregating the results. Petri automates much of this pro
Manually building alignment evaluations often involves constructing environments, running models, reading transcripts, and aggregating the rManually building alignment evaluations often involves constructing environments, running models, reading transcripts, and aggregating the results. Petri automates much of this process.
Results from Petri across four of the default scoring dimensions. Lower numbers are better. All tests were conducted over a public API.
Results from Petri across four of the default scoring dimensionsResults from Petri across four of the default scoring dimensions. Lower numbers are better. All tests were conducted over a public API.
Chart comparing frontier models on SWE-bench Verified which measures performance on real-world coding tasks
Chart comparing frontier models on SWE-bench Verified which measures performance on real-world coding tasks

Conversación de investigación

Pregunta de investigación

¿Cuál es el benchmark de Claude Mythos?

Studio Global AI24 fuentes

Respuesta citada

Claude Mythos Preview aparece reportado principalmente con un 93.9% en SWE-bench, un benchmark de tareas reales de ingeniería de software/corrección de código [2]. También se reportan cifras de ciberseguridad, pero ahí la fuente más directa es Anthropic Red Team y el contexto es evaluación de capacidades ofensivas/defensivas, no un benchmark general de IA [1].

  • Benchmark más citado: SWE-bench, con 93.9% para Claude Mythos Preview [2].
  • Ciberseguridad: se menciona una ventaja frente a Claude Opus 4.6, con 83.1% vs. 66.6% en benchmarks de capacidad de ciberseguridad según reportes secundarios [4].
  • Cybench: algunos análisis secundarios afirman 100% en Cybench, un benchmark de retos de ciberseguridad [7].
  • Caveat: no veo una página pública estándar de Anthropic con una tabla completa de benchmarks generales de “Claude Mythos”; la fuente oficial visible se centra en capacidades de ciberseguridad [1]. Por eso, tomaría el 93.9% en SWE-bench como la cifra más citada, pero no como una evaluación completa del modelo.

La gente también pregunta

¿Cuál es la respuesta corta a "¿Cuál es el benchmark de Claude Mythos?"?

Claude Mythos Preview aparece reportado principalmente con un 93.9% en SWE-bench, un benchmark de tareas reales de ingeniería de software/corrección de código [2]. También se reportan cifras de ciberseguridad, pero ahí la fuente más directa es Anthropic Red Team y el contexto es

¿Cuáles son los puntos clave a validar primero?

Claude Mythos Preview aparece reportado principalmente con un 93.9% en SWE-bench, un benchmark de tareas reales de ingeniería de software/corrección de código [2]. También se reportan cifras de ciberseguridad, pero ahí la fuente más directa es Anthropic Red Team y el contexto es **Benchmark más citado:** SWE-bench, con **93.9%** para Claude Mythos Preview [2].

¿Qué tema relacionado debería explorar a continuación?

Continúe con "A partir de los benchmarks de Kimi K2.6, DeepSeek V4, GPT-5.5 y Claude Opus 4.7, compáralos." para conocer otro ángulo y citas adicionales.

Abrir página relacionada

¿Con qué debería comparar esto?

Verifique esta respuesta con "Busca más información sobre GPT-5.5.".

Abrir página relacionada

Continúe su investigación

Fuentes