La cifra más citada para Claude Mythos Preview es 93,9% en SWE bench, una evaluación de tareas de software; es relevante para código y agentes, pero no funciona como nota general del modelo [1][2]. Las métricas de ciberseguridad deben leerse aparte: se reportan 83,1% frente a 66,6% de Claude Opus 4.6 y 100% en Cyben...

Create a landscape editorial hero image for this Studio Global article: Benchmark de Claude Mythos Preview: 93,9% en SWE-bench, explicado. Article summary: Claude Mythos Preview se reporta con 93,9% en SWE bench; es la cifra más citada para rendimiento en software, pero SWE bench no es una nota general del modelo [1][2].. Topic tags: ai, anthropic, claude, ai benchmarks, coding. Reference image context from search candidates: Reference image 1: visual subject "# Claude Mythos Preview Benchmarks – The AI That Scored 93.9% on SWE-bench and Still Won’t Be Released. On April 7, 2026, Anthropic quietly released something extraordinary — and t" source context "Claude Mythos Preview Benchmarks - The AI That Scored 93.9% on SWE-bench and Still Won't Be Released - Kingy AI" Reference image 2: visual subject "A Tweet from Ramez Naam, American technologist and science fiction writer, citing Epoch A
Claude Mythos Preview aparece asociado a una cifra llamativa: 93,9% en SWE-bench. Es el dato más citado para hablar de su rendimiento en software, pero conviene leerlo con precisión: SWE-bench evalúa tareas de código, no todas las capacidades posibles de un modelo de IA [1][
2].
El resultado central reportado para Claude Mythos Preview es 93,9% en SWE-bench [1][
2]. En la práctica, eso lo vuelve especialmente relevante para comparar rendimiento en tareas de ingeniería de software, corrección de código y flujos de trabajo parecidos a los de un agente de programación [
1].
La cautela importante está en la configuración. Los resultados altos en SWE-bench suelen lograrse cuando el modelo opera como agente: puede leer archivos, ejecutar código, revisar resultados de pruebas e iterar sobre sus intentos . Eso no invalida la cifra; simplemente significa que el número refleja tanto la capacidad del modelo como el entorno de herramientas y evaluación en el que se probó.
Studio Global AI
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
La cifra más citada para Claude Mythos Preview es 93,9% en SWE bench, una evaluación de tareas de software; es relevante para código y agentes, pero no funciona como nota general del modelo [1][2].
La cifra más citada para Claude Mythos Preview es 93,9% en SWE bench, una evaluación de tareas de software; es relevante para código y agentes, pero no funciona como nota general del modelo [1][2]. Las métricas de ciberseguridad deben leerse aparte: se reportan 83,1% frente a 66,6% de Claude Opus 4.6 y 100% en Cybench en fuentes secundarias [3][5].
Las fuentes de Anthropic disponibles aquí se centran en capacidades de ciberseguridad y Project Glasswing, no en una única cifra general de rendimiento [13][24].
Continúe con "Por qué el beneficio de Ant Group se desplomó un 79% — y qué significa su apuesta por la IA" para conocer otro ángulo y citas adicionales.
Open related pageVerifique esta respuesta con "Starship Flight 12: lo que debes saber sobre el primer lanzamiento de Starship V3 desde Starbase Pad 2".
Open related pageClaude Mythos Benchmark Results: SWE-Bench 93.9% and What It Means for AI Agents. Claude Mythos Benchmark Results: SWE-Bench 93.9% and What It Means for AI Agents. This article breaks down what SWE-bench actually tests, what a 93.9% result means in practice...
[]( Turn your idea into a working app — no coding required.Build with NxCode[Start Free](
A 16.5-Point Gap That Security Teams Should Pay Attention To. When Anthropic released Claude Mythos alongside performance data, one number stood out immediately: an 83.1% score on cybersecurity capability benchmarks, compared to Claude Opus 4.6’s 66.6%. Min...
Everything You Need to Know About Claude Mythos. USAMO benchmark results showing Claude Mythos performance. BrowseComp benchmark showing Mythos at the top. Cybench results showing Mythos at 100%. Mythos achieved a 100% success rate on Cybench , a benchmark...
El 93,9% no debe interpretarse como una nota global de Claude Mythos Preview. Un benchmark de software no mide por sí solo razonamiento general, seguridad, disponibilidad, coste operativo o rendimiento en tareas que no se parezcan a escribir, revisar o modificar código [1].
Para comparaciones serias, la regla es sencilla: comparar modelos dentro del mismo benchmark y con condiciones equivalentes. Si un modelo usa un flujo de agente con acceso a archivos, ejecución de código y múltiples iteraciones, compararlo con otro modelo sin esas herramientas puede llevar a conclusiones engañosas [1].
| Área | Resultado reportado | Lectura recomendada |
|---|---|---|
| Software / SWE-bench | 93,9% | Es la cifra más clara para tareas de programación y agentes de código [ |
| Ciberseguridad | 83,1% vs. 66,6% de Claude Opus 4.6 | Comparación reportada en benchmarks de capacidad de ciberseguridad; no mide lo mismo que SWE-bench [ |
| Cybench | 100% | Reporte secundario sobre retos de ciberseguridad, no una evaluación general del modelo [ |
| Conjunto amplio de benchmarks | Lidera 17 de 18 benchmarks medidos | Afirmación agregada de un reporte sobre datos de Anthropic; conviene revisar el desglose antes de convertirla en ranking general [ |
Las métricas de ciberseguridad de Claude Mythos Preview pertenecen a otra categoría. Una fuente reporta 83,1% para Mythos Preview frente a 66,6% de Claude Opus 4.6 en benchmarks de capacidad de ciberseguridad [3]. Otra afirma que Mythos logró 100% en Cybench, descrito como un benchmark de retos de ciberseguridad [
5].
Las fuentes de Anthropic disponibles aquí también se enfocan en ese terreno: Anthropic Red Team publicó una evaluación de capacidades de ciberseguridad de Claude Mythos Preview, y Project Glasswing incluye trabajo sobre identificación de vulnerabilidades y exploits con el modelo [13][
24]. Eso puede ser muy relevante para equipos de seguridad, pero no debe mezclarse con SWE-bench como si todo fuera una sola puntuación.
Si tu caso de uso es un agente que trabaja sobre repositorios, corrige código, ejecuta pruebas e itera, el 93,9% en SWE-bench es la cifra más útil para empezar [1][
2]. Si el caso de uso es análisis de vulnerabilidades, revisión de seguridad o investigación de exploits, las métricas y documentos de ciberseguridad son el contexto más apropiado [
3][
5][
13][
24].
El veredicto práctico es: Claude Mythos Preview se reporta con 93,9% en SWE-bench, y esa es la respuesta corta al preguntar por su benchmark más citado [1][
2]. La lectura rigurosa es más estrecha: es una señal fuerte para tareas de software bajo condiciones de evaluación específicas, no una prueba automática de superioridad general en todos los dominios.
Claude Mythos leads 17 of 18 benchmarks Anthropic measured. Anthropic is not planning on publicly releasing it, but its Mythos model leads in 17 of 18 benchmarks, according to data in Anthropic’s model’s system card. Anthropic says Mythos is its “most capab...
Interested readers can read the later section on Turning N-Day Vulnerabilities into Exploitsfor two examples of sophisticated and clever exploits that Mythos Preview was able to write fully autonomously targeting already-patched bugs that are equally comple...
IntroductionCybersecurity in the age of AIIdentifying vulnerabilities and exploits with Claude Mythos PreviewPlans for Project Glasswing. We have already seen the serious consequences of cyberattacks for important [corporate networks](