En Terminal-Bench 2.1, que evalúa el uso de la línea de comandos, Opus 4.8 llega al 74,6%. Sigue por detrás del 78,2% de GPT-5.5, pero supone un salto considerable frente al 66,1% de Opus 4.7 . Para uso autónomo del ordenador, en OSWorld-Verified, Opus 4.8 anota un 83,4%, superando ligeramente a Opus 4.7 (82,8%) y con claridad a GPT-5.5 (78,7%)
.
En tareas de conocimiento profesional, medidas por GDPval-AA, Opus 4.8 logra una puntuación Elo de 1890, muy por delante de GPT-5.5 (1769) y Gemini (1314) . En el exigente Humanity's Last Exam de razonamiento multidisciplinar, alcanza un 57,9% con herramientas (frente al 49,8% sin ellas), la mejor nota de Anthropic para un modelo de acceso general
.
El gran salto cualitativo está en la honestidad del modelo. Según las evaluaciones internas de Anthropic, Opus 4.8 es unas cuatro veces menos propenso que Opus 4.7 a ignorar fallos en el código que él mismo escribe .
Las tasas de comportamientos desalineados —engaños o colaboración con usos maliciosos— son significativamente más bajas que en Opus 4.7 y comparables a las de Claude Mythos Preview, considerado el modelo mejor alineado de la compañía . Esto es crucial para desarrolladores que dependen de la IA para revisar o generar código en producción y necesitan un modelo que señale sus propios puntos ciegos.
El cambio más visible para el usuario es el nuevo dial de control de esfuerzo, ya disponible en claude.ai y en la interfaz Cowork . Permite elegir cuánta capacidad de cómputo dedica Claude a cada respuesta, con varios niveles:
xhigh en Claude Code): razonamiento más profundo, recomendado para tareas difíciles y flujos de trabajo de larga duración.En Claude Code, Anthropic ha aumentado los límites de uso para adaptarse al mayor consumo de tokens que implican los niveles altos . Esto da a los desarrolladores un control más fino sobre el equilibrio entre latencia, coste y profundidad de razonamiento.
Para desarrolladores que abordan proyectos muy ambiciosos, Anthropic estrena los flujos de trabajo dinámicos como vista previa de investigación en Claude Code. Disponible para suscriptores de los planes Enterprise, Team y Max .
Esta funcionalidad permite que Claude planifique una tarea y luego ejecute cientos de subagentes en paralelo dentro de una misma sesión. Los resultados se verifican antes de ser comunicados, lo que lo hace válido para migraciones que afectan a cientos de miles de líneas de código .
El precio estándar de Opus 4.8 no varía respecto a Opus 4.7: 5 dólares por millón de tokens de entrada y 25 dólares por millón de tokens de salida . Las tarifas de escritura y refresco de caché de prompt se mantienen iguales al resto de la gama Opus
.
La novedad real está en el modo rápido. Con Opus 4.8, el modo rápido es hasta 2,5 veces más veloz en la generación de tokens de salida y ahora cuesta 10 dólares por millón de tokens de entrada y 50 dólares por millón de tokens de salida . Esto es tres veces más barato que el modo rápido de Opus 4.6 y 4.7, que costaba 30 y 150 dólares respectivamente
. Anthropic ha descontinuado el modo rápido para Opus 4.6 y recomienda migrar al modo rápido de Opus 4.8 o 4.7
.
Para usar el modo rápido desde la API, los desarrolladores deben configurar speed: "fast"claude-opus-4-8 e incluir la cabecera beta fast-mode-2026-02-01 .
El modelo ya está disponible a través de la API de Claude usando el alias claude-opus-4-8, y es compatible con modo rápido, caché de prompt y procesamiento por lotes . Los clientes de los planes Pro, Max, Team y Enterprise pueden acceder desde hoy mismo
.
Junto al lanzamiento de Opus 4.8, Anthropic ha afinado su calendario para hacer públicos los modelos de clase Mythos. Desde el 7 de abril de 2026, Claude Mythos Preview ha estado limitado a unos 50 socios de seguridad defensiva bajo el Proyecto Glasswing , por su enorme capacidad en ciberseguridad ofensiva
.
Este 28 de mayo, la compañía ha actualizado su discurso y afirma que planea lanzar los modelos Mythos para todos los clientes "en las próximas semanas" . Es la fecha más concreta ofrecida hasta ahora y se produce tras anunciar una ronda de financiación Serie H de 65.000 millones de dólares con una valoración posterior de 965.000 millones
.
Claude Opus 4.8 es una mejora incremental con tres consecuencias prácticas:
Para los equipos que evalúan si dar el salto, la recomendación más sólida es probar Opus 4.8 directamente en sus propias tareas de programación, trabajo con agentes y proyectos de conocimiento. Sobre todo en sesiones largas donde la autocorrección, las advertencias de incertidumbre y la orquestación de subagentes en paralelo marcan la diferencia.
Comments
0 comments