Opus 4.8 de Anthropic también conserva el precio de Opus 4.7 —sin aumento pese a las mejoras significativas en los benchmarks— . GPT‑5.5, por el contrario, duplicó el precio de API de su predecesor GPT‑5.4, aunque OpenAI argumenta que las mejoras en eficiencia de tokens hacen que el aumento efectivo se acerque más al 20%
.
Los tres modelos admiten almacenamiento en caché de prompts con un ahorro cercano al 90% en tokens de entrada cacheados y ofrecen procesamiento por lotes con un descuento del 50% .
GPT‑5.5 también tiene un nivel Pro de $30/$180 por millón de tokens, orientado a cargas de trabajo de grado de investigación . Claude Opus no tiene un nivel equivalente.
Las comparaciones directas entre modelos se complican por las diferentes versiones de benchmarks y protocolos de prueba. Donde hay puntuaciones disponibles en la misma prueba, Opus 4.8 lidera a GPT‑5.5 en las áreas que más importan a los desarrolladores.
| Benchmark | Opus 4.8 | Opus 4.7 | GPT‑5.5 |
|---|---|---|---|
| SWE‑bench Verified (programación) | 88.6% | 87.6% | No directamente comparable |
| SWE‑bench Pro (programación con agentes) | 69.2% | 64.3% | 58.6% |
| Terminal‑Bench 2.1 | 74.6% | — | — |
| Terminal‑Bench 2.0 | — | 69.4% | 82.7% |
| Razonamiento multidisciplinario (con herramientas) | 57.9% | 54.7% | No directamente comparable |
| Razonamiento multidisciplinario (sin herramientas) | ~62.1% | — | — |
| GPQA Diamond (ciencia de posgrado) | 93.6% | 94.2% | — |
| MMLU (conocimiento general) | — | 91.3% | — |
| AIME 2024 (matemáticas de competición) | — | 99.8% | — |
| CursorBench | El más alto | Línea base | — |
| GDPval‑AA (trabajo de conocimiento) | 1890 | 1753 | 1769 |
| Super‑Agent (de extremo a extremo) | 100% | — | No 100% |
| Uso de ordenador con agentes | 83.4% | 82.8% | 78.7% |
SWE‑bench Pro es el benchmark más citado para tareas reales de ingeniería de software, y Opus 4.8 obtiene un 69.2% frente al 58.6% de GPT‑5.5 —una ventaja de 10.6 puntos porcentuales— . Opus 4.7 ya lideraba con 64.3%, y Opus 4.8 amplía esa ventaja. El anuncio de Anthropic destaca una finalización de tareas más rápida y 4 veces menos errores de código en comparación con modelos anteriores
.
Este benchmark requiere una lectura cuidadosa. GPT‑5.5 reporta un 82.7% en Terminal‑Bench 2.0 , mientras que el 74.6% de Opus 4.8 se midió en Terminal‑Bench 2.1, una versión más reciente
. Ambos no son directamente comparables. Además, la afirmación del 82.7% de OpenAI ha sido objeto de escrutinio; la tabla de clasificación del propietario del benchmark mostraba un 82.0% ± 2.2 el mismo día
. Opus 4.7 obtuvo un 69.4% en Terminal‑Bench 2.0
, y pruebas independientes con distintos entornos de ejecución han encontrado que GPT‑5.5 a veces tiene un rendimiento inferior al de GPT‑5.4 en este benchmark
.
En GDPval‑AA, una evaluación de trabajo de conocimiento, Opus 4.8 alcanza una puntuación Elo de 1890 frente a los 1769 de GPT‑5.5 —una ventaja de aproximadamente el 7%— . Opus 4.8 también es el primer modelo en lograr una tasa de finalización del 100% en el benchmark Super‑Agent de Anthropic, lo que significa que ejecutó con éxito cada tarea de agente de extremo a extremo en el conjunto de pruebas
. GPT‑5.5 no llegó al 100%.
En uso de ordenador con agentes (OSWorld‑Verified), las puntuaciones están más agrupadas: Opus 4.8 con 83.4%, GPT‑5.5 con 78.7% y Opus 4.7 con 82.8% . Son mejoras medidas en puntos porcentuales de un solo dígito, no saltos generacionales.
La cobertura de benchmarks de GPT‑5.5 es más escasa en los benchmarks compartidos que Anthropic publicó con Opus 4.8, en parte porque OpenAI se centra en métricas diferentes. En GPQA Diamond (razonamiento científico de nivel de posgrado), Opus 4.7 alcanzó el 94.2% , mientras que comparaciones anteriores mostraban que GPT‑5.4 tenía una ligera ventaja sobre Opus 4.7 en razonamiento matemático puro y algunas pruebas de recuerdo de conocimiento
. Aún no hay una comparación directa en GPQA entre Opus 4.8 y GPT‑5.5, aunque se reporta que Opus 4.8 tiene un 93.6%
.
OpenAI también afirma que GPT‑5.5 usa aproximadamente un 40% menos de tokens de salida por tarea de programación que GPT‑5.4, lo que podría compensar parcialmente su mayor precio por token en ciertas cargas de trabajo .
| Especificación | Opus 4.8 | Opus 4.7 | GPT‑5.5 |
|---|---|---|---|
| Ventana de contexto | 1M tokens | 1M tokens | 1M tokens |
| Modo rápido | 2.5× velocidad ($10/$50) | 2.5× velocidad ($10/$50) | N/D |
| Fecha de lanzamiento | 28 de mayo de 2026 | 16 de abril de 2026 | 23 de abril de 2026 |
| Descuento por lotes | 50% | 50% | 50% (Flex) |
| Caché de prompts | Sí (hasta 90% desc.) | Sí (hasta 90% desc.) | Sí (90% desc.) |
Los tres modelos convergen en una ventana de contexto de 1 millón de tokens, aunque Anthropic documenta que la salida máxima de Opus 4.8 es de 128K tokens por solicitud . La salida máxima de GPT‑5.5 se indica en 32K tokens
.
El modo rápido de Claude es opcional y funciona aproximadamente a 2.5 veces la velocidad. Anthropic afirma que el modo rápido de Opus 4.8 es tres veces más barato que la inferencia rápida en generaciones anteriores de Opus . GPT‑5.5 no ofrece un nivel equivalente de velocidad premium.
Los benchmarks independientes deben leerse teniendo en cuenta sus limitaciones:
Elige Claude Opus 4.8 si: tu carga de trabajo se centra en programación con agentes, tareas de uso de ordenador, trabajo de conocimiento u operaciones de contexto largo. Lidera en todos los benchmarks compartidos donde las comparaciones son posibles, y el precio no ha cambiado respecto a Opus 4.7.
Elige GPT‑5.5 si: estás profundamente integrado en el ecosistema de OpenAI, priorizas el razonamiento matemático puro o esperas que las ganancias en eficiencia de tokens compensen el mayor precio por token en tus patrones específicos de prompts.
Quédate con Opus 4.7 si: quieres programación con agentes de nivel frontera (64.3% en SWE‑bench Pro sigue estando muy por delante de GPT‑5.5) y no necesitas las ventajas específicas que aporta Opus 4.8 —pero dado el precio idéntico, hay pocas razones para no actualizar—.
Para desarrolladores que ejecutan agentes con mucha salida de texto o análisis de documentos extensos, el precio de salida un 17% más barato de Claude Opus y sus tarifas planas en contexto largo suponen una diferencia concreta en las facturas mensuales de API.
Comments
0 comments