En el conjunto más amplio de pruebas de programación autónoma, GPT-5.5 aún mantiene ventaja en áreas concretas. En el examen de codificación en terminal Terminal-Bench 2.1, GPT-5.5 logró un 78,2%, por delante del 74,6% de Opus 4.8 y del 70,3% de Gemini 3.1 Pro .
Los análisis internos de Anthropic también muestran avances en tareas de trabajo intelectual. El modelo alcanzó una puntuación de 1890 en la evaluación GDPval-AA, diseñada para medir el desempeño en labores de conocimiento con valor económico, frente a los 1769 de GPT-5.5 y los 1314 de Gemini . En el conjunto completo de pruebas, Anthropic afirma que Opus 4.8 supera a sus dos rivales en varias categorías clave, aunque no lidera en todos y cada uno de los exámenes
.
En un giro respecto a la simple carrera por la inteligencia bruta, Anthropic puso un énfasis especial en mejorar la confiabilidad del modelo. La compañía informó que Opus 4.8 es aproximadamente cuatro veces menos propenso que Opus 4.7 a permitir que los fallos en su propio código generado pasen sin ser señalados .
Los primeros usuarios que lo probaron destacaron que el modelo es significativamente más propenso a señalar sus propias incertidumbres y menos dado a hacer afirmaciones sin base sólida durante flujos de trabajo complejos de varios pasos . La empresa enmarcó directamente la "honestidad" como una característica estrella de este lanzamiento, afirmando que el modelo es menos propenso a presentar como hechos información con un respaldo insuficiente
.
Junto con el modelo base, Anthropic presentó nuevas funcionalidades orientadas específicamente a desarrolladores y usuarios avanzados .
Flujos de trabajo dinámicos: Disponible como vista previa de investigación en Claude Code, esta función permite al modelo planificar una tarea, orquestarla entre cientos de subagentes paralelos y verificar los resultados antes de informar. Está diseñada para migraciones de código a gran escala, auditorías y caza de errores en una sola sesión .
Compromiso Ajustable / Control de Esfuerzo: Los usuarios ahora pueden dictar la profundidad de razonamiento del modelo. El parámetro de "esfuerzo" en claude.ai y Claude Code permite equilibrar inteligencia, coste en tokens y velocidad. La documentación recomienda usar el nivel xhigh (extra alto) para los casos de uso de programación y tareas autónomas más difíciles, y un mínimo de high (alto) para otras tareas sensibles a la inteligencia .
Las tarifas de almacenamiento en caché de prompts se fijan en 6,25 $ por millón de tokens para escrituras en caché de 5 minutos, 10 $ por millón de tokens para escrituras de 1 hora, y 0,50 $ por millón de tokens para lecturas y refrescos de caché .
El lanzamiento de Opus 4.8 no es una simple mejora de los números en bruto; se trata de una actualización dirigida específicamente al ámbito empresarial y a los desarrolladores. La historia del producto se centra en la fiabilidad para agentes autónomos, la gestión explícita de la incertidumbre y en dar a los programadores control sobre la relación coste-rendimiento a través de niveles de esfuerzo explícitos. La historia de precios se mantiene conservadora, sin aumentos en las llamadas estándar a la API, mientras que la bajada de precio del Modo Rápido hace que la inferencia de alta velocidad sea más accesible para aplicaciones sensibles a la latencia.
Comments
0 comments