El caso más sólido de Claude Opus 4.6 viene de SWE-Bench Verified. Los informes citados lo colocan en 79,2 %, 79,4 % o 80,8 % en esa variante .
Con GPT-5.3-Codex hay más ruido porque las fuentes usan líneas distintas de SWE-Bench. Un análisis de GPT-5.4 lista a GPT-5.3-Codex con 56,8 % en SWE-Bench Pro, mientras que dos comparativas Opus-vs-Codex lo citan con 78,2 % en SWE-Bench Pro Public . Eso no es una invitación a promediar los números: es una advertencia. Varias fuentes señalan que SWE-Bench Verified y SWE-Bench Pro Public no son directamente comparables
.
Para GPT-5.4, la comparación más limpia dentro de OpenAI que aparece en estas fuentes es estrecha: 57,7 % en SWE-Bench Pro frente a 56,8 % para GPT-5.3-Codex . Otro resumen también menciona el 57,7 % de GPT-5.4 en SWE-Bench Pro Public, pero advierte que el duelo más amplio frente a Claude no permite declarar un ganador universal
.
Terminal-Bench 2.0 se presta a malentendidos porque su leaderboard público no ordena modelos aislados, sino pares de agente y modelo . En esa tabla, GPT-5.3-Codex aparece con 78,4 % usando SageAgent, 77,3 % con Droid y 75,1 % con Simple Codex
. Claude Opus 4.6 aparece con 79,8 % usando ForgeCode, 75,3 % con Capy y 62,9 % con Terminus 2
.
Esa variación basta para cambiar el aparente ganador. La comparación centrada en GPT-5.4 muestra a GPT-5.3-Codex por encima de Claude Opus 4.6 en Terminal-Bench 2.0, 77,3 % frente a 65,4 % . Pero el leaderboard público incluye una entrada ForgeCode/Claude Opus 4.6 con 79,8 %, por encima de la entrada SageAgent/GPT-5.3-Codex con 78,4 %
. La lectura práctica es clara: para tareas de terminal, hay que fijar el mismo agente, herramientas y configuración antes de atribuir la victoria al modelo.
Si tu referencia principal es SWE-Bench Verified, Claude Opus 4.6 es el candidato mejor respaldado por estas fuentes. Sus resultados citados se agrupan alrededor del 79 % al 81 %: 79,2 % en el análisis de GPT-5.4, 79,4 % en comparativas Opus-vs-Codex y 80,8 % en otros resúmenes de benchmarks .
Eso no significa que Opus 4.6 gane cualquier flujo de programación. Su historia en Terminal-Bench es mixta: algunas comparativas citan 65,4 %, mientras que el leaderboard público muestra 79,8 % cuando Opus 4.6 se combina con ForgeCode y 62,9 % con Terminus 2 . Para reparación de bugs al estilo Verified, es el primer modelo a probar; para agentes de terminal, no conviene separarlo del entorno que lo ejecuta.
GPT-5.3-Codex tiene su mejor argumento cuando la carga se parece a un agente que opera en shell, ejecuta comandos y modifica archivos. En los informes comparativos aparece con 77,3 % en Terminal-Bench 2.0, y el leaderboard público lo lista con 78,4 % usando SageAgent, 77,3 % con Droid y 75,1 % con Simple Codex .
Su lectura en SWE-Bench exige más cuidado. Algunas fuentes ponen a GPT-5.3-Codex en 78,2 % en SWE-Bench Pro Public, mientras que otras lo listan con 56,8 % en SWE-Bench Pro . Como las propias fuentes advierten que esas variantes no se deben mezclar, GPT-5.3-Codex debería evaluarse en la misma variante de SWE-Bench y con la misma configuración que vayas a usar en producción
.
GPT-5.4 no aparece como un vuelco en programación dentro del conjunto de benchmarks citado. La comparación más directa le da una ventaja estrecha sobre GPT-5.3-Codex en SWE-Bench Pro, 57,7 % frente a 56,8 %, pero también lo muestra por debajo en Terminal-Bench 2.0, 75,1 % frente a 77,3 % .
El dato más distintivo de GPT-5.4 está en el uso de herramientas. El análisis citado afirma que la búsqueda de herramientas reduce el uso de tokens MCP en un 47 % al cargar definiciones bajo demanda, en lugar de meter todas las definiciones en el contexto . Para agentes de código con muchas herramientas, eso puede ser una ventaja de sistema; aun así, debe medirse por separado de la precisión en benchmarks de bugs o terminal
.
Empieza con Claude Opus 4.6 si tu prioridad es corregir bugs en repositorios al estilo SWE-Bench Verified. Incluye GPT-5.3-Codex en cualquier prueba seria de agentes de terminal. Y prueba GPT-5.4 si necesitas el modelo más nuevo de OpenAI o si quieres medir su eficiencia en búsqueda de herramientas y uso de tokens MCP .
Comments
0 comments