El panorama público no deja un campeón único. Si se mira SWE-Bench Verified, Claude Opus 4.6 aparece como el punto de partida más fuerte, con resultados citados entre 79,2 % y 80,8 % [3][
5][
7][
9]. Para flujos de agentes de programación en terminal, GPT-5.3-Codex tiene una de las mejores líneas de OpenAI, aunque el resultado cambia mucho según el agente que lo ejecute [
1][
3]. Y GPT-5.4, pese a ser el modelo más reciente de OpenAI en esta comparación, muestra una mejora directa pequeña frente a GPT-5.3-Codex en SWE-Bench Pro, no un salto definitivo [
3].
Veredicto rápido: elige según tu carga de trabajo
| Caso de uso | Primer modelo a probar | Evidencia | Principal cautela |
|---|---|---|---|
| Corrección de bugs en repositorios al estilo SWE-Bench Verified | Claude Opus 4.6 | Los informes lo sitúan alrededor de 79,2 % a 80,8 % en SWE-Bench Verified [ | No compares esos datos con SWE-Bench Pro Public como si fueran la misma prueba [ |
| Agentes que programan desde terminal | GPT-5.3-Codex, pero con el mismo entorno de agente | Una comparación centrada en GPT-5.4 da a GPT-5.3-Codex un 77,3 % en Terminal-Bench 2.0, por encima de GPT-5.4 con 75,1 % y Claude Opus 4.6 con 65,4 % [ | El leaderboard público clasifica pares agente/modelo; Claude Opus 4.6 llega a 79,8 % con ForgeCode [ |
| Selección solo entre modelos de OpenAI | GPT-5.4, con expectativas moderadas | La comparación citada pone a GPT-5.4 en 57,7 % en SWE-Bench Pro frente al 56,8 % de GPT-5.3-Codex [ | En la misma comparación, GPT-5.4 queda por debajo de GPT-5.3-Codex en Terminal-Bench 2.0 [ |
| Sistemas muy dependientes de herramientas y MCP | GPT-5.4 merece una prueba aparte | El análisis de GPT-5.4 afirma que la búsqueda de herramientas reduce el uso de tokens MCP en un 47 % al cargar definiciones bajo demanda [ | Ahorrar tokens no equivale automáticamente a ganar un benchmark de corrección de código [ |
La trampa: no todos los benchmarks cuentan lo mismo
SWE-Bench Verified y SWE-Bench Pro Public no son intercambiables
El caso más sólido de Claude Opus 4.6 viene de SWE-Bench Verified. Los informes citados lo colocan en 79,2 %, 79,4 % o 80,8 % en esa variante [3][
5][
7][
9].
Con GPT-5.3-Codex hay más ruido porque las fuentes usan líneas distintas de SWE-Bench. Un análisis de GPT-5.4 lista a GPT-5.3-Codex con 56,8 % en SWE-Bench Pro, mientras que dos comparativas Opus-vs-Codex lo citan con 78,2 % en SWE-Bench Pro Public [3][
6][
7]. Eso no es una invitación a promediar los números: es una advertencia. Varias fuentes señalan que SWE-Bench Verified y SWE-Bench Pro Public no son directamente comparables [
6][
7][
10].
Para GPT-5.4, la comparación más limpia dentro de OpenAI que aparece en estas fuentes es estrecha: 57,7 % en SWE-Bench Pro frente a 56,8 % para GPT-5.3-Codex [3]. Otro resumen también menciona el 57,7 % de GPT-5.4 en SWE-Bench Pro Public, pero advierte que el duelo más amplio frente a Claude no permite declarar un ganador universal [
10].
En Terminal-Bench, el agente importa tanto como el modelo
Terminal-Bench 2.0 se presta a malentendidos porque su leaderboard público no ordena modelos aislados, sino pares de agente y modelo [1]. En esa tabla, GPT-5.3-Codex aparece con 78,4 % usando SageAgent, 77,3 % con Droid y 75,1 % con Simple Codex [
1]. Claude Opus 4.6 aparece con 79,8 % usando ForgeCode, 75,3 % con Capy y 62,9 % con Terminus 2 [
1].
Esa variación basta para cambiar el aparente ganador. La comparación centrada en GPT-5.4 muestra a GPT-5.3-Codex por encima de Claude Opus 4.6 en Terminal-Bench 2.0, 77,3 % frente a 65,4 % [3]. Pero el leaderboard público incluye una entrada ForgeCode/Claude Opus 4.6 con 79,8 %, por encima de la entrada SageAgent/GPT-5.3-Codex con 78,4 % [
1]. La lectura práctica es clara: para tareas de terminal, hay que fijar el mismo agente, herramientas y configuración antes de atribuir la victoria al modelo.
Lectura modelo por modelo
Claude Opus 4.6: la señal más fuerte en reparación de repositorios
Si tu referencia principal es SWE-Bench Verified, Claude Opus 4.6 es el candidato mejor respaldado por estas fuentes. Sus resultados citados se agrupan alrededor del 79 % al 81 %: 79,2 % en el análisis de GPT-5.4, 79,4 % en comparativas Opus-vs-Codex y 80,8 % en otros resúmenes de benchmarks [3][
5][
6][
7][
9].
Eso no significa que Opus 4.6 gane cualquier flujo de programación. Su historia en Terminal-Bench es mixta: algunas comparativas citan 65,4 %, mientras que el leaderboard público muestra 79,8 % cuando Opus 4.6 se combina con ForgeCode y 62,9 % con Terminus 2 [1][
3][
7][
9]. Para reparación de bugs al estilo Verified, es el primer modelo a probar; para agentes de terminal, no conviene separarlo del entorno que lo ejecuta.
GPT-5.3-Codex: el OpenAI fuerte para trabajo en terminal
GPT-5.3-Codex tiene su mejor argumento cuando la carga se parece a un agente que opera en shell, ejecuta comandos y modifica archivos. En los informes comparativos aparece con 77,3 % en Terminal-Bench 2.0, y el leaderboard público lo lista con 78,4 % usando SageAgent, 77,3 % con Droid y 75,1 % con Simple Codex [1][
3][
7][
9].
Su lectura en SWE-Bench exige más cuidado. Algunas fuentes ponen a GPT-5.3-Codex en 78,2 % en SWE-Bench Pro Public, mientras que otras lo listan con 56,8 % en SWE-Bench Pro [3][
6][
7][
9]. Como las propias fuentes advierten que esas variantes no se deben mezclar, GPT-5.3-Codex debería evaluarse en la misma variante de SWE-Bench y con la misma configuración que vayas a usar en producción [
6][
7][
10].
GPT-5.4: mejora moderada y una carta fuerte en herramientas
GPT-5.4 no aparece como un vuelco en programación dentro del conjunto de benchmarks citado. La comparación más directa le da una ventaja estrecha sobre GPT-5.3-Codex en SWE-Bench Pro, 57,7 % frente a 56,8 %, pero también lo muestra por debajo en Terminal-Bench 2.0, 75,1 % frente a 77,3 % [3].
El dato más distintivo de GPT-5.4 está en el uso de herramientas. El análisis citado afirma que la búsqueda de herramientas reduce el uso de tokens MCP en un 47 % al cargar definiciones bajo demanda, en lugar de meter todas las definiciones en el contexto [3]. Para agentes de código con muchas herramientas, eso puede ser una ventaja de sistema; aun así, debe medirse por separado de la precisión en benchmarks de bugs o terminal [
3].
Cómo compararlos sin engañarte
- Elige la variante antes de elegir ganador. SWE-Bench Verified, SWE-Bench Pro y SWE-Bench Pro Public no deberían juntarse en una sola tabla como si fueran una misma medición [
6][
7][
10].
- Mantén constante el agente en tareas de terminal. El leaderboard público de Terminal-Bench 2.0 muestra diferencias importantes según la pareja agente/modelo [
1].
- Separa precisión de eficiencia. La reducción del 47 % en tokens MCP reportada para GPT-5.4 puede ser valiosa en sistemas con muchas herramientas, pero no es lo mismo que ganar SWE-Bench o Terminal-Bench [
3].
- Trata los rankings mixtos como señales, no como sentencia. Las fuentes citadas apoyan ganadores distintos según benchmark, variante y entorno de agente; por eso un ranking universal exageraría la evidencia [
1][
3][
6][
7][
10].
Conclusión
Empieza con Claude Opus 4.6 si tu prioridad es corregir bugs en repositorios al estilo SWE-Bench Verified. Incluye GPT-5.3-Codex en cualquier prueba seria de agentes de terminal. Y prueba GPT-5.4 si necesitas el modelo más nuevo de OpenAI o si quieres medir su eficiencia en búsqueda de herramientas y uso de tokens MCP [1][
3][
5][
7][
9].
La conclusión más segura no es que un modelo domine toda la programación. Es que el ganador cambia según la variante del benchmark, el agente que ejecuta la tarea y el tipo de trabajo que realmente vas a poner en producción [1][
6][
7][
10].




