GPT-5.5 es el punto de partida más sólido si se busca rendimiento general. En el fragmento disponible del Intelligence Index de Artificial Analysis, GPT-5.5 aparece primero en configuración xhigh con 60 puntos y segundo en configuración high con 59 puntos; Claude Opus 4.7 figura después con 57 puntos . En BrowseComp, GPT-5.5 marca 84,4 %, por encima de DeepSeek V4 con 83,4 % y de Claude Opus 4.7 con 79,3 %
.
Claude Opus 4.7 es especialmente fuerte en software y conocimiento. En SWE-Bench Pro alcanza 64,3 %, frente al 58,6 % de GPT-5.5, y en GPQA Diamond queda ligeramente por delante con 94,2 % frente a 93,6 % . El matiz importante: GPT-5.5 domina Terminal-Bench 2.0 con 82,7 %, frente al 69,4 % de Claude Opus 4.7
.
DeepSeek V4 es el candidato de precio-rendimiento. VentureBeat sitúa a DeepSeek V4 en 83,4 % en BrowseComp, apenas 1,0 punto porcentual por detrás de GPT-5.5 y por encima de Claude Opus 4.7 . Mashable, además, cita precios de API de US$ 1,74 por 1 millón de tokens de entrada y US$ 3,48 por 1 millón de tokens de salida para DeepSeek V4, frente a US$ 5/US$ 30 en GPT-5.5 y US$ 5/US$ 25 en Claude Opus 4.7
.
Kimi K2.6 merece seguimiento, pero no una posición cerrada en el ranking. DocsBot lo describe como un modelo de código abierto, multimodal nativo y agentico, con arquitectura MoE de 1T parámetros, 32B parámetros activados y 256K tokens de contexto . Lo que falta, en estas fuentes, es una matriz de benchmarks directa y suficiente contra GPT-5.5, Claude Opus 4.7 y DeepSeek V4
.
La primera cautela es metodológica. DataCamp recuerda, en una comparativa relacionada de modelos frontera, que muchos resultados pueden ser reportados por proveedores y usar configuraciones de arnés distintas . En la práctica, eso significa que una diferencia de varios puntos puede depender no solo del modelo, sino también del modo de razonamiento, las herramientas permitidas, el tiempo de cómputo o la forma exacta de ejecutar la prueba.
También hay variantes que no conviene mezclar sin cuidado. Artificial Analysis distingue GPT-5.5 xhigh, GPT-5.5 high y Claude Opus 4.7 con Adaptive Reasoning y Max Effort . VentureBeat, al hablar de DeepSeek, se refiere a DeepSeek-V4-Pro-Max
. En tareas de programación, uso de terminal o agentes, esas diferencias pueden pesar mucho.
Por eso la pregunta útil no es solo quién gana, sino qué modelo está mejor respaldado para cada tipo de trabajo.
El indicador global más claro entre las fuentes es el recorte del Intelligence Index de Artificial Analysis. Ahí, GPT-5.5 xhigh aparece con 60 puntos, GPT-5.5 high con 59 y Claude Opus 4.7, con Adaptive Reasoning y Max Effort, con 57 .
Ese dato sostiene una ventaja moderada pero visible de GPT-5.5 sobre Claude Opus 4.7 en ese índice . Para DeepSeek V4 y Kimi K2.6, el mismo recorte disponible no ofrece valores completos y directamente citables que permitan cerrar una comparativa limpia entre los cuatro
.
BrowseComp es el cruce más claro entre GPT-5.5, Claude Opus 4.7 y DeepSeek V4. VentureBeat cita 90,1 % para GPT-5.5 Pro, 84,4 % para GPT-5.5, 83,4 % para DeepSeek V4 y 79,3 % para Claude Opus 4.7 .
La lectura prudente es esta: DeepSeek V4 impresiona en BrowseComp, pero VentureBeat no lo presenta como un modelo que desbanque en conjunto a GPT-5.5 o Claude Opus 4.7 en los benchmarks directamente comparables . Su argumento más fuerte, por tanto, no es la corona absoluta, sino acercarse mucho con un coste de API muy inferior
.
En benchmarks de desarrollo no hay un ganador único. Claude Opus 4.7 queda por delante en SWE-Bench Pro, con 64,3 % frente al 58,6 % de GPT-5.5 . Vellum también cita un 87,6 % de Claude Opus 4.7 en SWE-Bench Verified
.
La fotografía cambia en Terminal-Bench 2.0: GPT-5.5 alcanza 82,7 %, muy por encima del 69,4 % de Claude Opus 4.7 . Es decir, Claude aparece mejor posicionado en resolución de incidencias de software tipo SWE-Bench, mientras que GPT-5.5 sale reforzado en tareas de terminal y ejecución.
Para DeepSeek V4 y Kimi K2.6, las fuentes incluidas no alcanzan el mismo nivel de detalle numérico en programación. VentureBeat señala que DeepSeek V4 se acerca a los modelos punteros en varios benchmarks directamente comparables, pero el dato más claro del recorte es BrowseComp . En el caso de Kimi K2.6, DocsBot aporta sobre todo descripción técnica y de arquitectura, no una tabla completa contra los otros tres modelos
.
En conocimiento y razonamiento, GPT-5.5 y Claude Opus 4.7 se mueven muy cerca. En GPQA Diamond, Vellum cita 93,6 % para GPT-5.5 y 94,2 % para Claude Opus 4.7 . Mashable recoge esos mismos valores y añade Humanity’s Last Exam: sin herramientas, GPT-5.5 queda por delante con 40,6 % frente a 31,2 %; con herramientas, Claude Opus 4.7 pasa ligeramente al frente con 54,7 % frente a 52,2 %
.
En tareas profesionales y agenticas, el patrón vuelve a ser mixto. Vellum cita a GPT-5.5 con 84,9 % en GDPval frente al 80,3 % de Claude Opus 4.7; 78,7 % en OSWorld-Verified frente a 78,0 %; y 75,3 % en MCP Atlas frente al 79,1 % de Claude . OpenAI, por su parte, cita FinanceAgent v1.1 con 60,0 % para GPT-5.5 y 64,4 % para Claude Opus 4.7
.
Anthropic también menciona un benchmark interno de agentes de investigación en el que Claude Opus 4.7 compartió la mayor puntuación total, 0,715, en seis módulos y logró 0,813 en General Finance frente a 0,767 de Opus 4.6 . Como es una evaluación interna y no cubre de forma simétrica los cuatro modelos, conviene leerla como indicio de fortaleza agentica de Claude, no como ranking independiente definitivo
.
Para uso real, un punto más o menos en un benchmark no siempre compensa el coste. Mashable cita para DeepSeek V4 un precio de US$ 1,74 por 1 millón de tokens de entrada y US$ 3,48 por 1 millón de tokens de salida, con una ventana de contexto de 1 millón de tokens . En la misma comparación, GPT-5.5 aparece con US$ 5 por 1 millón de tokens de entrada y US$ 30 por 1 millón de tokens de salida; Claude Opus 4.7, con US$ 5 de entrada y US$ 25 de salida, ambos también con 1 millón de tokens de contexto
.
Aquí DeepSeek V4 tiene su mejor argumento práctico: si un equipo procesa grandes volúmenes mediante API, la diferencia de coste puede importar tanto como el ranking. Kimi K2.6 queda en otra categoría: DocsBot lo describe con 256K de contexto, arquitectura MoE de 1T parámetros, 32B activados y orquestación agentica de hasta 300 subagentes y 4.000 pasos coordinados . Son datos técnicos relevantes, pero no sustituyen resultados de benchmark y precios directamente comparables
.
El resultado más honesto no es que un modelo lo gane todo. GPT-5.5 es el all-rounder mejor respaldado por las fuentes: lidera el recorte del Intelligence Index y se mantiene fuerte en BrowseComp, Terminal-Bench 2.0 y varios benchmarks profesionales . Claude Opus 4.7 sigue siendo un modelo de primera línea, especialmente atractivo en SWE-Bench Pro, SWE-Bench Verified, GPQA Diamond y ciertas tareas financieras o agenticas
. DeepSeek V4 es el retador más llamativo por precio-rendimiento, al acercarse mucho a GPT-5.5 en BrowseComp con costes de API mucho más bajos en las cifras citadas
. Kimi K2.6, por ahora, debe tratarse como una opción técnica prometedora pero no como un competidor que pueda colocarse con precisión en la misma tabla sin más benchmarks comparables
.
Comments
0 comments