Una tabla de posiciones simple sería cómoda, pero engañosa. Las fuentes disponibles no someten GPT-5.5, Claude Opus 4.7, DeepSeek V4 y Kimi K2.6 a una misma prueba independiente, con el mismo arnés de evaluación y las mismas variantes de modelo; mezclan recortes de benchmarks, configuraciones de razonamiento, análisis de proveedores y comparativas secundarias [2][
3][
7][
21].
Aun así, el patrón general sí es útil para quien tiene que elegir un modelo para investigar, programar, automatizar tareas o controlar costes: GPT-5.5 tiene la posición global mejor documentada, Claude Opus 4.7 gana en varios indicadores fuertes de código y conocimiento, DeepSeek V4 es el rival más llamativo por precio-rendimiento y Kimi K2.6 no se puede ordenar con justicia por falta de cifras comparables [1][
2][
3][
7][
22][
24].
Veredicto rápido
GPT-5.5 es el punto de partida más sólido si se busca rendimiento general. En el fragmento disponible del Intelligence Index de Artificial Analysis, GPT-5.5 aparece primero en configuración xhigh con 60 puntos y segundo en configuración high con 59 puntos; Claude Opus 4.7 figura después con 57 puntos [2]. En BrowseComp, GPT-5.5 marca 84,4 %, por encima de DeepSeek V4 con 83,4 % y de Claude Opus 4.7 con 79,3 % [
3].
Claude Opus 4.7 es especialmente fuerte en software y conocimiento. En SWE-Bench Pro alcanza 64,3 %, frente al 58,6 % de GPT-5.5, y en GPQA Diamond queda ligeramente por delante con 94,2 % frente a 93,6 % [22][
24]. El matiz importante: GPT-5.5 domina Terminal-Bench 2.0 con 82,7 %, frente al 69,4 % de Claude Opus 4.7 [
22][
24].
DeepSeek V4 es el candidato de precio-rendimiento. VentureBeat sitúa a DeepSeek V4 en 83,4 % en BrowseComp, apenas 1,0 punto porcentual por detrás de GPT-5.5 y por encima de Claude Opus 4.7 [3]. Mashable, además, cita precios de API de US$ 1,74 por 1 millón de tokens de entrada y US$ 3,48 por 1 millón de tokens de salida para DeepSeek V4, frente a US$ 5/US$ 30 en GPT-5.5 y US$ 5/US$ 25 en Claude Opus 4.7 [
1].
Kimi K2.6 merece seguimiento, pero no una posición cerrada en el ranking. DocsBot lo describe como un modelo de código abierto, multimodal nativo y agentico, con arquitectura MoE de 1T parámetros, 32B parámetros activados y 256K tokens de contexto [7]. Lo que falta, en estas fuentes, es una matriz de benchmarks directa y suficiente contra GPT-5.5, Claude Opus 4.7 y DeepSeek V4 [
7].
Comparativa de un vistazo
| Modelo | Lo que mejor demuestran los datos | Cifras clave citadas | Lectura práctica |
|---|---|---|---|
| GPT-5.5 | Lidera el recorte disponible del Intelligence Index [ | Intelligence Index: 60 xhigh y 59 high [ | Mejor punto de partida general, aunque no gana todos los benchmarks |
| Claude Opus 4.7 | Muy fuerte en SWE-Bench, GPQA y algunas tareas agenticas [ | Intelligence Index: 57 [ | Muy atractivo para programación, revisión técnica, conocimiento experto y finanzas |
| DeepSeek V4 | Se acerca mucho a GPT-5.5 en BrowseComp [ | BrowseComp: 83,4 % [ | Fuerte si importan la búsqueda web, la investigación y el coste por uso |
| Kimi K2.6 | Se presenta como modelo abierto, multimodal y agentico de largo contexto [ | 1T parámetros MoE, 32B activados y 256K contexto según DocsBot [ | Interesante para pruebas técnicas, pero no comparable numéricamente con esta evidencia |
Por qué estos benchmarks no son una liga deportiva
La primera cautela es metodológica. DataCamp recuerda, en una comparativa relacionada de modelos frontera, que muchos resultados pueden ser reportados por proveedores y usar configuraciones de arnés distintas [21]. En la práctica, eso significa que una diferencia de varios puntos puede depender no solo del modelo, sino también del modo de razonamiento, las herramientas permitidas, el tiempo de cómputo o la forma exacta de ejecutar la prueba.
También hay variantes que no conviene mezclar sin cuidado. Artificial Analysis distingue GPT-5.5 xhigh, GPT-5.5 high y Claude Opus 4.7 con Adaptive Reasoning y Max Effort [2]. VentureBeat, al hablar de DeepSeek, se refiere a DeepSeek-V4-Pro-Max [
3]. En tareas de programación, uso de terminal o agentes, esas diferencias pueden pesar mucho.
Por eso la pregunta útil no es solo quién gana, sino qué modelo está mejor respaldado para cada tipo de trabajo.
Rendimiento general: ventaja documentada para GPT-5.5
El indicador global más claro entre las fuentes es el recorte del Intelligence Index de Artificial Analysis. Ahí, GPT-5.5 xhigh aparece con 60 puntos, GPT-5.5 high con 59 y Claude Opus 4.7, con Adaptive Reasoning y Max Effort, con 57 [2].
Ese dato sostiene una ventaja moderada pero visible de GPT-5.5 sobre Claude Opus 4.7 en ese índice [2]. Para DeepSeek V4 y Kimi K2.6, el mismo recorte disponible no ofrece valores completos y directamente citables que permitan cerrar una comparativa limpia entre los cuatro [
2][
7].
BrowseComp: DeepSeek V4 se queda muy cerca
BrowseComp es el cruce más claro entre GPT-5.5, Claude Opus 4.7 y DeepSeek V4. VentureBeat cita 90,1 % para GPT-5.5 Pro, 84,4 % para GPT-5.5, 83,4 % para DeepSeek V4 y 79,3 % para Claude Opus 4.7 [3].
| Modelo o variante | Resultado en BrowseComp | Lectura |
|---|---|---|
| GPT-5.5 Pro | 90,1 % | Muy por delante en este recorte [ |
| GPT-5.5 | 84,4 % | Apenas por encima de DeepSeek V4 [ |
| DeepSeek V4 | 83,4 % | Solo 1,0 punto porcentual detrás de GPT-5.5 [ |
| Claude Opus 4.7 | 79,3 % | Por detrás de GPT-5.5 y DeepSeek V4 [ |
| Kimi K2.6 | Sin valor directamente comparable en las fuentes | No se puede ordenar de forma justa [ |
La lectura prudente es esta: DeepSeek V4 impresiona en BrowseComp, pero VentureBeat no lo presenta como un modelo que desbanque en conjunto a GPT-5.5 o Claude Opus 4.7 en los benchmarks directamente comparables [3]. Su argumento más fuerte, por tanto, no es la corona absoluta, sino acercarse mucho con un coste de API muy inferior [
1][
3].
Programación y software: Claude gana SWE; GPT gana Terminal
En benchmarks de desarrollo no hay un ganador único. Claude Opus 4.7 queda por delante en SWE-Bench Pro, con 64,3 % frente al 58,6 % de GPT-5.5 [22][
24]. Vellum también cita un 87,6 % de Claude Opus 4.7 en SWE-Bench Verified [
20].
La fotografía cambia en Terminal-Bench 2.0: GPT-5.5 alcanza 82,7 %, muy por encima del 69,4 % de Claude Opus 4.7 [22][
24]. Es decir, Claude aparece mejor posicionado en resolución de incidencias de software tipo SWE-Bench, mientras que GPT-5.5 sale reforzado en tareas de terminal y ejecución.
| Benchmark | GPT-5.5 | Claude Opus 4.7 | Quién queda delante |
|---|---|---|---|
| SWE-Bench Pro | 58,6 % | 64,3 % | Claude Opus 4.7 [ |
| SWE-Bench Verified | Sin valor directo de GPT-5.5 en estas fuentes | 87,6 % | Buen dato de Claude, pero no comparativa completa [ |
| Terminal-Bench 2.0 | 82,7 % | 69,4 % | GPT-5.5 [ |
Para DeepSeek V4 y Kimi K2.6, las fuentes incluidas no alcanzan el mismo nivel de detalle numérico en programación. VentureBeat señala que DeepSeek V4 se acerca a los modelos punteros en varios benchmarks directamente comparables, pero el dato más claro del recorte es BrowseComp [3]. En el caso de Kimi K2.6, DocsBot aporta sobre todo descripción técnica y de arquitectura, no una tabla completa contra los otros tres modelos [
7].
Razonamiento, conocimiento y tareas profesionales
En conocimiento y razonamiento, GPT-5.5 y Claude Opus 4.7 se mueven muy cerca. En GPQA Diamond, Vellum cita 93,6 % para GPT-5.5 y 94,2 % para Claude Opus 4.7 [22]. Mashable recoge esos mismos valores y añade Humanity’s Last Exam: sin herramientas, GPT-5.5 queda por delante con 40,6 % frente a 31,2 %; con herramientas, Claude Opus 4.7 pasa ligeramente al frente con 54,7 % frente a 52,2 % [
8].
| Benchmark | GPT-5.5 | Claude Opus 4.7 | Resultado en las cifras disponibles |
|---|---|---|---|
| GPQA Diamond | 93,6 % | 94,2 % | Claude Opus 4.7 por poco [ |
| Humanity’s Last Exam | 40,6 % | 31,2 % | GPT-5.5 [ |
| Humanity’s Last Exam con herramientas | 52,2 % | 54,7 % | Claude Opus 4.7 por poco [ |
En tareas profesionales y agenticas, el patrón vuelve a ser mixto. Vellum cita a GPT-5.5 con 84,9 % en GDPval frente al 80,3 % de Claude Opus 4.7; 78,7 % en OSWorld-Verified frente a 78,0 %; y 75,3 % en MCP Atlas frente al 79,1 % de Claude [22]. OpenAI, por su parte, cita FinanceAgent v1.1 con 60,0 % para GPT-5.5 y 64,4 % para Claude Opus 4.7 [
24].
| Benchmark | GPT-5.5 | Claude Opus 4.7 | Lectura |
|---|---|---|---|
| GDPval | 84,9 % | 80,3 % | GPT-5.5 por delante [ |
| OSWorld-Verified | 78,7 % | 78,0 % | GPT-5.5 por poco [ |
| MCP Atlas | 75,3 % | 79,1 % | Claude Opus 4.7 por delante [ |
| FinanceAgent v1.1 | 60,0 % | 64,4 % | Claude Opus 4.7 por delante [ |
Anthropic también menciona un benchmark interno de agentes de investigación en el que Claude Opus 4.7 compartió la mayor puntuación total, 0,715, en seis módulos y logró 0,813 en General Finance frente a 0,767 de Opus 4.6 [6]. Como es una evaluación interna y no cubre de forma simétrica los cuatro modelos, conviene leerla como indicio de fortaleza agentica de Claude, no como ranking independiente definitivo [
6].
Precio y ventana de contexto: DeepSeek V4 cambia la conversación
Para uso real, un punto más o menos en un benchmark no siempre compensa el coste. Mashable cita para DeepSeek V4 un precio de US$ 1,74 por 1 millón de tokens de entrada y US$ 3,48 por 1 millón de tokens de salida, con una ventana de contexto de 1 millón de tokens [1]. En la misma comparación, GPT-5.5 aparece con US$ 5 por 1 millón de tokens de entrada y US$ 30 por 1 millón de tokens de salida; Claude Opus 4.7, con US$ 5 de entrada y US$ 25 de salida, ambos también con 1 millón de tokens de contexto [
1].
| Modelo | Entrada por 1 millón de tokens | Salida por 1 millón de tokens | Contexto citado |
|---|---|---|---|
| DeepSeek V4 | US$ 1,74 | US$ 3,48 | 1 millón de tokens [ |
| GPT-5.5 | US$ 5 | US$ 30 | 1 millón de tokens [ |
| Claude Opus 4.7 | US$ 5 | US$ 25 | 1 millón de tokens [ |
| Kimi K2.6 | Sin precio fiable en las fuentes incluidas | Sin precio fiable en las fuentes incluidas | 256K tokens según DocsBot [ |
Aquí DeepSeek V4 tiene su mejor argumento práctico: si un equipo procesa grandes volúmenes mediante API, la diferencia de coste puede importar tanto como el ranking. Kimi K2.6 queda en otra categoría: DocsBot lo describe con 256K de contexto, arquitectura MoE de 1T parámetros, 32B activados y orquestación agentica de hasta 300 subagentes y 4.000 pasos coordinados [7]. Son datos técnicos relevantes, pero no sustituyen resultados de benchmark y precios directamente comparables [
7].
Qué modelo elegir según el uso
| Si tu prioridad es… | Mejor punto de partida | Por qué |
|---|---|---|
| Rendimiento general mejor documentado | GPT-5.5 | Lidera el recorte del Intelligence Index y queda por delante de Claude Opus 4.7 y apenas por encima de DeepSeek V4 en BrowseComp [ |
| Ingeniería de software orientada a SWE-Bench | Claude Opus 4.7 | Supera a GPT-5.5 en SWE-Bench Pro y se cita con 87,6 % en SWE-Bench Verified [ |
| Terminal, ejecución y tareas agenticas de computadora | GPT-5.5 | Gana con claridad en Terminal-Bench 2.0 y queda delante en GDPval y OSWorld-Verified [ |
| Investigación web y coste bajo de API | DeepSeek V4 | Logra 83,4 % en BrowseComp y tiene precios de API notablemente inferiores en las cifras citadas [ |
| Probar un modelo abierto, multimodal y agentico | Kimi K2.6 | Se describe como modelo de código abierto con 256K de contexto, aunque falta una base completa de comparación directa [ |
Conclusión
El resultado más honesto no es que un modelo lo gane todo. GPT-5.5 es el all-rounder mejor respaldado por las fuentes: lidera el recorte del Intelligence Index y se mantiene fuerte en BrowseComp, Terminal-Bench 2.0 y varios benchmarks profesionales [2][
3][
22][
24]. Claude Opus 4.7 sigue siendo un modelo de primera línea, especialmente atractivo en SWE-Bench Pro, SWE-Bench Verified, GPQA Diamond y ciertas tareas financieras o agenticas [
20][
22][
24]. DeepSeek V4 es el retador más llamativo por precio-rendimiento, al acercarse mucho a GPT-5.5 en BrowseComp con costes de API mucho más bajos en las cifras citadas [
1][
3]. Kimi K2.6, por ahora, debe tratarse como una opción técnica prometedora pero no como un competidor que pueda colocarse con precisión en la misma tabla sin más benchmarks comparables [
7].




