Elegir entre GPT-5.5, Claude Opus 4.7, DeepSeek V4 y Kimi K2.6 no va de coronar al modelo más fuerte sin más. La lectura útil es otra: qué modelo falla menos en tu tipo de trabajo y cuánto cuesta llegar a ese resultado. Con los datos públicos disponibles, GPT-5.5 es el candidato de alto rendimiento general, Claude Opus 4.7 destaca en investigación larga y tareas con disciplina documental, DeepSeek V4 sobresale por coste y Kimi K2.6 merece atención cuando importan los pesos abiertos, la multimodalidad y el contexto largo.[4][
6][
7][
9]
Decisión rápida por caso de uso
| Si tu prioridad es... | Empieza probando... | Por qué |
|---|---|---|
| Rendimiento general, flujos con agentes complejos y tareas de programación con terminal | GPT-5.5 | Artificial Analysis sitúa GPT-5.5 xHigh en 60 y GPT-5.5 High en 59, por encima de Claude Opus 4.7 en 57; VentureBeat recoge un 82,7 % de GPT-5.5 en Terminal-Bench 2.0.[ |
| Investigación con documentos largos, análisis de varios pasos, finanzas y trazabilidad de datos | Claude Opus 4.7 | Anthropic afirma que Opus 4.7 obtuvo 0,715 en su benchmark interno de agente de investigación y 0,813 en General Finance, frente a 0,767 de Opus 4.6.[ |
| Mucho volumen, presupuesto ajustado y una calidad cercana a modelos punteros | DeepSeek V4 | Mashable resume su precio API en $1,74 por millón de tokens de entrada y $3,48 por millón de salida, por debajo de GPT-5.5 y Claude Opus 4.7 en la misma tabla.[ |
| Pesos abiertos, entrada de imagen o vídeo y contexto de 256K | Kimi K2.6 | Artificial Analysis lo describe como el nuevo modelo líder de pesos abiertos y señala soporte nativo para imagen, vídeo y contexto máximo de 256K.[ |
Por qué no basta con mirar un ranking
No hay, en las fuentes públicas usadas aquí, una comparativa completa de los cuatro modelos hecha por el mismo evaluador, en la misma fecha, con el mismo presupuesto de razonamiento y las mismas herramientas activadas. Los datos vienen de páginas de fabricantes, rankings de terceros, documentación API, agregadores, medios especializados y pruebas personales; todos aportan señales, pero no siempre miden lo mismo.[4][
5][
6][
7][
8][
9][
16][
34][
35]
Esto importa mucho. Artificial Analysis distingue GPT-5.5 xHigh, GPT-5.5 High y Claude Opus 4.7 con Adaptive Reasoning Max Effort; la documentación de OpenAI también lista distintos niveles de reasoning effort para GPT-5.5, desde none hasta xhigh.[4][
35] En la práctica, un modelo que lidera una tabla puede no liderar en tus prompts, con tus herramientas, tu límite de latencia y tu proceso de revisión.
Benchmarks públicos: qué números sirven como orientación
| Métrica | GPT-5.5 | Claude Opus 4.7 | DeepSeek V4 / V4 Pro | Kimi K2.6 | Cómo leerlo |
|---|---|---|---|---|---|
| Artificial Analysis Intelligence Index | xHigh 60; High 59 [ | 57 [ | No consta una cifra exacta comparable en estas fuentes | 53,9 según OpenRouter [ | GPT-5.5 lidera en esta tabla; Kimi aparece como candidato fuerte entre modelos de pesos abiertos. |
| Terminal-Bench 2.0 | 82,7 % [ | 69,4 % [ | 67,9 % [ | Sin cifra pública del mismo origen | Es la ventaja más clara de GPT-5.5 en tareas tipo agente con terminal. |
| SWE-Bench Pro | 58,6 % [ | Sin cifra verificable del mismo origen en estas fuentes | 55,4 % [ | Algunas fuentes comparan Kimi con GPT-5.4 u Opus 4.6, no con los cuatro modelos de este artículo [ | GPT-5.5 y DeepSeek V4 sí aparecen juntos en el resumen citado; Kimi requiere más cautela. |
| Humanity’s Last Exam, sin herramientas | 41,4 %; GPT-5.5 Pro 43,1 % [ | 46,9 % [ | 37,7 % [ | Sin cifra del mismo origen | Claude Opus 4.7 lidera en esta configuración concreta. |
| Humanity’s Last Exam, con herramientas | 52,2 %; GPT-5.5 Pro 57,2 % [ | 54,7 % [ | 48,2 % [ | Sin cifra del mismo origen | Claude supera a GPT-5.5 base, pero queda por debajo de GPT-5.5 Pro. |
| BrowseComp | 84,4 % [ | Sin cifra del mismo origen en estas fuentes | V4 Pro-Max 83,4 % [ | 83,2 % [ | En comprensión y navegación web, GPT-5.5, DeepSeek y Kimi aparecen muy cerca. |
| Subíndices de Kimi K2.6 en OpenRouter | No aplica | No aplica | No aplica | Intelligence 53,9; Coding 47,1; Agentic 66,0 [ | Kimi merece pruebas reales en flujos con agentes, pero no conviene extrapolarlo a todos los usos. |
GPT-5.5: la opción fuerte por defecto para trabajo complejo
OpenAI indica que GPT-5.5 y GPT-5.5 Pro quedaron disponibles el 24 de abril de 2026; su documentación API describe gpt-5.5 como un modelo para programación y trabajo profesional, con ventana de contexto de 1 millón de tokens, salida máxima de 128K, llamadas a funciones, búsqueda web, búsqueda en archivos y uso de ordenador.[25][
35]
En los datos públicos, su perfil es el de una base de alto rendimiento. Artificial Analysis le da 60 en xHigh y 59 en High, y VentureBeat recoge un 82,7 % en Terminal-Bench 2.0, por encima del 69,4 % de Claude Opus 4.7 y del 67,9 % de DeepSeek V4.[4][
6]
La pega principal es el coste. La documentación de OpenAI lista GPT-5.5 a $5 por millón de tokens de entrada y $30 por millón de tokens de salida; si tu caso genera informes largos, muchas vueltas de agente o respuestas extensas, la salida puede convertirse en el factor económico decisivo.[35]
Dónde probarlo primero: agentes de programación, automatización con terminal, investigación con varias herramientas, flujos que combinen funciones, búsqueda web y búsqueda en archivos.[35]
Claude Opus 4.7: fuerte en trabajo largo, análisis y disciplina documental
Claude Opus 4.7 está mejor posicionado cuando el trabajo exige sostener contexto, revisar pasos y mantener una salida ordenada. Anthropic afirma que Opus 4.7 empató en la mejor puntuación general de su benchmark interno de agentes de investigación, con 0,715, y que fue el modelo con comportamiento de contexto largo más consistente; en el módulo General Finance obtuvo 0,813, frente a 0,767 de Opus 4.6.[7]
También aparece bien situado en Humanity’s Last Exam. En el resumen de VentureBeat, Claude Opus 4.7 obtiene 46,9 % sin herramientas, por encima del 41,4 % de GPT-5.5 y del 37,7 % de DeepSeek V4; con herramientas llega a 54,7 %, por encima de GPT-5.5 base, aunque por debajo de GPT-5.5 Pro.[6]
Eso no significa que gane en todo. En Terminal-Bench 2.0, GPT-5.5 alcanza 82,7 %, muy por encima del 69,4 % de Claude Opus 4.7.[6] Además, algunas cifras de terceros, como el 82,4 % de Opus 4.7 en SWE-bench Verified, no forman parte de una comparativa completa y homogénea de los cuatro modelos, por lo que no deben mezclarse sin más con SWE-Bench Pro u otras tablas.[
1][
6]
Dónde probarlo primero: investigación con documentos largos, análisis financiero, tareas que requieran citar bases de datos o documentos, razonamiento en varios pasos y revisiones donde la disciplina de salida sea tan importante como la respuesta final.[7]
DeepSeek V4: el candidato de coste, no el ganador absoluto
DeepSeek V4 destaca sobre todo por precio. Mashable resume su API en $1,74 por millón de tokens de entrada y $3,48 por millón de tokens de salida; en la misma comparación, GPT-5.5 aparece a $5/$30 y Claude Opus 4.7 a $5/$25.[3]
En rendimiento, las fuentes públicas lo sitúan cerca de la frontera, pero no por delante en todos los frentes. En el resumen de VentureBeat, DeepSeek V4 obtiene 37,7 % en Humanity’s Last Exam sin herramientas y 48,2 % con herramientas, por debajo de GPT-5.5, GPT-5.5 Pro y Claude Opus 4.7; en Terminal-Bench 2.0, su 67,9 % se acerca al 69,4 % de Claude, pero queda lejos del 82,7 % de GPT-5.5.[6]
La pregunta práctica no es si DeepSeek V4 sustituye a todos los modelos cerrados punteros. Es si, en tu flujo real, supera tu umbral de calidad y si su menor precio compensa reintentos, revisión humana, latencia y posibles fallos.[3][
6]
Dónde probarlo primero: procesamiento por lotes, alto volumen de inferencia, productos con margen ajustado, tareas donde puedas aceptar una revisión adicional a cambio de reducir de forma importante el coste por token.[3]
Kimi K2.6: pesos abiertos, contexto largo y multimodalidad
Kimi K2.6 es especialmente interesante para equipos que valoran los pesos abiertos y el control de despliegue. Artificial Analysis lo llama el nuevo modelo líder de pesos abiertos y señala que admite entrada de imagen y vídeo con salida de texto, además de una ventana máxima de contexto de 256K.[9]
OpenRouter lista para Kimi K2.6 un Artificial Analysis Intelligence de 53,9, Coding de 47,1 y Agentic de 66,0; también muestra máximo de 256K tokens y salida máxima de 66K.[5] En BrowseComp, DocsBot recoge 83,2 % para Kimi K2.6 y 84,4 % para GPT-5.5, una diferencia pequeña dentro de esa fuente.[
8]
La cautela es importante: varias comparativas de Kimi K2.6 lo enfrentan sobre todo a GPT-5.4 o Claude Opus 4.6, no a GPT-5.5, Claude Opus 4.7 y DeepSeek V4 dentro de una prueba única y homogénea.[14][
15] Eso no le resta interés, pero sí obliga a validarlo en tus propios casos.
Dónde probarlo primero: proyectos que necesiten pesos abiertos, mayor autonomía de despliegue, contexto largo, entradas visuales o de vídeo, y un equilibrio entre coste, control y capacidad de agente.[5][
9]
Coste, contexto y despliegue: la tabla que decide muchos proyectos
| Modelo | Precio y capacidad publicados | Qué implica |
|---|---|---|
| GPT-5.5 | $5 por millón de tokens de entrada y $30 por millón de salida; contexto de 1 millón; salida máxima de 128K; funciones, búsqueda web, búsqueda en archivos y uso de ordenador [ | Muy atractivo para tareas complejas de alto valor, pero caro si genera salidas largas o muchos ciclos de agente. |
| Claude Opus 4.7 | Mashable lo resume en $5 por millón de tokens de entrada y $25 por millón de salida, con contexto de 1 millón [ | Menor precio de salida que GPT-5.5; encaja bien si pesan la consistencia en contexto largo y la disciplina documental.[ |
| DeepSeek V4 | $1,74 por millón de tokens de entrada y $3,48 por millón de salida, con contexto de 1 millón según Mashable [ | Muy competitivo para alto volumen, lotes y aplicaciones sensibles al presupuesto. |
| Kimi K2.6 | OpenRouter lista una ruta a $0,7448 por millón de tokens de entrada y $4,655 por millón de salida; máximo de 256K tokens y salida máxima de 66K [ | Interesante para pesos abiertos, contexto largo y multimodalidad; el precio de una ruta no debe leerse como tarifa universal de todos los proveedores.[ |
El precio de la API no es el coste total. En flujos con muchas herramientas o procesos largos, la propia guía de OpenAI recomienda comparar precisión, consumo de tokens y latencia de extremo a extremo; la documentación también muestra que GPT-5.5 permite ajustar el esfuerzo de razonamiento entre none, low, medium, high y xhigh.[34][
35]
Cómo llevar la comparativa a producción
Los benchmarks públicos sirven para reducir la lista de candidatos, no para firmar la compra. Una evaluación sensata debería registrar, como mínimo, tasa de éxito, tipo de fallo, latencia total, tokens consumidos, reintentos y coste de revisión. OpenAI recomienda explícitamente comparar modelos en precisión, consumo de tokens y latencia de extremo a extremo para flujos largos o intensivos en herramientas.[34]
Las pruebas personales pueden ser útiles como señal, pero no como ranking universal. En una prueba de programación publicada por AkitaOnRails en abril de 2026, Claude Opus 4.7 obtuvo 97 puntos, GPT-5.5 xHigh Codex 96, Kimi K2.6 87 y DeepSeek V4 Pro 69; la misma tabla estimó costes aproximados de $1,10 para Claude Opus 4.7, $10 para GPT-5.5 xHigh Codex, $0,30 para Kimi K2.6 y $0,50 para DeepSeek V4 Pro.[16]
La lección es clara: el modelo ganador depende del repositorio, las herramientas permitidas, los prompts, el nivel de revisión y el coste de repetir intentos. Un punto más en un benchmark puede valer poco si en tu caso real implica el triple de tokens o una latencia inaceptable.[16][
34]
Recomendación final
Si solo puedes empezar evaluando uno, empieza por GPT-5.5. Es el candidato más sólido como base general por su posición en Artificial Analysis y por su ventaja en Terminal-Bench 2.0.[4][
6]
Si tu carga se parece más a investigación documental, análisis financiero, razonamiento de varios pasos o generación de respuestas con mucha disciplina de datos, incluye Claude Opus 4.7 en la primera ronda. Los datos de Anthropic y de VentureBeat respaldan su competitividad en esos terrenos.[6][
7]
Si tu restricción principal es el presupuesto por llamada o el volumen, DeepSeek V4 debería entrar pronto en la prueba de coste-calidad. Los precios públicos citados lo colocan muy por debajo de GPT-5.5 y Claude Opus 4.7.[3]
Si necesitas pesos abiertos, entrada de imagen o vídeo, o contexto de 256K, Kimi K2.6 es uno de los candidatos más relevantes de las fuentes disponibles; eso sí, todavía falta una comparativa completa y homogénea frente a GPT-5.5, Claude Opus 4.7 y DeepSeek V4.[5][
8][
9]
La conclusión más segura: usa los benchmarks para decidir por dónde empezar, pero deja que tus tareas reales decidan qué modelo llega a producción.[34]




