La comparación más honesta no es un podio con oro, plata y bronce. Con las fuentes disponibles, los datos más sólidos comparan sobre todo a GPT-5.5 y Claude Opus 4.7 en pruebas concretas. DeepSeek V4 y Kimi K2.6 aparecen principalmente en señales del ecosistema de modelos de pesos abiertos, pero con menos resultados directamente comparables en los mismos tests [6] [
8] [
14] [
15] [
20] [
21].
La lectura útil, por tanto, es por caso de uso. GPT-5.5 tiene ventaja documentada frente a Claude Opus 4.7 en ARC-AGI; Claude Opus 4.7 va por delante en MCP-Atlas; GPT-5.5 cuenta con el dato más claro en código agentivo; y las fuentes citadas no permiten ordenar con rigor a DeepSeek V4 y Kimi K2.6 frente a los dos modelos propietarios en esas mismas pruebas [6] [
14] [
15] [
20] [
21].
La tabla que conviene mirar antes de sacar conclusiones
| Área o benchmark | GPT-5.5 | Claude Opus 4.7 | DeepSeek V4 | Kimi K2.6 | Lectura prudente |
|---|---|---|---|---|---|
| ARC-AGI-1 Verified | 95,0 % [ | 93,5 % [ | Sin dato comparable en las fuentes citadas | Sin dato comparable en las fuentes citadas | GPT-5.5 aventaja a Claude Opus 4.7 por 1,5 puntos en la tabla de OpenAI [ |
| ARC-AGI-2 Verified | 85,0 % [ | 75,8 % [ | Sin dato comparable en las fuentes citadas | Sin dato comparable en las fuentes citadas | La ventaja de GPT-5.5 es más amplia, aunque el contexto metodológico de OpenAI importa [ |
| MCP-Atlas | 75,3 % [ | 79,1 % [ | Sin dato comparable en las fuentes citadas | Sin dato comparable en las fuentes citadas | Claude Opus 4.7 queda por delante en este benchmark de orquestación de herramientas [ |
| Terminal-Bench 2.0 / código agentivo | 82,7 % reportado [ | Sin dato comparable en las fuentes citadas | Sin dato comparable en las fuentes citadas | Sin dato comparable en las fuentes citadas | Es una señal fuerte para GPT-5.5, no una clasificación homogénea de los cuatro modelos [ |
| Pesos abiertos / Artificial Analysis | No comparable aquí | No comparable aquí | DeepSeek V4 Pro Max aparece con 52 en el Artificial Analysis Intelligence Index, frente a 42 de V3.2 [ | Artificial Analysis destaca un análisis titulado Kimi K2.6: The new leading open weights model, pero sin un marcador explotable en las fuentes proporcionadas [ | Son señales relevantes, pero no sustituyen a un benchmark común [ |
| Seguridad y ciberseguridad | CoT-Control incluye más de 13.000 tareas; otra fuente secundaria reporta 93 % en un cyber range y un jailbreak universal hallado en seis horas [ | Sin dato comparable en las fuentes citadas | Sin dato comparable en las fuentes citadas | Sin dato comparable en las fuentes citadas | Estos datos no equivalen a un ranking de seguridad entre los cuatro modelos [ |
Las casillas vacías no significan que DeepSeek V4 o Kimi K2.6 sean modelos débiles. Significan algo más limitado, pero importante: en las fuentes disponibles no hay puntuaciones homogéneas para los mismos benchmarks, con los mismos ajustes y el mismo nivel de detalle [8] [
20] [
21].
Razonamiento abstracto: GPT-5.5 gana en ARC-AGI frente a Claude Opus 4.7
En los dos resultados ARC-AGI publicados en la página de lanzamiento de OpenAI, GPT-5.5 supera a Claude Opus 4.7. En ARC-AGI-1 Verified obtiene 95,0 %, frente al 93,5 % de Claude Opus 4.7; en ARC-AGI-2 Verified alcanza 85,0 %, frente al 75,8 % de Claude Opus 4.7 [6].
Esto no demuestra que GPT-5.5 sea superior en cualquier tarea imaginable. Lo que demuestra es más concreto: en esas dos medidas de razonamiento abstracto, dentro de la tabla citada por OpenAI, GPT-5.5 queda por delante de Claude Opus 4.7 [6].
La cautela metodológica es clave. OpenAI indica que las evaluaciones de sus modelos GPT se ejecutaron con esfuerzo de razonamiento «xhigh» en un entorno de investigación, lo que puede producir salidas ligeramente distintas a las que se observan en ChatGPT en producción [6]. Dicho de otra forma: el dato sirve, pero no conviene convertirlo automáticamente en una promesa de rendimiento para cualquier producto real.
Agentes y herramientas: Claude Opus 4.7 lidera en MCP-Atlas
El punto más favorable a Claude Opus 4.7 en las fuentes citadas es MCP-Atlas. Una fuente secundaria reporta 79,1 % para Claude Opus 4.7 frente a 75,3 % para GPT-5.5, y vincula esa diferencia con una mayor fiabilidad en llamadas a herramientas dentro de escenarios complejos y encadenados mediante el Model Context Protocol, o MCP [14].
Para equipos que construyen agentes con varias herramientas, este dato puede pesar tanto como una prueba de razonamiento puro. Si el producto depende de conectar acciones, consultar sistemas externos, coordinar herramientas y mantener flujos encadenados, el mejor indicador citado aquí favorece a Claude Opus 4.7 en ese benchmark concreto [14].
Código agentivo: GPT-5.5 tiene el dato más claro, no una victoria total demostrada
GPT-5.5 aparece con 82,7 % en Terminal-Bench 2.0, un benchmark relacionado con tareas de terminal y código agentivo [15]. Es el dato de programación más directamente utilizable en esta comparación.
La limitación es tan importante como el resultado: las fuentes disponibles no ofrecen una tabla completa de Terminal-Bench 2.0 para Claude Opus 4.7, DeepSeek V4 y Kimi K2.6. La conclusión prudente es que GPT-5.5 tiene la señal cuantitativa más clara en este punto, no que haya vencido necesariamente a los otros tres modelos en todas las condiciones de programación agentiva [15].
DeepSeek V4 y Kimi K2.6: candidatos fuertes en pesos abiertos, difíciles de ordenar aquí
DeepSeek V4 y Kimi K2.6 merecen atención dentro de la categoría de modelos de pesos abiertos. Para muchos equipos, esa categoría importa porque permite más control sobre despliegue, infraestructura y dependencia del proveedor. Pero, con las fuentes citadas, no hay un cara a cara riguroso contra GPT-5.5 y Claude Opus 4.7 en ARC-AGI, MCP-Atlas o Terminal-Bench 2.0 [8] [
20] [
21].
En el caso de DeepSeek, Artificial Analysis señala que el lanzamiento de DeepSeek V4 vuelve a situar a DeepSeek entre los modelos de pesos abiertos destacados [20]. El dato más preciso disponible aquí es DeepSeek V4 Pro Max con 52 puntos en el Artificial Analysis Intelligence Index, frente a 42 de DeepSeek V3.2 [
21].
En el caso de Kimi K2.6, Artificial Analysis destaca un análisis titulado Kimi K2.6: The new leading open weights model [8]. Es una señal de posicionamiento relevante, pero las fuentes proporcionadas no incluyen los resultados necesarios para comparar a Kimi K2.6 con DeepSeek V4, GPT-5.5 y Claude Opus 4.7 en los mismos benchmarks [
8] [
21].
Seguridad y ciberseguridad: no es lo mismo capacidad que fiabilidad
La system card de GPT-5.5 describe CoT-Control como una suite de más de 13.000 tareas construidas a partir de benchmarks establecidos, entre ellos GPQA, MMLU-Pro, HLE, BFCL y SWE-Bench Verified [3]. Esto ayuda a entender cómo se evalúa la controlabilidad del razonamiento, pero no ofrece una puntuación comparativa entre GPT-5.5, Claude Opus 4.7, DeepSeek V4 y Kimi K2.6 [
3].
Otra fuente reporta para GPT-5.5 una tasa de éxito del 93 % en un cyber range, al mismo tiempo que señala que un jailbreak universal habría sido encontrado en seis horas de red-teaming [1]. Las dos cosas deben leerse juntas: un rendimiento alto en tareas de ciberseguridad no equivale a una garantía general de seguridad del modelo [
1].
Además, una crítica externa sostiene que la evaluación de seguridad de GPT-5.5 depende en gran medida de las declaraciones de OpenAI, lo que limita las conclusiones que pueden extraerse solo a partir de información publicada por el proveedor [19].
Qué modelo elegir según el uso
- Razonamiento abstracto documentado: GPT-5.5 es la opción mejor respaldada frente a Claude Opus 4.7 en los resultados ARC-AGI citados, con la salvedad del esfuerzo de razonamiento «xhigh» en entorno de investigación [
6].
- Agentes multi-herramienta y flujos MCP: Claude Opus 4.7 tiene el mejor resultado citado en MCP-Atlas, con 79,1 % frente al 75,3 % de GPT-5.5 [
14].
- Código agentivo en terminal: GPT-5.5 ofrece la señal numérica más nítida, con 82,7 % reportado en Terminal-Bench 2.0, aunque la comparación con los otros tres modelos sigue incompleta [
15].
- Despliegues con pesos abiertos: DeepSeek V4 y Kimi K2.6 deben probarse si los pesos abiertos, el control de despliegue o el equilibrio coste-rendimiento son prioritarios, pero las fuentes citadas no dan suficientes puntuaciones comunes para decidir [
8] [
20] [
21].
- Casos sensibles a seguridad: conviene separar benchmarks de capacidad, resultados ciber y evaluaciones de seguridad; no miden lo mismo ni prueban lo mismo [
1] [
3] [
19].
Lo que no conviene concluir
No conviene concluir que GPT-5.5 es el mejor modelo universal solo porque lidera ARC-AGI frente a Claude Opus 4.7 en los datos disponibles [6]. Tampoco conviene concluir que Claude Opus 4.7 es globalmente superior por ganar en MCP-Atlas [
14]. Cada benchmark mide un tipo distinto de tarea.
Tampoco es riguroso ordenar a DeepSeek V4 y Kimi K2.6 frente a los dos modelos propietarios sin benchmarks comunes. Las señales de Artificial Analysis muestran que DeepSeek V4 y Kimi K2.6 son importantes en el ecosistema de pesos abiertos, pero no bastan para establecer una clasificación global con las mismas métricas usadas para GPT-5.5 y Claude Opus 4.7 [8] [
20] [
21].
Por último, no hay que convertir una puntuación de capacidad en una garantía de seguridad. La información disponible sobre GPT-5.5 muestra precisamente que un rendimiento ciber elevado puede coexistir con reservas sobre jailbreaks y sobre la independencia de las evaluaciones [1] [
19].
Conclusión
El resumen más equilibrado es este: GPT-5.5 lidera los benchmarks ARC-AGI disponibles frente a Claude Opus 4.7 y cuenta con la señal cuantitativa más clara para código agentivo; Claude Opus 4.7 lidera MCP-Atlas; DeepSeek V4 y Kimi K2.6 siguen siendo candidatos importantes en pesos abiertos, pero los datos disponibles no permiten clasificarlos con limpieza frente a los dos modelos propietarios [6] [
8] [
14] [
15] [
20] [
21].
Para una decisión de producto, el reflejo correcto no es buscar un ganador universal. Lo sensato es probar los modelos con tareas propias: razonamiento, llamadas a herramientas, código, coste, latencia, restricciones de despliegue y nivel de riesgo aceptable.




