La forma más segura de comparar GPT-5.5, Claude Opus 4.7, DeepSeek V4 y Kimi K2.6 no es buscar un campeón absoluto. Con las fuentes disponibles, una clasificación única puede inducir a error: no todos los modelos aparecen en los mismos benchmarks, con el mismo evaluador y bajo las mismas condiciones. GPT-5.5 y Claude Opus 4.7 sí cuentan con varias comparaciones directas publicadas por Vellum y OpenAI. DeepSeek V4 y Kimi K2.6, en cambio, tienen evidencia pública más clara en áreas como ventana de contexto, pesos abiertos, multimodalidad y fiabilidad, según el informe técnico de DeepSeek y análisis de Artificial Analysis [2][
7][
30][
31][
33][
35][
36].
Lectura rápida: no hay un ganador universal
Si solo miramos las pruebas donde GPT-5.5 y Claude Opus 4.7 aparecen juntos, el resultado cambia según la tarea. En la tabla de Vellum, GPT-5.5 lidera Terminal-Bench 2.0 con 82,7 % frente al 69,4 % de Claude Opus 4.7, y también GDPval con 84,9 % frente a 80,3 %. Claude Opus 4.7, por su parte, queda por delante en SWE-Bench Pro, con 64,3 % frente a 58,6 %, y en GPQA Diamond, con 94,2 % frente a 93,6 % [2].
En uso de ordenador y herramientas, OpenAI reporta que GPT-5.5 obtiene 78,7 % en OSWorld-Verified frente al 78,0 % de Claude Opus 4.7, y 84,4 % en BrowseComp frente a 79,3 %. Sin embargo, Claude Opus 4.7 supera a GPT-5.5 en MCP Atlas, con 79,1 % frente a 75,3 % [7].
Para DeepSeek V4 y Kimi K2.6, las fuentes usadas no ofrecen una comparativa completa en los mismos benchmarks que GPT-5.5 y Claude Opus 4.7. Por eso, no conviene afirmar que ganan o pierden en categorías donde no hay datos directos bajo el mismo marco de evaluación [31][
33][
35][
36].
Tabla de referencia: puntuaciones comparables y vacíos de evidencia
| Benchmark o métrica | GPT-5.5 | Claude Opus 4.7 | DeepSeek V4 | Kimi K2.6 | Cómo leer el dato |
|---|---|---|---|---|---|
| Terminal-Bench 2.0 | 82,7 % | 69,4 % | Sin dato comparable en la misma fuente | Sin dato comparable en la misma fuente | GPT-5.5 supera a Claude Opus 4.7 en la tabla de Vellum [ |
| SWE-Bench Pro | 58,6 % | 64,3 % | Sin dato comparable en la misma fuente | Sin dato comparable en la misma fuente | Claude Opus 4.7 lidera en este benchmark de ingeniería de software [ |
| GDPval | 84,9 % | 80,3 % | Sin dato comparable en la misma fuente | Sin dato comparable en la misma fuente | GPT-5.5 queda por delante de Claude Opus 4.7 [ |
| OSWorld-Verified | 78,7 % | 78,0 % | Sin dato comparable en la misma fuente | Sin dato comparable en la misma fuente | GPT-5.5 tiene una ventaja pequeña según OpenAI [ |
| BrowseComp | 84,4 % | 79,3 % | Sin dato comparable en la misma fuente | Sin dato comparable en la misma fuente | GPT-5.5 lidera en este apartado de uso de herramientas [ |
| MCP Atlas | 75,3 % | 79,1 % | Sin dato comparable en la misma fuente | Sin dato comparable en la misma fuente | Claude Opus 4.7 supera a GPT-5.5 según OpenAI [ |
| GPQA Diamond | 93,6 % | 94,2 % | Sin dato comparable en la misma fuente | Sin dato comparable en la misma fuente | Claude Opus 4.7 lidera por un margen estrecho [ |
| FrontierMath T1–3 | 51,7 % | 43,8 % | Sin dato comparable en la misma fuente | Sin dato comparable en la misma fuente | GPT-5.5 supera a Claude Opus 4.7 según Vellum [ |
| Ventana de contexto | No aparece en esta tabla de Artificial Analysis | No aparece en esta tabla de Artificial Analysis | DeepSeek V4 Pro: 1.000k tokens | 256k tokens | DeepSeek V4 Pro ofrece una ventana de contexto mayor que Kimi K2.6 en la misma fuente [ |
| AA-Omniscience / hallucination | Sin comparativa directa en la misma fuente | Sin comparativa directa en la misma fuente | V4 Pro Max obtiene -10; V4 Pro tiene una tasa de hallucination del 94 % | Sin comparativa directa en la misma fuente | Señal clara de que las respuestas de DeepSeek V4 requieren verificación [ |
| Artificial Analysis Intelligence Index | No aparece en las fuentes usadas | No aparece en las fuentes usadas | No aparece en las fuentes usadas | 54 | Dato específico de Kimi K2.6; no pertenece al mismo leaderboard que Vellum u OpenAI [ |
Que una celda diga sin dato comparable no significa que el modelo sea peor. Significa únicamente que, en las fuentes usadas, no aparece una puntuación del mismo benchmark bajo el mismo evaluador.
GPT-5.5: fuerte en terminal, agentes y uso de herramientas
GPT-5.5 es el modelo con más datos públicos directamente comparables frente a Claude Opus 4.7 en este conjunto de fuentes. Vellum publica resultados para Terminal-Bench 2.0, SWE-Bench Pro, GDPval, GPQA Diamond y FrontierMath; OpenAI añade OSWorld-Verified, BrowseComp y MCP Atlas [2][
7].
Su señal más clara está en los flujos de trabajo con agentes, terminal y herramientas. GPT-5.5 supera a Claude Opus 4.7 en Terminal-Bench 2.0, con 82,7 % frente a 69,4 %; en BrowseComp, con 84,4 % frente a 79,3 %; y en OSWorld-Verified, con 78,7 % frente a 78,0 % [2][
7].
Eso no significa que gane en todo. Claude Opus 4.7 queda por delante en SWE-Bench Pro, MCP Atlas y GPQA Diamond en las fuentes citadas [2][
7]. La lectura práctica es sencilla: GPT-5.5 parece especialmente sólido cuando el trabajo exige coordinar pasos, usar herramientas y ejecutar flujos técnicos, pero no desplaza a Claude en todos los escenarios.
En seguridad y evaluación de comportamiento, OpenAI indica en la System Card que GPT-5.5 fue evaluado con CoT-Control, una suite de más de 13.000 tareas construidas a partir de benchmarks como GPQA, MMLU-Pro, HLE, BFCL y SWE-Bench Verified [4]. Ese dato ayuda a entender el marco de control del modelo, pero no debe sustituir a las puntuaciones de rendimiento en benchmarks concretos.
Claude Opus 4.7: la señal más fuerte está en ingeniería de software
Anthropic lista Claude Opus 4.7 en la documentación de Claude API con fecha del 16 de abril de 2026 [20]. En las comparaciones directas disponibles con GPT-5.5, su ventaja más importante aparece en SWE-Bench Pro: Claude Opus 4.7 alcanza 64,3 %, frente al 58,6 % de GPT-5.5 [
2].
También supera a GPT-5.5 en MCP Atlas, con 79,1 % frente a 75,3 %, según la tabla publicada por OpenAI [7]. A la vez, GPT-5.5 queda por delante en OSWorld-Verified y BrowseComp en esa misma fuente, y Vellum lo sitúa por encima en Terminal-Bench 2.0, GDPval y FrontierMath T1–3 [
2][
7].
Por tanto, Claude Opus 4.7 es una opción especialmente convincente cuando el criterio principal es resolver problemas de software, siempre que el caso de uso se parezca a lo que mide SWE-Bench Pro. Para flujos de navegador, herramientas o uso de ordenador, la elección exige mirar el benchmark concreto y no solo la marca del modelo.
En seguridad, Anthropic reporta en Petri 2.0 que dos intervenciones combinadas redujeron la eval-awareness en modelos Claude con una caída relativa mediana del 47,3 % [22]. Es un dato relevante para comportamiento y alineamiento, pero no debe leerse como una puntuación directa de rendimiento de Claude Opus 4.7.
DeepSeek V4: contexto enorme, con una alerta de fiabilidad
El informe técnico de DeepSeek-V4 señala que la serie V4 mantiene el marco DeepSeekMoE y la estrategia Multi-Token Prediction de DeepSeek-V3, e introduce mecanismos de atención híbrida para mejorar la eficiencia en contexto largo [30]. En la tabla de Artificial Analysis, DeepSeek V4 Pro aparece con una ventana de contexto de 1.000k tokens, frente a los 256k tokens de Kimi K2.6 [
33].
Ese es su gran atractivo: trabajar con documentos extensos o flujos donde retener mucho contexto importa. Pero la ventana de contexto no equivale automáticamente a mayor fiabilidad. Artificial Analysis reporta que DeepSeek V4 Pro Max obtiene -10 en AA-Omniscience, una mejora frente al -21 de DeepSeek V3.2 Reasoning, pero también informa una tasa de hallucination del 94 % para DeepSeek V4 Pro y del 96 % para DeepSeek V4 Flash [31].
La conclusión práctica es prudente: DeepSeek V4 Pro merece entrar en la lista si el problema exige contexto muy largo. Pero en tareas con coste alto de error —por ejemplo, análisis documental sensible, decisiones legales, financieras o técnicas— conviene combinarlo con grounding mediante recuperación, verificación factual y revisión humana cuando sea necesario [30][
31][
33].
Kimi K2.6: pesos abiertos y multimodalidad, pero faltan comparativas directas
Artificial Analysis describe Kimi K2.6 como un modelo de pesos abiertos lanzado en abril de 2026 y le asigna 54 puntos en el Artificial Analysis Intelligence Index [35]. Otro análisis de la misma firma indica que Kimi K2.6 admite entrada de imagen y vídeo, produce texto de forma nativa y mantiene una longitud máxima de contexto de 256k tokens [
36].
Frente a DeepSeek V4 Pro, Kimi K2.6 ofrece menos contexto en la tabla disponible: 256k tokens frente a 1.000k tokens [33]. Pero su perfil es distinto. Kimi K2.6 resulta más interesante para quien necesita un modelo multimodal de pesos abiertos que para quien busca simplemente la mayor ventana de contexto posible.
El punto débil de la evidencia es que, en las fuentes usadas, no aparece una batería completa de puntuaciones de Kimi K2.6 contra GPT-5.5 y Claude Opus 4.7 en Terminal-Bench 2.0, SWE-Bench Pro, GDPval, OSWorld-Verified o MCP Atlas [2][
7][
33][
35][
36]. Por eso, conviene tratarlo como candidato prometedor, no como ganador demostrado en categorías donde faltan datos comparables.
Qué modelo elegir según el trabajo
| Trabajo principal | Modelo que conviene mirar primero | Motivo basado en la evidencia disponible |
|---|---|---|
| Automatización en terminal y flujos con agentes | GPT-5.5 | Lidera frente a Claude Opus 4.7 en Terminal-Bench 2.0: 82,7 % frente a 69,4 % [ |
| Ingeniería de software y resolución de issues | Claude Opus 4.7 | Supera a GPT-5.5 en SWE-Bench Pro: 64,3 % frente a 58,6 % [ |
| Flujos de navegador y uso de herramientas | GPT-5.5 o Claude Opus 4.7, según la herramienta | GPT-5.5 lidera en BrowseComp, pero Claude Opus 4.7 lidera en MCP Atlas [ |
| Uso de ordenador o interfaz gráfica | GPT-5.5, con ventaja estrecha | OSWorld-Verified queda en 78,7 % para GPT-5.5 y 78,0 % para Claude Opus 4.7 [ |
| Documentos o contexto extremadamente largo | DeepSeek V4 Pro | Artificial Analysis indica una ventana de contexto de 1.000k tokens, aunque también reporta hallucination del 94 % para V4 Pro [ |
| Multimodalidad con pesos abiertos | Kimi K2.6 | Artificial Analysis lo identifica como modelo de pesos abiertos y señala entrada nativa de imagen y vídeo con salida textual [ |
| Máxima reducción de hallucination | No hay ganador global con estos datos | Hay una señal de riesgo clara en DeepSeek V4, pero no una comparativa completa de fiabilidad para los cuatro modelos en la misma fuente [ |
Lo que los benchmarks no cuentan por sí solos
Mezclar puntuaciones de fuentes distintas en una sola clasificación rígida es una mala idea. Vellum, OpenAI y Artificial Analysis publican pruebas, contextos y métricas diferentes [2][
7][
31][
33][
35]. Incluso en programación, la literatura académica advierte que benchmarks como HumanEval tienen limitaciones, y que las evaluaciones más cercanas al trabajo real deben considerar pruebas de resolución de issues como SWE-Bench [
42].
También conviene separar contexto de exactitud. DeepSeek V4 Pro aparece con 1.000k tokens de ventana de contexto, pero la misma familia de datos de Artificial Analysis reporta una tasa de hallucination del 94 % para DeepSeek V4 Pro [31][
33]. Un modelo puede leer mucho y, aun así, necesitar controles fuertes para responder correctamente.
Para producción, lo sensato es construir una evaluación propia con los documentos, herramientas, prompts y criterios de éxito reales. Si el modelo va a operar sobre información especializada o decisiones de alto impacto, los benchmarks públicos sirven como filtro inicial, no como autorización automática.
Conclusión
Con la evidencia disponible, GPT-5.5 es el candidato más fuerte para flujos con agentes, terminal y uso de herramientas en varias pruebas, porque supera a Claude Opus 4.7 en Terminal-Bench 2.0, BrowseComp y OSWorld-Verified [2][
7]. Claude Opus 4.7 destaca especialmente en ingeniería de software: en SWE-Bench Pro obtiene 64,3 %, frente al 58,6 % de GPT-5.5 [
2].
DeepSeek V4 Pro aporta una ventaja clara en contexto largo, con 1.000k tokens, pero esa fortaleza debe equilibrarse con la tasa de hallucination del 94 % reportada por Artificial Analysis [31][
33]. Kimi K2.6, por su parte, es un candidato atractivo si se buscan pesos abiertos y multimodalidad, con contexto de 256k tokens, entrada nativa de imagen y vídeo, y 54 puntos en el Artificial Analysis Intelligence Index [
35][
36].
La respuesta corta: no elija por marca ni por una tabla única. Elija por tarea, por benchmark relevante y por pruebas internas con sus propios datos.




