Comparar GPT‑5.5, Claude Opus 4.7, Kimi K2.6 y DeepSeek V4 como si hubiera una sola liga universal lleva a una mala decisión. Con los datos públicos disponibles hasta abril de 2026, la lectura correcta es otra: qué modelo encaja mejor con cada carga de trabajo.
El aviso importante va primero. Las puntuaciones vienen de laboratorios, configuraciones de herramientas y niveles de esfuerzo distintos. LM Council advierte que los benchmarks ejecutados de forma independiente pueden no coincidir con los resultados auto-reportados por las organizaciones de IA. [12]
Veredicto rápido
- Agentes con navegador, uso de ordenador y terminal: GPT‑5.5 muestra la señal pública más fuerte. OpenAI reporta 82,7 % en Terminal‑Bench 2.0, 78,7 % en OSWorld‑Verified, 84,4 % en BrowseComp y 55,6 % en Toolathlon. [
5]
- Reparación de repositorios y software engineering realista: Claude Opus 4.7 es el candidato más fuerte para una shortlist. Sus cifras reportadas incluyen 87,6 % en SWE‑Bench Verified y 64,3 % en SWE‑Bench Pro. [
17]
- Pila de coding con pesos abiertos: Kimi K2.6 es muy competitivo. El material oficial de Kimi recoge 66,7 % en Terminal‑Bench 2.0, 58,6 % en SWE‑Bench Pro, 80,2 % en SWE‑Bench Verified y 89,6 en LiveCodeBench v6. [
29]
- Experimentación open-weights y contexto largo: DeepSeek V4 merece evaluación, pero hay que mirar la variante exacta. DeepSeek anunció que V4 Preview estaba disponible y open-sourced el 24 de abril de 2026. [
42]
- Razonamiento científico: Claude Opus 4.7 reporta 94,2 % en GPQA Diamond; Kimi K2.6 reporta 90,5 % en GPQA‑Diamond y 96,4 % en AIME 2026; las tablas de DeepSeek V4-Pro/Pro-Max reportan 90,1 en GPQA Diamond. [
19][
27][
29][
37]
Antes de leer la tabla: qué mide cada benchmark
No todos los benchmarks preguntan lo mismo. Terminal‑Bench se acerca a tareas de línea de comandos y agentes de desarrollo. SWE‑Bench evalúa la resolución de incidencias en repositorios. OSWorld mira uso de ordenador. BrowseComp se centra en búsqueda y navegación web. GPQA Diamond mide razonamiento científico de nivel avanzado, y HLE apunta a razonamiento difícil. Un modelo fuerte en coding no tiene por qué ser el mejor en navegación web o recuperación de contexto largo. [5][
17][
29]
También importa el presupuesto de inferencia. OpenAI describe GPT‑5.5 Pro como el mismo modelo subyacente que usa una configuración con computación paralela en tiempo de test; por eso sus números no deben mezclarse sin más con los de GPT‑5.5 estándar. [3]
Foto por modelo
| Modelo | Posicionamiento público | Señal más fuerte | Cuidado principal |
|---|---|---|---|
| GPT‑5.5 | OpenAI enfatiza computer-use, uso de herramientas y flujos agentic. [ | Terminal‑Bench 2.0 82,7 %, OSWorld‑Verified 78,7 %, BrowseComp 84,4 %; GPT‑5.5 Pro llega a 90,1 % en BrowseComp. [ | No compares GPT‑5.5 Pro como si tuviera el mismo presupuesto de inferencia que GPT‑5.5, porque Pro usa computación paralela en tiempo de test. [ |
| Claude Opus 4.7 | Anthropic lo presenta como un modelo de razonamiento híbrido para coding y agentes de IA con ventana de contexto de 1 millón de tokens. [ | SWE‑Bench Verified 87,6 % y SWE‑Bench Pro 64,3 %. [ | Una ventana de contexto grande no garantiza recuperación perfecta; StationX recoge una advertencia sobre recall en el extremo de 1 millón de tokens. [ |
| Kimi K2.6 | Modelo de Moonshot/Kimi orientado a coding, con enfoque open-source/open-weights. [ | Terminal‑Bench 2.0 66,7 %, SWE‑Bench Pro 58,6 %, SWE‑Bench Verified 80,2 %, LiveCodeBench v6 89,6. [ | Artificial Analysis indica que Kimi K2.6 admite entrada nativa de imagen y vídeo y una longitud máxima de contexto de 256k; el rendimiento real puede variar según despliegue y configuración. [ |
| DeepSeek V4-Pro / Pro-Max | DeepSeek dijo que V4 Preview estaba live y open-sourced; la tarjeta de Hugging Face presenta la serie V4 como modelos de lenguaje MoE. [ | SWE Verified 80,6, SWE Pro 55,4, Terminal Bench 2.0 67,9 y GPQA Diamond 90,1. [ | Bajo el nombre DeepSeek V4 hay diferencias de variante; no conviene mezclar resultados de Preview, Pro, Pro-Max o Flash como si fueran un único modelo. [ |
Tabla comparativa: benchmarks clave
| Benchmark | GPT‑5.5 | Claude Opus 4.7 | Kimi K2.6 | DeepSeek V4-Pro / Pro-Max | Lectura práctica |
|---|---|---|---|---|---|
| Terminal‑Bench 2.0 | 82,7 % [ | 69,4 % reportado [ | 66,7 % [ | 67,9 % [ | Para tareas de terminal y agentes de desarrollo autónomo, GPT‑5.5 muestra la ventaja más clara. |
| SWE‑Bench Pro | 58,6 % [ | 64,3 % [ | 58,6 % [ | 55,4 % [ | En software engineering difícil, Claude Opus 4.7 va por delante. |
| SWE‑Bench Verified | No hay valor comparable claro en este conjunto de fuentes | 87,6 % [ | 80,2 % [ | 80,6 % [ | Para resolver issues de repositorios, Claude tiene la señal reportada más fuerte. |
| OSWorld‑Verified | 78,7 % [ | 78,0 % [ | 73,1 % [ | No hay valor comparable claro | GPT‑5.5 y Claude Opus 4.7 aparecen muy cerca en uso de ordenador. |
| BrowseComp | 84,4 %; GPT‑5.5 Pro 90,1 % [ | 79,3 % [ | 83,2 %; Agent Swarm 86,3 % [ | No hay valor comparable claro | Para agentes de navegador e investigación web, GPT‑5.5 Pro y Kimi Agent Swarm son señales fuertes. |
| GPQA Diamond | No hay valor oficial comparable claro en este conjunto de fuentes | 94,2 % [ | 90,5 % [ | 90,1 % [ | En razonamiento científico avanzado, Claude reporta el valor más alto. |
| HLE / razonamiento difícil | No hay valor directamente comparable claro | HLE sin herramientas 46,9 %, con herramientas 54,7 % [ | HLE‑Full 34,7 %; con herramientas 54,0 % [ | HLE 37,7 % [ | Con herramientas, Claude y Kimi quedan cerca; DeepSeek aparece más abajo en la cifra listada. |
| Contexto largo | En estas fuentes no aparece una especificación pública comparable | Ventana de 1 millón de tokens [ | 256k de contexto máximo [ | Materiales V4 con posicionamiento de contexto largo [ | Para contexto largo, no mires solo la ventana: prueba recall, coste e instrucciones con tus propios documentos. |
Qué modelo elegir según el caso de uso
1. Agentes autónomos con terminal y navegador: GPT‑5.5
Si tu carga de trabajo incluye acciones en terminal, navegación, uso de herramientas, interacción con el sistema operativo y bucles agentic de varios pasos, GPT‑5.5 es el modelo que más destaca en este conjunto de datos. OpenAI reporta 82,7 % en Terminal‑Bench 2.0, 78,7 % en OSWorld‑Verified, 84,4 % en BrowseComp y 55,6 % en Toolathlon. [5]
La salvedad es GPT‑5.5 Pro: su 90,1 % en BrowseComp es potente, pero no debe leerse como si fuera el mismo presupuesto de inferencia que GPT‑5.5 normal, porque OpenAI lo describe como el mismo modelo subyacente usando computación paralela en tiempo de test. [3][
5]
Mejor encaje: agentes de coding, investigación web con navegador, automatización de computer-use y asistentes empresariales que orquestan herramientas.
2. Reparación de código de producción: Claude Opus 4.7
Si el KPI central es arreglar bugs en repositorios reales, preparar cambios, pasar tests y entender bases de código grandes, Claude Opus 4.7 es el candidato más fuerte para probar primero. Sus cifras reportadas de 87,6 % en SWE‑Bench Verified y 64,3 % en SWE‑Bench Pro lo ponen por delante en benchmarks de ingeniería de software. [17]
Anthropic lo presenta además como un modelo de razonamiento híbrido para coding y agentes de IA con ventana de contexto de 1 millón de tokens, lo que lo hace natural para flujos sobre codebases extensas. [14]
Mejor encaje: mantenimiento de repositorios, code review, refactors complejos, copilotos para desarrolladores y agentes de ingeniería.
3. Coding con pesos abiertos: Kimi K2.6
Si necesitas un modelo con pesos abiertos o más control de despliegue, Kimi K2.6 entra con fuerza. En la tabla oficial de Kimi aparecen 66,7 % en Terminal‑Bench 2.0, 58,6 % en SWE‑Bench Pro, 80,2 % en SWE‑Bench Verified, 52,2 % en SciCode y 89,6 en LiveCodeBench v6. [29]
También tiene señales interesantes en flujos de búsqueda y agentes: BrowseComp 83,2 % y Agent Swarm BrowseComp 86,3 %. [34] Artificial Analysis señala además soporte nativo para entrada de imagen y vídeo y una longitud máxima de contexto de 256k. [
32]
Mejor encaje: despliegues open-weights, agentes de coding, agentes de investigación y equipos que necesitan más control sobre hosting o configuración.
4. Experimentación open-weights y contexto largo: DeepSeek V4
DeepSeek anunció que V4 Preview estaba disponible y open-sourced el 24 de abril de 2026. [42] La tarjeta de DeepSeek‑V4‑Pro en Hugging Face presenta la serie V4 como modelos de lenguaje MoE. [
37]
En las cifras reportadas para DeepSeek V4-Pro/Pro-Max aparecen 67,9 en Terminal Bench 2.0, 80,6 en SWE Verified, 55,4 en SWE Pro y 90,1 en GPQA Diamond. [37] Eso lo convierte en un candidato estratégico para experimentación open-source/open-weights y cargas de contexto largo, siempre que se lea cada puntuación junto a su variante exacta. [
37][
42]
Mejor encaje: aplicaciones de contexto largo, investigación con modelos open-weights y equipos que comparan modelos frontier hospedados con alternativas desplegables.
5. Ciencia y matemáticas: Claude lidera en GPQA, pero no cierres la compra con una sola prueba
En los números disponibles, Claude Opus 4.7 llega a 94,2 % en GPQA Diamond. [19] Kimi K2.6 reporta 90,5 % en GPQA‑Diamond y 96,4 % en AIME 2026. [
27][
29] DeepSeek V4-Pro/Pro-Max reporta 90,1 en GPQA Diamond. [
37]
Para ciencia y matemáticas, el titular no basta. El acceso a herramientas, el modo de esfuerzo, el harness y el tipo de pregunta pueden mover el resultado. Por eso conviene construir una evaluación propia antes de elegir un modelo para investigación o flujos técnicos críticos. [12]
Checklist práctico para decidir
- No compres por un único leaderboard. Usa las tablas públicas para reducir opciones, no como veredicto final. Los resultados independientes pueden no coincidir con los auto-reportados. [
12]
- Separa GPT‑5.5 de GPT‑5.5 Pro. Pro usa computación paralela en tiempo de test, así que sus resultados no equivalen automáticamente a los de GPT‑5.5 con el mismo presupuesto. [
3]
- Define si necesitas pesos abiertos antes de comparar. Si control de datos, self-hosting o personalización pesan más que el leaderboard, pon Kimi K2.6 y DeepSeek V4 en una vía de evaluación separada. [
29][
34][
37][
42]
- Prueba contexto largo con tus documentos. Claude Opus 4.7 tiene una ventana de 1 millón de tokens, Kimi K2.6 reporta 256k y DeepSeek V4 se posiciona en contexto largo; aun así, recall, coste y seguimiento de instrucciones deben medirse con datos propios. [
14][
17][
32][
37][
42]
- Para agentes de coding, combina benchmark público y repositorio interno. SWE‑Bench es una buena señal, pero los repos reales tienen dependencias, tests frágiles, estilos de código y restricciones de revisión que no siempre aparecen en el benchmark. [
17]
Limitaciones de esta comparación
- No hay, en este conjunto de fuentes, una comparación pública completa donde los cuatro modelos se evalúen por el mismo laboratorio independiente, con el mismo harness, las mismas herramientas y el mismo nivel de esfuerzo; LM Council advierte precisamente sobre diferencias entre benchmarks independientes y resultados auto-reportados. [
12]
- GPT‑5.5 Pro y GPT‑5.5 no deben mezclarse como si fueran la misma configuración, porque OpenAI describe Pro como el mismo modelo subyacente usando computación paralela en tiempo de test. [
3]
- Las cifras de DeepSeek V4 son específicas de variante. V4 Preview, V4-Pro, Pro-Max o Flash no deberían convertirse en una única puntuación genérica llamada DeepSeek V4. [
37][
42]
- En modelos open-weights como Kimi K2.6 y DeepSeek V4, el resultado publicado debe complementarse con pruebas de tu propio despliegue, porque la pila de serving, hardware, cuantización y ajustes de contexto pueden cambiar la experiencia final. [
29][
34][
37]
Conclusión
Elige GPT‑5.5 si tu producto depende de agentes que navegan, usan herramientas, operan en terminal y ejecutan tareas de varios pasos. [5]
Prioriza Claude Opus 4.7 si el valor principal está en reparar repositorios, resolver bugs y trabajar sobre bases de código complejas. [14][
17]
Evalúa Kimi K2.6 si necesitas un modelo de coding con pesos abiertos y señales fuertes en SWE‑Bench, Terminal‑Bench y búsqueda agentic. [29][
34]
Pon DeepSeek V4-Pro/Pro-Max en la shortlist si el contexto largo, la experimentación open-source/open-weights y la desplegabilidad son restricciones clave, pero verifica siempre variante y configuración. [37][
42]
La decisión más segura no es copiar el primer puesto de una tabla: es usar los benchmarks para hacer una shortlist y después medir con tus tareas reales, tus límites de latencia, tus costes, tus requisitos de privacidad y tus propios tests de fallo. [12]




