studioglobal
Популярное в «Открыть»
ОтчетыОпубликовано9 источники

GPT-5.5, Claude Opus 4.7, Kimi K2.6 y DeepSeek V4: quién lidera en benchmarks

No hay ganador absoluto: GPT 5.5 lidera en ARC AGI 2 con 85% y en Terminal Bench 2.0 con 82,7%, mientras Claude Opus 4.7 toma ventaja en HLE y SWE Bench Pro. Kimi K2.6 conviene leerlo como un candidato fuerte para coding y agentes: marca 54 en Artificial Analysis y 87 en el benchmark de AkitaOnRails, aunque hay meno...

18K0
Сравнение четырёх AI-моделей GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 на фоне графиков бенчмарков
GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмаркахСравнение бенчмарков показывает не одного абсолютного лидера, а разные сильные стороны моделей.
Промпт ИИ

Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмарках. Article summary: Единого победителя нет: GPT 5.5 ведёт в ARC AGI 2 с 85% против 75,8% у Claude и в Terminal Bench 2.0 с 82,7%, а Claude Opus 4.7 сильнее в HLE и SWE Bench Pro; вывод ограничен тем, что источники сравнивают разные режим.... Topic tags: ai, llm benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.

openai.com

Reducir GPT-5.5, Claude Opus 4.7, Kimi K2.6 y DeepSeek V4 a un único ganador sería engañoso. Las tablas disponibles cruzan pruebas distintas, modos distintos y, en algunos casos, no incluyen a los cuatro modelos en la misma fila. Aun así, el patrón es bastante claro: GPT-5.5 sale mejor parado en ARC y tareas de agente en terminal; Claude Opus 4.7 en HLE y SWE-Bench Pro; Kimi K2.6 es un rival interesante para coding y flujos agentic con ruta open-weight; y DeepSeek V4 no suele tener el score máximo, pero cambia la conversación por precio.[1][2][3][4][6][8][9][13]

Veredicto rápido

  • GPT-5.5: primera opción si tu prueba se parece a ARC-AGI o a agentes que operan en terminal. DocsBot le da 85% en ARC-AGI-2 frente al 75,8% de Claude Opus 4.7, y VentureBeat recoge 82,7% en Terminal-Bench 2.0 frente al 69,4% de Claude y 67,9% de DeepSeek.[1][3]
  • Claude Opus 4.7: destaca más en razonamiento exigente y revisión de software. En los datos citados por VentureBeat lidera Humanity’s Last Exam, o HLE, sin herramientas, y DataCamp le asigna 64,3% en SWE-Bench Pro, por encima de GPT-5.5 y DeepSeek V4 Pro.[3][9]
  • Kimi K2.6: no aparece en todas las mismas tablas, pero es competitivo. Artificial Analysis le da 54 frente a 57 de GPT-5.5 medium y 52 de Claude Opus 4.7 Non-reasoning high; en el benchmark de coding de AkitaOnRails marca 87.[13][8]
  • DeepSeek V4: en estos datos pesa más como opción de coste/rendimiento que como campeón de benchmark. Mashable cita US$1,74 por 1 millón de tokens de entrada y US$3,48 por 1 millón de salida, frente a US$5/US$30 de GPT-5.5 y US$5/US$25 de Claude Opus 4.7.[2]

Tabla comparativa de benchmarks

El guion indica que el fragmento de fuente disponible no ofrece un resultado comparable para ese modelo.

Benchmark / fuenteGPT-5.5Claude Opus 4.7Kimi K2.6DeepSeek V4Lectura rápida
ARC-AGI-2, DocsBot85%75,8%Ventaja de 9,2 puntos porcentuales para GPT-5.5.[1]
ARC-AGI-1, DocsBot95%93,5%GPT-5.5 queda algo por encima de Claude.[1]
Artificial Analysis leaderboard57, GPT-5.5 medium52, Claude Opus 4.7 Non-reasoning high54GPT-5.5 queda por delante de Kimi y de ese modo de Claude; DeepSeek V4 no aparece en el fragmento disponible.[13]
Humanity’s Last Exam sin herramientas, VentureBeat41,4%46,9%37,7%Claude lidera entre las filas base mostradas.[3]
Humanity’s Last Exam con herramientas, VentureBeat52,2%; GPT-5.5 Pro: 57,2%54,7%48,2%Claude supera a la fila base de GPT-5.5, pero la fila GPT-5.5 Pro supera a Claude.[3]
Terminal-Bench 2.0, VentureBeat82,7%69,4%67,9%Es el salto más claro a favor de GPT-5.5 en esta selección.[3]
SWE-Bench Pro, DataCamp58,6%64,3%55,4%, DeepSeek V4 ProClaude supera a GPT-5.5 y a DeepSeek V4 Pro.[9]
SWE-Bench Verified, Verdent87,6%80,2%Claude queda por encima de Kimi en este corte de coding.[6]
Coding benchmark, AkitaOnRails96, GPT-5.5 xHigh/Codex978778, V4 Flash; 69, V4 ProClaude y GPT-5.5 quedan prácticamente empatados; Kimi supera a las dos filas de DeepSeek V4.[8]

Por qué el ranking no cabe en una sola medalla

Los resultados no forman una liga cerrada donde todos juegan exactamente el mismo partido. Artificial Analysis compara GPT-5.5 medium, Kimi K2.6 y Claude Opus 4.7 Non-reasoning high; AkitaOnRails usa GPT-5.5 xHigh/Codex y separa DeepSeek V4 Flash de DeepSeek V4 Pro; VentureBeat distingue entre GPT-5.5 y GPT-5.5 Pro.[13][8][3]

Incluso el duelo más directo, GPT-5.5 contra Claude Opus 4.7, depende mucho de la familia de tareas. LLM Stats indica que, en 10 benchmarks reportados por ambos proveedores, Opus 4.7 lidera en 6 y GPT-5.5 en 4; las ventajas de Claude se concentran en pruebas de razonamiento y revisión, mientras que las de GPT-5.5 se agrupan en uso prolongado de herramientas y tareas guiadas por shell.[4]

Dónde brilla GPT-5.5

Los indicios más fuertes a favor de GPT-5.5 están en ARC y Terminal-Bench. En ARC-AGI-2 obtiene 85% frente al 75,8% de Claude Opus 4.7; en ARC-AGI-1 marca 95% frente a 93,5%.[1] Si tu caso de uso se parece a resolver patrones visuales, razonamiento abstracto o tareas de terminal ejecutadas por un agente, esos datos son los más relevantes de la comparación.

Terminal-Bench 2.0 refuerza esa lectura: VentureBeat recoge 82,7% para GPT-5.5, bastante por encima del 69,4% de Claude Opus 4.7 y del 67,9% de DeepSeek.[3] Artificial Analysis también coloca a GPT-5.5 medium por encima de Kimi K2.6, con 57 frente a 54, y del modo Claude Opus 4.7 Non-reasoning high, con 52.[13] El matiz importa: no es un ranking universal de todos los modos posibles de cada modelo.

Dónde brilla Claude Opus 4.7

Claude Opus 4.7 se ve más fuerte donde pesan el razonamiento duro y la revisión de código complejo. En Humanity’s Last Exam sin herramientas, VentureBeat cita 46,9% para Claude, 41,4% para GPT-5.5 y 37,7% para DeepSeek; con herramientas, Claude marca 54,7%, GPT-5.5 llega a 52,2% y DeepSeek a 48,2%.[3]

En SWE-Bench Pro, DataCamp da 64,3% a Claude Opus 4.7, 58,6% a GPT-5.5 y 55,4% a DeepSeek V4 Pro.[9] Esa ventaja encaja con la lectura de LLM Stats: Claude lidera frente a GPT-5.5 en GPQA, HLE sin herramientas, HLE con herramientas, SWE-Bench Pro, MCP Atlas y FinanceAgent v1.1.[4]

Cómo leer Kimi K2.6

Kimi K2.6 no encaja tan bien en un ranking único porque aparece en menos cruces directos con los otros tres. En Artificial Analysis obtiene 54, por debajo de GPT-5.5 medium con 57, pero por encima de Claude Opus 4.7 Non-reasoning high con 52.[13]

En el benchmark de coding de AkitaOnRails, Kimi K2.6 marca 87: queda por debajo de Claude Opus 4.7 con 97 y de GPT-5.5 xHigh/Codex con 96, pero por encima de DeepSeek V4 Flash con 78 y DeepSeek V4 Pro con 69.[8] En otra comparación de Verdent sobre SWE-Bench Verified, Kimi K2.6 aparece con 80,2% frente al 87,6% de Claude Opus 4.7.[6]

Su diferencia práctica está en la vía open-weight. Verdent indica que los pesos de K2.6 están disponibles en Hugging Face y que puede ejecutarse con vLLM, SGLang o KTransformers; también habla de una configuración mínima viable de 4× H100 para la variante INT4 con contexto reducido.[6] El README de Hugging Face recoge para Kimi K2.6 métricas agentic como HLE-Full con herramientas 54,0, BrowseComp 83,2, DeepSearchQA f1-score 92,5, Toolathlon 50,0 y MCPMark 55,9, aunque esa tabla compara Kimi sobre todo con GPT-5.4, Claude Opus 4.6 y Gemini 3.1 Pro, no con el conjunto completo de este artículo.[25]

Cómo leer DeepSeek V4

En las fuentes citadas, DeepSeek V4 se parece más a una apuesta de valor que a un líder de raw score. En VentureBeat queda por debajo de GPT-5.5 y Claude Opus 4.7 en HLE sin herramientas, HLE con herramientas y Terminal-Bench 2.0.[3] En DataCamp, DeepSeek V4 Pro obtiene 55,4% en SWE-Bench Pro frente al 58,6% de GPT-5.5 y el 64,3% de Claude.[9] En AkitaOnRails, DeepSeek V4 Flash marca 78 y DeepSeek V4 Pro 69, por debajo de Kimi K2.6, GPT-5.5 xHigh/Codex y Claude Opus 4.7 en esa misma tabla.[8]

El precio, sin embargo, puede cambiar la decisión de producto. Mashable sitúa DeepSeek V4 en US$1,74 por 1 millón de tokens de entrada y US$3,48 por 1 millón de tokens de salida; GPT-5.5 aparece en US$5/US$30 y Claude Opus 4.7 en US$5/US$25.[2] Eso no lo convierte en el ganador de los benchmarks, pero sí en un candidato lógico para borradores masivos, evaluaciones internas de bajo riesgo o pruebas donde el coste por intento pesa más que el mejor score posible.

Qué modelo probar primero

  • ARC, razonamiento visual y puzzles abstractos: empieza por GPT-5.5, porque en el cruce de DocsBot supera a Claude Opus 4.7 en ARC-AGI-2 y ARC-AGI-1.[1]
  • Razonamiento difícil tipo HLE: empieza por Claude Opus 4.7 si comparas las filas base; recuerda que VentureBeat muestra una fila GPT-5.5 Pro por encima de Claude en HLE con herramientas.[3]
  • Agentes en terminal, shell y tool-use: empieza por GPT-5.5, ya que Terminal-Bench 2.0 es su resultado directo más fuerte en estas fuentes.[3][4]
  • SWE-Bench Pro y revisión exigente de software: empieza por Claude Opus 4.7, porque DataCamp y LLM Stats señalan ventaja de Claude en SWE-Bench Pro.[9][4]
  • Open-weight, self-hosting o soberanía de datos: prueba Kimi K2.6 si ejecutar pesos propios con Hugging Face, vLLM, SGLang o KTransformers es más importante que usar solo API cerradas.[6]
  • Experimentos de alto volumen con presupuesto ajustado: considera DeepSeek V4 si el coste por intento importa más que perseguir el máximo benchmark score.[2][3][9]

Conclusión

Si la lectura es estrictamente de benchmarks, la parte alta se reparte entre GPT-5.5 y Claude Opus 4.7. GPT-5.5 sale mejor en ARC y Terminal-Bench; Claude Opus 4.7 en HLE y SWE-Bench Pro.[1][3][4][9] Kimi K2.6 queda como un candidato fuerte para código y agentes, especialmente cuando importa la opción open-weight, aunque tiene menos comparaciones directas con todo el grupo.[6][8][13] DeepSeek V4 suele quedar por debajo en raw score, pero su precio de API lo mantiene muy relevante para pilotos centrados en coste/rendimiento.[2][3][9]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Ключевые выводы

  • No hay ganador absoluto: GPT 5.5 lidera en ARC AGI 2 con 85% y en Terminal Bench 2.0 con 82,7%, mientras Claude Opus 4.7 toma ventaja en HLE y SWE Bench Pro.
  • Kimi K2.6 conviene leerlo como un candidato fuerte para coding y agentes: marca 54 en Artificial Analysis y 87 en el benchmark de AkitaOnRails, aunque hay menos comparaciones directas con los cuatro modelos.
  • DeepSeek V4 suele quedar por debajo en raw score, pero su API cuesta US$1,74 por 1 millón de tokens de entrada y US$3,48 por 1 millón de salida, frente a US$5/US$30 de GPT 5.5 y US$5/US$25 de Claude Opus 4.7.

Люди также спрашивают

Каков краткий ответ на вопрос «GPT-5.5, Claude Opus 4.7, Kimi K2.6 y DeepSeek V4: quién lidera en benchmarks»?

No hay ganador absoluto: GPT 5.5 lidera en ARC AGI 2 con 85% y en Terminal Bench 2.0 con 82,7%, mientras Claude Opus 4.7 toma ventaja en HLE y SWE Bench Pro.

Какие ключевые моменты необходимо проверить в первую очередь?

No hay ganador absoluto: GPT 5.5 lidera en ARC AGI 2 con 85% y en Terminal Bench 2.0 con 82,7%, mientras Claude Opus 4.7 toma ventaja en HLE y SWE Bench Pro. Kimi K2.6 conviene leerlo como un candidato fuerte para coding y agentes: marca 54 en Artificial Analysis y 87 en el benchmark de AkitaOnRails, aunque hay menos comparaciones directas con los cuatro modelos.

Что мне делать дальше на практике?

DeepSeek V4 suele quedar por debajo en raw score, pero su API cuesta US$1,74 por 1 millón de tokens de entrada y US$3,48 por 1 millón de salida, frente a US$5/US$30 de GPT 5.5 y US$5/US$25 de Claude Opus 4.7.

Какую связанную тему мне следует изучить дальше?

Продолжайте с «Claude Opus 4.7, GPT-5.5, DeepSeek V4 и Kimi K2.6: сравнение бенчмарков 2026 года», чтобы увидеть другой ракурс и дополнительные цитаты.

Открыть связанную страницу

Продолжайте свое исследование

Исследовательский разговор

Вы

Вопрос исследования

Сравните GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 по бенчмаркам.

Studio Global AI27 источники

Цитируемый ответ

По доступным фрагментам доказательств полноценное сравнение всех четырёх моделей “один к одному” сделать нельзя: есть частичные данные для GPT-5.5, Claude Opus 4.7 и Kimi K2.6, но в предоставленных источниках нет сопоставимых бенчмарков для DeepSeek V4. В имеющихся данных GPT-5.5 выглядит сильнее Claude Opus 4.7 на ARC-AGI-2 и немного выше Kimi K2.6 в общем рейтинге Artificial Analysis, а Kimi K2.6 имеет сильные отдельные результаты на агентных и coding-бенчмарках.

Key findings

МодельЧто есть по бенчмаркам в доступных данныхВывод
GPT-5.585% на ARC-AGI-2 против 75.8% у Claude Opus 4.7 в сравнении DocsBot; 57 баллов в таблице Artificial Analysis для GPT-5.5 medium [5][6]Лучший из подтверждённых фрагментов по ARC-AGI-2 и выше Kimi K2.6 в доступном общем рейтинге
Claude Opus 4.775.8% на ARC-AGI-2 против 85% у GPT-5.5 [5]В доступном прямом сравнении уступает GPT-5.5 на ARC-AGI-2
Kimi K2.654 балла в таблице Artificial Analysis; 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual [6][3]Сильная open-weight/agentic модель, особенно по coding/agentic задачам, но прямое сравнение с GPT-5.5/Claude/DeepSeek по тем же тестам неполное
DeepSeek V4В предоставленном фрагменте есть данные о цене API, но нет сопоставимых benchmark-score по тем же тестам [7]Insufficient evidence для бенчмарк-сравнения

Сравнение по отдельным бенчмаркам

  • На ARC-AGI-2 GPT-5.5 указан с результатом 85%, а Claude Opus 4.7 — с 75.8%, поэтому по этому фрагменту GPT-5.5 впереди на 9.2 процентного пункта [5].

  • В лидерборде Artificial Analysis GPT-5.5 medium указан с результатом 57, а Kimi K2.6 — с результатом 54, то есть GPT-5.5 выше на 3 пункта в этом доступном срезе [6].

  • Для Kimi K2.6 доступны отдельные агентные и coding-результаты: 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual [3].

  • Для DeepSeek V4 в предоставленных данных нет benchmark-score, сопоставимых с ARC-AGI-2, Artificial Analysis score, SWE-bench или Tau2-bench; есть только ценовое сравнение API, поэтому ранжировать DeepSeek V4 по бенчмаркам нельзя [7].

Evidence notes

  • Самое прямое сравнение GPT-5.5 и Claude Opus 4.7 в доступных данных — это DocsBot по ARC-AGI-2, где GPT-5.5 имеет 85%, а Claude Opus 4.7 — 75.8% [5].

  • Самое прямое сравнение GPT-5.5 и Kimi K2.6 в доступных данных — это фрагмент Artificial Analysis, где GPT-5.5 medium имеет 57, а Kimi K2.6 — 54 [6].

  • Для Kimi K2.6 есть более детальные результаты по специализированным тестам, но они не позволяют напрямую ранжировать её против GPT-5.5, Claude Opus 4.7 и DeepSeek V4 без результатов этих моделей на тех же бенчмарках [3].

Limitations / uncertainty

  • Insufficient evidence для полного ранжирования всех четырёх моделей, потому что предоставленные источники не дают единой таблицы, где GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 оценены на одинаковом наборе бенчмарков.

  • Insufficient evidence по DeepSeek V4 именно в бенчмарках: доступный фрагмент источника содержит API-цены и контекстное окно, но не benchmark-score [7].

  • Результаты из разных источников нельзя автоматически объединять в один строгий рейтинг, потому что они могут использовать разные методики, режимы запуска, версии моделей и наборы задач.

Summary

Если опираться только на предоставленные данные, GPT-5.5 выглядит лидером в имеющихся прямых сравнениях: он выше Claude Opus 4.7 на ARC-AGI-2 и выше Kimi K2.6 в фрагменте Artificial Analysis [5][6]. Kimi K2.6 имеет сильные подтверждённые результаты на агентных и coding-бенчмарках, включая SWE-bench Verified 65.8 [3]. Для DeepSeek V4 в предоставленных данных недостаточно benchmark-информации, поэтому корректно сравнить его с остальными по бенчмаркам невозможно [7].

Источники