ОтчетыОпубликовано28 апр. 2026Last edited 6 мая 20269 источники

GPT-5.5, Claude Opus 4.7, Kimi K2.6 y DeepSeek V4: quién lidera en benchmarks

No hay ganador absoluto: GPT 5.5 lidera en ARC AGI 2 con 85% y en Terminal Bench 2.0 con 82,7%, mientras Claude Opus 4.7 toma ventaja en HLE y SWE Bench Pro. Kimi K2.6 conviene leerlo como un candidato fuerte para coding y agentes: marca 54 en Artificial Analysis y 87 en el benchmark de AkitaOnRails, aunque hay meno...

Искать и проверять факты с Studio Global AI Смотреть больше в «Открыть»

18K0

Сравнение четырёх AI-моделей GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 на фоне графиков бенчмарков — GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмаркахСравнение бенчмарков показывает не одного абсолютного лидера, а разные сильные стороны моделей.
Промпт ИИ
Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмарках. Article summary: Единого победителя нет: GPT 5.5 ведёт в ARC AGI 2 с 85% против 75,8% у Claude и в Terminal Bench 2.0 с 82,7%, а Claude Opus 4.7 сильнее в HLE и SWE Bench Pro; вывод ограничен тем, что источники сравнивают разные режим.... Topic tags: ai, llm benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.com/watch?v=M90iB4hpenI). ![Image 4](https://www.youtube.com/watch?v=M90iB4hpenI). [](https://www.youtube.com" source context "Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison - YouTube" Reference image 2: visual subject "[Kimi K2 vs Claude Opus 4.7 vs GPT 5.5 Comparison](https://www.youtube.
openai.com

Reducir GPT-5.5, Claude Opus 4.7, Kimi K2.6 y DeepSeek V4 a un único ganador sería engañoso. Las tablas disponibles cruzan pruebas distintas, modos distintos y, en algunos casos, no incluyen a los cuatro modelos en la misma fila. Aun así, el patrón es bastante claro: GPT-5.5 sale mejor parado en ARC y tareas de agente en terminal; Claude Opus 4.7 en HLE y SWE-Bench Pro; Kimi K2.6 es un rival interesante para coding y flujos agentic con ruta open-weight; y DeepSeek V4 no suele tener el score máximo, pero cambia la conversación por precio.^[1]^[2]^[3]^[4]^[6]^[8]^[9]^[13]

Veredicto rápido

GPT-5.5: primera opción si tu prueba se parece a ARC-AGI o a agentes que operan en terminal. DocsBot le da 85% en ARC-AGI-2 frente al 75,8% de Claude Opus 4.7, y VentureBeat recoge 82,7% en Terminal-Bench 2.0 frente al 69,4% de Claude y 67,9% de DeepSeek.^[1]^[3]
Claude Opus 4.7: destaca más en razonamiento exigente y revisión de software. En los datos citados por VentureBeat lidera Humanity’s Last Exam, o HLE, sin herramientas, y DataCamp le asigna 64,3% en SWE-Bench Pro, por encima de GPT-5.5 y DeepSeek V4 Pro.^[3]^[9]
Kimi K2.6: no aparece en todas las mismas tablas, pero es competitivo. Artificial Analysis le da 54 frente a 57 de GPT-5.5 medium y 52 de Claude Opus 4.7 Non-reasoning high; en el benchmark de coding de AkitaOnRails marca 87.^[13]^[8]
DeepSeek V4: en estos datos pesa más como opción de coste/rendimiento que como campeón de benchmark. Mashable cita US$1,74 por 1 millón de tokens de entrada y US$3,48 por 1 millón de salida, frente a US$5/US$30 de GPT-5.5 y US$5/US$25 de Claude Opus 4.7.^[2]

Tabla comparativa de benchmarks

El guion — indica que el fragmento de fuente disponible no ofrece un resultado comparable para ese modelo.

Benchmark / fuente	GPT-5.5	Claude Opus 4.7	Kimi K2.6	DeepSeek V4	Lectura rápida
ARC-AGI-2, DocsBot	85%	75,8%	—	—	Ventaja de 9,2 puntos porcentuales para GPT-5.5.^[1]
ARC-AGI-1, DocsBot	95%	93,5%	—	—	GPT-5.5 queda algo por encima de Claude.^[1]
Artificial Analysis leaderboard	57, GPT-5.5 medium	52, Claude Opus 4.7 Non-reasoning high	54	—	GPT-5.5 queda por delante de Kimi y de ese modo de Claude; DeepSeek V4 no aparece en el fragmento disponible.^[13]
Humanity’s Last Exam sin herramientas, VentureBeat	41,4%	46,9%	—	37,7%	Claude lidera entre las filas base mostradas.^[3]
Humanity’s Last Exam con herramientas, VentureBeat	52,2%; GPT-5.5 Pro: 57,2%	54,7%	—	48,2%	Claude supera a la fila base de GPT-5.5, pero la fila GPT-5.5 Pro supera a Claude.^[3]
Terminal-Bench 2.0, VentureBeat	82,7%	69,4%	—	67,9%	Es el salto más claro a favor de GPT-5.5 en esta selección.^[3]
SWE-Bench Pro, DataCamp	58,6%	64,3%	—	55,4%, DeepSeek V4 Pro	Claude supera a GPT-5.5 y a DeepSeek V4 Pro.^[9]
SWE-Bench Verified, Verdent	—	87,6%	80,2%	—	Claude queda por encima de Kimi en este corte de coding.^[6]
Coding benchmark, AkitaOnRails	96, GPT-5.5 xHigh/Codex	97	87	78, V4 Flash; 69, V4 Pro	Claude y GPT-5.5 quedan prácticamente empatados; Kimi supera a las dos filas de DeepSeek V4.^[8]

Por qué el ranking no cabe en una sola medalla

Los resultados no forman una liga cerrada donde todos juegan exactamente el mismo partido. Artificial Analysis compara GPT-5.5 medium, Kimi K2.6 y Claude Opus 4.7 Non-reasoning high; AkitaOnRails usa GPT-5.5 xHigh/Codex y separa DeepSeek V4 Flash de DeepSeek V4 Pro; VentureBeat distingue entre GPT-5.5 y GPT-5.5 Pro.^[13]^[8]^[3]

Incluso el duelo más directo, GPT-5.5 contra Claude Opus 4.7, depende mucho de la familia de tareas. LLM Stats indica que, en 10 benchmarks reportados por ambos proveedores, Opus 4.7 lidera en 6 y GPT-5.5 en 4; las ventajas de Claude se concentran en pruebas de razonamiento y revisión, mientras que las de GPT-5.5 se agrupan en uso prolongado de herramientas y tareas guiadas por shell.^[4]

Dónde brilla GPT-5.5

Los indicios más fuertes a favor de GPT-5.5 están en ARC y Terminal-Bench. En ARC-AGI-2 obtiene 85% frente al 75,8% de Claude Opus 4.7; en ARC-AGI-1 marca 95% frente a 93,5%.^[1] Si tu caso de uso se parece a resolver patrones visuales, razonamiento abstracto o tareas de terminal ejecutadas por un agente, esos datos son los más relevantes de la comparación.

Terminal-Bench 2.0 refuerza esa lectura: VentureBeat recoge 82,7% para GPT-5.5, bastante por encima del 69,4% de Claude Opus 4.7 y del 67,9% de DeepSeek.^[3] Artificial Analysis también coloca a GPT-5.5 medium por encima de Kimi K2.6, con 57 frente a 54, y del modo Claude Opus 4.7 Non-reasoning high, con 52.^[13] El matiz importa: no es un ranking universal de todos los modos posibles de cada modelo.

Dónde brilla Claude Opus 4.7

Claude Opus 4.7 se ve más fuerte donde pesan el razonamiento duro y la revisión de código complejo. En Humanity’s Last Exam sin herramientas, VentureBeat cita 46,9% para Claude, 41,4% para GPT-5.5 y 37,7% para DeepSeek; con herramientas, Claude marca 54,7%, GPT-5.5 llega a 52,2% y DeepSeek a 48,2%.^[3]

En SWE-Bench Pro, DataCamp da 64,3% a Claude Opus 4.7, 58,6% a GPT-5.5 y 55,4% a DeepSeek V4 Pro.^[9] Esa ventaja encaja con la lectura de LLM Stats: Claude lidera frente a GPT-5.5 en GPQA, HLE sin herramientas, HLE con herramientas, SWE-Bench Pro, MCP Atlas y FinanceAgent v1.1.^[4]

Cómo leer Kimi K2.6

Kimi K2.6 no encaja tan bien en un ranking único porque aparece en menos cruces directos con los otros tres. En Artificial Analysis obtiene 54, por debajo de GPT-5.5 medium con 57, pero por encima de Claude Opus 4.7 Non-reasoning high con 52.^[13]

En el benchmark de coding de AkitaOnRails, Kimi K2.6 marca 87: queda por debajo de Claude Opus 4.7 con 97 y de GPT-5.5 xHigh/Codex con 96, pero por encima de DeepSeek V4 Flash con 78 y DeepSeek V4 Pro con 69.^[8] En otra comparación de Verdent sobre SWE-Bench Verified, Kimi K2.6 aparece con 80,2% frente al 87,6% de Claude Opus 4.7.^[6]

Su diferencia práctica está en la vía open-weight. Verdent indica que los pesos de K2.6 están disponibles en Hugging Face y que puede ejecutarse con vLLM, SGLang o KTransformers; también habla de una configuración mínima viable de 4× H100 para la variante INT4 con contexto reducido.^[6] El README de Hugging Face recoge para Kimi K2.6 métricas agentic como HLE-Full con herramientas 54,0, BrowseComp 83,2, DeepSearchQA f1-score 92,5, Toolathlon 50,0 y MCPMark 55,9, aunque esa tabla compara Kimi sobre todo con GPT-5.4, Claude Opus 4.6 y Gemini 3.1 Pro, no con el conjunto completo de este artículo.^[25]

Cómo leer DeepSeek V4

En las fuentes citadas, DeepSeek V4 se parece más a una apuesta de valor que a un líder de raw score. En VentureBeat queda por debajo de GPT-5.5 y Claude Opus 4.7 en HLE sin herramientas, HLE con herramientas y Terminal-Bench 2.0.^[3] En DataCamp, DeepSeek V4 Pro obtiene 55,4% en SWE-Bench Pro frente al 58,6% de GPT-5.5 y el 64,3% de Claude.^[9] En AkitaOnRails, DeepSeek V4 Flash marca 78 y DeepSeek V4 Pro 69, por debajo de Kimi K2.6, GPT-5.5 xHigh/Codex y Claude Opus 4.7 en esa misma tabla.^[8]

El precio, sin embargo, puede cambiar la decisión de producto. Mashable sitúa DeepSeek V4 en US$1,74 por 1 millón de tokens de entrada y US$3,48 por 1 millón de tokens de salida; GPT-5.5 aparece en US$5/US$30 y Claude Opus 4.7 en US$5/US$25.^[2] Eso no lo convierte en el ganador de los benchmarks, pero sí en un candidato lógico para borradores masivos, evaluaciones internas de bajo riesgo o pruebas donde el coste por intento pesa más que el mejor score posible.

Qué modelo probar primero

ARC, razonamiento visual y puzzles abstractos: empieza por GPT-5.5, porque en el cruce de DocsBot supera a Claude Opus 4.7 en ARC-AGI-2 y ARC-AGI-1.^[1]
Razonamiento difícil tipo HLE: empieza por Claude Opus 4.7 si comparas las filas base; recuerda que VentureBeat muestra una fila GPT-5.5 Pro por encima de Claude en HLE con herramientas.^[3]
Agentes en terminal, shell y tool-use: empieza por GPT-5.5, ya que Terminal-Bench 2.0 es su resultado directo más fuerte en estas fuentes.^[3]^[4]
SWE-Bench Pro y revisión exigente de software: empieza por Claude Opus 4.7, porque DataCamp y LLM Stats señalan ventaja de Claude en SWE-Bench Pro.^[9]^[4]
Open-weight, self-hosting o soberanía de datos: prueba Kimi K2.6 si ejecutar pesos propios con Hugging Face, vLLM, SGLang o KTransformers es más importante que usar solo API cerradas.^[6]
Experimentos de alto volumen con presupuesto ajustado: considera DeepSeek V4 si el coste por intento importa más que perseguir el máximo benchmark score.^[2]^[3]^[9]

Conclusión

Si la lectura es estrictamente de benchmarks, la parte alta se reparte entre GPT-5.5 y Claude Opus 4.7. GPT-5.5 sale mejor en ARC y Terminal-Bench; Claude Opus 4.7 en HLE y SWE-Bench Pro.^[1]^[3]^[4]^[9] Kimi K2.6 queda como un candidato fuerte para código y agentes, especialmente cuando importa la opción open-weight, aunque tiene menos comparaciones directas con todo el grupo.^[6]^[8]^[13] DeepSeek V4 suele quedar por debajo en raw score, pero su precio de API lo mantiene muy relevante para pilotos centrados en coste/rendimiento.^[2]^[3]^[9]

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Ключевые выводы

No hay ganador absoluto: GPT 5.5 lidera en ARC AGI 2 con 85% y en Terminal Bench 2.0 con 82,7%, mientras Claude Opus 4.7 toma ventaja en HLE y SWE Bench Pro.
Kimi K2.6 conviene leerlo como un candidato fuerte para coding y agentes: marca 54 en Artificial Analysis y 87 en el benchmark de AkitaOnRails, aunque hay menos comparaciones directas con los cuatro modelos.
DeepSeek V4 suele quedar por debajo en raw score, pero su API cuesta US$1,74 por 1 millón de tokens de entrada y US$3,48 por 1 millón de salida, frente a US$5/US$30 de GPT 5.5 y US$5/US$25 de Claude Opus 4.7.

Люди также спрашивают

Каков краткий ответ на вопрос «GPT-5.5, Claude Opus 4.7, Kimi K2.6 y DeepSeek V4: quién lidera en benchmarks»?

No hay ganador absoluto: GPT 5.5 lidera en ARC AGI 2 con 85% y en Terminal Bench 2.0 con 82,7%, mientras Claude Opus 4.7 toma ventaja en HLE y SWE Bench Pro.

Какие ключевые моменты необходимо проверить в первую очередь?

Что мне делать дальше на практике?

DeepSeek V4 suele quedar por debajo en raw score, pero su API cuesta US$1,74 por 1 millón de tokens de entrada y US$3,48 por 1 millón de salida, frente a US$5/US$30 de GPT 5.5 y US$5/US$25 de Claude Opus 4.7.

Какую связанную тему мне следует изучить дальше?

Продолжайте с «Claude Opus 4.7, GPT-5.5, DeepSeek V4 и Kimi K2.6: сравнение бенчмарков 2026 года», чтобы увидеть другой ракурс и дополнительные цитаты.

Открыть связанную страницу

С чем мне это сравнить?

Сверьте этот ответ с «Northwest и Southeast timber: почему ответ — «larger; larger»».

Открыть связанную страницу

Продолжайте свое исследование

Comparativa de benchmarks 2026 entre Claude Opus 4.7, GPT-5.5, DeepSeek V4 y Kimi K2.6

Claude Opus 4.7, GPT-5.5, DeepSeek V4 и Kimi K2.6: сравнение бенчмарков 2026 года

Claude Opus 4.7 против GPT-5.5, DeepSeek V4 и Kimi K2.6: кто сильнее по бенчмаркам

Northwest и Southeast timber: почему ответ — «larger; larger»

Почему при большей заменяемости Northwest и Southeast timber обе эластичности становятся larger

抽象 AI 晶片與多個聊天機器人平台競爭的示意圖，象徵 DeepSeek 挑戰 OpenAI、Claude、Gemini 與 Grok

DeepSeek против OpenAI, Claude, Gemini и Grok: решат цена и доверие, а не рейтинги

Сможет ли DeepSeek обойти OpenAI, Claude, Gemini и Grok?

Illustration of an AI coding agent connected to cloud database and backup systems

Инцидент PocketOS: что на самом деле показывает история с Claude, Cursor и удалённой базой

Удаление базы PocketOS: урок не в том, что «ИИ сошёл с ума»

Исследовательский разговор

Вы26 апр. 2026

Вопрос исследования

Сравните GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 по бенчмаркам.

Studio Global AI26 апр. 202627 источники

Цитируемый ответ

По доступным фрагментам доказательств полноценное сравнение всех четырёх моделей “один к одному” сделать нельзя: есть частичные данные для GPT-5.5, Claude Opus 4.7 и Kimi K2.6, но в предоставленных источниках нет сопоставимых бенчмарков для DeepSeek V4. В имеющихся данных GPT-5.5 выглядит сильнее Claude Opus 4.7 на ARC-AGI-2 и немного выше Kimi K2.6 в общем рейтинге Artificial Analysis, а Kimi K2.6 имеет сильные отдельные результаты на агентных и coding-бенчмарках.

Key findings

Модель	Что есть по бенчмаркам в доступных данных	Вывод
GPT-5.5	85% на ARC-AGI-2 против 75.8% у Claude Opus 4.7 в сравнении DocsBot; 57 баллов в таблице Artificial Analysis для GPT-5.5 medium ^[5]^[6]	Лучший из подтверждённых фрагментов по ARC-AGI-2 и выше Kimi K2.6 в доступном общем рейтинге
Claude Opus 4.7	75.8% на ARC-AGI-2 против 85% у GPT-5.5 ^[5]	В доступном прямом сравнении уступает GPT-5.5 на ARC-AGI-2
Kimi K2.6	54 балла в таблице Artificial Analysis; 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual ^[6]^[3]	Сильная open-weight/agentic модель, особенно по coding/agentic задачам, но прямое сравнение с GPT-5.5/Claude/DeepSeek по тем же тестам неполное
DeepSeek V4	В предоставленном фрагменте есть данные о цене API, но нет сопоставимых benchmark-score по тем же тестам ^[7]	Insufficient evidence для бенчмарк-сравнения

Сравнение по отдельным бенчмаркам

На ARC-AGI-2 GPT-5.5 указан с результатом 85%, а Claude Opus 4.7 — с 75.8%, поэтому по этому фрагменту GPT-5.5 впереди на 9.2 процентного пункта ^[5].
В лидерборде Artificial Analysis GPT-5.5 medium указан с результатом 57, а Kimi K2.6 — с результатом 54, то есть GPT-5.5 выше на 3 пункта в этом доступном срезе ^[6].
Для Kimi K2.6 доступны отдельные агентные и coding-результаты: 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual ^[3].
Для DeepSeek V4 в предоставленных данных нет benchmark-score, сопоставимых с ARC-AGI-2, Artificial Analysis score, SWE-bench или Tau2-bench; есть только ценовое сравнение API, поэтому ранжировать DeepSeek V4 по бенчмаркам нельзя ^[7].

Evidence notes

Самое прямое сравнение GPT-5.5 и Claude Opus 4.7 в доступных данных — это DocsBot по ARC-AGI-2, где GPT-5.5 имеет 85%, а Claude Opus 4.7 — 75.8% ^[5].
Самое прямое сравнение GPT-5.5 и Kimi K2.6 в доступных данных — это фрагмент Artificial Analysis, где GPT-5.5 medium имеет 57, а Kimi K2.6 — 54 ^[6].
Для Kimi K2.6 есть более детальные результаты по специализированным тестам, но они не позволяют напрямую ранжировать её против GPT-5.5, Claude Opus 4.7 и DeepSeek V4 без результатов этих моделей на тех же бенчмарках ^[3].

Limitations / uncertainty

Insufficient evidence для полного ранжирования всех четырёх моделей, потому что предоставленные источники не дают единой таблицы, где GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 оценены на одинаковом наборе бенчмарков.
Insufficient evidence по DeepSeek V4 именно в бенчмарках: доступный фрагмент источника содержит API-цены и контекстное окно, но не benchmark-score ^[7].
Результаты из разных источников нельзя автоматически объединять в один строгий рейтинг, потому что они могут использовать разные методики, режимы запуска, версии моделей и наборы задач.

Summary

Если опираться только на предоставленные данные, GPT-5.5 выглядит лидером в имеющихся прямых сравнениях: он выше Claude Opus 4.7 на ARC-AGI-2 и выше Kimi K2.6 в фрагменте Artificial Analysis ^[5]^[6]. Kimi K2.6 имеет сильные подтверждённые результаты на агентных и coding-бенчмарках, включая SWE-bench Verified 65.8 ^[3]. Для DeepSeek V4 в предоставленных данных недостаточно benchmark-информации, поэтому корректно сравнить его с остальными по бенчмаркам невозможно ^[7].

Источники

[1] Claude Opus 4.7 vs GPT-5.5 - Detailed Performance & Feature Comparisondocsbot.ai
Benchmark Claude Opus 4.7 GPT-5.5 --- ARC-AGI-2 Visual reasoning puzzles benchmark, ARC Prize Verified, testing abstract reasoning and visual problem-solving 75.8% Verified Source 85% Verified Source ARC-AGI-1 Abstract reasoning benchmark (ARC Prize Verifie...
[2] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com
Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...
[3] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com
On Humanity’s Last Exam without tools, DeepSeek scores 37.7%, behind GPT-5.5 at 41.4%, GPT-5.5 Pro at 43.1% and Claude Opus 4.7 at 46.9%. With tools enabled, DeepSeek rises to 48.2%, but still trails GPT-5.5 at 52.2%, GPT-5.5 Pro at 57.2% and Claude Opus 4....
[4] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com
01 Which is better, GPT-5.5 or Claude Opus 4.7?On the 10 benchmarks both providers report,Opus 4.7 leads on 6 (GPQA, HLE no tools, HLE with tools, SWE-Bench Pro, MCP Atlas, FinanceAgent v1.1) andGPT-5.5 leads on 4 (Terminal-Bench 2.0, BrowseComp, OSWorld-Ve...
[6] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4: Agentic Coding Benchmarks (2026) - Verdent Guidesverdent.ai
Yes. K2.6 weights are on Hugging Face and run on vLLM, SGLang, or KTransformers. Minimum viable hardware is 4× H100 for the INT4 variant at reduced context. Claude and GPT-5.4 are API-only — there is no self-hosted path. If data sovereignty is a requirement...
[8] LLM Coding Benchmark (April 2026): GPT 5.5, DeepSeek v4, Kimi ...akitaonrails.com
Rank Model Score Tier RubyLLM OK Time Cost --- --- --- 1 Claude Opus 4.7 97 A ✅ 18m $1.10 1 GPT 5.4 xHigh (Codex) 97 A ✅ 22m $16 3 GPT 5.5 xHigh (Codex) 96 A ✅ 18m $10 4 Kimi K2.6 87 A ✅ 20m $0.30 5 Claude Opus 4.6 83 A ✅ 16m $1.10 6 Gemini 3.1 Pro 82 A ✅ 1...
[9] DeepSeek V4: Features, Benchmarks, and Comparisonsdatacamp.com
DeepSeek V4 vs Competitors Over the last week, we’ve seen the release of OpenAI's GPT-5.5 and Anthropic's Claude Opus 4.7. While those models boast top-tier capabilities, especially in long-context reasoning and agentic coding, DeepSeek V4 competes heavily...
[13] Comparison of over 100 AI models from OpenAI, Google, DeepSeek ...artificialanalysis.ai
GPT-5.5 (medium) 922k OpenAIOpenAI 57 -- -- Model Providers Kimi K2.6 256k KimiKimi 54 $1.71 134 1.04 38.01 Model Providers MiMo-V2.5-Pro 1M XiaomiXiaomi 54 $1.50 59 2.80 44.98 Model Providers GPT-5.3 Codex (xhigh) 400k OpenAIOpenAI 54 $4.81 68 87.92 95.31...
[25] README.md · unsloth/Kimi-K2.6-GGUF at b537b6bb8a5ccb31ab0336cd0478ba91d57794dbhuggingface.co
Benchmark Kimi K2.6 GPT-5.4 (xhigh) Claude Opus 4.6 (max effort) Gemini 3.1 Pro (thinking high) Kimi K2.5 --- --- --- Agentic HLE-Full (w/ tools) 54.0 52.1 53.0 51.4 50.2 BrowseComp 83.2 82.7 83.7 85.9 74.9 BrowseComp (Agent Swarm) 86.3 78.4 DeepSearchQA (f...

Популярное в «Открыть»

ОтчетыОпубликовано28 апр. 2026Last edited 6 мая 20269 источники

GPT-5.5, Claude Opus 4.7, Kimi K2.6 y DeepSeek V4: quién lidera en benchmarks

Искать и проверять факты с Studio Global AI Смотреть больше в «Открыть»

18K0

Veredicto rápido

GPT-5.5: primera opción si tu prueba se parece a ARC-AGI o a agentes que operan en terminal. DocsBot le da 85% en ARC-AGI-2 frente al 75,8% de Claude Opus 4.7, y VentureBeat recoge 82,7% en Terminal-Bench 2.0 frente al 69,4% de Claude y 67,9% de DeepSeek.^[1]^[3]
Claude Opus 4.7: destaca más en razonamiento exigente y revisión de software. En los datos citados por VentureBeat lidera Humanity’s Last Exam, o HLE, sin herramientas, y DataCamp le asigna 64,3% en SWE-Bench Pro, por encima de GPT-5.5 y DeepSeek V4 Pro.^[3]^[9]
Kimi K2.6: no aparece en todas las mismas tablas, pero es competitivo. Artificial Analysis le da 54 frente a 57 de GPT-5.5 medium y 52 de Claude Opus 4.7 Non-reasoning high; en el benchmark de coding de AkitaOnRails marca 87.^[13]^[8]
DeepSeek V4: en estos datos pesa más como opción de coste/rendimiento que como campeón de benchmark. Mashable cita US$1,74 por 1 millón de tokens de entrada y US$3,48 por 1 millón de salida, frente a US$5/US$30 de GPT-5.5 y US$5/US$25 de Claude Opus 4.7.^[2]

Tabla comparativa de benchmarks

El guion — indica que el fragmento de fuente disponible no ofrece un resultado comparable para ese modelo.

Benchmark / fuente	GPT-5.5	Claude Opus 4.7	Kimi K2.6	DeepSeek V4	Lectura rápida
ARC-AGI-2, DocsBot	85%	75,8%	—	—	Ventaja de 9,2 puntos porcentuales para GPT-5.5.^[1]
ARC-AGI-1, DocsBot	95%	93,5%	—	—	GPT-5.5 queda algo por encima de Claude.^[1]
Artificial Analysis leaderboard	57, GPT-5.5 medium	52, Claude Opus 4.7 Non-reasoning high	54	—	GPT-5.5 queda por delante de Kimi y de ese modo de Claude; DeepSeek V4 no aparece en el fragmento disponible.^[13]
Humanity’s Last Exam sin herramientas, VentureBeat	41,4%	46,9%	—	37,7%	Claude lidera entre las filas base mostradas.^[3]
Humanity’s Last Exam con herramientas, VentureBeat	52,2%; GPT-5.5 Pro: 57,2%	54,7%	—	48,2%	Claude supera a la fila base de GPT-5.5, pero la fila GPT-5.5 Pro supera a Claude.^[3]
Terminal-Bench 2.0, VentureBeat	82,7%	69,4%	—	67,9%	Es el salto más claro a favor de GPT-5.5 en esta selección.^[3]
SWE-Bench Pro, DataCamp	58,6%	64,3%	—	55,4%, DeepSeek V4 Pro	Claude supera a GPT-5.5 y a DeepSeek V4 Pro.^[9]
SWE-Bench Verified, Verdent	—	87,6%	80,2%	—	Claude queda por encima de Kimi en este corte de coding.^[6]
Coding benchmark, AkitaOnRails	96, GPT-5.5 xHigh/Codex	97	87	78, V4 Flash; 69, V4 Pro	Claude y GPT-5.5 quedan prácticamente empatados; Kimi supera a las dos filas de DeepSeek V4.^[8]

Por qué el ranking no cabe en una sola medalla

Dónde brilla GPT-5.5

Dónde brilla Claude Opus 4.7

Cómo leer Kimi K2.6

Cómo leer DeepSeek V4

Qué modelo probar primero

ARC, razonamiento visual y puzzles abstractos: empieza por GPT-5.5, porque en el cruce de DocsBot supera a Claude Opus 4.7 en ARC-AGI-2 y ARC-AGI-1.^[1]
Razonamiento difícil tipo HLE: empieza por Claude Opus 4.7 si comparas las filas base; recuerda que VentureBeat muestra una fila GPT-5.5 Pro por encima de Claude en HLE con herramientas.^[3]
Agentes en terminal, shell y tool-use: empieza por GPT-5.5, ya que Terminal-Bench 2.0 es su resultado directo más fuerte en estas fuentes.^[3]^[4]
SWE-Bench Pro y revisión exigente de software: empieza por Claude Opus 4.7, porque DataCamp y LLM Stats señalan ventaja de Claude en SWE-Bench Pro.^[9]^[4]
Open-weight, self-hosting o soberanía de datos: prueba Kimi K2.6 si ejecutar pesos propios con Hugging Face, vLLM, SGLang o KTransformers es más importante que usar solo API cerradas.^[6]
Experimentos de alto volumen con presupuesto ajustado: considera DeepSeek V4 si el coste por intento importa más que perseguir el máximo benchmark score.^[2]^[3]^[9]

Conclusión

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Ключевые выводы

No hay ganador absoluto: GPT 5.5 lidera en ARC AGI 2 con 85% y en Terminal Bench 2.0 con 82,7%, mientras Claude Opus 4.7 toma ventaja en HLE y SWE Bench Pro.
Kimi K2.6 conviene leerlo como un candidato fuerte para coding y agentes: marca 54 en Artificial Analysis y 87 en el benchmark de AkitaOnRails, aunque hay menos comparaciones directas con los cuatro modelos.
DeepSeek V4 suele quedar por debajo en raw score, pero su API cuesta US$1,74 por 1 millón de tokens de entrada y US$3,48 por 1 millón de salida, frente a US$5/US$30 de GPT 5.5 y US$5/US$25 de Claude Opus 4.7.

Люди также спрашивают

Каков краткий ответ на вопрос «GPT-5.5, Claude Opus 4.7, Kimi K2.6 y DeepSeek V4: quién lidera en benchmarks»?

No hay ganador absoluto: GPT 5.5 lidera en ARC AGI 2 con 85% y en Terminal Bench 2.0 con 82,7%, mientras Claude Opus 4.7 toma ventaja en HLE y SWE Bench Pro.

Какие ключевые моменты необходимо проверить в первую очередь?

Что мне делать дальше на практике?

Какую связанную тему мне следует изучить дальше?

Открыть связанную страницу

С чем мне это сравнить?

Сверьте этот ответ с «Northwest и Southeast timber: почему ответ — «larger; larger»».

Открыть связанную страницу

Продолжайте свое исследование

Claude Opus 4.7, GPT-5.5, DeepSeek V4 и Kimi K2.6: сравнение бенчмарков 2026 года

Claude Opus 4.7 против GPT-5.5, DeepSeek V4 и Kimi K2.6: кто сильнее по бенчмаркам

Northwest и Southeast timber: почему ответ — «larger; larger»

Почему при большей заменяемости Northwest и Southeast timber обе эластичности становятся larger

DeepSeek против OpenAI, Claude, Gemini и Grok: решат цена и доверие, а не рейтинги

Сможет ли DeepSeek обойти OpenAI, Claude, Gemini и Grok?

Инцидент PocketOS: что на самом деле показывает история с Claude, Cursor и удалённой базой

Удаление базы PocketOS: урок не в том, что «ИИ сошёл с ума»

Исследовательский разговор

Вы26 апр. 2026

Вопрос исследования

Сравните GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 по бенчмаркам.

Studio Global AI26 апр. 202627 источники

Цитируемый ответ

Key findings

Модель	Что есть по бенчмаркам в доступных данных	Вывод
GPT-5.5	85% на ARC-AGI-2 против 75.8% у Claude Opus 4.7 в сравнении DocsBot; 57 баллов в таблице Artificial Analysis для GPT-5.5 medium ^[5]^[6]	Лучший из подтверждённых фрагментов по ARC-AGI-2 и выше Kimi K2.6 в доступном общем рейтинге
Claude Opus 4.7	75.8% на ARC-AGI-2 против 85% у GPT-5.5 ^[5]	В доступном прямом сравнении уступает GPT-5.5 на ARC-AGI-2
Kimi K2.6	54 балла в таблице Artificial Analysis; 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual ^[6]^[3]	Сильная open-weight/agentic модель, особенно по coding/agentic задачам, но прямое сравнение с GPT-5.5/Claude/DeepSeek по тем же тестам неполное
DeepSeek V4	В предоставленном фрагменте есть данные о цене API, но нет сопоставимых benchmark-score по тем же тестам ^[7]	Insufficient evidence для бенчмарк-сравнения

Сравнение по отдельным бенчмаркам

На ARC-AGI-2 GPT-5.5 указан с результатом 85%, а Claude Opus 4.7 — с 75.8%, поэтому по этому фрагменту GPT-5.5 впереди на 9.2 процентного пункта ^[5].
В лидерборде Artificial Analysis GPT-5.5 medium указан с результатом 57, а Kimi K2.6 — с результатом 54, то есть GPT-5.5 выше на 3 пункта в этом доступном срезе ^[6].
Для Kimi K2.6 доступны отдельные агентные и coding-результаты: 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual ^[3].
Для DeepSeek V4 в предоставленных данных нет benchmark-score, сопоставимых с ARC-AGI-2, Artificial Analysis score, SWE-bench или Tau2-bench; есть только ценовое сравнение API, поэтому ранжировать DeepSeek V4 по бенчмаркам нельзя ^[7].

Evidence notes

Самое прямое сравнение GPT-5.5 и Claude Opus 4.7 в доступных данных — это DocsBot по ARC-AGI-2, где GPT-5.5 имеет 85%, а Claude Opus 4.7 — 75.8% ^[5].
Самое прямое сравнение GPT-5.5 и Kimi K2.6 в доступных данных — это фрагмент Artificial Analysis, где GPT-5.5 medium имеет 57, а Kimi K2.6 — 54 ^[6].
Для Kimi K2.6 есть более детальные результаты по специализированным тестам, но они не позволяют напрямую ранжировать её против GPT-5.5, Claude Opus 4.7 и DeepSeek V4 без результатов этих моделей на тех же бенчмарках ^[3].

Limitations / uncertainty

Insufficient evidence для полного ранжирования всех четырёх моделей, потому что предоставленные источники не дают единой таблицы, где GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 оценены на одинаковом наборе бенчмарков.
Insufficient evidence по DeepSeek V4 именно в бенчмарках: доступный фрагмент источника содержит API-цены и контекстное окно, но не benchmark-score ^[7].
Результаты из разных источников нельзя автоматически объединять в один строгий рейтинг, потому что они могут использовать разные методики, режимы запуска, версии моделей и наборы задач.

Summary

Источники

[1] Claude Opus 4.7 vs GPT-5.5 - Detailed Performance & Feature Comparisondocsbot.ai
Benchmark Claude Opus 4.7 GPT-5.5 --- ARC-AGI-2 Visual reasoning puzzles benchmark, ARC Prize Verified, testing abstract reasoning and visual problem-solving 75.8% Verified Source 85% Verified Source ARC-AGI-1 Abstract reasoning benchmark (ARC Prize Verifie...
[2] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com
Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...
[3] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com
On Humanity’s Last Exam without tools, DeepSeek scores 37.7%, behind GPT-5.5 at 41.4%, GPT-5.5 Pro at 43.1% and Claude Opus 4.7 at 46.9%. With tools enabled, DeepSeek rises to 48.2%, but still trails GPT-5.5 at 52.2%, GPT-5.5 Pro at 57.2% and Claude Opus 4....
[4] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com
01 Which is better, GPT-5.5 or Claude Opus 4.7?On the 10 benchmarks both providers report,Opus 4.7 leads on 6 (GPQA, HLE no tools, HLE with tools, SWE-Bench Pro, MCP Atlas, FinanceAgent v1.1) andGPT-5.5 leads on 4 (Terminal-Bench 2.0, BrowseComp, OSWorld-Ve...
[6] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4: Agentic Coding Benchmarks (2026) - Verdent Guidesverdent.ai
Yes. K2.6 weights are on Hugging Face and run on vLLM, SGLang, or KTransformers. Minimum viable hardware is 4× H100 for the INT4 variant at reduced context. Claude and GPT-5.4 are API-only — there is no self-hosted path. If data sovereignty is a requirement...
[8] LLM Coding Benchmark (April 2026): GPT 5.5, DeepSeek v4, Kimi ...akitaonrails.com
Rank Model Score Tier RubyLLM OK Time Cost --- --- --- 1 Claude Opus 4.7 97 A ✅ 18m $1.10 1 GPT 5.4 xHigh (Codex) 97 A ✅ 22m $16 3 GPT 5.5 xHigh (Codex) 96 A ✅ 18m $10 4 Kimi K2.6 87 A ✅ 20m $0.30 5 Claude Opus 4.6 83 A ✅ 16m $1.10 6 Gemini 3.1 Pro 82 A ✅ 1...
[9] DeepSeek V4: Features, Benchmarks, and Comparisonsdatacamp.com
DeepSeek V4 vs Competitors Over the last week, we’ve seen the release of OpenAI's GPT-5.5 and Anthropic's Claude Opus 4.7. While those models boast top-tier capabilities, especially in long-context reasoning and agentic coding, DeepSeek V4 competes heavily...
[13] Comparison of over 100 AI models from OpenAI, Google, DeepSeek ...artificialanalysis.ai
GPT-5.5 (medium) 922k OpenAIOpenAI 57 -- -- Model Providers Kimi K2.6 256k KimiKimi 54 $1.71 134 1.04 38.01 Model Providers MiMo-V2.5-Pro 1M XiaomiXiaomi 54 $1.50 59 2.80 44.98 Model Providers GPT-5.3 Codex (xhigh) 400k OpenAIOpenAI 54 $4.81 68 87.92 95.31...
[25] README.md · unsloth/Kimi-K2.6-GGUF at b537b6bb8a5ccb31ab0336cd0478ba91d57794dbhuggingface.co
Benchmark Kimi K2.6 GPT-5.4 (xhigh) Claude Opus 4.6 (max effort) Gemini 3.1 Pro (thinking high) Kimi K2.5 --- --- --- Agentic HLE-Full (w/ tools) 54.0 52.1 53.0 51.4 50.2 BrowseComp 83.2 82.7 83.7 85.9 74.9 BrowseComp (Agent Swarm) 86.3 78.4 DeepSearchQA (f...

Популярное в «Открыть»

ОтчетыОпубликовано28 апр. 2026Last edited 6 мая 20269 источники

GPT-5.5, Claude Opus 4.7, Kimi K2.6 y DeepSeek V4: quién lidera en benchmarks

Искать и проверять факты с Studio Global AI Смотреть больше в «Открыть»

18K0

Veredicto rápido

GPT-5.5: primera opción si tu prueba se parece a ARC-AGI o a agentes que operan en terminal. DocsBot le da 85% en ARC-AGI-2 frente al 75,8% de Claude Opus 4.7, y VentureBeat recoge 82,7% en Terminal-Bench 2.0 frente al 69,4% de Claude y 67,9% de DeepSeek.^[1]^[3]
Claude Opus 4.7: destaca más en razonamiento exigente y revisión de software. En los datos citados por VentureBeat lidera Humanity’s Last Exam, o HLE, sin herramientas, y DataCamp le asigna 64,3% en SWE-Bench Pro, por encima de GPT-5.5 y DeepSeek V4 Pro.^[3]^[9]
Kimi K2.6: no aparece en todas las mismas tablas, pero es competitivo. Artificial Analysis le da 54 frente a 57 de GPT-5.5 medium y 52 de Claude Opus 4.7 Non-reasoning high; en el benchmark de coding de AkitaOnRails marca 87.^[13]^[8]
DeepSeek V4: en estos datos pesa más como opción de coste/rendimiento que como campeón de benchmark. Mashable cita US$1,74 por 1 millón de tokens de entrada y US$3,48 por 1 millón de salida, frente a US$5/US$30 de GPT-5.5 y US$5/US$25 de Claude Opus 4.7.^[2]

Tabla comparativa de benchmarks

El guion — indica que el fragmento de fuente disponible no ofrece un resultado comparable para ese modelo.

Benchmark / fuente	GPT-5.5	Claude Opus 4.7	Kimi K2.6	DeepSeek V4	Lectura rápida
ARC-AGI-2, DocsBot	85%	75,8%	—	—	Ventaja de 9,2 puntos porcentuales para GPT-5.5.^[1]
ARC-AGI-1, DocsBot	95%	93,5%	—	—	GPT-5.5 queda algo por encima de Claude.^[1]
Artificial Analysis leaderboard	57, GPT-5.5 medium	52, Claude Opus 4.7 Non-reasoning high	54	—	GPT-5.5 queda por delante de Kimi y de ese modo de Claude; DeepSeek V4 no aparece en el fragmento disponible.^[13]
Humanity’s Last Exam sin herramientas, VentureBeat	41,4%	46,9%	—	37,7%	Claude lidera entre las filas base mostradas.^[3]
Humanity’s Last Exam con herramientas, VentureBeat	52,2%; GPT-5.5 Pro: 57,2%	54,7%	—	48,2%	Claude supera a la fila base de GPT-5.5, pero la fila GPT-5.5 Pro supera a Claude.^[3]
Terminal-Bench 2.0, VentureBeat	82,7%	69,4%	—	67,9%	Es el salto más claro a favor de GPT-5.5 en esta selección.^[3]
SWE-Bench Pro, DataCamp	58,6%	64,3%	—	55,4%, DeepSeek V4 Pro	Claude supera a GPT-5.5 y a DeepSeek V4 Pro.^[9]
SWE-Bench Verified, Verdent	—	87,6%	80,2%	—	Claude queda por encima de Kimi en este corte de coding.^[6]
Coding benchmark, AkitaOnRails	96, GPT-5.5 xHigh/Codex	97	87	78, V4 Flash; 69, V4 Pro	Claude y GPT-5.5 quedan prácticamente empatados; Kimi supera a las dos filas de DeepSeek V4.^[8]

Por qué el ranking no cabe en una sola medalla

Dónde brilla GPT-5.5

Dónde brilla Claude Opus 4.7

Cómo leer Kimi K2.6

Cómo leer DeepSeek V4

Qué modelo probar primero

ARC, razonamiento visual y puzzles abstractos: empieza por GPT-5.5, porque en el cruce de DocsBot supera a Claude Opus 4.7 en ARC-AGI-2 y ARC-AGI-1.^[1]
Razonamiento difícil tipo HLE: empieza por Claude Opus 4.7 si comparas las filas base; recuerda que VentureBeat muestra una fila GPT-5.5 Pro por encima de Claude en HLE con herramientas.^[3]
Agentes en terminal, shell y tool-use: empieza por GPT-5.5, ya que Terminal-Bench 2.0 es su resultado directo más fuerte en estas fuentes.^[3]^[4]
SWE-Bench Pro y revisión exigente de software: empieza por Claude Opus 4.7, porque DataCamp y LLM Stats señalan ventaja de Claude en SWE-Bench Pro.^[9]^[4]
Open-weight, self-hosting o soberanía de datos: prueba Kimi K2.6 si ejecutar pesos propios con Hugging Face, vLLM, SGLang o KTransformers es más importante que usar solo API cerradas.^[6]
Experimentos de alto volumen con presupuesto ajustado: considera DeepSeek V4 si el coste por intento importa más que perseguir el máximo benchmark score.^[2]^[3]^[9]

Conclusión

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Ключевые выводы

No hay ganador absoluto: GPT 5.5 lidera en ARC AGI 2 con 85% y en Terminal Bench 2.0 con 82,7%, mientras Claude Opus 4.7 toma ventaja en HLE y SWE Bench Pro.
Kimi K2.6 conviene leerlo como un candidato fuerte para coding y agentes: marca 54 en Artificial Analysis y 87 en el benchmark de AkitaOnRails, aunque hay menos comparaciones directas con los cuatro modelos.
DeepSeek V4 suele quedar por debajo en raw score, pero su API cuesta US$1,74 por 1 millón de tokens de entrada y US$3,48 por 1 millón de salida, frente a US$5/US$30 de GPT 5.5 y US$5/US$25 de Claude Opus 4.7.

Люди также спрашивают

Каков краткий ответ на вопрос «GPT-5.5, Claude Opus 4.7, Kimi K2.6 y DeepSeek V4: quién lidera en benchmarks»?

No hay ganador absoluto: GPT 5.5 lidera en ARC AGI 2 con 85% y en Terminal Bench 2.0 con 82,7%, mientras Claude Opus 4.7 toma ventaja en HLE y SWE Bench Pro.

Какие ключевые моменты необходимо проверить в первую очередь?

Что мне делать дальше на практике?

Какую связанную тему мне следует изучить дальше?

Открыть связанную страницу

С чем мне это сравнить?

Сверьте этот ответ с «Northwest и Southeast timber: почему ответ — «larger; larger»».

Открыть связанную страницу

Продолжайте свое исследование

Исследовательский разговор

Вы26 апр. 2026

Вопрос исследования

Сравните GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 по бенчмаркам.

Studio Global AI26 апр. 202627 источники

Цитируемый ответ

Key findings

Модель	Что есть по бенчмаркам в доступных данных	Вывод
GPT-5.5	85% на ARC-AGI-2 против 75.8% у Claude Opus 4.7 в сравнении DocsBot; 57 баллов в таблице Artificial Analysis для GPT-5.5 medium ^[5]^[6]	Лучший из подтверждённых фрагментов по ARC-AGI-2 и выше Kimi K2.6 в доступном общем рейтинге
Claude Opus 4.7	75.8% на ARC-AGI-2 против 85% у GPT-5.5 ^[5]	В доступном прямом сравнении уступает GPT-5.5 на ARC-AGI-2
Kimi K2.6	54 балла в таблице Artificial Analysis; 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual ^[6]^[3]	Сильная open-weight/agentic модель, особенно по coding/agentic задачам, но прямое сравнение с GPT-5.5/Claude/DeepSeek по тем же тестам неполное
DeepSeek V4	В предоставленном фрагменте есть данные о цене API, но нет сопоставимых benchmark-score по тем же тестам ^[7]	Insufficient evidence для бенчмарк-сравнения

Сравнение по отдельным бенчмаркам

На ARC-AGI-2 GPT-5.5 указан с результатом 85%, а Claude Opus 4.7 — с 75.8%, поэтому по этому фрагменту GPT-5.5 впереди на 9.2 процентного пункта ^[5].
В лидерборде Artificial Analysis GPT-5.5 medium указан с результатом 57, а Kimi K2.6 — с результатом 54, то есть GPT-5.5 выше на 3 пункта в этом доступном срезе ^[6].
Для Kimi K2.6 доступны отдельные агентные и coding-результаты: 66.1 на Tau2-bench, 76.5 на ACEBench en, 65.8 на SWE-bench Verified и 47.3 на SWE-bench Multilingual ^[3].
Для DeepSeek V4 в предоставленных данных нет benchmark-score, сопоставимых с ARC-AGI-2, Artificial Analysis score, SWE-bench или Tau2-bench; есть только ценовое сравнение API, поэтому ранжировать DeepSeek V4 по бенчмаркам нельзя ^[7].

Evidence notes

Самое прямое сравнение GPT-5.5 и Claude Opus 4.7 в доступных данных — это DocsBot по ARC-AGI-2, где GPT-5.5 имеет 85%, а Claude Opus 4.7 — 75.8% ^[5].
Самое прямое сравнение GPT-5.5 и Kimi K2.6 в доступных данных — это фрагмент Artificial Analysis, где GPT-5.5 medium имеет 57, а Kimi K2.6 — 54 ^[6].
Для Kimi K2.6 есть более детальные результаты по специализированным тестам, но они не позволяют напрямую ранжировать её против GPT-5.5, Claude Opus 4.7 и DeepSeek V4 без результатов этих моделей на тех же бенчмарках ^[3].

Limitations / uncertainty

Insufficient evidence для полного ранжирования всех четырёх моделей, потому что предоставленные источники не дают единой таблицы, где GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 оценены на одинаковом наборе бенчмарков.
Insufficient evidence по DeepSeek V4 именно в бенчмарках: доступный фрагмент источника содержит API-цены и контекстное окно, но не benchmark-score ^[7].
Результаты из разных источников нельзя автоматически объединять в один строгий рейтинг, потому что они могут использовать разные методики, режимы запуска, версии моделей и наборы задач.

Summary

Источники

[1] Claude Opus 4.7 vs GPT-5.5 - Detailed Performance & Feature Comparisondocsbot.ai
Benchmark Claude Opus 4.7 GPT-5.5 --- ARC-AGI-2 Visual reasoning puzzles benchmark, ARC Prize Verified, testing abstract reasoning and visual problem-solving 75.8% Verified Source 85% Verified Source ARC-AGI-1 Abstract reasoning benchmark (ARC Prize Verifie...
[2] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com
Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...
[3] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com
On Humanity’s Last Exam without tools, DeepSeek scores 37.7%, behind GPT-5.5 at 41.4%, GPT-5.5 Pro at 43.1% and Claude Opus 4.7 at 46.9%. With tools enabled, DeepSeek rises to 48.2%, but still trails GPT-5.5 at 52.2%, GPT-5.5 Pro at 57.2% and Claude Opus 4....
[4] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com
01 Which is better, GPT-5.5 or Claude Opus 4.7?On the 10 benchmarks both providers report,Opus 4.7 leads on 6 (GPQA, HLE no tools, HLE with tools, SWE-Bench Pro, MCP Atlas, FinanceAgent v1.1) andGPT-5.5 leads on 4 (Terminal-Bench 2.0, BrowseComp, OSWorld-Ve...
[6] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4: Agentic Coding Benchmarks (2026) - Verdent Guidesverdent.ai
Yes. K2.6 weights are on Hugging Face and run on vLLM, SGLang, or KTransformers. Minimum viable hardware is 4× H100 for the INT4 variant at reduced context. Claude and GPT-5.4 are API-only — there is no self-hosted path. If data sovereignty is a requirement...
[8] LLM Coding Benchmark (April 2026): GPT 5.5, DeepSeek v4, Kimi ...akitaonrails.com
Rank Model Score Tier RubyLLM OK Time Cost --- --- --- 1 Claude Opus 4.7 97 A ✅ 18m $1.10 1 GPT 5.4 xHigh (Codex) 97 A ✅ 22m $16 3 GPT 5.5 xHigh (Codex) 96 A ✅ 18m $10 4 Kimi K2.6 87 A ✅ 20m $0.30 5 Claude Opus 4.6 83 A ✅ 16m $1.10 6 Gemini 3.1 Pro 82 A ✅ 1...
[9] DeepSeek V4: Features, Benchmarks, and Comparisonsdatacamp.com
DeepSeek V4 vs Competitors Over the last week, we’ve seen the release of OpenAI's GPT-5.5 and Anthropic's Claude Opus 4.7. While those models boast top-tier capabilities, especially in long-context reasoning and agentic coding, DeepSeek V4 competes heavily...
[13] Comparison of over 100 AI models from OpenAI, Google, DeepSeek ...artificialanalysis.ai
GPT-5.5 (medium) 922k OpenAIOpenAI 57 -- -- Model Providers Kimi K2.6 256k KimiKimi 54 $1.71 134 1.04 38.01 Model Providers MiMo-V2.5-Pro 1M XiaomiXiaomi 54 $1.50 59 2.80 44.98 Model Providers GPT-5.3 Codex (xhigh) 400k OpenAIOpenAI 54 $4.81 68 87.92 95.31...
[25] README.md · unsloth/Kimi-K2.6-GGUF at b537b6bb8a5ccb31ab0336cd0478ba91d57794dbhuggingface.co
Benchmark Kimi K2.6 GPT-5.4 (xhigh) Claude Opus 4.6 (max effort) Gemini 3.1 Pro (thinking high) Kimi K2.5 --- --- --- Agentic HLE-Full (w/ tools) 54.0 52.1 53.0 51.4 50.2 BrowseComp 83.2 82.7 83.7 85.9 74.9 BrowseComp (Agent Swarm) 86.3 78.4 DeepSearchQA (f...