ОтчетыОпубликовано28 апр. 2026Last edited 6 мая 20268 источники

GPT-5.5, Claude Opus 4.7, Kimi K2.6 y DeepSeek V4: qué modelo lidera según la prueba

No hay campeón único: Claude Opus 4.7 lidera GPQA Diamond y HLE sin herramientas, GPT 5.5 domina Terminal Bench 2.0 y GPT 5.5 Pro gana HLE con herramientas y BrowseComp en la tabla común [6]. Kimi K2.6 no aparece en esa misma comparativa, pero su ficha de Hugging Face informa 80,2 en SWE Bench Verified, 58,6 en SWE...

Искать и проверять факты с Studio Global AI Смотреть больше в «Открыть»

17K0

Сравнение AI-моделей GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 по бенчмаркам — GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмаркахИллюстрация к сравнению GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 по ключевым AI-бенчмаркам.
Промпт ИИ
Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7 vs Kimi K2.6 vs DeepSeek V4: кто лидирует в бенчмарках. Article summary: Единого победителя нет: Claude Opus 4.7 лидирует в GPQA Diamond — 94.2% — и HLE без инструментов — 46.9%, GPT 5.5 — в Terminal Bench 2.0 с 82.7%, а GPT 5.5 Pro — в HLE с инструментами и BrowseComp.. Topic tags: ai, llm benchmarks, openai, anthropic, claude. Reference image context from search candidates: Reference image 1: visual subject "[Kimi K2.6 vs GPT-5.5 vs DeepSeek V4](https://www.youtube.com/watch?v=hqPVqQtgWOc). 🤯xCreate 8.4K views • 1 day ago Live Playlist ()Mix (50+)](https://www.youtube.com/watch?v=3928" source context "Kimi K2.6 vs GPT-5.5 vs DeepSeek V4 - YouTube" Reference image 2: visual subject "# GPT-5.5vs Claude Opus 4.7. Get a detailed comparison of AI language modelsOpenAI's GPT-5.5andAnthropic's
openai.com

La respuesta corta: esta comparación no se resuelve con un podio único. La tabla más comparable reúne GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 y DeepSeek-V4-Pro-Max; Kimi K2.6 entra desde su ficha de Hugging Face y un archivo de evaluación, así que no conviene leerlo como si hubiera participado en el mismo cara a cara ^[6]^[25]^[37].

También hay que separar las variantes de DeepSeek. En la tabla común aparece DeepSeek-V4-Pro-Max, mientras que otra cifra de SWE-Bench Verified corresponde a DeepSeek V4-Pro, no a Pro-Max ^[6]^[15]. Dicho de forma práctica: DeepSeek V4 no es una sola cifra universal; el resultado depende de la variante y de la fuente.

Qué probar primero según el caso

Razonamiento complejo sin herramientas: Claude Opus 4.7 es el primer candidato: encabeza GPQA Diamond y Humanity's Last Exam sin herramientas en la tabla común ^[6].
Tareas agentic en terminal: GPT-5.5 queda claramente por delante en Terminal-Bench 2.0, con 82,7 % frente al 69,4 % de Claude Opus 4.7 y el 67,9 % de DeepSeek-V4-Pro-Max ^[6].
Razonamiento con herramientas y navegación: GPT-5.5 Pro lidera donde sí hay datos para esa variante: 57,2 % en HLE con herramientas y 90,1 % en BrowseComp ^[6].
Programación y pruebas con pesos disponibles: Kimi K2.6 merece una evaluación aparte: su ficha indica 80,2 en SWE-Bench Verified, 58,6 en SWE-Bench Pro y 66,7 en Terminal-Bench 2.0 ^[25]^[37]. Además, otra fuente señala que sus pesos están disponibles en Hugging Face y que puede ejecutarse con vLLM, SGLang o KTransformers ^[7].
Escenarios donde el coste pesa más que el primer puesto: DeepSeek V4 no lidera las filas de la tabla común, pero las fuentes citan precios de API de 1,74 dólares por 1 millón de tokens de entrada y 3,48 dólares por 1 millón de tokens de salida, frente a 5/30 dólares para GPT-5.5 y 5/25 dólares para Claude Opus 4.7 ^[14]^[19].

Tabla comparativa de resultados disponibles

Benchmark	GPT-5.5	GPT-5.5 Pro	Claude Opus 4.7	DeepSeek V4	Kimi K2.6	Líder según los datos disponibles
GPQA Diamond	93,6 % ^[6]	n/d	94,2 % ^[6]	90,1 % en DeepSeek-V4-Pro-Max ^[6]	n/d	Claude Opus 4.7 ^[6]
Humanity's Last Exam, sin herramientas	41,4 % ^[6]	43,1 % ^[6]	46,9 % ^[6]	37,7 % en DeepSeek-V4-Pro-Max ^[6]	n/d	Claude Opus 4.7 ^[6]
Humanity's Last Exam, con herramientas	52,2 % ^[6]	57,2 % ^[6]	54,7 % ^[6]	48,2 % en DeepSeek-V4-Pro-Max ^[6]	n/d	GPT-5.5 Pro ^[6]
Terminal-Bench 2.0	82,7 % ^[6]	n/d	69,4 % ^[6]	67,9 % en DeepSeek-V4-Pro-Max ^[6]	66,7 ^[25]^[33]	GPT-5.5 ^[6]
SWE-Bench Pro / SWE Pro	58,6 % ^[6]	n/d	64,3 % ^[6]	55,4 % en DeepSeek-V4-Pro-Max ^[6]	58,6 ^[25]	Claude Opus 4.7 ^[6]
BrowseComp	84,4 % ^[6]	90,1 % ^[6]	79,3 % ^[6]	83,4 % en DeepSeek-V4-Pro-Max ^[6]	n/d	GPT-5.5 Pro ^[6]
MCP Atlas / MCPAtlas Public	75,3 % ^[6]	n/d	79,1 % ^[6]	73,6 % en DeepSeek-V4-Pro-Max ^[6]	n/d	Claude Opus 4.7 ^[6]
SWE-Bench Verified	n/d	n/d	87,6 % en una comparación separada ^[15]	80,6 % para DeepSeek V4-Pro, no Pro-Max ^[15]	80,2 ^[25]^[37]	No hay una fila común para todos ^[15]^[25]^[37]

En la tabla, n/d significa que el dato no aparece en la fuente correspondiente; no equivale a que el modelo haya obtenido cero.

Razonamiento: Claude gana sin herramientas; GPT-5.5 Pro mejora con ellas

En GPQA Diamond, la diferencia entre Claude Opus 4.7 y GPT-5.5 es pequeña: 94,2 % frente a 93,6 %. DeepSeek-V4-Pro-Max queda más atrás con 90,1 % ^[6].

La ventaja de Claude se nota más en Humanity's Last Exam sin herramientas: 46,9 %, frente al 41,4 % de GPT-5.5, el 43,1 % de GPT-5.5 Pro y el 37,7 % de DeepSeek-V4-Pro-Max ^[6].

Pero el orden cambia cuando se permiten herramientas. En esa fila de HLE, GPT-5.5 Pro alcanza 57,2 %, por delante de Claude Opus 4.7 con 54,7 %, GPT-5.5 con 52,2 % y DeepSeek-V4-Pro-Max con 48,2 % ^[6]. La lectura más justa es esta: Claude parece más fuerte en razonamiento puro sin herramientas, mientras que GPT-5.5 Pro lidera en la prueba de razonamiento asistido por herramientas que aparece en la tabla ^[6].

Coding y agentes: el salto más claro es GPT-5.5 en Terminal-Bench

La mayor distancia a favor de GPT-5.5 aparece en Terminal-Bench 2.0: 82,7 %, frente al 69,4 % de Claude Opus 4.7 y el 67,9 % de DeepSeek-V4-Pro-Max ^[6]. Para Kimi K2.6, la ficha de Hugging Face informa 66,7 en Terminal-Bench 2.0, y el leaderboard de LLM Stats también recoge 0,667 para Kimi K2.6 y 0,694 para Claude Opus 4.7 ^[25]^[33]. Eso deja a Kimi cerca de Claude y DeepSeek en esa escala concreta, pero claramente por debajo de GPT-5.5 según la tabla común ^[6]^[25]^[33].

En SWE-Bench Pro / SWE Pro, la foto cambia. Claude Opus 4.7 lidera con 64,3 %, GPT-5.5 marca 58,6 % y DeepSeek-V4-Pro-Max queda en 55,4 % ^[6]. Kimi K2.6 también aparece con 58,6 en SWE-Bench Pro en su ficha de Hugging Face, pero ese dato no procede del mismo pase comparativo que la tabla principal ^[6]^[25].

SWE-Bench Verified conviene leerlo con más cautela. Para Kimi K2.6 hay un valor de 80,2 en la ficha del modelo y en el archivo de evaluación ^[25]^[37]. En otra revisión de DeepSeek V4 se citan 87,6 % para Claude Opus 4.7 y 80,6 % para DeepSeek V4-Pro, pero esa fuente no ofrece una fila completa con GPT-5.5 y, además, habla de V4-Pro, no de V4-Pro-Max ^[15].

Modelo por modelo

GPT-5.5 y GPT-5.5 Pro

GPT-5.5 destaca sobre todo en Terminal-Bench 2.0: su 82,7 % es el mejor resultado de la tabla común en esa fila ^[6]. GPT-5.5 Pro no aparece en todos los benchmarks, pero donde sí figura queda muy bien situado: 57,2 % en HLE con herramientas y 90,1 % en BrowseComp, ambos primeros puestos en esas filas ^[6].

Si la prioridad son tareas de agente en terminal, GPT-5.5 debería estar entre los primeros modelos a probar. Si el flujo depende de herramientas, navegación o acciones externas, GPT-5.5 Pro es el candidato más fuerte en las filas donde hay datos ^[6].

Claude Opus 4.7

Claude Opus 4.7 lidera varias líneas de la tabla común: 94,2 % en GPQA Diamond, 46,9 % en HLE sin herramientas, 64,3 % en SWE-Bench Pro / SWE Pro y 79,1 % en MCP Atlas / MCPAtlas Public ^[6]. En cambio, pierde frente a GPT-5.5 en Terminal-Bench 2.0 y frente a GPT-5.5 Pro en HLE con herramientas y BrowseComp ^[6].

Para razonamiento difícil sin herramientas o para tareas de programación cercanas a SWE-Bench Pro, Claude Opus 4.7 aparece como el candidato más sólido en estas métricas ^[6].

Kimi K2.6

Kimi K2.6 no puede ordenarse de forma estricta contra todos los demás porque sus cifras proceden de una ficha de Hugging Face y de un archivo de evaluación aparte ^[25]^[37]. Aun así, su perfil de programación es llamativo: la ficha cita 80,2 en SWE-Bench Verified, 58,6 en SWE-Bench Pro, 76,7 en SWE-Bench Multilingual, 66,7 en Terminal-Bench 2.0 y 73,1 en OSWorld-Verified ^[25]^[37].

Su atractivo operativo está en que otra fuente señala pesos disponibles en Hugging Face y ejecución mediante vLLM, SGLang o KTransformers ^[7]. Eso no convierte a Kimi en ganador de la tabla general, pero sí lo vuelve interesante para equipos que quieran hacer pruebas autoalojadas o experimentos con mayor control de despliegue ^[7]^[25].

DeepSeek V4

En la tabla común, DeepSeek aparece como DeepSeek-V4-Pro-Max ^[6]. En las filas citadas no queda primero: obtiene 90,1 % en GPQA Diamond, 37,7 % en HLE sin herramientas, 48,2 % en HLE con herramientas, 67,9 % en Terminal-Bench 2.0, 55,4 % en SWE-Bench Pro / SWE Pro, 83,4 % en BrowseComp y 73,6 % en MCP Atlas / MCPAtlas Public ^[6].

Su punto fuerte en esta comparativa no es el liderazgo absoluto, sino el precio. Mashable y DataCamp citan para DeepSeek V4 precios de API de 1,74 dólares por 1 millón de tokens de entrada y 3,48 dólares por 1 millón de tokens de salida; como comparación, esas mismas fuentes indican 5/30 dólares para GPT-5.5 y 5/25 dólares para Claude Opus 4.7 ^[14]^[19]. Si el presupuesto es la principal restricción, DeepSeek V4 merece entrar en una evaluación propia, aunque no deba presentarse como líder de benchmarks en esta tabla ^[6]^[14]^[19].

Límites importantes de la comparación

No hay un único pase común para los cuatro modelos en todas las filas. La tabla principal cubre GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 y DeepSeek-V4-Pro-Max; Kimi K2.6 se añade desde fuentes separadas ^[6]^[25]^[37].
DeepSeek V4 no siempre significa la misma variante. La tabla común usa DeepSeek-V4-Pro-Max, mientras que la cifra de SWE-Bench Verified citada en otra fuente corresponde a DeepSeek V4-Pro ^[6]^[15].
GPT-5.5 Pro aparece solo en algunas pruebas. No se debe extrapolar su rendimiento a benchmarks donde la fuente no da una cifra para esa variante ^[6].
Kimi K2.6 requiere una evaluación propia si se va a usar en producción. Sus resultados de Hugging Face son útiles, pero no provienen del mismo marco comparativo que los de GPT-5.5, Claude Opus 4.7 y DeepSeek-V4-Pro-Max ^[6]^[25]^[37].

Conclusión

Si se miran solo las filas realmente comparables de la tabla principal, Claude Opus 4.7 gana GPQA Diamond, Humanity's Last Exam sin herramientas, SWE-Bench Pro y MCP Atlas; GPT-5.5 gana Terminal-Bench 2.0; y GPT-5.5 Pro se impone en HLE con herramientas y BrowseComp ^[6]. Kimi K2.6 parece un candidato fuerte para programación y pruebas con pesos disponibles, pero no se puede clasificar con total rigor frente al resto sin un pase común ^[7]^[25]^[37]. DeepSeek V4 no lidera esas filas de benchmark, aunque sus precios de API publicados lo mantienen como una opción razonable para escenarios sensibles al coste ^[6]^[14]^[19].

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Ключевые выводы

No hay campeón único: Claude Opus 4.7 lidera GPQA Diamond y HLE sin herramientas, GPT 5.5 domina Terminal Bench 2.0 y GPT 5.5 Pro gana HLE con herramientas y BrowseComp en la tabla común [6].
Kimi K2.6 no aparece en esa misma comparativa, pero su ficha de Hugging Face informa 80,2 en SWE Bench Verified, 58,6 en SWE Bench Pro y 66,7 en Terminal Bench 2.0 [25][37].
DeepSeek V4 no encabeza las filas citadas, pero sus precios publicados de API —1,74 dólares por 1 millón de tokens de entrada y 3,48 dólares por 1 millón de tokens de salida— son más bajos que los de GPT 5.5 y Claude...

Люди также спрашивают

Каков краткий ответ на вопрос «GPT-5.5, Claude Opus 4.7, Kimi K2.6 y DeepSeek V4: qué modelo lidera según la prueba»?

No hay campeón único: Claude Opus 4.7 lidera GPQA Diamond y HLE sin herramientas, GPT 5.5 domina Terminal Bench 2.0 y GPT 5.5 Pro gana HLE con herramientas y BrowseComp en la tabla común [6].

Какие ключевые моменты необходимо проверить в первую очередь?

Что мне делать дальше на практике?

DeepSeek V4 no encabeza las filas citadas, pero sus precios publicados de API —1,74 dólares por 1 millón de tokens de entrada y 3,48 dólares por 1 millón de tokens de salida— son más bajos que los de GPT 5.5 y Claude...

Какую связанную тему мне следует изучить дальше?

Продолжайте с «Claude Opus 4.7, GPT-5.5, DeepSeek V4 и Kimi K2.6: сравнение бенчмарков 2026 года», чтобы увидеть другой ракурс и дополнительные цитаты.

Открыть связанную страницу

С чем мне это сравнить?

Сверьте этот ответ с «Northwest и Southeast timber: почему ответ — «larger; larger»».

Открыть связанную страницу

Продолжайте свое исследование

Comparativa de benchmarks 2026 entre Claude Opus 4.7, GPT-5.5, DeepSeek V4 y Kimi K2.6

Claude Opus 4.7, GPT-5.5, DeepSeek V4 и Kimi K2.6: сравнение бенчмарков 2026 года

Claude Opus 4.7 против GPT-5.5, DeepSeek V4 и Kimi K2.6: кто сильнее по бенчмаркам

Northwest и Southeast timber: почему ответ — «larger; larger»

Почему при большей заменяемости Northwest и Southeast timber обе эластичности становятся larger

抽象 AI 晶片與多個聊天機器人平台競爭的示意圖，象徵 DeepSeek 挑戰 OpenAI、Claude、Gemini 與 Grok

DeepSeek против OpenAI, Claude, Gemini и Grok: решат цена и доверие, а не рейтинги

Сможет ли DeepSeek обойти OpenAI, Claude, Gemini и Grok?

Illustration of an AI coding agent connected to cloud database and backup systems

Инцидент PocketOS: что на самом деле показывает история с Claude, Cursor и удалённой базой

Удаление базы PocketOS: урок не в том, что «ИИ сошёл с ума»

Исследовательский разговор

Вы26 апр. 2026

Вопрос исследования

Изучите показатели GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 в бенчмарках. Пожалуйста, сделайте отчёт удобным для чтения.

Studio Global AI26 апр. 202640 источники

Цитируемый ответ

Я нашёл сопоставимые данные не по всем четырём моделям в одном и том же независимом тестовом прогоне. Поэтому ниже — аккуратная сводка: GPT-5.5, Claude Opus 4.7 и DeepSeek-V4-Pro-Max сравниваются по одной опубликованной таблице, а Kimi K2.6 добавлен по отдельной карточке модели; прямое сравнение с Kimi нужно считать ориентировочным, а не строго «один к одному» ^[9]^[15].

Key findings

Claude Opus 4.7 выглядит сильнейшим в GPQA Diamond: 94.2% против 93.6% у GPT-5.5 и 90.1% у DeepSeek-V4-Pro-Max ^[9].
Claude Opus 4.7 также лидирует в Humanity’s Last Exam без инструментов: 46.9% против 41.4% у GPT-5.5, 43.1% у GPT-5.5 Pro и 37.7% у DeepSeek-V4-Pro-Max ^[9].
GPT-5.5 Pro лидирует в Humanity’s Last Exam с инструментами: 57.2% против 54.7% у Claude Opus 4.7, 52.2% у GPT-5.5 и 48.2% у DeepSeek-V4-Pro-Max ^[9].
GPT-5.5 заметно впереди в Terminal-Bench 2.0: 82.7% против 69.4% у Claude Opus 4.7, 67.9% у DeepSeek-V4-Pro-Max и 66.7% у Kimi K2.6 ^[9]^[15].
Kimi K2.6 выглядит очень сильной открытой/доступной по весам моделью для coding-бенчмарков: карточка модели указывает 80.2 на SWE-Bench Verified, 58.6 на SWE-Bench Pro, 76.7 на SWE-Bench Multilingual и 66.7 на Terminal-Bench 2.0 ^[15].
DeepSeek-V4-Pro-Max в найденной таблице стабильно ниже GPT-5.5 и Claude Opus 4.7 по GPQA, HLE и Terminal-Bench 2.0, но остаётся близко к Claude в Terminal-Bench 2.0: 67.9% против 69.4% ^[9].

Сводная таблица

Бенчмарк	GPT-5.5	GPT-5.5 Pro	Claude Opus 4.7	DeepSeek-V4-Pro-Max	Kimi K2.6	Кто впереди
GPQA Diamond	93.6% ^[9]	н/д	94.2% ^[9]	90.1% ^[9]	н/д	Claude Opus 4.7
Humanity’s Last Exam, без инструментов	41.4% ^[9]	43.1% ^[9]	46.9% ^[9]	37.7% ^[9]	н/д	Claude Opus 4.7
Humanity’s Last Exam, с инструментами	52.2% ^[9]	57.2% ^[9]	54.7% ^[9]	48.2% ^[9]	н/д	GPT-5.5 Pro
Terminal-Bench 2.0	82.7% ^[9]	н/д	69.4% ^[9]	67.9% ^[9]	66.7 ^[15]	GPT-5.5
SWE-Bench Verified	н/д	н/д	н/д	н/д	80.2 ^[15]	недостаточно данных
SWE-Bench Pro	н/д	н/д	н/д	н/д	58.6 ^[15]	недостаточно данных
SWE-Bench Multilingual	н/д	н/д	н/д	н/д	76.7 ^[15]	недостаточно данных

По моделям

GPT-5.5

GPT-5.5 показывает лучший найденный результат в Terminal-Bench 2.0 среди сопоставленных моделей: 82.7% ^[9].
GPT-5.5 уступает Claude Opus 4.7 в GPQA Diamond: 93.6% против 94.2% ^[9].
GPT-5.5 уступает Claude Opus 4.7 в Humanity’s Last Exam без инструментов: 41.4% против 46.9% ^[9].
GPT-5.5 Pro, отдельный более сильный режим/вариант в найденной таблице, выходит на первое место в HLE с инструментами: 57.2% ^[9].

Claude Opus 4.7

Claude Opus 4.7 — лидер по GPQA Diamond среди моделей в найденной таблице: 94.2% ^[9].
Claude Opus 4.7 — лидер по HLE без инструментов: 46.9% ^[9].
Claude Opus 4.7 занимает второе место в HLE с инструментами после GPT-5.5 Pro: 54.7% против 57.2% ^[9].
В Terminal-Bench 2.0 Claude Opus 4.7 значительно уступает GPT-5.5: 69.4% против 82.7% ^[9].

Kimi K2.6

Kimi K2.6 имеет сильный профиль в coding-задачах: 80.2 на SWE-Bench Verified, 58.6 на SWE-Bench Pro и 76.7 на SWE-Bench Multilingual ^[15].
Kimi K2.6 набирает 66.7 в Terminal-Bench 2.0, что близко к DeepSeek-V4-Pro-Max 67.9 и Claude Opus 4.7 69.4, но заметно ниже GPT-5.5 82.7 ^[9]^[15].
Kimi K2.6 в найденных источниках описывается как новая сильная open-weights модель, а её карточка модели приводит отдельную таблицу результатов по coding и agentic-бенчмаркам ^[14]^[15].

DeepSeek V4

В найденной сопоставимой таблице указана именно версия DeepSeek-V4-Pro-Max, поэтому выводы по DeepSeek V4 лучше читать как выводы по этой конкретной версии, а не обязательно по всей линейке V4 ^[9].
DeepSeek-V4-Pro-Max показывает 90.1% на GPQA Diamond, что ниже GPT-5.5 93.6% и Claude Opus 4.7 94.2% ^[9].
DeepSeek-V4-Pro-Max показывает 37.7% на HLE без инструментов и 48.2% на HLE с инструментами, что ниже GPT-5.5, GPT-5.5 Pro и Claude Opus 4.7 в той же таблице ^[9].
В Terminal-Bench 2.0 DeepSeek-V4-Pro-Max набирает 67.9%, что почти на уровне Claude Opus 4.7 69.4%, но существенно ниже GPT-5.5 82.7% ^[9].

Evidence notes

Самая полезная найденная таблица сравнивает DeepSeek-V4-Pro-Max, GPT-5.5, GPT-5.5 Pro и Claude Opus 4.7 по GPQA Diamond, HLE и Terminal-Bench 2.0 ^[9].
Для Kimi K2.6 наиболее конкретные найденные цифры идут из карточки модели: Terminal-Bench 2.0 — 66.7, SWE-Bench Pro — 58.6, SWE-Bench Multilingual — 76.7, SWE-Bench Verified — 80.2 и OSWorld-Verified — 73.1 ^[15].
Источник по GPT-5.5 и Claude Opus 4.7 также указывает даты релиза: GPT-5.5 — 23 апреля 2026 года, Claude Opus 4.7 — 16 апреля 2026 года ^[10].

Limitations / uncertainty

Insufficient evidence для полностью строгого сравнения всех четырёх моделей в одном независимом прогоне с одинаковыми настройками, потому что Kimi K2.6 не присутствует в основной найденной таблице вместе с GPT-5.5, Claude Opus 4.7 и DeepSeek-V4-Pro-Max ^[9]^[15].
Insufficient evidence для уверенного сравнения всех четырёх моделей по SWE-Bench Verified, потому что найденные конкретные SWE-Bench-цифры относятся к Kimi K2.6, а сопоставимые значения для GPT-5.5, Claude Opus 4.7 и DeepSeek-V4-Pro-Max в доступных фрагментах не были полно представлены ^[15].
Результаты по DeepSeek относятся к варианту DeepSeek-V4-Pro-Max, поэтому их не следует автоматически переносить на все версии DeepSeek V4 ^[9].

Summary

Если смотреть только на найденные сопоставимые бенчмарки, Claude Opus 4.7 сильнее в GPQA и HLE без инструментов, GPT-5.5/GPT-5.5 Pro сильнее в Terminal-Bench 2.0 и HLE с инструментами, а DeepSeek-V4-Pro-Max держится близко к Claude в Terminal-Bench, но уступает в reasoning-тестах ^[9]. Kimi K2.6 выглядит особенно интересной для coding-сценариев благодаря 80.2 на SWE-Bench Verified и 58.6 на SWE-Bench Pro, но её нельзя строго ранжировать против всех трёх остальных моделей без единого общего тестового прогона ^[15].

Источники

[6] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com
BenchmarkDeepSeek-V4-Pro-MaxGPT-5.5GPT-5.5 Pro, where shownClaude Opus 4.7Best result among these GPQA Diamond90.1%93.6%—94.2%Claude Opus 4.7 Humanity’s Last Exam, no tools37.7%41.4%43.1%46.9%Claude Opus 4.7 Humanity’s Last Exam, with tools48.2%52.2%57.2%54...
[7] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4 - Verdent AIverdent.ai
Yes. K2.6 weights are on Hugging Face and run on vLLM, SGLang, or KTransformers. Minimum viable hardware is 4× H100 for the INT4 variant at reduced context. Claude and GPT-5.4 are API-only — there is no self-hosted path. If data sovereignty is a requirement...
[14] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com
Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...
[15] DeepSeek V4 Preview: The Complete 2026 Guide - o-mega | AIo-mega.ai
7. Head-to-Head: DeepSeek V4 vs Claude Opus 4.7 Claude Opus 4.7, released just eight days before DeepSeek V4 on April 16, represents Anthropic's most capable model and the current leader in agentic coding tasks. The comparison with V4-Pro reveals a more nua...
[19] DeepSeek V4: Features, Benchmarks, and Comparisonsdatacamp.com
DeepSeek V4 vs Competitors Over the last week, we’ve seen the release of OpenAI's GPT-5.5 and Anthropic's Claude Opus 4.7. While those models boast top-tier capabilities, especially in long-context reasoning and agentic coding, DeepSeek V4 competes heavily...
[25] moonshotai/Kimi-K2.6 - Hugging Facehuggingface.co
OSWorld-Verified 73.1 75.0 72.7 63.3 Coding Terminal-Bench 2.0 (Terminus-2) 66.7 65.4 65.4 68.5 50.8 SWE-Bench Pro 58.6 57.7 53.4 54.2 50.7 SWE-Bench Multilingual 76.7 77.8 76.9 73.0 SWE-Bench Verified 80.2 80.8 80.6 76.8 SciCode 52.2 56.6 51.9 58.9 48.7 OJ...
[33] Terminal-Bench 2.0 Leaderboardllm-stats.com
Model Score Size Context Cost License --- --- --- 1 Anthropic Claude Mythos Preview Anthropic 0.820 — — $25.00 / $125.00 2 OpenAI GPT-5.3 Codex OpenAI 0.773 — 400K $1.75 / $14.00 3 OpenAI GPT-5.4 OpenAI 0.751 — 1.0M $2.50 / $15.00 4 Anthropic Claude Opus 4....
[37] .eval_results/swe_bench_verified.yaml · moonshotai/Kimi-K2.6 at mainhuggingface.co
Hugging Face's logo moonshotai / Kimi-K2.6 like 1.04k Follow Moonshot AI 9.2k bigeagle's picture --- - dataset: id: SWE-bench/SWE-bench\ Verified task\ id: swe\ bench\ %\ resolved value: 80.2 date: '2026-04-20' source: url: name: Model Card user: SaylorTwift

Популярное в «Открыть»

ОтчетыОпубликовано28 апр. 2026Last edited 6 мая 20268 источники

GPT-5.5, Claude Opus 4.7, Kimi K2.6 y DeepSeek V4: qué modelo lidera según la prueba

Искать и проверять факты с Studio Global AI Смотреть больше в «Открыть»

17K0

Qué probar primero según el caso

Razonamiento complejo sin herramientas: Claude Opus 4.7 es el primer candidato: encabeza GPQA Diamond y Humanity's Last Exam sin herramientas en la tabla común ^[6].
Tareas agentic en terminal: GPT-5.5 queda claramente por delante en Terminal-Bench 2.0, con 82,7 % frente al 69,4 % de Claude Opus 4.7 y el 67,9 % de DeepSeek-V4-Pro-Max ^[6].
Razonamiento con herramientas y navegación: GPT-5.5 Pro lidera donde sí hay datos para esa variante: 57,2 % en HLE con herramientas y 90,1 % en BrowseComp ^[6].
Programación y pruebas con pesos disponibles: Kimi K2.6 merece una evaluación aparte: su ficha indica 80,2 en SWE-Bench Verified, 58,6 en SWE-Bench Pro y 66,7 en Terminal-Bench 2.0 ^[25]^[37]. Además, otra fuente señala que sus pesos están disponibles en Hugging Face y que puede ejecutarse con vLLM, SGLang o KTransformers ^[7].
Escenarios donde el coste pesa más que el primer puesto: DeepSeek V4 no lidera las filas de la tabla común, pero las fuentes citan precios de API de 1,74 dólares por 1 millón de tokens de entrada y 3,48 dólares por 1 millón de tokens de salida, frente a 5/30 dólares para GPT-5.5 y 5/25 dólares para Claude Opus 4.7 ^[14]^[19].

Tabla comparativa de resultados disponibles

Benchmark	GPT-5.5	GPT-5.5 Pro	Claude Opus 4.7	DeepSeek V4	Kimi K2.6	Líder según los datos disponibles
GPQA Diamond	93,6 % ^[6]	n/d	94,2 % ^[6]	90,1 % en DeepSeek-V4-Pro-Max ^[6]	n/d	Claude Opus 4.7 ^[6]
Humanity's Last Exam, sin herramientas	41,4 % ^[6]	43,1 % ^[6]	46,9 % ^[6]	37,7 % en DeepSeek-V4-Pro-Max ^[6]	n/d	Claude Opus 4.7 ^[6]
Humanity's Last Exam, con herramientas	52,2 % ^[6]	57,2 % ^[6]	54,7 % ^[6]	48,2 % en DeepSeek-V4-Pro-Max ^[6]	n/d	GPT-5.5 Pro ^[6]
Terminal-Bench 2.0	82,7 % ^[6]	n/d	69,4 % ^[6]	67,9 % en DeepSeek-V4-Pro-Max ^[6]	66,7 ^[25]^[33]	GPT-5.5 ^[6]
SWE-Bench Pro / SWE Pro	58,6 % ^[6]	n/d	64,3 % ^[6]	55,4 % en DeepSeek-V4-Pro-Max ^[6]	58,6 ^[25]	Claude Opus 4.7 ^[6]
BrowseComp	84,4 % ^[6]	90,1 % ^[6]	79,3 % ^[6]	83,4 % en DeepSeek-V4-Pro-Max ^[6]	n/d	GPT-5.5 Pro ^[6]
MCP Atlas / MCPAtlas Public	75,3 % ^[6]	n/d	79,1 % ^[6]	73,6 % en DeepSeek-V4-Pro-Max ^[6]	n/d	Claude Opus 4.7 ^[6]
SWE-Bench Verified	n/d	n/d	87,6 % en una comparación separada ^[15]	80,6 % para DeepSeek V4-Pro, no Pro-Max ^[15]	80,2 ^[25]^[37]	No hay una fila común para todos ^[15]^[25]^[37]

En la tabla, n/d significa que el dato no aparece en la fuente correspondiente; no equivale a que el modelo haya obtenido cero.

Razonamiento: Claude gana sin herramientas; GPT-5.5 Pro mejora con ellas

En GPQA Diamond, la diferencia entre Claude Opus 4.7 y GPT-5.5 es pequeña: 94,2 % frente a 93,6 %. DeepSeek-V4-Pro-Max queda más atrás con 90,1 % ^[6].

La ventaja de Claude se nota más en Humanity's Last Exam sin herramientas: 46,9 %, frente al 41,4 % de GPT-5.5, el 43,1 % de GPT-5.5 Pro y el 37,7 % de DeepSeek-V4-Pro-Max ^[6].

Coding y agentes: el salto más claro es GPT-5.5 en Terminal-Bench

Modelo por modelo

GPT-5.5 y GPT-5.5 Pro

Claude Opus 4.7

Para razonamiento difícil sin herramientas o para tareas de programación cercanas a SWE-Bench Pro, Claude Opus 4.7 aparece como el candidato más sólido en estas métricas ^[6].

Kimi K2.6

DeepSeek V4

Límites importantes de la comparación

No hay un único pase común para los cuatro modelos en todas las filas. La tabla principal cubre GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 y DeepSeek-V4-Pro-Max; Kimi K2.6 se añade desde fuentes separadas ^[6]^[25]^[37].
DeepSeek V4 no siempre significa la misma variante. La tabla común usa DeepSeek-V4-Pro-Max, mientras que la cifra de SWE-Bench Verified citada en otra fuente corresponde a DeepSeek V4-Pro ^[6]^[15].
GPT-5.5 Pro aparece solo en algunas pruebas. No se debe extrapolar su rendimiento a benchmarks donde la fuente no da una cifra para esa variante ^[6].
Kimi K2.6 requiere una evaluación propia si se va a usar en producción. Sus resultados de Hugging Face son útiles, pero no provienen del mismo marco comparativo que los de GPT-5.5, Claude Opus 4.7 y DeepSeek-V4-Pro-Max ^[6]^[25]^[37].

Conclusión

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Ключевые выводы

No hay campeón único: Claude Opus 4.7 lidera GPQA Diamond y HLE sin herramientas, GPT 5.5 domina Terminal Bench 2.0 y GPT 5.5 Pro gana HLE con herramientas y BrowseComp en la tabla común [6].
Kimi K2.6 no aparece en esa misma comparativa, pero su ficha de Hugging Face informa 80,2 en SWE Bench Verified, 58,6 en SWE Bench Pro y 66,7 en Terminal Bench 2.0 [25][37].
DeepSeek V4 no encabeza las filas citadas, pero sus precios publicados de API —1,74 dólares por 1 millón de tokens de entrada y 3,48 dólares por 1 millón de tokens de salida— son más bajos que los de GPT 5.5 y Claude...

Люди также спрашивают

Каков краткий ответ на вопрос «GPT-5.5, Claude Opus 4.7, Kimi K2.6 y DeepSeek V4: qué modelo lidera según la prueba»?

No hay campeón único: Claude Opus 4.7 lidera GPQA Diamond y HLE sin herramientas, GPT 5.5 domina Terminal Bench 2.0 y GPT 5.5 Pro gana HLE con herramientas y BrowseComp en la tabla común [6].

Какие ключевые моменты необходимо проверить в первую очередь?

Что мне делать дальше на практике?

Какую связанную тему мне следует изучить дальше?

Открыть связанную страницу

С чем мне это сравнить?

Сверьте этот ответ с «Northwest и Southeast timber: почему ответ — «larger; larger»».

Открыть связанную страницу

Продолжайте свое исследование

Claude Opus 4.7, GPT-5.5, DeepSeek V4 и Kimi K2.6: сравнение бенчмарков 2026 года

Claude Opus 4.7 против GPT-5.5, DeepSeek V4 и Kimi K2.6: кто сильнее по бенчмаркам

Northwest и Southeast timber: почему ответ — «larger; larger»

Почему при большей заменяемости Northwest и Southeast timber обе эластичности становятся larger

DeepSeek против OpenAI, Claude, Gemini и Grok: решат цена и доверие, а не рейтинги

Сможет ли DeepSeek обойти OpenAI, Claude, Gemini и Grok?

Инцидент PocketOS: что на самом деле показывает история с Claude, Cursor и удалённой базой

Удаление базы PocketOS: урок не в том, что «ИИ сошёл с ума»

Исследовательский разговор

Вы26 апр. 2026

Вопрос исследования

Изучите показатели GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 в бенчмарках. Пожалуйста, сделайте отчёт удобным для чтения.

Studio Global AI26 апр. 202640 источники

Цитируемый ответ

Key findings

Claude Opus 4.7 выглядит сильнейшим в GPQA Diamond: 94.2% против 93.6% у GPT-5.5 и 90.1% у DeepSeek-V4-Pro-Max ^[9].
Claude Opus 4.7 также лидирует в Humanity’s Last Exam без инструментов: 46.9% против 41.4% у GPT-5.5, 43.1% у GPT-5.5 Pro и 37.7% у DeepSeek-V4-Pro-Max ^[9].
GPT-5.5 Pro лидирует в Humanity’s Last Exam с инструментами: 57.2% против 54.7% у Claude Opus 4.7, 52.2% у GPT-5.5 и 48.2% у DeepSeek-V4-Pro-Max ^[9].
GPT-5.5 заметно впереди в Terminal-Bench 2.0: 82.7% против 69.4% у Claude Opus 4.7, 67.9% у DeepSeek-V4-Pro-Max и 66.7% у Kimi K2.6 ^[9]^[15].
Kimi K2.6 выглядит очень сильной открытой/доступной по весам моделью для coding-бенчмарков: карточка модели указывает 80.2 на SWE-Bench Verified, 58.6 на SWE-Bench Pro, 76.7 на SWE-Bench Multilingual и 66.7 на Terminal-Bench 2.0 ^[15].
DeepSeek-V4-Pro-Max в найденной таблице стабильно ниже GPT-5.5 и Claude Opus 4.7 по GPQA, HLE и Terminal-Bench 2.0, но остаётся близко к Claude в Terminal-Bench 2.0: 67.9% против 69.4% ^[9].

Сводная таблица

Бенчмарк	GPT-5.5	GPT-5.5 Pro	Claude Opus 4.7	DeepSeek-V4-Pro-Max	Kimi K2.6	Кто впереди
GPQA Diamond	93.6% ^[9]	н/д	94.2% ^[9]	90.1% ^[9]	н/д	Claude Opus 4.7
Humanity’s Last Exam, без инструментов	41.4% ^[9]	43.1% ^[9]	46.9% ^[9]	37.7% ^[9]	н/д	Claude Opus 4.7
Humanity’s Last Exam, с инструментами	52.2% ^[9]	57.2% ^[9]	54.7% ^[9]	48.2% ^[9]	н/д	GPT-5.5 Pro
Terminal-Bench 2.0	82.7% ^[9]	н/д	69.4% ^[9]	67.9% ^[9]	66.7 ^[15]	GPT-5.5
SWE-Bench Verified	н/д	н/д	н/д	н/д	80.2 ^[15]	недостаточно данных
SWE-Bench Pro	н/д	н/д	н/д	н/д	58.6 ^[15]	недостаточно данных
SWE-Bench Multilingual	н/д	н/д	н/д	н/д	76.7 ^[15]	недостаточно данных

По моделям

GPT-5.5

GPT-5.5 показывает лучший найденный результат в Terminal-Bench 2.0 среди сопоставленных моделей: 82.7% ^[9].
GPT-5.5 уступает Claude Opus 4.7 в GPQA Diamond: 93.6% против 94.2% ^[9].
GPT-5.5 уступает Claude Opus 4.7 в Humanity’s Last Exam без инструментов: 41.4% против 46.9% ^[9].
GPT-5.5 Pro, отдельный более сильный режим/вариант в найденной таблице, выходит на первое место в HLE с инструментами: 57.2% ^[9].

Claude Opus 4.7

Claude Opus 4.7 — лидер по GPQA Diamond среди моделей в найденной таблице: 94.2% ^[9].
Claude Opus 4.7 — лидер по HLE без инструментов: 46.9% ^[9].
Claude Opus 4.7 занимает второе место в HLE с инструментами после GPT-5.5 Pro: 54.7% против 57.2% ^[9].
В Terminal-Bench 2.0 Claude Opus 4.7 значительно уступает GPT-5.5: 69.4% против 82.7% ^[9].

Kimi K2.6

Kimi K2.6 имеет сильный профиль в coding-задачах: 80.2 на SWE-Bench Verified, 58.6 на SWE-Bench Pro и 76.7 на SWE-Bench Multilingual ^[15].
Kimi K2.6 набирает 66.7 в Terminal-Bench 2.0, что близко к DeepSeek-V4-Pro-Max 67.9 и Claude Opus 4.7 69.4, но заметно ниже GPT-5.5 82.7 ^[9]^[15].
Kimi K2.6 в найденных источниках описывается как новая сильная open-weights модель, а её карточка модели приводит отдельную таблицу результатов по coding и agentic-бенчмаркам ^[14]^[15].

DeepSeek V4

В найденной сопоставимой таблице указана именно версия DeepSeek-V4-Pro-Max, поэтому выводы по DeepSeek V4 лучше читать как выводы по этой конкретной версии, а не обязательно по всей линейке V4 ^[9].
DeepSeek-V4-Pro-Max показывает 90.1% на GPQA Diamond, что ниже GPT-5.5 93.6% и Claude Opus 4.7 94.2% ^[9].
DeepSeek-V4-Pro-Max показывает 37.7% на HLE без инструментов и 48.2% на HLE с инструментами, что ниже GPT-5.5, GPT-5.5 Pro и Claude Opus 4.7 в той же таблице ^[9].
В Terminal-Bench 2.0 DeepSeek-V4-Pro-Max набирает 67.9%, что почти на уровне Claude Opus 4.7 69.4%, но существенно ниже GPT-5.5 82.7% ^[9].

Evidence notes

Самая полезная найденная таблица сравнивает DeepSeek-V4-Pro-Max, GPT-5.5, GPT-5.5 Pro и Claude Opus 4.7 по GPQA Diamond, HLE и Terminal-Bench 2.0 ^[9].
Для Kimi K2.6 наиболее конкретные найденные цифры идут из карточки модели: Terminal-Bench 2.0 — 66.7, SWE-Bench Pro — 58.6, SWE-Bench Multilingual — 76.7, SWE-Bench Verified — 80.2 и OSWorld-Verified — 73.1 ^[15].
Источник по GPT-5.5 и Claude Opus 4.7 также указывает даты релиза: GPT-5.5 — 23 апреля 2026 года, Claude Opus 4.7 — 16 апреля 2026 года ^[10].

Limitations / uncertainty

Insufficient evidence для полностью строгого сравнения всех четырёх моделей в одном независимом прогоне с одинаковыми настройками, потому что Kimi K2.6 не присутствует в основной найденной таблице вместе с GPT-5.5, Claude Opus 4.7 и DeepSeek-V4-Pro-Max ^[9]^[15].
Insufficient evidence для уверенного сравнения всех четырёх моделей по SWE-Bench Verified, потому что найденные конкретные SWE-Bench-цифры относятся к Kimi K2.6, а сопоставимые значения для GPT-5.5, Claude Opus 4.7 и DeepSeek-V4-Pro-Max в доступных фрагментах не были полно представлены ^[15].
Результаты по DeepSeek относятся к варианту DeepSeek-V4-Pro-Max, поэтому их не следует автоматически переносить на все версии DeepSeek V4 ^[9].

Summary

Источники

[6] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com
BenchmarkDeepSeek-V4-Pro-MaxGPT-5.5GPT-5.5 Pro, where shownClaude Opus 4.7Best result among these GPQA Diamond90.1%93.6%—94.2%Claude Opus 4.7 Humanity’s Last Exam, no tools37.7%41.4%43.1%46.9%Claude Opus 4.7 Humanity’s Last Exam, with tools48.2%52.2%57.2%54...
[7] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4 - Verdent AIverdent.ai
Yes. K2.6 weights are on Hugging Face and run on vLLM, SGLang, or KTransformers. Minimum viable hardware is 4× H100 for the INT4 variant at reduced context. Claude and GPT-5.4 are API-only — there is no self-hosted path. If data sovereignty is a requirement...
[14] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com
Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...
[15] DeepSeek V4 Preview: The Complete 2026 Guide - o-mega | AIo-mega.ai
7. Head-to-Head: DeepSeek V4 vs Claude Opus 4.7 Claude Opus 4.7, released just eight days before DeepSeek V4 on April 16, represents Anthropic's most capable model and the current leader in agentic coding tasks. The comparison with V4-Pro reveals a more nua...
[19] DeepSeek V4: Features, Benchmarks, and Comparisonsdatacamp.com
DeepSeek V4 vs Competitors Over the last week, we’ve seen the release of OpenAI's GPT-5.5 and Anthropic's Claude Opus 4.7. While those models boast top-tier capabilities, especially in long-context reasoning and agentic coding, DeepSeek V4 competes heavily...
[25] moonshotai/Kimi-K2.6 - Hugging Facehuggingface.co
OSWorld-Verified 73.1 75.0 72.7 63.3 Coding Terminal-Bench 2.0 (Terminus-2) 66.7 65.4 65.4 68.5 50.8 SWE-Bench Pro 58.6 57.7 53.4 54.2 50.7 SWE-Bench Multilingual 76.7 77.8 76.9 73.0 SWE-Bench Verified 80.2 80.8 80.6 76.8 SciCode 52.2 56.6 51.9 58.9 48.7 OJ...
[33] Terminal-Bench 2.0 Leaderboardllm-stats.com
Model Score Size Context Cost License --- --- --- 1 Anthropic Claude Mythos Preview Anthropic 0.820 — — $25.00 / $125.00 2 OpenAI GPT-5.3 Codex OpenAI 0.773 — 400K $1.75 / $14.00 3 OpenAI GPT-5.4 OpenAI 0.751 — 1.0M $2.50 / $15.00 4 Anthropic Claude Opus 4....
[37] .eval_results/swe_bench_verified.yaml · moonshotai/Kimi-K2.6 at mainhuggingface.co
Hugging Face's logo moonshotai / Kimi-K2.6 like 1.04k Follow Moonshot AI 9.2k bigeagle's picture --- - dataset: id: SWE-bench/SWE-bench\ Verified task\ id: swe\ bench\ %\ resolved value: 80.2 date: '2026-04-20' source: url: name: Model Card user: SaylorTwift

Популярное в «Открыть»

ОтчетыОпубликовано28 апр. 2026Last edited 6 мая 20268 источники

GPT-5.5, Claude Opus 4.7, Kimi K2.6 y DeepSeek V4: qué modelo lidera según la prueba

Искать и проверять факты с Studio Global AI Смотреть больше в «Открыть»

17K0

Qué probar primero según el caso

Razonamiento complejo sin herramientas: Claude Opus 4.7 es el primer candidato: encabeza GPQA Diamond y Humanity's Last Exam sin herramientas en la tabla común ^[6].
Tareas agentic en terminal: GPT-5.5 queda claramente por delante en Terminal-Bench 2.0, con 82,7 % frente al 69,4 % de Claude Opus 4.7 y el 67,9 % de DeepSeek-V4-Pro-Max ^[6].
Razonamiento con herramientas y navegación: GPT-5.5 Pro lidera donde sí hay datos para esa variante: 57,2 % en HLE con herramientas y 90,1 % en BrowseComp ^[6].
Programación y pruebas con pesos disponibles: Kimi K2.6 merece una evaluación aparte: su ficha indica 80,2 en SWE-Bench Verified, 58,6 en SWE-Bench Pro y 66,7 en Terminal-Bench 2.0 ^[25]^[37]. Además, otra fuente señala que sus pesos están disponibles en Hugging Face y que puede ejecutarse con vLLM, SGLang o KTransformers ^[7].
Escenarios donde el coste pesa más que el primer puesto: DeepSeek V4 no lidera las filas de la tabla común, pero las fuentes citan precios de API de 1,74 dólares por 1 millón de tokens de entrada y 3,48 dólares por 1 millón de tokens de salida, frente a 5/30 dólares para GPT-5.5 y 5/25 dólares para Claude Opus 4.7 ^[14]^[19].

Tabla comparativa de resultados disponibles

Benchmark	GPT-5.5	GPT-5.5 Pro	Claude Opus 4.7	DeepSeek V4	Kimi K2.6	Líder según los datos disponibles
GPQA Diamond	93,6 % ^[6]	n/d	94,2 % ^[6]	90,1 % en DeepSeek-V4-Pro-Max ^[6]	n/d	Claude Opus 4.7 ^[6]
Humanity's Last Exam, sin herramientas	41,4 % ^[6]	43,1 % ^[6]	46,9 % ^[6]	37,7 % en DeepSeek-V4-Pro-Max ^[6]	n/d	Claude Opus 4.7 ^[6]
Humanity's Last Exam, con herramientas	52,2 % ^[6]	57,2 % ^[6]	54,7 % ^[6]	48,2 % en DeepSeek-V4-Pro-Max ^[6]	n/d	GPT-5.5 Pro ^[6]
Terminal-Bench 2.0	82,7 % ^[6]	n/d	69,4 % ^[6]	67,9 % en DeepSeek-V4-Pro-Max ^[6]	66,7 ^[25]^[33]	GPT-5.5 ^[6]
SWE-Bench Pro / SWE Pro	58,6 % ^[6]	n/d	64,3 % ^[6]	55,4 % en DeepSeek-V4-Pro-Max ^[6]	58,6 ^[25]	Claude Opus 4.7 ^[6]
BrowseComp	84,4 % ^[6]	90,1 % ^[6]	79,3 % ^[6]	83,4 % en DeepSeek-V4-Pro-Max ^[6]	n/d	GPT-5.5 Pro ^[6]
MCP Atlas / MCPAtlas Public	75,3 % ^[6]	n/d	79,1 % ^[6]	73,6 % en DeepSeek-V4-Pro-Max ^[6]	n/d	Claude Opus 4.7 ^[6]
SWE-Bench Verified	n/d	n/d	87,6 % en una comparación separada ^[15]	80,6 % para DeepSeek V4-Pro, no Pro-Max ^[15]	80,2 ^[25]^[37]	No hay una fila común para todos ^[15]^[25]^[37]

En la tabla, n/d significa que el dato no aparece en la fuente correspondiente; no equivale a que el modelo haya obtenido cero.

Razonamiento: Claude gana sin herramientas; GPT-5.5 Pro mejora con ellas

En GPQA Diamond, la diferencia entre Claude Opus 4.7 y GPT-5.5 es pequeña: 94,2 % frente a 93,6 %. DeepSeek-V4-Pro-Max queda más atrás con 90,1 % ^[6].

La ventaja de Claude se nota más en Humanity's Last Exam sin herramientas: 46,9 %, frente al 41,4 % de GPT-5.5, el 43,1 % de GPT-5.5 Pro y el 37,7 % de DeepSeek-V4-Pro-Max ^[6].

Coding y agentes: el salto más claro es GPT-5.5 en Terminal-Bench

Modelo por modelo

GPT-5.5 y GPT-5.5 Pro

Claude Opus 4.7

Para razonamiento difícil sin herramientas o para tareas de programación cercanas a SWE-Bench Pro, Claude Opus 4.7 aparece como el candidato más sólido en estas métricas ^[6].

Kimi K2.6

DeepSeek V4

Límites importantes de la comparación

No hay un único pase común para los cuatro modelos en todas las filas. La tabla principal cubre GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 y DeepSeek-V4-Pro-Max; Kimi K2.6 se añade desde fuentes separadas ^[6]^[25]^[37].
DeepSeek V4 no siempre significa la misma variante. La tabla común usa DeepSeek-V4-Pro-Max, mientras que la cifra de SWE-Bench Verified citada en otra fuente corresponde a DeepSeek V4-Pro ^[6]^[15].
GPT-5.5 Pro aparece solo en algunas pruebas. No se debe extrapolar su rendimiento a benchmarks donde la fuente no da una cifra para esa variante ^[6].
Kimi K2.6 requiere una evaluación propia si se va a usar en producción. Sus resultados de Hugging Face son útiles, pero no provienen del mismo marco comparativo que los de GPT-5.5, Claude Opus 4.7 y DeepSeek-V4-Pro-Max ^[6]^[25]^[37].

Conclusión

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Искать и проверять факты с Studio Global AI

Ключевые выводы

No hay campeón único: Claude Opus 4.7 lidera GPQA Diamond y HLE sin herramientas, GPT 5.5 domina Terminal Bench 2.0 y GPT 5.5 Pro gana HLE con herramientas y BrowseComp en la tabla común [6].
Kimi K2.6 no aparece en esa misma comparativa, pero su ficha de Hugging Face informa 80,2 en SWE Bench Verified, 58,6 en SWE Bench Pro y 66,7 en Terminal Bench 2.0 [25][37].
DeepSeek V4 no encabeza las filas citadas, pero sus precios publicados de API —1,74 dólares por 1 millón de tokens de entrada y 3,48 dólares por 1 millón de tokens de salida— son más bajos que los de GPT 5.5 y Claude...

Люди также спрашивают

Каков краткий ответ на вопрос «GPT-5.5, Claude Opus 4.7, Kimi K2.6 y DeepSeek V4: qué modelo lidera según la prueba»?

No hay campeón único: Claude Opus 4.7 lidera GPQA Diamond y HLE sin herramientas, GPT 5.5 domina Terminal Bench 2.0 y GPT 5.5 Pro gana HLE con herramientas y BrowseComp en la tabla común [6].

Какие ключевые моменты необходимо проверить в первую очередь?

Что мне делать дальше на практике?

Какую связанную тему мне следует изучить дальше?

Открыть связанную страницу

С чем мне это сравнить?

Сверьте этот ответ с «Northwest и Southeast timber: почему ответ — «larger; larger»».

Открыть связанную страницу

Продолжайте свое исследование

Исследовательский разговор

Вы26 апр. 2026

Вопрос исследования

Изучите показатели GPT-5.5, Claude Opus 4.7, Kimi K2.6 и DeepSeek V4 в бенчмарках. Пожалуйста, сделайте отчёт удобным для чтения.

Studio Global AI26 апр. 202640 источники

Цитируемый ответ

Key findings

Claude Opus 4.7 выглядит сильнейшим в GPQA Diamond: 94.2% против 93.6% у GPT-5.5 и 90.1% у DeepSeek-V4-Pro-Max ^[9].
Claude Opus 4.7 также лидирует в Humanity’s Last Exam без инструментов: 46.9% против 41.4% у GPT-5.5, 43.1% у GPT-5.5 Pro и 37.7% у DeepSeek-V4-Pro-Max ^[9].
GPT-5.5 Pro лидирует в Humanity’s Last Exam с инструментами: 57.2% против 54.7% у Claude Opus 4.7, 52.2% у GPT-5.5 и 48.2% у DeepSeek-V4-Pro-Max ^[9].
GPT-5.5 заметно впереди в Terminal-Bench 2.0: 82.7% против 69.4% у Claude Opus 4.7, 67.9% у DeepSeek-V4-Pro-Max и 66.7% у Kimi K2.6 ^[9]^[15].
Kimi K2.6 выглядит очень сильной открытой/доступной по весам моделью для coding-бенчмарков: карточка модели указывает 80.2 на SWE-Bench Verified, 58.6 на SWE-Bench Pro, 76.7 на SWE-Bench Multilingual и 66.7 на Terminal-Bench 2.0 ^[15].
DeepSeek-V4-Pro-Max в найденной таблице стабильно ниже GPT-5.5 и Claude Opus 4.7 по GPQA, HLE и Terminal-Bench 2.0, но остаётся близко к Claude в Terminal-Bench 2.0: 67.9% против 69.4% ^[9].

Сводная таблица

Бенчмарк	GPT-5.5	GPT-5.5 Pro	Claude Opus 4.7	DeepSeek-V4-Pro-Max	Kimi K2.6	Кто впереди
GPQA Diamond	93.6% ^[9]	н/д	94.2% ^[9]	90.1% ^[9]	н/д	Claude Opus 4.7
Humanity’s Last Exam, без инструментов	41.4% ^[9]	43.1% ^[9]	46.9% ^[9]	37.7% ^[9]	н/д	Claude Opus 4.7
Humanity’s Last Exam, с инструментами	52.2% ^[9]	57.2% ^[9]	54.7% ^[9]	48.2% ^[9]	н/д	GPT-5.5 Pro
Terminal-Bench 2.0	82.7% ^[9]	н/д	69.4% ^[9]	67.9% ^[9]	66.7 ^[15]	GPT-5.5
SWE-Bench Verified	н/д	н/д	н/д	н/д	80.2 ^[15]	недостаточно данных
SWE-Bench Pro	н/д	н/д	н/д	н/д	58.6 ^[15]	недостаточно данных
SWE-Bench Multilingual	н/д	н/д	н/д	н/д	76.7 ^[15]	недостаточно данных

По моделям

GPT-5.5

GPT-5.5 показывает лучший найденный результат в Terminal-Bench 2.0 среди сопоставленных моделей: 82.7% ^[9].
GPT-5.5 уступает Claude Opus 4.7 в GPQA Diamond: 93.6% против 94.2% ^[9].
GPT-5.5 уступает Claude Opus 4.7 в Humanity’s Last Exam без инструментов: 41.4% против 46.9% ^[9].
GPT-5.5 Pro, отдельный более сильный режим/вариант в найденной таблице, выходит на первое место в HLE с инструментами: 57.2% ^[9].

Claude Opus 4.7

Claude Opus 4.7 — лидер по GPQA Diamond среди моделей в найденной таблице: 94.2% ^[9].
Claude Opus 4.7 — лидер по HLE без инструментов: 46.9% ^[9].
Claude Opus 4.7 занимает второе место в HLE с инструментами после GPT-5.5 Pro: 54.7% против 57.2% ^[9].
В Terminal-Bench 2.0 Claude Opus 4.7 значительно уступает GPT-5.5: 69.4% против 82.7% ^[9].

Kimi K2.6

Kimi K2.6 имеет сильный профиль в coding-задачах: 80.2 на SWE-Bench Verified, 58.6 на SWE-Bench Pro и 76.7 на SWE-Bench Multilingual ^[15].
Kimi K2.6 набирает 66.7 в Terminal-Bench 2.0, что близко к DeepSeek-V4-Pro-Max 67.9 и Claude Opus 4.7 69.4, но заметно ниже GPT-5.5 82.7 ^[9]^[15].
Kimi K2.6 в найденных источниках описывается как новая сильная open-weights модель, а её карточка модели приводит отдельную таблицу результатов по coding и agentic-бенчмаркам ^[14]^[15].

DeepSeek V4

В найденной сопоставимой таблице указана именно версия DeepSeek-V4-Pro-Max, поэтому выводы по DeepSeek V4 лучше читать как выводы по этой конкретной версии, а не обязательно по всей линейке V4 ^[9].
DeepSeek-V4-Pro-Max показывает 90.1% на GPQA Diamond, что ниже GPT-5.5 93.6% и Claude Opus 4.7 94.2% ^[9].
DeepSeek-V4-Pro-Max показывает 37.7% на HLE без инструментов и 48.2% на HLE с инструментами, что ниже GPT-5.5, GPT-5.5 Pro и Claude Opus 4.7 в той же таблице ^[9].
В Terminal-Bench 2.0 DeepSeek-V4-Pro-Max набирает 67.9%, что почти на уровне Claude Opus 4.7 69.4%, но существенно ниже GPT-5.5 82.7% ^[9].

Evidence notes

Самая полезная найденная таблица сравнивает DeepSeek-V4-Pro-Max, GPT-5.5, GPT-5.5 Pro и Claude Opus 4.7 по GPQA Diamond, HLE и Terminal-Bench 2.0 ^[9].
Для Kimi K2.6 наиболее конкретные найденные цифры идут из карточки модели: Terminal-Bench 2.0 — 66.7, SWE-Bench Pro — 58.6, SWE-Bench Multilingual — 76.7, SWE-Bench Verified — 80.2 и OSWorld-Verified — 73.1 ^[15].
Источник по GPT-5.5 и Claude Opus 4.7 также указывает даты релиза: GPT-5.5 — 23 апреля 2026 года, Claude Opus 4.7 — 16 апреля 2026 года ^[10].

Limitations / uncertainty

Insufficient evidence для полностью строгого сравнения всех четырёх моделей в одном независимом прогоне с одинаковыми настройками, потому что Kimi K2.6 не присутствует в основной найденной таблице вместе с GPT-5.5, Claude Opus 4.7 и DeepSeek-V4-Pro-Max ^[9]^[15].
Insufficient evidence для уверенного сравнения всех четырёх моделей по SWE-Bench Verified, потому что найденные конкретные SWE-Bench-цифры относятся к Kimi K2.6, а сопоставимые значения для GPT-5.5, Claude Opus 4.7 и DeepSeek-V4-Pro-Max в доступных фрагментах не были полно представлены ^[15].
Результаты по DeepSeek относятся к варианту DeepSeek-V4-Pro-Max, поэтому их не следует автоматически переносить на все версии DeepSeek V4 ^[9].

Summary

Источники

[6] DeepSeek-V4 arrives with near state-of-the-art intelligence at 1/6th ...venturebeat.com
BenchmarkDeepSeek-V4-Pro-MaxGPT-5.5GPT-5.5 Pro, where shownClaude Opus 4.7Best result among these GPQA Diamond90.1%93.6%—94.2%Claude Opus 4.7 Humanity’s Last Exam, no tools37.7%41.4%43.1%46.9%Claude Opus 4.7 Humanity’s Last Exam, with tools48.2%52.2%57.2%54...
[7] Kimi K2.6 vs Claude Opus 4.6 vs GPT-5.4 - Verdent AIverdent.ai
Yes. K2.6 weights are on Hugging Face and run on vLLM, SGLang, or KTransformers. Minimum viable hardware is 4× H100 for the INT4 variant at reduced context. Claude and GPT-5.4 are API-only — there is no self-hosted path. If data sovereignty is a requirement...
[14] DeepSeek V4 is here: How it compares to ChatGPT, Claude, Geminimashable.com
Here's how the API pricing compares: DeepSeek V4 costs $1.74 per 1 million input tokens and $3.48 per 1 million output tokens (1 million context window) GPT-5.5 costs at $5 per 1 million input tokens and $30 per 1 million output tokens (1 million context wi...
[15] DeepSeek V4 Preview: The Complete 2026 Guide - o-mega | AIo-mega.ai
7. Head-to-Head: DeepSeek V4 vs Claude Opus 4.7 Claude Opus 4.7, released just eight days before DeepSeek V4 on April 16, represents Anthropic's most capable model and the current leader in agentic coding tasks. The comparison with V4-Pro reveals a more nua...
[19] DeepSeek V4: Features, Benchmarks, and Comparisonsdatacamp.com
DeepSeek V4 vs Competitors Over the last week, we’ve seen the release of OpenAI's GPT-5.5 and Anthropic's Claude Opus 4.7. While those models boast top-tier capabilities, especially in long-context reasoning and agentic coding, DeepSeek V4 competes heavily...
[25] moonshotai/Kimi-K2.6 - Hugging Facehuggingface.co
OSWorld-Verified 73.1 75.0 72.7 63.3 Coding Terminal-Bench 2.0 (Terminus-2) 66.7 65.4 65.4 68.5 50.8 SWE-Bench Pro 58.6 57.7 53.4 54.2 50.7 SWE-Bench Multilingual 76.7 77.8 76.9 73.0 SWE-Bench Verified 80.2 80.8 80.6 76.8 SciCode 52.2 56.6 51.9 58.9 48.7 OJ...
[33] Terminal-Bench 2.0 Leaderboardllm-stats.com
Model Score Size Context Cost License --- --- --- 1 Anthropic Claude Mythos Preview Anthropic 0.820 — — $25.00 / $125.00 2 OpenAI GPT-5.3 Codex OpenAI 0.773 — 400K $1.75 / $14.00 3 OpenAI GPT-5.4 OpenAI 0.751 — 1.0M $2.50 / $15.00 4 Anthropic Claude Opus 4....
[37] .eval_results/swe_bench_verified.yaml · moonshotai/Kimi-K2.6 at mainhuggingface.co
Hugging Face's logo moonshotai / Kimi-K2.6 like 1.04k Follow Moonshot AI 9.2k bigeagle's picture --- - dataset: id: SWE-bench/SWE-bench\ Verified task\ id: swe\ bench\ %\ resolved value: 80.2 date: '2026-04-20' source: url: name: Model Card user: SaylorTwift