Эта таблица хорошо показывает, почему фраза «лучшая модель вообще» мало помогает при выборе. В одних строках впереди Claude Opus 4.7, в других — GPT-5.5 Pro или GPT-5.5. Kimi K2.6 при этом появляется главным образом в отдельных источниках вроде LLM Stats и DocsBot, а не в той же полной таблице, где одновременно сравниваются GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 и DeepSeek-V4-Pro-Max .
В прямом сравнении VentureBeat Claude Opus 4.7 набирает 94,2% на GPQA Diamond, GPT-5.5 — 93,6%, а DeepSeek-V4-Pro-Max — 90,1% . Разница между Claude и GPT-5.5 на этой строке небольшая, но в этой таблице именно Claude остается первым
.
Claude Opus 4.7 также лидирует на Humanity’s Last Exam без инструментов: 46,9% против 43,1% у GPT-5.5 Pro, 41,4% у GPT-5.5 и 37,7% у DeepSeek-V4-Pro-Max . Если основная нагрузка — сложные вопросы на знания, научное reasoning или тесты без внешних инструментов, имеющиеся данные склоняются в пользу Claude Opus 4.7
.
Для Kimi K2.6 есть отдельный сигнал по GPQA: LLM Stats указывает Kimi K2.6 на уровне 0,91, тогда как Claude Opus 4.7 и GPT-5.5 в том же лидерборде показаны на округленном уровне 0,94 . Но это не та же прямая таблица GPQA Diamond из VentureBeat, поэтому такой результат лучше считать справочным, а не окончательным сравнением «лоб в лоб»
.
Когда бенчмарк разрешает пользоваться инструментами, расстановка сил меняется. На Humanity’s Last Exam с инструментами GPT-5.5 Pro набирает 57,2%, опережая Claude Opus 4.7 с 54,7%, GPT-5.5 с 52,2% и DeepSeek-V4-Pro-Max с 48,2% .
BrowseComp тоже идет в пользу GPT-5.5 Pro в таблице VentureBeat: 90,1% у GPT-5.5 Pro, 84,4% у GPT-5.5, 83,4% у DeepSeek-V4-Pro-Max и 79,3% у Claude Opus 4.7 . DocsBot отдельно указывает для Kimi K2.6 результат 83,2% на BrowseComp, но это страница сравнения Kimi K2.6 и DeepSeek-V4 Pro, а не та же полная матрица VentureBeat
.
Практический вывод простой: если сценарий завязан на веб-исследования, browsing, orchestration инструментов или поиск информации в реальном времени, GPT-5.5 Pro выглядит самым сильным выбором в приведенном наборе данных .
Terminal-Bench 2.0 важен не для обычных чат-ответов, а для агентных сценариев, где модель должна работать в shell. Этот бенчмарк описывается как проверка реальных CLI-workflow: работа с файлами, запуск скриптов, отладка и координация инструментов .
В таблице VentureBeat GPT-5.5 получает 82,7% на Terminal-Bench 2.0, заметно выше Claude Opus 4.7 с 69,4% и DeepSeek-V4-Pro-Max с 67,9% . Если вам нужен агент для командной строки, автоматизации репозитория, запуска тестов, правки ошибок через терминал и многошаговых shell-задач, это самый явный плюс GPT-5.5 в доступных данных
.
SWE-Bench Pro — важный индикатор для сложных задач software engineering. LLM Stats описывает его как продвинутую версию SWE-Bench, которая оценивает реальные инженерные задачи, требующие длительного reasoning и многошагового решения .
В таблице VentureBeat Claude Opus 4.7 набирает 64,3% на SWE-Bench Pro / SWE Pro, выше GPT-5.5 с 58,6% и DeepSeek-V4-Pro-Max с 55,4% . LLM Stats также указывает Claude Opus 4.7 на уровне 0,64, GPT-5.5 — 0,59, Kimi K2.6 — 0,59, а DeepSeek-V4-Pro-Max — 0,55 на SWE-Bench Pro
.
Форматы оценок у источников разные, но основной сигнал совпадает: Claude Opus 4.7 впереди на SWE-Bench Pro; GPT-5.5 и Kimi K2.6 находятся рядом в таблице LLM Stats; DeepSeek-V4-Pro-Max ниже в приведенных результатах .
DeepSeek-V4-Pro-Max не занимает первое место ни в одной строке прямой таблицы VentureBeat: 90,1% на GPQA Diamond, 37,7% на Humanity’s Last Exam без инструментов, 48,2% на Humanity’s Last Exam с инструментами, 67,9% на Terminal-Bench 2.0, 55,4% на SWE-Bench Pro, 83,4% на BrowseComp и 73,6% на MCP Atlas .
Его сильная сторона — стоимость относительно производительности. VentureBeat описывает DeepSeek-V4 как модель, близкую к state-of-the-art, при цене примерно 1/6 от Opus 4.7 и GPT-5.5 . Но есть и важное предупреждение: Artificial Analysis сообщает, что DeepSeek V4 Pro Max набирает -10 на AA-Omniscience, улучшаясь на 11 пунктов относительно V3.2 Reasoning с -21, а также указывает очень высокий hallucination rate у V4 Pro и V4 Flash — 94% и 96% соответственно
.
Из этого не следует автоматически, что DeepSeek V4 «самая ненадежная» модель среди всех участников: источники не дают одинакового hallucination-бенчмарка для GPT-5.5, Claude Opus 4.7 и Kimi K2.6 . Более осторожный вывод такой: DeepSeek V4 стоит рассматривать, если цена критична, но его нужно проверять на hallucination в ваших реальных данных и процессах
.
Kimi K2.6 — самая сложная модель для ранжирования в этой подборке. Причина не в том, что она обязательно слабее или сильнее, а в том, что ее данные не лежат в одной полной матрице с GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 и DeepSeek-V4-Pro-Max .
Отдельные источники дают несколько заметных результатов. LLM Stats указывает Kimi K2.6 на уровне 0,91 по GPQA и 0,59 на SWE-Bench Pro . DocsBot указывает для Kimi K2.6 96,4% на AIME 2026 в thinking mode, 27,9% на APEX Agents и 83,2% на BrowseComp; на той же странице DeepSeek-V4 Pro указан с 83,4% на BrowseComp
.
Поэтому разумная позиция — не объявлять Kimi K2.6 победителем или аутсайдером всей группы. Лучше воспринимать его как кандидата для пилота, если именно эти отдельные бенчмарки похожи на ваши задачи, и обязательно прогонять собственные тесты на реальных данных .
Во-первых, GPT-5.5 Pro появляется только в части строк таблицы VentureBeat. Нельзя автоматически считать, что Pro-версия лидирует или проигрывает там, где результат не опубликован .
Во-вторых, по Kimi K2.6 данные в основном приходят из LLM Stats и DocsBot, а не из одной полной таблицы с GPT-5.5, GPT-5.5 Pro, Claude Opus 4.7 и DeepSeek-V4-Pro-Max .
В-третьих, у OpenAI есть отдельный system card для GPT-5.5. В нем говорится, что контролируемость модели измеряли через CoT-Control — набор более чем из 13 000 задач, построенных на GPQA, MMLU-Pro, HLE, BFCL и SWE-Bench Verified . Это полезный контекст о том, как оценивали GPT-5.5, но в приведенных источниках нет сопоставимых результатов CoT-Control для Claude Opus 4.7, DeepSeek V4 и Kimi K2.6, поэтому по нему нельзя честно выстроить общий рейтинг
.
Если совсем коротко: Claude Opus 4.7 — самый сильный выбор в этих данных для сложного reasoning и SWE-Bench Pro; GPT-5.5 Pro — для tool use и browsing; GPT-5.5 — для терминальных агентных задач; DeepSeek V4 — для сценариев, где цена важнее всего, но нужен жесткий контроль hallucination; Kimi K2.6 — перспективный кандидат с отдельными сильными результатами, которому не хватает единой матрицы сравнения .
Comments
0 comments