| Экзаменационные задачи с инструментами | GPT-5.5 Pro | 57,2% на Humanity’s Last Exam с инструментами против 54,7% у Claude Opus 4.7 |
| Терминал и агентные вычисления | GPT-5.5 | 82,7% на Terminal-Bench 2.0 против 69,4% у Claude Opus 4.7 и 67,9% у DeepSeek-V4-Pro-Max |
| Работа в среде ОС | GPT-5.5 | 78,7% на OSWorld-Verified против 78,0% у Claude Opus 4.7 |
| Сложная математика | GPT-5.5 | 51,7% на FrontierMath Tiers 1–3 против 43,8% у Claude Opus 4.7 |
| Разработка ПО в общей таблице | Claude Opus 4.7 | 64,3% на SWE-Bench Pro / SWE Pro против 58,6% у GPT-5.5 и 55,4% у DeepSeek-V4-Pro-Max |
| Browsing и веб-понимание | GPT-5.5 Pro | 90,1% на BrowseComp против 84,4% у GPT-5.5, 83,4% у DeepSeek-V4-Pro-Max и 79,3% у Claude Opus 4.7 |
| MCP-подобные процессы с публичными инструментами | Claude Opus 4.7 | 79,1% на MCP Atlas / MCPAtlas Public против 75,3% у GPT-5.5 и 73,6% у DeepSeek-V4-Pro-Max |
| Зрение и анализ документов | Claude Opus 4.7 | Указан как №1 в Vision & Document Arena, включая победы в категориях диаграмм, домашних заданий и OCR |
| Оценка с фокусом на стоимость | DeepSeek V4 | VentureBeat описывает DeepSeek V4 как почти frontier-уровень примерно за одну шестую стоимости Opus 4.7 и GPT-5.5, но это нужно проверять на своем workload |
Строки, где смешиваются источники, нужно читать особенно осторожно. Результат Kimi из отдельного Kimi-сравнения полезен, но он менее надежен для прямого ранжирования, чем цифры, полученные в одной и той же общей таблице для GPT-5.5, Claude Opus 4.7 и DeepSeek-V4-Pro-Max .
Самая заметная победа GPT-5.5 — Terminal-Bench 2.0: 82,7% против 69,4% у Claude Opus 4.7 и 67,9% у DeepSeek-V4-Pro-Max в общей таблице . Это один из самых крупных разрывов во всем наборе цитируемых бенчмарков.
На OSWorld-Verified преимущество GPT-5.5 над Claude Opus 4.7 минимальное: 78,7% против 78,0% . На FrontierMath Tiers 1–3 отрыв заметнее: 51,7% у GPT-5.5 против 43,8% у Claude
.
Когда важны внешние инструменты и browsing, картина меняется в пользу GPT-5.5 Pro. Он лидирует на Humanity’s Last Exam с инструментами: 57,2% против 54,7% у Claude Opus 4.7, 52,2% у GPT-5.5 и 48,2% у DeepSeek-V4-Pro-Max . Он же выигрывает BrowseComp с 90,1%, опережая GPT-5.5 с 84,4%, DeepSeek-V4-Pro-Max с 83,4% и Claude Opus 4.7 с 79,3%
.
Но GPT-5.5 не забирает все тесты на рассуждение. В GPQA Diamond Claude Opus 4.7 чуть впереди: 94,2% против 93,6% у GPT-5.5 . Отдельный гид по GPT-5.5 приводит GPT-5.5-only результаты по доменам: 91,7% на Harvey BigLaw Bench, 88,5% на внутреннем investment-banking benchmark и 80,5% на BixBench, но их нельзя считать победами в сравнении всей четверки, потому что в цитируемом фрагменте нет таких же результатов для Claude Opus 4.7, DeepSeek V4 и Kimi K2.6
.
У Claude Opus 4.7 лучший профиль в основной общей таблице для задач без инструментов. Он лидирует в GPQA Diamond с 94,2% и Humanity’s Last Exam без инструментов с 46,9% . В той же таблице Claude впереди на SWE-Bench Pro / SWE Pro с 64,3% и MCP Atlas / MCPAtlas Public с 79,1%
.
Слабее всего в цитируемых данных Claude выглядит в терминальных и операционных сценариях. GPT-5.5 опережает его на Terminal-Bench 2.0 более чем на 13 пунктов — 82,7% против 69,4% — а также ведет на OSWorld-Verified и FrontierMath Tiers 1–3 .
Самый сильный мультимодальный и документный сигнал — тоже у Claude. Один источник сообщает, что Claude Opus 4.7 занял первое место в Vision & Document Arena, улучшил результат Opus 4.6 в Document Arena на 4 пункта и выиграл подкатегории диаграмм, домашних заданий и OCR . Однако тот же источник не дает сопоставимых числовых результатов Vision & Document Arena для GPT-5.5, DeepSeek V4 или Kimi K2.6, поэтому это аргумент в пользу силы Claude на документах, но не полноценный рейтинг всей четверки по мультимодальности
.
С DeepSeek важно не смешивать ярлыки. В общей таблице фигурирует DeepSeek-V4-Pro-Max, а в сравнении Artificial Analysis — DeepSeek V4 Pro с окном контекста 1000k токенов . Эти названия не стоит автоматически считать взаимозаменяемыми.
В основной общей таблице DeepSeek-V4-Pro-Max конкурентоспособен, но не лидирует ни в одной строке. Его результаты: 90,1% на GPQA Diamond, 37,7% на Humanity’s Last Exam без инструментов, 48,2% на Humanity’s Last Exam с инструментами, 67,9% на Terminal-Bench 2.0, 55,4% на SWE-Bench Pro / SWE Pro, 83,4% на BrowseComp и 73,6% на MCP Atlas / MCPAtlas Public .
Самый сильный заявленный аргумент DeepSeek — не победа в конкретной строке, а цена к качеству. VentureBeat описывает DeepSeek V4 как модель с почти state-of-the-art intelligence примерно за одну шестую стоимости Opus 4.7 и GPT-5.5 . Это веская причина тестировать DeepSeek в бюджетно чувствительных задачах, но не повод пропускать собственную проверку качества.
Для long-context отсева одно сравнение Artificial Analysis указывает и DeepSeek V4 Pro, и Claude Opus 4.7 с окном контекста 1000k токенов . Это показывает паритет именно для перечисленных конфигураций, а не для всех режимов DeepSeek или Claude
.
Kimi K2.6 труднее всего ранжировать в этой подборке, потому что он не включен в основную общую таблицу вместе с GPT-5.5, Claude Opus 4.7 и DeepSeek-V4-Pro-Max . Kimi-фокусированное сравнение указывает для K2.6 58,6% на SWE-Bench Pro, 80,2% на SWE-Bench Verified, 66,7% на Terminal-Bench 2.0, 54,0% на Humanity’s Last Exam с инструментами и 89,6% на LiveCodeBench v6
. Там же сказано, что числа K2.6 взяты из официальной модельной карты Moonshot AI, но набор сравнения в основном включает Claude Opus 4.6 и GPT-5.4, а не точную четверку из этой статьи
.
Отдельное сравнение Kimi и DeepSeek дает Kimi K2.6 96,4% на AIME 2026 в режиме Thinking, 27,9% на APEX Agents в режиме Thinking и 83,2% на BrowseComp с Thinking mode и context management . В том же источнике DeepSeek-V4 Pro указан с 83,4% на BrowseComp, а для AIME 2026 и APEX Agents значения DeepSeek не приведены
.
Итог: Kimi стоит тестировать, особенно если вас интересуют coding, agentic, math и browsing-сценарии. Но имеющиеся источники не позволяют аккуратно вывести общий рейтинг Kimi против GPT-5.5 и Claude Opus 4.7 на одном и том же наборе бенчмарков .
Это не универсальная таблица чемпионов. Источники смешивают базовые и Pro-варианты, включая GPT-5.5, GPT-5.5 Pro, DeepSeek-V4-Pro-Max, DeepSeek V4 Pro, Claude Opus 4.7 и Kimi K2.6 . Часть значений также заявлена поставщиками: источник по GPT-5.5 помечает benchmark values как vendor-reported, а OpenAI отдельно предупреждает, что GPT-оценки для ARC запускались с reasoning effort xhigh в исследовательской среде и в отдельных случаях могут отличаться от production ChatGPT
.
Малые разрывы лучше воспринимать как направление, а не как железный вердикт. Преимущество Claude над GPT-5.5 на GPQA Diamond — 0,6 пункта, а преимущество GPT-5.5 над Claude на OSWorld-Verified — 0,7 пункта . Более крупные разрывы практичнее: преимущество GPT-5.5 над Claude на Terminal-Bench 2.0 превышает 13 пунктов, а на FrontierMath составляет 7,9 пункта
.
Практический вывод простой: среди GPT-5.5, Claude Opus 4.7, DeepSeek V4 и Kimi K2.6 нет одного победителя на все случаи. Выберите бенчмарк, который ближе всего к вашей реальной задаче, а затем прогоните одинаковую оценку на тех моделях, которые вы действительно можете развернуть.
Comments
0 comments