С Claude Opus 4.7 ситуация тоже требует аккуратности: публичная документация Anthropic, доступная здесь, в первую очередь описывает функции и способ вызова API — например beta-возможность task budgets
В доступных открытых таблицах общий бенчмарк, где находятся значения для всех четырех целевых моделей, — Terminal-Bench 2.0. По этим данным порядок такой:
Из этого можно сделать узкий, но полезный вывод: в Terminal-Bench 2.0 GPT-5.5 заметно впереди, Claude Opus 4.7 идет вторым, а DeepSeek V4-Pro Max и Kimi K2.6 Thinking находятся близко друг к другу.
Но это не означает, что GPT-5.5 автоматически будет лучшим выбором для любой задачи — от поддержки клиентов до анализа документов или автономного кодинга. Один общий бенчмарк не заменяет повторный тест в одинаковых условиях: с теми же промптами, инструментами, контекстом, ограничениями по токенам и правилами оценки.
На странице запуска OpenAI есть несколько бенчмарков, где одновременно указаны GPT-5.5 и Claude Opus 4.7. Во всех перечисленных строках GPT-5.5 показывает более высокий результат.
| Бенчмарк в таблице OpenAI | GPT-5.5 | Claude Opus 4.7 |
|---|---|---|
| Terminal-Bench 2.0 | 82,7 % | 69,4 % |
| GDPval wins or ties | 84,9 % | 80,3 % |
| BrowseComp | 84,4 % | 79,3 % |
| FrontierMath Tier 1–3 | 51,7 % | 43,8 % |
| FrontierMath Tier 4 | 35,4 % | 22,9 % |
| CyberGym | 81,8 % | 73,1 % |
Корректная формулировка здесь такая: в бенчмарках, которые OpenAI приводит в этой таблице, GPT-5.5 опережает Claude Opus 4.7. Системная карта OpenAI также описывает GPT-5.5 как модель для сложной реальной работы: написания кода, онлайн-исследований, анализа информации, создания документов и таблиц, а также выполнения задач через разные инструменты.
Но это все еще таблица на странице OpenAI, а не независимое четырехстороннее сравнение GPT-5.5, Claude Opus 4.7, DeepSeek V4-Pro Max и Kimi K2.6 Thinking в одном и том же тестовом контуре.
Карта DeepSeek V4-Pro дает отдельное сравнение DS-V4-Pro Max и K2.6 Thinking. В большинстве перечисленных строк DeepSeek выше, но у Kimi есть свои сильные точки.
| Бенчмарк в карте DeepSeek | DeepSeek V4-Pro Max | Kimi K2.6 Thinking | Кто выше в таблице |
|---|---|---|---|
| MMLU-Pro | 87,5 | 87,1 | DeepSeek |
| SimpleQA-Verified | 57,9 | 36,9 | DeepSeek |
| Chinese-SimpleQA | 84,4 | 75,9 | DeepSeek |
| GPQA Diamond | 90,1 | 90,5 | Kimi |
| HLE | 37,7 | 36,4 | DeepSeek |
| LiveCodeBench | 93,5 | 89,6 | DeepSeek |
| HMMT 2026 Feb | 95,2 | 92,7 | DeepSeek |
| IMOAnswerBench | 89,8 | 86,0 | DeepSeek |
| Apex Shortlist | 90,2 | 75,5 | DeepSeek |
| SWE Pro | 55,4 | 58,6 | Kimi |
| Terminal-Bench 2.0 | 67,9 | 66,7 | DeepSeek |
Самый осторожный вывод: в таблице DeepSeek DS-V4-Pro Max выше Kimi K2.6 Thinking по большинству указанных метрик, но Kimi лидирует в GPQA Diamond и SWE Pro. При этом в MMLU-Pro и Terminal-Bench 2.0 разрыв небольшой, поэтому для продуктового выбора важнее не сама стрелка вверх или вниз, а тип вашей задачи и повторный тест на собственных данных.
Главная ошибка — взять таблицу OpenAI, таблицу DeepSeek и документацию Anthropic, а затем объявить абсолютного победителя. Доступные публичные материалы такого вывода не поддерживают.
Поэтому публичные бенчмарки лучше воспринимать как карту местности, а не как готовый маршрут закупки или миграции.
Практичный подход — разделить оценку на три слоя.
Если продукт зависит от длинных агентных циклов, у Claude Opus 4.7 отдельно стоит проверить task budgets
Если основной сценарий ближе к сложному кодингу, онлайн-исследованию, подготовке документов или таблиц и работе через набор инструментов, описание GPT-5.5 в системной карте OpenAI прямо совпадает с такими классами задач. Но даже модель, которая лидирует в публичной таблице, нужно проверять в вашем репозитории, вашей цепочке инструментов, ваших ограничениях доступа и ваших правилах восстановления после ошибок.
Comments
0 comments