| Сложные рассуждения, экспертное ревью, аккуратная проверка | Claude Opus 4.7 | LLM Stats по 10 общим бенчмаркам считает, что Claude Opus 4.7 лидирует в 6 тестах, а GPT-5.5 — в 4. |
| Терминал, браузинг, длительное использование инструментов | GPT-5.5 | LLM Stats выделяет силу GPT-5.5 в Terminal-Bench 2.0, BrowseComp, OSWorld-Verified и CyberGym. |
| Open-weight модель с акцентом на скорость и цену | Kimi K2.6 | В таблице open-weight моделей Artificial Analysis у Kimi K2.6: Intelligence 54, контекст 256k, Price $1.7 и 112 tokens/s. |
В паре GPT-5.5 и Claude Opus 4.7 победитель меняется от теста к тесту. По данным Mashable, Claude Opus 4.7 сильнее в SWE-Bench Pro и GPQA Diamond, а GPT-5.5 — в Terminal-Bench 2.0, Humanity's Last Exam, BrowseComp и ARC-AGI-1 Verified.
| Бенчмарк | GPT-5.5 | Claude Opus 4.7 | Кто впереди в таблице Mashable |
|---|---|---|---|
| SWE-Bench Pro | 58,6% | 64,3% | Claude Opus 4.7 |
| Terminal-Bench 2.0 | 82,7% | 69,4% | GPT-5.5 |
| Humanity's Last Exam | 40,6% | 31,2% | GPT-5.5 |
| Humanity's Last Exam with tools | 52,2% | 54,7% | Claude Opus 4.7 |
| BrowseComp | 84,4% | 79,3% | GPT-5.5 |
| GPQA Diamond | 93,6% | 94,2% | Claude Opus 4.7 |
| ARC-AGI-1 Verified | 94,5% | 92,0% | GPT-5.5 |
LLM Stats даёт более обобщённую картину: по 10 бенчмаркам, которые сообщают оба провайдера, Claude Opus 4.7 ведёт 6:4. При этом распределение не случайное: Opus 4.7 чаще впереди в reasoning-heavy и review-grade задачах, а GPT-5.5 — в долгих сценариях с инструментами.
Но здесь есть важная оговорка. LLM Stats прямо отмечает, что оценки являются self-reported результатами провайдеров на high reasoning tier: их можно сравнивать «по форме», но не стоит считать методологически идентичными. Кроме того, по отдельным тестам, например Humanity's Last Exam, картина лидерства может меняться в зависимости от источника и режима тестирования.
Kimi K2.6 и DeepSeek V4 Pro разумнее рассматривать не как прямых заменителей закрытых фронтирных моделей, а как кандидатов для open-weight эксплуатации: пилоты, агентные пайплайны, локальные или гибридные сценарии, контроль над весами и стоимостью.
| Метрика | Kimi K2.6 | DeepSeek V4 Pro |
|---|---|---|
| Artificial Analysis Intelligence | 54 | 52 |
| Context window | 256k | 1.00M |
| Price | $1.7 | $2.2 |
| Output speed | 112 tokens/s | 36 tokens/s |
Если смотреть только на эту таблицу, Kimi K2.6 выигрывает по Intelligence и скорости вывода, а DeepSeek V4 Pro — по длине контекстного окна. The Decoder также сообщает, что, по данным Moonshot AI, Kimi K2.6 набрал 54,0 в HLE with Tools, 58,6 в SWE-Bench Pro и 83,2 в BrowseComp.
Однако результаты Kimi K2.6 нельзя автоматически переносить на сравнение с GPT-5.5 и Claude Opus 4.7 в полностью одинаковых условиях. В карточке модели на Hugging Face указано, что эксперименты Kimi K2.6 проводились с включённым thinking mode, temperature 1.0, top-p 1.0 и контекстом 262 144 токена; основными точками сравнения там выступают Claude Opus 4.6, GPT-5.4 и Gemini 3.1 Pro.
DeepSeek V4 Pro, в свою очередь, выглядит не как абсолютный лидер по возможностям, а как модель для задач, где важны длинный контекст и стоимость. DataCamp формулирует это так: DeepSeek V4 не обгоняет GPT-5.5 и Claude Opus 4.7 по чистой способности, но предлагает near-frontier уровень по более низкой цене.
При оценке стоимости важно разделять как минимум три вида показателей.
Первый — API-цена за токены. Mashable приводит такие значения: DeepSeek V4 — $1.74 за 1 млн входных токенов и $3.48 за 1 млн выходных; GPT-5.5 — $5/$30; Claude Opus 4.7 — $5/$25.
Второй — колонка Price в таблицах Artificial Analysis. Для Kimi K2.6 там указано $1.7, для DeepSeek V4 Pro — $2.2, но это не следует автоматически приравнивать к API-тарифам из Mashable.
Третий — стоимость запуска конкретного бенчмарка. В материале Artificial Analysis о DeepSeek V4 Pro указано, что прогон Artificial Analysis Intelligence Index стоил $1 071 для DeepSeek V4 Pro, $948 для Kimi K2.6 и $4 811 для Claude Opus 4.7.
Иными словами, фразы вроде «DeepSeek дешевле», «Kimi выгоднее» или «Claude дорогой» имеют смысл только после уточнения: речь об API-тарифе, стоимости бенчмарка, количестве выходных токенов или реальной стоимости вашего production-пайплайна.
По Claude Opus 4.7 есть отдельные сигналы, связанные не столько с «интеллектом», сколько с поведением модели. Mashable передаёт заявление Anthropic о 92% honesty rate и меньшей склонности к sycophancy — то есть к чрезмерному соглашательству с пользователем.
В собственном анонсе Anthropic также пишет, что Claude Opus 4.7 в их внутреннем research-agent benchmark разделил первое место по суммарному результату на шести модулях с 0,715, а в модуле General Finance улучшился с 0,767 у Opus 4.6 до 0,813.
Но эти показатели нельзя напрямую складывать с SWE-Bench Pro, GPQA Diamond или BrowseComp. В реальном внедрении стоит отдельно смотреть на способность решать задачу, цену, скорость, риск галлюцинаций, воспроизводимость и удобство аудита.
Для рабочих систем всё чаще разумнее не фиксировать один LLM на все задачи, а строить маршрутизацию. Простые задачи идут в одну модель, тяжёлое ревью — в другую, массовая обработка — в третью.
MindStudio в сравнении кодовых задач пишет, что GPT-5.5 использовал на 72% меньше выходных токенов, чем Claude Opus 4.7, на одинаковых заданиях. При этом для сложных, reasoning-heavy задач в крупных кодовых базах более подробный стиль Opus 4.7 может оправдывать дополнительные затраты.
Практическая стартовая схема может выглядеть так: GPT-5.5 — для стандартной генерации, исправлений и сценариев с терминалом; Claude Opus 4.7 — для глубокого ревью и экспертных решений; Kimi K2.6 — для недорогих open-weight экспериментов; DeepSeek V4 Pro — для длинного контекста и массовой обработки, где цена API критична.
По имеющимся публичным данным безопаснее говорить не о единственном победителе, а о сильных сценариях каждой модели. GPT-5.5 выглядит особенно убедительно в универсальных и экономически значимых задачах; Claude Opus 4.7 — в рассуждениях и ревью; Kimi K2.6 — в скорости и цене среди open-weight вариантов; DeepSeek V4 Pro — в длинном контексте и низкой цене API семейства DeepSeek V4.
При этом даже внутри Artificial Analysis картина зависит от страницы и режима: отдельная страница GPT-5.5 high указывает Intelligence 59, а общая страница моделей называет Claude Opus 4.7 Adaptive Reasoning, Max Effort лидером с Intelligence 57. Поэтому бенчмарки лучше использовать как карту местности, а финальный выбор делать через небольшой параллельный тест на ваших задачах, с вашими ограничениями по бюджету, задержке и допустимой цене ошибки.
Comments
0 comments