Пустые ячейки не означают, что DeepSeek V4 или Kimi K2.6 слабее. Они означают более простую вещь: в доступных здесь источниках нет одинаковых результатов по тем же тестам, с теми же настройками и сопоставимой детализацией
.
На двух показателях ARC-AGI из страницы запуска OpenAI модель GPT-5.5 опережает Claude Opus 4.7. В ARC-AGI-1 Verified у GPT-5.5 указано 95,0 % против 93,5 % у Claude Opus 4.7. В ARC-AGI-2 Verified разрыв больше: 85,0 % против 75,8 % .
Но это не доказывает, что GPT-5.5 «лучше во всём». Более аккуратная формулировка: GPT-5.5 побеждает Claude Opus 4.7 именно на этих двух метриках абстрактного рассуждения в опубликованной таблице OpenAI .
Методологическая оговорка здесь важна. OpenAI указывает, что оценки GPT проводились с effort reasoning xhigh в исследовательской среде, поэтому результаты могут немного отличаться от поведения ChatGPT в продуктивном окружении . Для инженеров и продуктовых команд это означает: красивое число в таблице — не замена тесту на собственных задачах.
Самый сильный сигнал в пользу Claude Opus 4.7 — MCP-Atlas. Вторичный анализ приводит 79,1 % для Claude Opus 4.7 против 75,3 % для GPT-5.5 и связывает это преимущество с более надёжными вызовами инструментов в сложных цепочках через Model Context Protocol, или MCP .
Для русскоязычного читателя, не работающего каждый день с агентными фреймворками, смысл простой: MCP — это способ подключать модель к внешним инструментам и контекстам. Если ваш продукт строится не вокруг одного ответа в чате, а вокруг цепочки действий — поиск, база данных, код, CRM, внутренние сервисы, — стабильность таких вызовов может быть важнее, чем победа на тесте абстрактных задач.
Поэтому для команд, которые делают многоинструментальных агентов, этот бенчмарк нельзя отмахнуть как второстепенный. В доступных данных именно Claude Opus 4.7 выглядит сильнее GPT-5.5 на MCP-Atlas .
Для GPT-5.5 сообщается результат 82,7 % на Terminal-Bench 2.0 — бенчмарке, связанном с задачами в терминале и agentic coding, то есть кодингом, где модель не просто пишет фрагмент кода, а действует как агент в среде разработки .
Это самый полезный численный показатель по коду в предоставленных источниках для данного сравнения. Но ограничение такое же важное, как и само число: источники не дают полной таблицы Terminal-Bench 2.0 для Claude Opus 4.7, DeepSeek V4 и Kimi K2.6. Поэтому корректный вывод не «GPT-5.5 точно лучше всех в программировании», а «у GPT-5.5 есть самый ясный опубликованный сигнал по этому направлению» .
DeepSeek V4 и Kimi K2.6 стоит воспринимать как заметных участников рынка моделей с открытыми весами. Но по предоставленным данным их нельзя строго сравнить с GPT-5.5 и Claude Opus 4.7 на ARC-AGI, MCP-Atlas или Terminal-Bench 2.0
.
По DeepSeek источник Artificial Analysis пишет, что выпуск DeepSeek V4 возвращает DeepSeek в число ведущих моделей с открытыми весами . Самая конкретная цифра в предоставленных данных относится к DeepSeek V4 Pro Max: 52 пункта в Artificial Analysis Intelligence Index против 42 у DeepSeek V3.2
.
По Kimi K2.6 Artificial Analysis выделяет анализ с названием Kimi K2.6: The new leading open weights model . Это сильный сигнал позиционирования, но в предоставленных источниках нет нужных чисел, чтобы сравнить Kimi K2.6 с DeepSeek V4, GPT-5.5 и Claude Opus 4.7 на одинаковых бенчмарках
.
В system card GPT-5.5 описан CoT-Control — набор из более чем 13 000 задач, построенных на базе известных бенчмарков, включая GPQA, MMLU-Pro, HLE, BFCL и SWE-Bench Verified . Это важно для понимания того, как оценивается управляемость рассуждений модели, но не даёт сравнительного рейтинга между GPT-5.5, Claude Opus 4.7, DeepSeek V4 и Kimi K2.6
.
Отдельный вторичный источник сообщает для GPT-5.5 93 % успешности на cyber range и одновременно указывает, что универсальный jailbreak был найден за шесть часов red-teaming . Эти два факта нужно читать вместе: высокая результативность в киберзадачах не доказывает общей безопасности модели
.
Есть и внешняя критика: одна публикация подчёркивает, что оценка безопасности GPT-5.5 сильно зависит от заявлений OpenAI, а это ограничивает выводы, которые можно делать только по опубликованной поставщиком информации .
Не стоит делать вывод, что GPT-5.5 — универсально лучшая модель только потому, что она впереди Claude Opus 4.7 на двух показателях ARC-AGI . И так же не стоит считать Claude Opus 4.7 глобальным победителем только из-за лидерства на MCP-Atlas
. Разные бенчмарки измеряют разные типы задач.
Не стоит ранжировать DeepSeek V4 и Kimi K2.6 рядом с двумя закрытыми моделями без общих тестов. Сигналы Artificial Analysis показывают, что DeepSeek V4 и Kimi K2.6 важны для экосистемы моделей с открытыми весами, но не дают полноценной общей таблицы против GPT-5.5 и Claude Opus 4.7
.
И наконец, нельзя превращать результат по возможностям в гарантию безопасности. Доступные данные по GPT-5.5 как раз показывают напряжение между сильными киберрезультатами и вопросами о jailbreak и независимости оценок
.
Самый честный рейтинг здесь — не общий, а по сценариям. GPT-5.5 лидирует на доступных ARC-AGI-результатах против Claude Opus 4.7 и имеет лучший приведённый численный сигнал по agentic coding. Claude Opus 4.7 лидирует на MCP-Atlas. DeepSeek V4 и Kimi K2.6 остаются важными кандидатами среди моделей с открытыми весами, но предоставленных данных недостаточно, чтобы строго поставить их в один ряд с двумя проприетарными моделями по тем же бенчмаркам
.
Для продуктового решения разумнее не искать «самую сильную модель вообще», а прогнать короткий собственный набор тестов: рассуждение, вызовы инструментов, код, стоимость, задержки, ограничения развёртывания и допустимый уровень риска.
Comments
0 comments