Сравнивать GPT-5.5, Claude Opus 4.7, DeepSeek V4 и Kimi K2.6 одним общим баллом — значит смешивать разные линейки измерений. В доступных источниках GPT-5.5 и Claude Opus 4.7 чаще встречаются в одних и тех же бенчмарках, а DeepSeek V4 и Kimi K2.6 лучше описаны через окно контекста, открытые веса, мультимодальность и отдельные метрики надёжности [2][
7][
30][
31][
33][
35][
36]. Поэтому практичный вопрос звучит не кто победил вообще, а какая модель меньше рискует подвести именно в вашем сценарии.
Короткий ответ
- Для terminal automation, agentic workflow и работы с инструментами сильнее выглядит GPT-5.5: он ведёт у Claude Opus 4.7 в Terminal-Bench 2.0, BrowseComp и OSWorld-Verified [
2][
7].
- Для задач software engineering самый явный плюс у Claude Opus 4.7: 64,3% на SWE-Bench Pro против 58,6% у GPT-5.5 [
2].
- Для очень длинного контекста в этой подборке выделяется DeepSeek V4 Pro: Artificial Analysis указывает 1000k токенов против 256k у Kimi K2.6, но одновременно сообщает hallucination rate 94% для DeepSeek V4 Pro [
31][
33].
- Для open-weight multimodal сценариев в shortlist попадает Kimi K2.6: Artificial Analysis описывает его как open weights model, указывает Intelligence Index 54 и нативную поддержку image/video input с text output [
35][
36].
Сравнимые цифры: где есть прямые данные
| Тест / метрика | GPT-5.5 | Claude Opus 4.7 | DeepSeek V4 | Kimi K2.6 | Как читать результат |
|---|---|---|---|---|---|
| Terminal-Bench 2.0 | 82,7% | 69,4% | н/д | н/д | GPT-5.5 заметно впереди Claude Opus 4.7 в таблице Vellum [ |
| SWE-Bench Pro | 58,6% | 64,3% | н/д | н/д | Claude Opus 4.7 лидирует в бенчмарке software engineering [ |
| GDPval | 84,9% | 80,3% | н/д | н/д | GPT-5.5 выше Claude Opus 4.7 в этом наборе [ |
| OSWorld-Verified | 78,7% | 78,0% | н/д | н/д | GPT-5.5 впереди минимально, по данным OpenAI [ |
| BrowseComp | 84,4% | 79,3% | н/д | н/д | GPT-5.5 ведёт в этом тесте tool use [ |
| MCP Atlas | 75,3% | 79,1% | н/д | н/д | Здесь уже Claude Opus 4.7 впереди GPT-5.5 [ |
| GPQA Diamond | 93,6% | 94,2% | н/д | н/д | Claude Opus 4.7 имеет небольшой перевес [ |
| FrontierMath T1–3 | 51,7% | 43,8% | н/д | н/д | GPT-5.5 впереди Claude Opus 4.7 [ |
| Окно контекста | н/д в этой таблице | н/д в этой таблице | 1000k токенов | 256k токенов | DeepSeek V4 Pro имеет более длинное окно контекста, чем Kimi K2.6, в сравнении Artificial Analysis [ |
| AA-Omniscience / hallucination | н/д | н/д | V4 Pro Max: -10; V4 Pro hallucination rate 94% | н/д | Сигнал, что ответы DeepSeek V4 Pro нужно особенно тщательно проверять [ |
| Artificial Analysis Intelligence Index | н/д | н/д | н/д | 54 | Это отдельная метрика для Kimi K2.6, а не единый рейтинг всех четырёх моделей [ |
Здесь н/д не означает, что модель хуже. Это означает только, что в использованных источниках нет сопоставимого результата в том же бенчмарке и у того же оценщика.
GPT-5.5: сильный кандидат для agentic и tool workflow
GPT-5.5 — модель с самым плотным набором прямых сравнений с Claude Opus 4.7 в доступных источниках. Vellum приводит Terminal-Bench 2.0, SWE-Bench Pro, GDPval, GPQA Diamond и FrontierMath, а OpenAI — OSWorld-Verified, BrowseComp и MCP Atlas [2][
7].
Самый заметный профиль GPT-5.5 — задачи, где модель должна не просто отвечать текстом, а планировать шаги, пользоваться инструментами, работать в терминале или браузерном окружении. GPT-5.5 получает 82,7% на Terminal-Bench 2.0 против 69,4% у Claude Opus 4.7, 84,4% на BrowseComp против 79,3% и 78,7% на OSWorld-Verified против 78,0% [2][
7].
Но это не универсальная победа. Claude Opus 4.7 обгоняет GPT-5.5 в SWE-Bench Pro, MCP Atlas и GPQA Diamond в приведённых источниках [2][
7]. Поэтому GPT-5.5 выглядит особенно убедительно не как модель на все случаи жизни, а как выбор для agentic workflow, терминальных задач, browser/tool use и автоматизации сложных процессов.
Отдельно стоит читать данные по безопасности и управляемости. В System Card OpenAI указано, что GPT-5.5 оценивали через CoT-Control — набор из более чем 13 000 задач, построенный на базе GPQA, MMLU-Pro, HLE, BFCL и SWE-Bench Verified [4]. Это полезно для понимания контроля поведения модели, но не заменяет performance-бенчмарки вроде SWE-Bench Pro или Terminal-Bench.
Claude Opus 4.7: главный аргумент — software engineering
Anthropic указывает Claude Opus 4.7 в документации Claude API с датой 16 апреля 2026 года [20]. Если смотреть только на прямые сравнения с GPT-5.5, самый сильный сигнал в пользу Claude Opus 4.7 — SWE-Bench Pro: 64,3% против 58,6% у GPT-5.5 [
2].
Это важно для команд разработки: бенчмарки уровня SWE-Bench ближе к задачам исправления реальных проблем в коде, чем классические короткие тесты на написание функций. На ограничения HumanEval и необходимость более реалистичных issue-solving benchmark указывает и академическая работа о fine-grained issue solving для LLM [42].
Claude Opus 4.7 также ведёт в MCP Atlas: 79,1% против 75,3% у GPT-5.5, по данным OpenAI [7]. В GPQA Diamond его перевес небольшой — 94,2% против 93,6% у GPT-5.5 [
2]. Но в Terminal-Bench 2.0, GDPval, BrowseComp, OSWorld-Verified и FrontierMath T1–3 GPT-5.5 выглядит сильнее в этих же наборах данных [
2][
7].
По части safety Anthropic сообщает в Petri 2.0, что две совместные интервенции снизили eval-awareness у моделей Claude на 47,3% по median relative drop [22]. Это стоит воспринимать как показатель исследований поведения и безопасности семейства Claude, а не как прямой балл производительности Claude Opus 4.7.
DeepSeek V4: огромный контекст, но высокий риск галлюцинаций
Технический отчёт DeepSeek-V4 описывает серию V4 как развитие DeepSeek-V3: сохраняются DeepSeekMoE framework и стратегия Multi-Token Prediction, а для длинного контекста добавлен hybrid attention mechanism с Compressed Sparse Attention и Heavily Compressed Attention [30].
На практике главный видимый плюс DeepSeek V4 Pro — окно контекста. В сравнении Artificial Analysis у DeepSeek V4 Pro указано 1000k токенов, тогда как у Kimi K2.6 — 256k токенов [33]. Это может быть критично для больших документов, длинных логов, массивных кодовых баз и процессов, где модель должна удерживать много входных данных.
Но длинный контекст не равен надёжности. Artificial Analysis сообщает, что DeepSeek V4 Pro Max получил -10 на AA-Omniscience, улучшившись относительно DeepSeek V3.2 Reasoning с -21, но при этом у DeepSeek V4 Pro указан hallucination rate 94%, а у V4 Flash — 96% [31]. Иными словами, модель может быть полезной для задач с большим контекстом, но ответы нужно жёстко приземлять на источники: retrieval, проверка фактов, тесты и human review здесь не роскошь, а часть рабочего процесса [
30][
31][
33].
Kimi K2.6: open-weight multimodal, которому нужны прямые сравнения
Artificial Analysis описывает Kimi K2.6 как open weights model, выпущенную в апреле 2026 года, и указывает Intelligence Index 54 [35]. В отдельном материале Artificial Analysis говорится, что Kimi K2.6 нативно поддерживает ввод изображений и видео с текстовым выводом, а максимальная длина контекста остаётся 256k [
36].
Это делает Kimi K2.6 интересным кандидатом для тех, кому важны открытые веса и мультимодальность. Но по ключевым бенчмаркам, где GPT-5.5 и Claude Opus 4.7 можно сравнить напрямую, — Terminal-Bench 2.0, SWE-Bench Pro, GDPval, OSWorld-Verified, BrowseComp и MCP Atlas — в использованных источниках нет полноценного сопоставимого набора результатов для Kimi K2.6 [2][
7][
35][
36].
Поэтому корректный вывод осторожный: Kimi K2.6 стоит включать в shortlist для open-weight multimodal задач, но не стоит объявлять его сильнее или слабее GPT-5.5, Claude Opus 4.7 и DeepSeek V4 там, где нет прямых данных [35][
36].
Как выбрать модель под задачу
| Сценарий | Что рассмотреть первым | Почему |
|---|---|---|
| Terminal automation, CLI-задачи, agentic workflow | GPT-5.5 | 82,7% на Terminal-Bench 2.0 против 69,4% у Claude Opus 4.7 [ |
| Исправление issue, software engineering, работа с кодовой базой | Claude Opus 4.7 | 64,3% на SWE-Bench Pro против 58,6% у GPT-5.5 [ |
| Browser/tool workflow | GPT-5.5 или Claude Opus 4.7 — зависит от стека | GPT-5.5 ведёт в BrowseComp, Claude Opus 4.7 — в MCP Atlas [ |
| Computer-use workflow | GPT-5.5 с небольшим перевесом | OSWorld-Verified: 78,7% у GPT-5.5 и 78,0% у Claude Opus 4.7 [ |
| Очень длинный контекст | DeepSeek V4 Pro | 1000k токенов в таблице Artificial Analysis, но нужен строгий контроль качества из-за hallucination rate 94% [ |
| Open-weight multimodal | Kimi K2.6 | Открытые веса, нативный ввод изображений и видео, Intelligence Index 54 [ |
| Минимизация галлюцинаций в критичных процессах | Нужен собственный тест, общего победителя по этим данным нет | Для DeepSeek V4 Pro есть явный риск в отчёте Artificial Analysis, но единой reliability-таблицы для всех четырёх моделей нет [ |
Почему бенчмарк не заменяет пилот в вашей среде
Первая ловушка — складывать баллы из разных источников в один рейтинг. Vellum, OpenAI и Artificial Analysis показывают разные наборы тестов и разные контексты оценки, поэтому их цифры лучше читать как отдельные срезы, а не как единую турнирную таблицу [2][
7][
31][
33][
35].
Вторая ловушка — думать, что один coding-бенчмарк описывает всю разработку. Академическая работа по issue-solving benchmark прямо указывает, что HumanEval недостаточен для оценки возможностей LLM в реальных задачах, а бенчмарки вроде SWE-Bench лучше отражают решение практических проблем в коде [42].
Третья ловушка — путать длину контекста с точностью. DeepSeek V4 Pro имеет 1000k токенов контекста в таблице Artificial Analysis, но тот же источник сообщает hallucination rate 94% для DeepSeek V4 Pro [31][
33]. Для production-сценариев это означает простую вещь: нужен собственный набор тестов на ваших данных, с проверкой фактов, регрессионными задачами и понятной процедурой отката.
Итог
Если нужен один практичный ориентир, он такой: GPT-5.5 сильнее выглядит для agentic, terminal и tool workflow; Claude Opus 4.7 — для software engineering по SWE-Bench Pro; DeepSeek V4 Pro — для задач с очень длинным контекстом, но с обязательной проверкой ответов; Kimi K2.6 — для open-weight multimodal сценариев, где важны изображения, видео и доступность весов [2][
7][
31][
33][
35][
36].
Абсолютного победителя по всем четырём моделям эти данные не доказывают. Лучший выбор — не лидер общего рейтинга, а модель, которая выигрывает именно в вашем типе задач и проходит ваш внутренний тест качества.




