Универсального победителя нет: GPT‑5.5 сильнее выглядит в агентной работе с инструментами, Claude Opus 4.7 — в repo level coding, Kimi K2.6 — среди open weights coding моделей, а DeepSeek V4 стоит тестироват...
GPT 5.5 выглядит самым сильным выбором по сводному сигналу: Artificial Analysis ставит GPT 5.5 xhigh на 60, GPT 5.5 high на 59, а Claude Opus 4.7 Adaptive Reasoning Max Effort — на 57.[2]
Универсального победителя по доступным данным нет: бенчмарки и спецификации опубликованы не в сопоставимом виде, а часть чисел видна только в сторонних источниках [4][22][32][37].
Единого чемпиона нет: Claude Opus 4.7 лидирует в GPQA Diamond с 94,2% и HLE без инструментов с 46,9%, GPT 5.5 Pro — в HLE с инструментами с 57,2% и BrowseComp с 90,1%, а GPT 5.5 — в Terminal Bench 2.0 с 82,7...
Единого честного рейтинга 1–4 по открытым данным не получается: BenchLM, Vals, GDPval, SWE bench и другие тесты измеряют разные вещи и не дают полного сравнения всех четырёх моделей в одинаковых условиях [8]...
Открытые данные не дают честной общей таблицы: GPT 5.5 лидирует в видимом Intelligence Index 60/59, BrowseComp 84,4 % и Terminal Bench 2.0 82,7 %, а Claude Opus 4.7 — в GPQA Diamond 94,2 % и HLE no tools 46,...
Единого «чемпиона» по всем задачам нет: в общей таблице Claude Opus 4.7 лидирует в GPQA Diamond с 94,2 % и SWE Bench Pro с 64,3 %, а GPT 5.5/GPT 5.5 Pro — в Terminal Bench 2.0 с 82,7 % и BrowseComp с 90,1 %.[4]
Короткий вывод: GPT 5.5 стоит брать как универсальную отправную точку; Claude Opus 4.7 — для длинных исследований и финансовых документов; DeepSeek V4 — для массовых недорогих вызовов; Kimi K2.6 — если нужны...
Единого победителя нет: Claude Opus 4.7 лидирует в GPQA Diamond с 94,2% и Humanity’s Last Exam без инструментов с 46,9%, а также отмечен как №1 в Vision & Document Arena [4][1].
GPT 5.5 — самый убедительно подтвержденный универсал: 60 пунктов в доступном фрагменте Artificial Analysis Intelligence Index и 84,4 % в BrowseComp [2][3].
GPT 5.5 опережает Claude Opus 4.7 в опубликованных OpenAI результатах ARC AGI: 95,0 % и 85,0 % против 93,5 % и 75,8 %, но эти оценки проводились с режимом рассуждения xhigh в исследовательской среде [6].
Единой таблицы apples to apples для всех четырёх моделей нет: GPT 5.5 лидирует в Terminal Bench 2.0 — 82,7% против 69,4%, а Claude Opus 4.7 в SWE Bench Pro — 64,3% против 58,6% [2].