По сводке десяти общих бенчмарков Claude Opus 4.7 лидирует в 6 тестах, GPT 5.5 — в 4.
Для практического кодирования и правки репозиториев первым кандидатом выглядит Kimi K2.6: в LLM Coding Benchmark от AkitaOnRails модель набрала 87 баллов и попала в Tier A, тогда как DeepSeek V4 Flash получи...
Честного рейтинга 1–4 пока нет: Artificial Analysis дает Claude Opus 4.7 57 баллов, GPT 5.5 xhigh — 60, а LLM Stats показывает, что Claude и GPT 5.5 выигрывают разные наборы тестов [12][14][15].
Единого победителя нет: Claude Opus 4.7 лидирует в GPQA Diamond (94.2%) и HLE без инструментов (46.9%), GPT 5.5 — в Terminal Bench 2.0 (82.7%), а GPT 5.5 Pro — в HLE с инструментами (57.2%) и BrowseComp (90....
Универсального победителя нет: GPT‑5.5 сильнее выглядит в агентной работе с инструментами, Claude Opus 4.7 — в repo level coding, Kimi K2.6 — среди open weights coding моделей, а DeepSeek V4 стоит тестироват...
Универсального победителя нет: LLM Stats формулирует главный вывод так — бенчмарки выбирают не лучшую модель вообще, а подходящую рабочую нагрузку [2].
GPT 5.5 выглядит самым сильным выбором по сводному сигналу: Artificial Analysis ставит GPT 5.5 xhigh на 60, GPT 5.5 high на 59, а Claude Opus 4.7 Adaptive Reasoning Max Effort — на 57.[2]
Универсального победителя по доступным данным нет: бенчмарки и спецификации опубликованы не в сопоставимом виде, а часть чисел видна только в сторонних источниках [4][22][32][37].
Единого чемпиона нет: Claude Opus 4.7 лидирует в GPQA Diamond с 94,2% и HLE без инструментов с 46,9%, GPT 5.5 Pro — в HLE с инструментами с 57,2% и BrowseComp с 90,1%, а GPT 5.5 — в Terminal Bench 2.0 с 82,7...
Единого честного рейтинга 1–4 по открытым данным не получается: BenchLM, Vals, GDPval, SWE bench и другие тесты измеряют разные вещи и не дают полного сравнения всех четырёх моделей в одинаковых условиях [8]...
GPT‑5.5 проще оценивать для production API: OpenAI публикует model ID, окно 1 млн токенов, максимум 128K output, цену $5/$30 за 1 млн токенов и поддерживаемые инструменты [22].
Открытые данные не дают честной общей таблицы: GPT 5.5 лидирует в видимом Intelligence Index 60/59, BrowseComp 84,4 % и Terminal Bench 2.0 82,7 %, а Claude Opus 4.7 — в GPQA Diamond 94,2 % и HLE no tools 46,...