Открытые данные не дают честной общей таблицы: GPT 5.5 лидирует в видимом Intelligence Index 60/59, BrowseComp 84,4 % и Terminal Bench 2.0 82,7 %, а Claude Opus 4.7 — в GPQA Diamond 94,2 % и HLE no tools 46,...
Единого победителя нет: Claude Opus 4.7 выше в SWE bench Pro — 64,3% против 58,6%, а GPT 5.5 заметно сильнее в Terminal Bench 2.0 — 82,7% против 69,4%; при этом режимы модели и тестовые стенды различаются [6...
Claude Opus 4.7 лидирует в задачах реальной разработки: 87,6% на SWE bench Verified и 64,3% на SWE bench Pro против 80,6% и 55,4% у DeepSeek V4 Pro в одном стороннем сравнении [28].
Единого «чемпиона» по всем задачам нет: в общей таблице Claude Opus 4.7 лидирует в GPQA Diamond с 94,2 % и SWE Bench Pro с 64,3 %, а GPT 5.5/GPT 5.5 Pro — в Terminal Bench 2.0 с 82,7 % и BrowseComp с 90,1 %.[4]
Единого победителя нет: Claude Opus 4.7 лидирует в GPQA Diamond с 94,2% и Humanity’s Last Exam без инструментов с 46,9%, а также отмечен как №1 в Vision & Document Arena [4][1].
GPT 5.5 — самый убедительно подтвержденный универсал: 60 пунктов в доступном фрагменте Artificial Analysis Intelligence Index и 84,4 % в BrowseComp [2][3].
Единой таблицы apples to apples для всех четырёх моделей нет: GPT 5.5 лидирует в Terminal Bench 2.0 — 82,7% против 69,4%, а Claude Opus 4.7 в SWE Bench Pro — 64,3% против 58,6% [2].
Нет трёх полностью проверенных сервисов, которые одновременно гарантируют GPT 5.5, бесплатный доступ и понятную поддержку испанского языка.