Единого чемпиона нет: Claude Opus 4.7 лидирует в GPQA Diamond с 94,2% и HLE без инструментов с 46,9%, GPT 5.5 Pro — в HLE с инструментами с 57,2% и BrowseComp с 90,1%, а GPT 5.5 — в Terminal Bench 2.0 с 82,7...
GPT 5.5 опережает Claude Opus 4.7 в опубликованных OpenAI результатах ARC AGI: 95,0 % и 85,0 % против 93,5 % и 75,8 %, но эти оценки проводились с режимом рассуждения xhigh в исследовательской среде [6].
Источники не показывают общего запрета на частное использование DeepSeek в США, но фиксируют ограничения для федеральных устройств и сообщения о хранении данных на серверах в Китае [13][14][16][19][23][24].
Единой таблицы apples to apples для всех четырёх моделей нет: GPT 5.5 лидирует в Terminal Bench 2.0 — 82,7% против 69,4%, а Claude Opus 4.7 в SWE Bench Pro — 64,3% против 58,6% [2].