По опубликованным данным OpenAI, GPT 5.5 набирает 84,9 % в GDPval против 83,0 % у GPT 5.4 — это заметный, но скорее инкрементальный прирост.[14][12]
GPT 5.5 набирает 82,7% в Terminal Bench 2.0 против 69,4% у Claude Opus 4.7, но в SWE Bench Pro Claude выше: 64,3% против 58,6%; обе метрики требуют осторожной интерпретации.[4][8]
Не стоит читать эти данные как окончательный рейтинг «лучшей модели»: настройки вывода, даты оценки и методики у источников различаются.
Kimi K2.6 — главный кандидат для первого теста в высокообъёмных coding agent сценариях: OpenRouter указывает 262 144 токена контекста и $0,75/$3,50 за 1 млн входных/выходных токенов, а effective pricing — $0...
Для задач, где нужно из короткого запроса пройти путь от поиска и анализа до кода и документов, логичнее начинать с GPT 5.5; для длинного контекста, кодовой базы и агентных циклов — с Claude Opus 4.7.
Официальный путь — ChatGPT: войдите в аккаунт или зарегистрируйтесь бесплатно, откройте новый чат и выберите GPT 5.5, если она есть в списке моделей.
Единого чемпиона по открытым данным назвать рано: GPT 5.5 показывает 82,7 % в Terminal Bench 2.0, а Claude Opus 4.7 — 64,3 % в SWE Bench Pro и 87,6 % в SWE Bench Verified; при этом общего независимого тестов...
Если считать только API‑токены, самый дешёвый вариант в этих данных — gpt 5.1 codex mini: $2,25 за 1 млн входных + 1 млн выходных токенов без кэша против $30,00 у Claude Opus 4.7/4.6/4.5.
Универсального победителя по доступным данным нет: бенчмарки и спецификации опубликованы не в сопоставимом виде, а часть чисел видна только в сторонних источниках [4][22][32][37].
Открытые данные не дают честной общей таблицы: GPT 5.5 лидирует в видимом Intelligence Index 60/59, BrowseComp 84,4 % и Terminal Bench 2.0 82,7 %, а Claude Opus 4.7 — в GPQA Diamond 94,2 % и HLE no tools 46,...
Claude Opus 4.7 лидирует в задачах реальной разработки: 87,6% на SWE bench Verified и 64,3% на SWE bench Pro против 80,6% и 55,4% у DeepSeek V4 Pro в одном стороннем сравнении [28].