Короткий ответ: GPT-5.5 стоит рассматривать как модель для пилотного внедрения, а не как автоматическую замену GPT-5.4. OpenAI представила GPT-5.5 23 апреля 2026 года; в системной карте она описана как модель для сложной реальной работы — написания кода, онлайн-исследований, анализа информации, подготовки документов и таблиц, а также перехода между инструментами.[22][
15] Но в публичных данных сравниваются разные сущности: обычная GPT-5.4, GPT-5.4 Pro и gpt-5.4-thinking. Если не разделять эти версии, вывод об апгрейде легко получится противоположным.[
1][
9][
24]
Главное: сначала тест, потом миграция
GPT-5.5 выглядит наиболее убедительно там, где модель должна не просто ответить текстом, а выполнить цепочку действий: разобраться в задаче, написать или изменить код, провести исследование, поработать с документами и инструментами. OpenAI добавила GPT-5.5 в Codex как новую frontier-модель для сложного кодинга, computer use, knowledge work и исследовательских workflow.[13]
Но если вы уже используете GPT-5.4 Pro, торопиться с полной заменой не стоит. В сравнении BenchLM именно GPT-5.4 Pro опережает GPT-5.5 в предварительном рейтинге — 92 против 89, а также имеет чуть большее контекстное окно: 1,05 млн токенов против 1 млн.[1] Поэтому практичный подход такой: сначала прогнать GPT-5.5 на своих ключевых задачах, а уже потом переводить на неё рабочие сценарии.
Быстрая таблица сравнения
| Вопрос | Что говорит в пользу GPT-5.5 | Где нужна осторожность |
|---|---|---|
| Рабочая нагрузка | OpenAI описывает GPT-5.5 как модель для кода, онлайн-исследований, анализа информации, документов, таблиц и работы между инструментами.[ | Публичные данные не сводятся к одной простой паре GPT-5.4 vs GPT-5.5: встречаются обычная GPT-5.4, GPT-5.4 Pro и gpt-5.4-thinking.[ |
| Код и агенты | В Codex GPT-5.5 доступна как модель для сложного кодинга, computer use, knowledge work и research workflow.[ | Реальная польза зависит от репозитория, тестов, промптов, инструментов и того, как модель вызывает внешние действия. |
| Бенчмарки | LLM Stats сообщает, что GPT-5.5 улучшилась в 9 из 10 напрямую сопоставимых бенчмарков против GPT-5.4.[ | В сравнении BenchLM с GPT-5.4 Pro лидирует GPT-5.4 Pro — 92 против 89.[ |
| Стоимость | По BenchLM, GPT-5.5 дешевле GPT-5.4 Pro: $5 за 1 млн входных и $30 за 1 млн выходных токенов против $30 и $180 у GPT-5.4 Pro.[ | По LLM Stats, при сравнении с обычной GPT-5.4 цена GPT-5.5 за токен выросла вдвое.[ |
| Скорость | DataCamp и LLM Stats указывают, что GPT-5.5 сохраняет уровень задержки на токен GPT-5.4.[ | Задержка на токен — не то же самое, что итоговое время выполнения задачи, особенно если в сценарии есть инструменты и длинные ответы. |
| Контекст | 1 млн токенов у GPT-5.5 — это всё ещё очень большое контекстное окно.[ | У GPT-5.4 Pro в BenchLM указано 1,05 млн токенов, то есть немного больше.[ |
| Безопасность | В таблице OpenAI challenging prompts GPT-5.5 выше gpt-5.4-thinking в некоторых категориях, включая violent illicit behavior, harassment и violence.[ | В других категориях GPT-5.5 ниже, поэтому нужен разбор по типам риска, а не один средний вывод.[ |
Где GPT-5.5 действительно выглядит сильнее
Описание GPT-5.5 построено вокруг прикладных задач: писать код, искать и проверять информацию онлайн, анализировать данные, создавать документы и таблицы, переходить между инструментами.[15] Это важно: модель позиционируется не только как чат-бот для ответа на вопрос, а как рабочий компонент в более длинных процессах.
Codex changelog подтверждает тот же акцент: GPT-5.5 стала доступна в Codex как новейшая модель OpenAI для сложного программирования, computer use, knowledge work и исследовательских рабочих процессов.[13] Для команд разработки это означает, что первый набор тестов логично строить вокруг реальных pull request, багфиксов, навигации по репозиторию, командной строки и проверки результата, а не только вокруг коротких вопросов.
Сторонние данные идут в похожем направлении. BenchLM указывает, что сильнейшая категория GPT-5.5 — Agentic, где она занимает второе место; профиль особенно полезен для coding agents, browser research и computer-use workflows.[4] LLM Stats сообщает, что GPT-5.5 улучшилась в 9 из 10 напрямую сопоставимых бенчмарков против GPT-5.4.[
9]
Оговорка существенная: это не означает, что GPT-5.5 лучше во всех условиях. BenchLM отдельно отмечает, что в профиле GPT-5.5 сейчас публично доступны только 20 из 153 отслеживаемых бенчмарков, а категории без sourced evaluation остаются пустыми.[4] Поэтому такие таблицы лучше воспринимать как карту местности, а не как замену собственному тестированию.
Почему сравнение с GPT-5.4 Pro меняет картину
Главная ловушка — сравнить GPT-5.5 с обычной GPT-5.4, а затем применить этот вывод к GPT-5.4 Pro. У LLM Stats GPT-5.5 выглядит сильнее обычной GPT-5.4: улучшение зафиксировано в 9 из 10 напрямую сопоставимых бенчмарков.[9] Но в отдельном сравнении BenchLM между GPT-5.4 Pro и GPT-5.5 впереди оказывается GPT-5.4 Pro: 92 против 89 в предварительном рейтинге.[
1]
Там же BenchLM приводит заметный разрыв в MMMU-Pro: 94% у GPT-5.4 Pro против 81,2% у GPT-5.5.[1] Контекстное окно у GPT-5.4 Pro также указано немного больше — 1,05 млн токенов против 1 млн у GPT-5.5.[
1]
Практический вывод: если вы сидите на обычной GPT-5.4 и упираетесь в качество агентных или кодовых сценариев, GPT-5.5 стоит тестировать первой. Если же у вас уже GPT-5.4 Pro и важны конкретные бенчмарки, длинный контекст или стабильность текущего пайплайна, разумнее запускать параллельный A/B-тест, а не менять модель одним переключателем.
Цена: сначала уточните, какая GPT-5.4 у вас в сравнении
С ценой легко запутаться, потому что оба утверждения — GPT-5.5 дешевле и GPT-5.5 дороже — могут быть верными.
В сравнении BenchLM с GPT-5.4 Pro модель GPT-5.5 выглядит намного дешевле: $5 за 1 млн входных токенов и $30 за 1 млн выходных токенов против $30 и $180 у GPT-5.4 Pro.[1] По выходным токенам это шестикратная разница в пользу GPT-5.5.[
1]
Но LLM Stats сравнивает GPT-5.5 с обычной GPT-5.4 и сообщает противоположный для бюджета сигнал: цена GPT-5.5 за токен выросла вдвое.[9] Поэтому фраза GPT-5.5 дешевле имеет смысл только при уточнении, что речь идёт о сравнении с GPT-5.4 Pro, а не с базовой GPT-5.4.[
1][
9]
Есть ещё один слой — токенная эффективность. DataCamp пишет, что GPT-5.5 выполняет те же Codex-задачи с меньшим числом токенов, сохраняя задержку на токен на уровне GPT-5.4.[8] Для бюджета важна не только цена за миллион токенов, но и то, сколько токенов модель реально тратит на вашу задачу: вход, выход, повторные попытки и инструментальные шаги.[
1][
8][
9]
Скорость и контекст: одно число не рассказывает всю историю
DataCamp и LLM Stats сходятся на важной детали: задержка GPT-5.5 на токен не выглядит хуже GPT-5.4.[8][
9] DataCamp дополнительно отмечает, что GPT-5.5 использует меньше токенов для завершения тех же Codex-задач.[
8]
Но в продукте пользователь видит не задержку на токен, а время до готового результата. Если модель генерирует меньше токенов, это может ускорить часть сценариев. Если же задача требует нескольких вызовов инструментов, длинного чтения контекста или больших промежуточных ответов, итоговая скорость всё равно должна измеряться на вашем пайплайне.
Контекстное окно тоже лучше проверять не только по максимальному числу. BenchLM указывает 1 млн токенов для GPT-5.5 и 1,05 млн для GPT-5.4 Pro.[1] Разница небольшая, но для огромных репозиториев, длинных юридических документов, архивов переписки или крупных аналитических пакетов даже такие детали могут иметь значение. При тесте стоит смотреть не только на то, помещается ли документ в контекст, но и на качество поиска, извлечения фактов и итогового резюме внутри этого контекста.
Безопасность: важны категории риска, а не один средний балл
OpenAI Deployment Safety Hub сравнивает gpt-5.4-thinking и GPT-5.5 на challenging prompts; правило таблицы — чем выше значение, тем лучше.[24] Картина неоднородная: GPT-5.5 выше в одних категориях и ниже в других.
| Категория безопасности | gpt-5.4-thinking | GPT-5.5 | Направление |
|---|---|---|---|
| Насильственное противоправное поведение | 0,971 | 0,979 | GPT-5.5 выше |
| Ненасильственное противоправное поведение | 1,000 | 0,993 | GPT-5.5 ниже |
| Harassment | 0,790 | 0,822 | GPT-5.5 выше |
| Экстремизм | 1,000 | 0,925 | GPT-5.5 ниже |
| Ненавистнический контент | 0,943 | 0,868 | GPT-5.5 ниже |
| Самоповреждение, стандартный набор | 0,987 | 0,959 | GPT-5.5 ниже |
| Насилие | 0,831 | 0,846 | GPT-5.5 выше |
| Сексуальный контент | 0,933 | 0,925 | GPT-5.5 ниже |
Из этой таблицы нельзя честно вывести, что GPT-5.5 безопаснее или опаснее во всём. Если ваш продукт чаще сталкивается с harassment и violence, один вывод; если критичны hate, self-harm или extremism, нужен отдельный тест и, возможно, дополнительные правила модерации.[24]
Практический сценарий обновления
-
Определите базовую модель. Вы сравниваете GPT-5.5 с обычной GPT-5.4, GPT-5.4 Pro или gpt-5.4-thinking? Это разные сравнения с разными выводами по бенчмаркам, цене и безопасности.[
1][
9][
24]
-
Возьмите реальные задачи, а не только публичные бенчмарки. Для GPT-5.5 особенно логичны тесты на коде, Codex-задачах, онлайн-исследованиях, документах, таблицах и сценариях с несколькими инструментами.[
13][
15]
-
Считайте стоимость на полном цикле. Цена за 1 млн токенов важна, но итоговый счёт зависит от входных и выходных токенов, длины ответов и того, действительно ли GPT-5.5 сокращает расход токенов в ваших задачах.[
1][
8][
9]
-
Проверьте длинный контекст на своих данных. У GPT-5.5 указано 1 млн токенов, у GPT-5.4 Pro — 1,05 млн.[
1] Сравнивайте не только вместимость, но и качество работы с длинным материалом.
-
Разберите безопасность по категориям. OpenAI показывает смешанную картину между gpt-5.4-thinking и GPT-5.5: часть категорий выше у GPT-5.5, часть — ниже.[
24]
И не забывайте о природе бенчмарков. В материале о GPT-5.4 OpenAI прямо оговаривает, что оценки проводились в исследовательской среде и в production ChatGPT в некоторых случаях вывод может отличаться.[7] У GPT-5.5, по данным BenchLM, публично открыт не весь спектр тестов — только 20 из 153 отслеживаемых бенчмарков.[
4]
Итог простой: GPT-5.5 — сильный кандидат на апгрейд для кода, агентных задач, исследований и рабочих цепочек с несколькими инструментами.[13][
15] Но если для вас критичны GPT-5.4 Pro, максимальный контекст, точная стоимость или safety-поведение в конкретных категориях риска, безопаснее начать с параллельного теста, а не с мгновенной замены.[
1][
9][
24]




