| Агент, который должен работать с приложениями или компьютерной средой | GPT-5.5 | OpenAI сообщает о 84,9% на GDPval, 78,7% на OSWorld-Verified и 98,0% на Tau2-bench Telecom без prompt tuning |
Главное преимущество GPT-5.5 — задачи, похожие на реальную сложную работу: написать и проверить код, провести исследование, проанализировать данные, использовать инструменты и не потерять цель по дороге. OpenAI прямо называет GPT-5.5 своей самой умной моделью и говорит, что она создана для программирования, исследований и анализа данных с использованием инструментов .
Похожую картину дают внешние описания запуска. CNBC пишет, что GPT-5.5 стала лучше в кодинге, использовании компьютера и более глубоких исследовательских возможностях . CNET отмечает, что это модель общего назначения, но особенно полезная для исследований и тяжёлых задач вроде программирования; там же говорится, что GPT-5.5 имеет агентные возможности и получила более высокие баллы, чем GPT-5.4, в бенчмарках на использование приложений на компьютере и решение математических задач
.
Собственные бенчмарки OpenAI усиливают этот вывод. На GDPval, который проверяет способность агентов выполнять хорошо специфицированную интеллектуальную работу в 44 профессиях, GPT-5.5 набрала 84,9%. На OSWorld-Verified, где оценивается способность модели самостоятельно работать в реальных компьютерных средах, результат составил 78,7%. На Tau2-bench Telecom, бенчмарке сложных сценариев клиентского сервиса, GPT-5.5 получила 98,0% без prompt tuning .
GPT-5.4 не стала слабой моделью только потому, что появилась GPT-5.5. OpenAI представляла GPT-5.4 как frontier-модель, которая объединяет достижения в reasoning, coding и agentic workflows, а также лучше работает с инструментами, программными средами и профессиональными задачами вроде таблиц, презентаций и документов .
Её сильная сторона — предсказуемое внедрение в уже настроенные системы. В prompt guidance OpenAI сказано, что GPT-5.4 разработана для production-grade ассистентов и агентов, которым нужны сильное многошаговое рассуждение, синтез с большим количеством доказательств и стабильная работа на длинных контекстах . Там же подчёркивается, что GPT-5.4 лучше всего показывает себя, когда промпт явно задаёт контракт вывода, ожидания по использованию инструментов и критерии завершения задачи
.
Поэтому если ваш текущий workflow на GPT-5.4 уже хорошо работает, рациональная стратегия — не миграция «по названию версии», а проверка на собственных данных. Особенно если вы долго настраивали промпты, tool chain, формат ответа и критерии того, что задача считается выполненной.
Публичные цифры в целом поддерживают вывод, что GPT-5.5 сильнее во многих классах задач. Но они же показывают: бенчмарк — это сигнал, а не окончательный приговор.
В HealthBench у GPT-5.5 length-adjusted score составляет 56,5, что на 2,5 пункта выше GPT-5.4. В HealthBench Hard результат — 31,5, на 2,4 пункта выше; в HealthBench Professional — 51,8, на 3,7 пункта выше. Но в HealthBench Consensus GPT-5.5 получила 95,6, что на 0,7 пункта ниже GPT-5.4 . Даже внутри одной медицинской группы оценок картина не сводится к простому «новая версия лучше во всём».
В кибербезопасности системная карточка OpenAI сообщает, что UK AISI оценивает GPT-5.5 как самую сильную модель в целом на narrow cyber tasks, но также указывает, что результат находится в пределах погрешности . На expert-level narrow cyber tasks GPT-5.5 получила pass@5 90,5% ± 12,9%, тогда как GPT-5.4 — 71,4% ± 19,8%
.
Есть и более общий нюанс. В материале о GPT-5.4 OpenAI предупреждала, что бенчмарки проводились в исследовательской среде и в некоторых случаях могут давать результаты, немного отличающиеся от production-версии ChatGPT . Поэтому выбирать модель только по таблице с результатами рискованно: важнее прогнать свои реальные задачи.
Если вы начинаете новый сложный проект и вам нужны лучшие доступные способности для кода, исследований, анализа данных или агентного workflow с инструментами, первым кандидатом выглядит GPT-5.5. Так её позиционирует OpenAI, и это поддерживают опубликованные результаты на рабочих бенчмарках .
Если же у вас уже есть production-ассистент или агент на GPT-5.4, сначала проведите сравнительный тест. GPT-5.4 всё ещё описывается OpenAI как подходящая модель для систем с многошаговым рассуждением, доказательной сводкой и длинным контекстом .
Итог: GPT-5.5 — более сильная модель для большинства сценариев, где нужен максимум возможностей, особенно при работе с кодом, research, анализом данных и инструментами. Но GPT-5.4 остаётся надёжным выбором для уже оптимизированных систем. Решение о переходе лучше принимать не по номеру версии, а по результатам на ваших промптах, данных, инструментах и критериях качества.
Comments
0 comments