Насколько силён GPT-5.5: что показывают открытые бенчмарки
GPT 5.5 — один из сильнейших кандидатов среди фронтирных моделей: 82,7 в Terminal Bench 2.0, 51,7 в FrontierMath Tier 1–3 и 84,9 в GDPval.[6][10] Модель особенно убедительна в работе с кодом, онлайн исследованиях, анализе данных, документах, таблицах, программами и цепочками из нескольких инструментов.[7] Это не абс...
Create a landscape editorial hero image for this Studio Global article: GPT-5.5の実力:公開ベンチマークで見る強さと弱点. Article summary: GPT 5.5は総合最強候補の一つで、Terminal Bench 2.0は82.7、FrontierMath Tier 1–3は51.7と実務・推論系で強い一方、BrowseCompやSWE Bench Proでは競合が上回る項目もあります。[6][10]. Topic tags: ai, openai, chatgpt, gpt 5 5, ai benchmarks. Reference image context from search candidates: Reference image 1: visual subject "# GPT-5.5とは?GPT-5.4から進化した推論力・コーディング・業務活用をわかりやすく解説. 2026年4月、ChatGPTはGPT-5.4から**GPT-5.5**へと進化しました。GPT-5.5は回答品質が上がっただけではありません。調査、データ分析、文書作成、コーディングなど、実務に近い複数ステップの作業をより安定して進められるようになりました" source context "GPT-5.5とは?GPT-5.4から進化した推論力・コーディング・業務活用をわかりやすく解説 - GPT Master" Reference image 2: visual subject "# GPT-5.5とは?GPT-5.4から進化した推論力・コーディング・業務活用をわかりやすく解説. 2026年4月、ChatGPTはGPT-5.4から**GPT-5.5**へと進化しました。GPT-5.5は回答品質が上がっただけではありません。調査、データ分析、文書作成、コーディングなど、実務に近い複数ステップの作業をより安定して進められるようになりました" source context "GPT-5.5とは?GPT-5.4か
openai.com
По открытым данным GPT-5.5 лучше воспринимать не как модель, которая выигрывает все тесты подряд, а как один из самых сильных универсальных инструментов для работы. OpenAI описывает GPT-5.5 как модель, которая быстрее понимает намерение пользователя и способна брать на себя больше этапов задачи: писать и отлаживать код, искать информацию в интернете, анализировать данные, создавать документы и таблицы, управлять программами и переходить между инструментами до завершения работы.
Практический вывод звучит так: GPT-5.5 — модель верхнего эшелона, особенно для рабочих сценариев, но не безусловный чемпион во всех дисциплинах.
Коротко: очень сильна, но не первая везде
В публичных сравнениях GPT-5.5 особенно хорошо смотрится в задачах командной строки, математического рассуждения, офисной работы и knowledge work — то есть задачах, близких к повседневной работе аналитиков, разработчиков и специалистов с документами.
Но картина не односторонняя. В SWE-Bench Pro, который оценивает решение GitHub issue, GPT-5.5 уступает Claude Opus 4.7, а в BrowseComp его обходят Gemini 3.1 Pro и Mythos Preview. Поэтому главный вопрос не в том, какая модель сильнее вообще, а в том, какая лучше справится именно с вашим типом задач.
Studio Global AI
Search, cite, and publish your own answer
Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.
「Насколько силён GPT-5.5: что показывают открытые бенчмарки」の短い答えは何ですか?
GPT 5.5 — один из сильнейших кандидатов среди фронтирных моделей: 82,7 в Terminal Bench 2.0, 51,7 в FrontierMath Tier 1–3 и 84,9 в GDPval.[6][10]
最初に検証する重要なポイントは何ですか?
GPT 5.5 — один из сильнейших кандидатов среди фронтирных моделей: 82,7 в Terminal Bench 2.0, 51,7 в FrontierMath Tier 1–3 и 84,9 в GDPval.[6][10] Модель особенно убедительна в работе с кодом, онлайн исследованиях, анализе данных, документах, таблицах, программами и цепочками из нескольких инструментов.[7]
次の実践では何をすればいいでしょうか?
Это не абсолютный победитель во всём: в SWE Bench Pro выше результат у Claude Opus 4.7, а в BrowseComp GPT 5.5 уступает Gemini 3.1 Pro и Mythos Preview.[6][10]
Тест для рабочих процессов в командной строке. GPT-5.5 выше Claude Opus 4.7 с 69,4, Gemini 3.1 Pro с 68,5 и Mythos Preview с 82,0.
FrontierMath Tier 1–3 / Tier 4
51,7 / 35,4
В этой таблице GPT-5.5 опережает Claude Opus 4.7 с 43,8 / 22,9 и Gemini 3.1 Pro с 36,9 / 16,7.
OfficeQA Pro
54,1
GPT-5.5 заметно выше Claude Opus 4.7 с 43,6 и Gemini 3.1 Pro с 18,1.
GDPval
84,9
В оценке knowledge work GPT-5.5 выше Claude Opus 4.7 с 80,3 и Gemini 3.1 Pro с 67,3.
SWE-Bench Pro
58,6
В бенчмарке для решения GitHub issue GPT-5.5 ниже Claude Opus 4.7 с 64,3, но выше Gemini 3.1 Pro с 54,2.
BrowseComp
84,4
GPT-5.5 уступает Gemini 3.1 Pro с 85,9 и Mythos Preview с 86,9.
OSWorld-Verified
78,7
В задачах компьютерного использования GPT-5.5 немного выше Claude Opus 4.7 с 78,0, но ниже Mythos Preview с 79,6.
Эта таблица хорошо показывает профиль модели: GPT-5.5 силён там, где нужно вести длинную рабочую цепочку, писать код, рассуждать, анализировать и оформлять результат. Но для отдельных типов задач конкуренты остаются очень серьёзными.
Где GPT-5.5 выглядит особенно убедительно
Код, терминал и отладка
Самая очевидная зона силы — разработка. OpenAI прямо называет написание и отладку кода среди сильных сторон GPT-5.5, а результат 82,7 в Terminal-Bench 2.0 подтверждает высокий уровень в командных и терминальных рабочих процессах.
При этом не стоит автоматически считать GPT-5.5 лучшим вариантом для любого программирования. Если задача ближе к исправлению issue в существующем репозитории, SWE-Bench Pro важнее Terminal-Bench: там GPT-5.5 набирает 58,6, а Claude Opus 4.7 — 64,3.
Исследования, данные и многошаговые задачи
OpenAI подчёркивает, что GPT-5.5 подходит для онлайн-исследований, анализа данных и задач, где нужно планировать, использовать инструменты, проверять работу и продолжать движение при неясной постановке. Это важно для реальных рабочих запросов: они редко выглядят как аккуратная олимпиадная задача, чаще это набор файлов, ссылок, ограничений и пожеланий.
Но если главная часть работы — именно поиск и браузинг, стоит сравнить несколько моделей. В BrowseComp GPT-5.5 показывает 84,4, тогда как Gemini 3.1 Pro получает 85,9, а Mythos Preview — 86,9.
Документы, таблицы и офисная работа
Для офисных задач GPT-5.5 выглядит одним из самых сильных вариантов. OpenAI относит к его сильным сторонам создание документов и таблиц, а The New York Times сообщала, что компания описывала новую технологию как более сильную в написании кода и задачах, связанных с офисной работой.
В OfficeQA Pro GPT-5.5 набирает 54,1 против 43,6 у Claude Opus 4.7 и 18,1 у Gemini 3.1 Pro. Если сценарий связан с отчётами, таблицами, инструкциями, презентационными заготовками или обработкой деловой информации, GPT-5.5 стоит проверять в числе первых.
Математика и техническое рассуждение
В FrontierMath GPT-5.5 показывает 51,7 на Tier 1–3 и 35,4 на Tier 4, опережая Claude Opus 4.7 и Gemini 3.1 Pro в той же сравнительной таблице. Это делает модель сильным кандидатом для задач, где нужны многошаговые вычисления, технический анализ и аккуратная логика.
Что изменилось по сравнению с GPT-5.4
GPT-5.4 уже описывался OpenAI как фронтирная модель, объединяющая достижения в рассуждении, кодинге и агентных рабочих процессах, а также улучшающая работу с инструментами, программными средами и профессиональными задачами в таблицах, презентациях и документах.
GPT-5.5 развивает именно эту линию: меньше ручного управления каждым шагом, больше самостоятельного планирования и выполнения. OpenAI заявляет, что GPT-5.5 быстрее понимает, что пытается сделать пользователь, и может брать на себя больше работы. Компания также отмечает, что GPT-5.5 заметно улучшился по сравнению с GPT-5.4 на GeneBench — оценке, сфокусированной на многоэтапных научных задачах.
Сильнее ли GPT-5.5, чем Claude и Gemini
Ответ зависит от сценария. В Terminal-Bench 2.0, FrontierMath, OfficeQA Pro и GDPval GPT-5.5 в открытых сравнениях оказывается выше Claude Opus 4.7 и Gemini 3.1 Pro.
Но в SWE-Bench Pro Claude Opus 4.7 опережает GPT-5.5, а в BrowseComp GPT-5.5 уступает Gemini 3.1 Pro и Mythos Preview. Поэтому формула простая: для терминальных workflows, офисной работы, математики и knowledge work GPT-5.5 выглядит очень сильным первым кандидатом; для GitHub issue и браузерно-поисковых задач лучше проводить прямое сравнение с Claude, Gemini и Mythos Preview.
Как выбирать модель для работы
Не стоит принимать решение только по общей репутации модели. Бенчмарки полезны, но в реальной работе важнее, насколько стабильно модель справляется с вашими файлами, инструментами, стилем запросов и требованиями к проверке результата.
Практичный подход такой:
Для задач в существующей кодовой базе и решения issue сравнивайте GPT-5.5 с Claude Opus 4.7, потому что в SWE-Bench Pro у Claude выше результат.
Для командной строки, автоматизации и технических workflows GPT-5.5 — сильный кандидат благодаря 82,7 в Terminal-Bench 2.0.
Для онлайн-исследований и браузерных задач добавьте в сравнение Gemini 3.1 Pro и Mythos Preview, которые опережают GPT-5.5 в BrowseComp.
Для документов, таблиц и офисных процессов GPT-5.5 стоит тестировать особенно внимательно: эти сценарии входят в заявленные сильные стороны модели, а OfficeQA Pro показывает её преимущество над Claude Opus 4.7 и Gemini 3.1 Pro.
Итог
GPT-5.5 — действительно очень сильная модель. По открытым бенчмаркам она входит в верхний слой фронтирных систем и особенно хорошо выглядит в терминальных задачах, математике, офисных сценариях и knowledge work.
Но называть её безусловно лучшей во всём было бы слишком смело. В SWE-Bench Pro и BrowseComp есть конкуренты с более высокими результатами, а в OSWorld-Verified Mythos Preview также немного впереди.
Самая взвешенная оценка: GPT-5.5 — один из лучших универсальных вариантов для сложной работы, но оптимальный выбор всё равно зависит от конкретного процесса. Если модель нужна для бизнеса, разработки или аналитики, её стоит проверять не на абстрактных вопросах, а на реальных задачах, с которыми команда сталкивается каждый день.
nytimes.com
OpenAI Unveils Its New, More Powerful GPT-5.5 Model
Comments
0 comments