Если нужен один короткий ответ на вопрос «какой бенчмарк у GPT-5.5?», самая аккуратная формулировка такая: GPT-5.5 набирает 84,9% в GDPval. OpenAI описывает GDPval как тест способности ИИ-агентов выполнять четко заданную интеллектуальную работу в 44 профессиях.[1]
Но у этой цифры есть важная рамка. 84,9% — не универсальная “оценка ума” модели и не общий знак качества на все случаи жизни. Это результат в конкретном типе задач: профессиональная, хорошо сформулированная knowledge work, то есть работа с информацией, анализом и подготовкой заданного результата.[1]
Главная цифра: 84,9% в GDPval
Для быстрых сравнений GPT-5.5 чаще всего имеет смысл цитировать именно этот показатель:
По данным OpenAI, GPT-5.5 получает 84,9% в GDPval — бенчмарке, который проверяет способность агентов выполнять четко специфицированную интеллектуальную работу в 44 профессиях.[
1]
Почему именно он? Потому что это значение прямо указано в анонсе OpenAI и сопровождается описанием того, что именно измеряет тест.[1] Это делает GDPval хорошей отправной точкой, когда речь идет о GPT-5.5 как о модели для рабочих задач, а не только для программирования, науки или узкой профессиональной области.
Почему нельзя просто сравнить все проценты
На первый взгляд 84,9%, 73,1% и 80,5% выглядят как результаты из одной таблицы. На деле это разные измерения.
| Бенчмарк или сравнение | Заявленный результат | Что измеряет | Как читать результат |
|---|---|---|---|
| GDPval | 84,9% | Четко заданная интеллектуальная работа в 44 профессиях | Самый удобный короткий показатель из анонса OpenAI для общей оценки GPT-5.5.[ |
| Expert-SWE | 73,1% | Задачи по программированию; в сообщении Yahoo Finance это описано как внутренняя оценка OpenAI для задач с предполагаемым временем выполнения около 20 часов | Ближе к разработке ПО, но напрямую с GDPval не сравнивается.[ |
| BixBench | 80,5% | Реальный бенчмарк по биоинформатике | Полезен для оценки в биоинформатике, но в предоставленных источниках подтвержден слабее, чем значение OpenAI по GDPval.[ |
| Artificial Analysis Intelligence Index | 1-е место, отрыв 3 пункта | Внешний индекс сравнения моделей от Artificial Analysis | Удобен для общей картины рынка моделей, но это не отдельный официальный бенчмарк OpenAI.[ |
Иными словами, вопрос должен звучать не «где процент выше?», а «какой тест ближе к моей задаче?». Для офисной и аналитической работы показатель GDPval информативнее. Для программирования логичнее смотреть на Expert-SWE. Для биоинформатики — на BixBench.[1][
8][
10]
Что показывает внешний индекс Artificial Analysis
Artificial Analysis сообщает, что GPT-5.5 возглавляет его Intelligence Index с преимуществом в 3 пункта.[3] Там же уточняется, что OpenAI лидирует в пяти основных оценках, а еще в трех уступает Gemini 3.1 Pro Preview.[
3]
Это важная деталь: первое место в агрегированном внешнем индексе не означает победу во всех отдельных испытаниях. Оно означает, что по методике Artificial Analysis GPT-5.5 в сумме оказывается впереди.[3]
Осторожнее с громкими одиночными цифрами
В публикациях встречаются и другие значения: например, 91,7% в контексте legal AI-возможностей или 82,7% в связи с agentic coding.[4][
5] Такие числа могут быть полезны, если вас интересует именно соответствующий сценарий.
Но для общего ответа они менее удобны: без столь же ясного описания теста, набора задач и группы сравнения их легко неправильно истолковать. В этом смысле 84,9% в GDPval остается более чистой и понятной короткой ссылкой, потому что OpenAI прямо указывает и сам результат, и назначение бенчмарка.[1]
Какую цифру цитировать
Для большинства общих материалов и сравнений лучше использовать такую формулировку:
GPT-5.5, по данным OpenAI, показывает 84,9% в GDPval; этот бенчмарк проверяет способность агентов выполнять четко заданную интеллектуальную работу в 44 профессиях.[
1]
Если контекст уже, выбирайте метрику под задачу:
- Общая интеллектуальная работа: 84,9% в GDPval.[
1]
- Разработка ПО: 73,1% в Expert-SWE.[
8]
- Биоинформатика: 80,5% в BixBench, с оговоркой о более ограниченной источниковой базе.[
10]
- Широкое сравнение моделей: 1-е место в Artificial Analysis Intelligence Index с отрывом в 3 пункта.[
3]
Вывод
Лучший короткий benchmark-ответ для GPT-5.5 — 84,9% в GDPval.[1] Но использовать его нужно точно: это показатель для четко сформулированной профессиональной интеллектуальной работы в 44 профессиях, а не универсальный рейтинг модели на все типы задач.[
1] Остальные проценты имеют смысл только вместе с названием бенчмарка и областью, которую он проверяет.




