Слухи вокруг GPT-5.5 «Spud» смешивают два разных утверждения: что у OpenAI уже есть публичная модель под этим названием и что она доказала более надежное удержание инструкций в длинном контексте. Рассмотренные источники подтверждают более узкий вывод: в официальных материалах OpenAI из этого набора задокументирована GPT-5.4, а Spud встречается в основном в соцсетях, видео и неофициальных публикациях [46][
58][
59][
4][
53][
60][
65][
67][
68][
69].
Для разработчиков и продуктовых команд это не мелочь. Прозвище модели — не бенчмарк. И даже если у модели большое контекстное окно, это само по себе не доказывает, что она надежно сохранит инструкции в длинном диалоге, многошаговом агентном сценарии или задаче с несколькими инструментами [36][
38][
39][
41].
Вердикт
| Утверждение | Статус | Что подтверждают источники |
|---|---|---|
| GPT-5.5 Spud — официально задокументированная публичная модель OpenAI | Не подтверждено | Рассмотренные официальный API-гайд, changelog и заметки о релизах GPT указывают на Latest: GPT-5.4, а не на публичную GPT-5.5 Spud [ |
| OpenAI опубликовала дату релиза GPT-5.5 Spud, model card, API-страницу или цены | Не найдено в рассмотренных официальных источниках | Неофициальные страницы обсуждают сроки и возможности, но официальные материалы OpenAI в этом наборе описывают GPT-5.4 [ |
| OpenAI публично показала бенчмарки удержания инструкций в длинном контексте именно для Spud | Не подтверждено | В этом наборе источников нет system card OpenAI или длинно-контекстного бенчмарка, относящегося к Spud [ |
| У OpenAI есть связанные данные по долгим сценариям для GPT-5.4 Thinking | Да, но только для GPT-5.4 Thinking | OpenAI пишет, что GPT-5.4 Thinking существенно лучше прежних моделей справляется со сложными длинными цепочками выполнения, а CoT-Control описывает как набор оценок с более чем 13 000 задач [ |
Почему цепочка слухов о Spud не равна релизу
Spud действительно заметен как тема обсуждений. Название встречается в постах Facebook и Reddit, публикациях на X, видео YouTube и неофициальных статьях, где рассуждают о возможных сроках запуска, предобучении, мультимодальности и будущих возможностях [4][
53][
63][
65][
67][
68][
69][
72]. Это доказывает, что о Spud говорят. Но не доказывает, что OpenAI выпустила такую модель.
Для утверждения о доступности модели обычно нужны более сильные доказательства: страница OpenAI API, запись в changelog, релиз-нота, анонс, model card, system card или воспроизводимый бенчмарк. Именно такие первичные материалы в этой проверке сейчас указывают на GPT-5.4 или описывают ее свойства [46][
47][
58][
59][
23].
Отсутствие публичной документации не доказывает, что внутреннего кодового имени не существует. Оно означает другое: публичные заявления о дате релиза Spud, доступности через API, ценах, памяти или надежности длинного контекста в рассмотренных источниках остаются непроверенными.
Что официально известно о GPT-5.4
Самые сильные данные о моделях в этой проверке относятся к GPT-5.4. Документация OpenAI API называется Using GPT-5.4, а changelog API и материалы с заметками о релизах GPT ведут читателя к Latest: GPT-5.4 [46][
58][
59].
В анонсе GPT-5.4 OpenAI пишет, что модель включает возможности GPT-5.3-Codex для программирования и лучше работает с инструментами, программными средами, таблицами, презентациями и документами [47]. В том же анонсе сказано, что GPT-5.4 набрала 83,0% в сравнениях GDPval против 70,9% у GPT-5.2; сам GDPval описан как проверка способности агентов выполнять хорошо заданную интеллектуальную работу в 44 профессиях [
47].
Ближайшее официальное свидетельство по вопросу надежности длинных рабочих процессов относится не к Spud, а к GPT-5.4 Thinking. В system card GPT-5.4 Thinking OpenAI заявляет, что модель намного лучше прежних справляется со сложными длинными цепочками выполнения, включая отслеживание и откат операций без повреждения работы пользователя; CoT-Control там описан как оценочный набор с более чем 13 000 задач [23]. Это утверждение про GPT-5.4 Thinking, а не доказательство релиза GPT-5.5 Spud и не результат теста Spud.
Длинный контекст — это не только размер окна
Надежность в длинном контексте означает не просто способность поместить большой запрос в память модели. В реальных рабочих сценариях модель должна сохранять ограничения, разнесенные по тексту, помнить состояние между ходами или сессиями, выбирать правильный инструмент, безопасно исправлять уже сделанную работу и удерживать согласованность многофайлового или многодокументного результата.
Исследования показывают, что это все еще активная область оценки. Обзоры продолжают разбирать методы расширения контекстного окна, длинно-контекстное моделирование, архитектурные изменения, workflow-подходы и инжиниринг контекста, а не описывают следование инструкциям в длинном контексте как решенную задачу [36][
38][
39][
41]. Отдельная работа системно сравнивает методы оптимизации для long-context LLM, включая ситуации, где модели должны обрабатывать и удерживать большие объемы информации [
37].
Появляются и бенчмарки, которые измеряют удержание инструкций напрямую. LongAlign вводит LongBench-Chat для оценки следования инструкциям в длинных контекстах [44]. LifBench предлагает Long-context Instruction Following Benchmark для проверки качества и стабильности следования инструкциям в long-context сценариях [
45]. LocoBench ориентирован на сложные задачи разработки ПО и включает Multi-Session Memory Retention, а также много-сессионные рабочие процессы [
40].
Как командам проверять надежность в длинных workflow
Рекомендации OpenAI по оценкам предлагают строить production-oriented evals — проверки, приближенные к реальным продуктовым сценариям, — и отдельно выделяют выбор инструментов. OpenAI предупреждает: когда в архитектуре одного агента становится больше инструментов и задач, модели может быть сложнее следовать инструкциям или выбрать нужный инструмент [13]. У OpenAI также есть руководство по long-horizon задачам с Codex: оно показывает, что длительная многошаговая работа — реальный продуктовый сценарий, но не является бенчмарком Spud [
16].
Практический набор проверок должен как минимум покрывать шесть типов поведения:
- Сохранение инструкций на дистанции. Разместите критические требования в начале, середине и конце длинного контекста и оцените, соблюдены ли они все в финальном ответе. Здесь релевантны LongAlign и LifBench, потому что они фокусируются на следовании инструкциям в long-context условиях [
44][
45].
- Состояние между сессиями. Смоделируйте несколько рабочих сессий с решениями, ограничениями и отменами, а затем проверьте, продолжает ли модель с правильного состояния. Формулировка Multi-Session Memory Retention в LocoBench подходит именно к такой задаче [
40].
- Выбор инструментов под нагрузкой. Дайте модели несколько правдоподобных инструментов и проверьте, выбирает ли она нужный с правильными параметрами. OpenAI прямо называет tool selection целью оценки и отмечает, что рост сложности может ухудшить следование инструкциям и выбор инструмента [
13].
- Откат и безопасное исправление. Попросите модель отменить часть длинной задачи, не повредив несвязанные результаты пользователя. Это близко к поведению, которое OpenAI описывает для GPT-5.4 Thinking в длинных цепочках выполнения [
23].
- Согласованность артефакта между файлами и документами. Для кода, таблиц, презентаций и документов проверяйте, удерживает ли модель ограничения по всему артефакту, а не оптимизирует только последний запрос. Официальное позиционирование GPT-5.4 включает работу с инструментами, программными средами, таблицами, презентациями и документами, а LocoBench проверяет сложные software-engineering workflow [
47][
40].
- Контроль промпта и вывода. Заранее задавайте примеры, формат, длину и стиль ответа. Руководство OpenAI по надежности описывает такие prompt-level техники, но они должны дополнять, а не заменять оценки всего рабочего процесса [
17].
Что может изменить вывод
Вердикт стоит менять только при появлении более сильных первичных доказательств: страницы OpenAI API или страницы модели с названием GPT-5.5 либо Spud; записи в changelog или release notes; анонса OpenAI; model card или system card; воспроизводимых результатов long-context оценок, которые покрывают следование инструкциям, память между сессиями, выбор инструментов, откат и согласованность артефактов [46][
58][
59][
47][
23][
13][
40][
44][
45].
Пока самый осторожный вывод такой: GPT-5.5 Spud не подтверждена как публичная модель в рассмотренных официальных материалах OpenAI, а ее надежность в длинном контексте не установлена доступными доказательствами. Проверяйте те модели, которые действительно доступны, и относитесь к неофициальным прозвищам моделей как к слухам, пока OpenAI не опубликует документацию.




