На первый взгляд вопрос звучит как обычное сравнение двух флагманских моделей: кто меньше «галлюцинирует» — Claude Opus 4.7 или GPT-5.5 Spud? Но по имеющимся источникам проблема начинается раньше: один участник сравнения подтверждён, второй — нет.
Anthropic документирует Claude Opus 4.7 и API-идентификатор claude-opus-4-7; в предоставленных официальных материалах OpenAI фигурируют GPT-5, GPT-5 mini, GPT-5.2-Codex и руководство по промптам для GPT-5.4, но не публичная модель под названием GPT-5.5 Spud [12][
16][
23][
25][
26][
29][
45]. Поэтому аккуратный вывод такой: Claude Opus 4.7 можно оценивать как реальную модель, а «GPT-5.5 Spud» нельзя использовать как цель для бенчмарка, пока это имя не связано с официальным релизом, модельной карточкой или API-документацией.
Короткий вердикт по источникам
| Вопрос | Что подтверждается источниками |
|---|---|
| Claude Opus 4.7 — официальная модель? | Да. Anthropic описывает Claude Opus 4.7, а в анонсе указано, что разработчики могут использовать claude-opus-4-7 через Claude API [ |
| GPT-5.5 Spud — официальная модель OpenAI? | Не по предоставленным официальным источникам. В них есть GPT-5, GPT-5 mini, GPT-5.2-Codex и материалы по GPT-5.4, но не GPT-5.5 Spud [ |
| Где вообще встречается Spud? | В постах Reddit и теме OpenAI Developer Community с запросом функции, а не в релиз-нотах или API-документации [ |
| Есть ли тест Claude Opus 4.7 vs GPT-5.5 Spud на галлюцинации? | В предоставленных источниках нет общего теста с одинаковыми задачами и одинаковой схемой оценки; корректный тест должен отдельно учитывать воздержания от ответа и фактические ошибки [ |
Это не означает, что какая-то будущая или закрытая модель Spud невозможна. Это означает только одно: текущая доказательная база не позволяет считать GPT-5.5 Spud официальной моделью OpenAI и тем более не позволяет объявлять победителя по уровню галлюцинаций.
Что реально известно о Claude Opus 4.7
Самая сильная база по Claude Opus 4.7 — это продуктовая документация Anthropic, а не независимая таблица «кто меньше ошибается». Anthropic указывает, что разработчики могут использовать claude-opus-4-7 через Claude API [16]. В документации также говорится, что Claude Opus 4.7 вводит task budgets — бюджеты задач [
12].
Для разработчиков это важный механизм управления поведением модели. Но task budget сам по себе не равен публичному бенчмарку на калиброванную неопределённость. Он не показывает автоматически, насколько хорошо модель понимает, когда ей нужно сказать: «данных недостаточно».
Есть и отдельный сигнал, связанный с честностью ответов. Mashable, ссылаясь на системную карточку Anthropic для Opus 4.7, сообщал о 91,7% по метрике MASK honesty; там же говорится, что Claude Opus 4.7 менее склонен к галлюцинациям и поддакиванию, чем предыдущие модели Anthropic и другие frontier-модели [14]. Это релевантно для оценки честности, но всё равно не отвечает на вопрос «Claude против Spud»: нет подтверждённой модели GPT-5.5 Spud и нет общего теста, где обе системы проходили бы одни и те же задания.
Что вместо этого говорят источники OpenAI
В предоставленном наборе официальные материалы OpenAI подтверждают другие названия: GPT-5, GPT-5 mini, GPT-5.2-Codex и prompt guidance для GPT-5.4 [23][
25][
26][
29][
45]. След «Spud» идёт из Reddit и темы на OpenAI Developer Community [
7][
8][
10][
28]. Такие обсуждения могут быть полезным сигналом настроений или слухов, но это не то же самое, что официальная страница модели, model card, API-идентификатор или релизный анонс.
Гораздо важнее для темы галлюцинаций другой материал OpenAI — объяснение, почему языковые модели галлюцинируют. В нём OpenAI пишет, что распространённые процедуры обучения и оценки вознаграждают угадывание вместо признания неопределённости. По этой логике модели лучше показывать неопределённость или просить уточнение, чем уверенно выдавать неверную информацию [3].
Пример OpenAI с SimpleQA хорошо показывает, почему одной «точности» мало. Там gpt-5-thinking-mini указан с 52% воздержаний, 22% точности и 26% ошибок, а o4-mini — с 1% воздержаний, 24% точности и 75% ошибок [3]. Формально в этом примере первая модель отвечает реже, зато ошибается намного меньше [
3]. Для реального продукта — особенно там, где цена ошибки высока, — это может быть важнее, чем уверенный ответ на каждый запрос.
Почему главный тест — не «кто отвечает смелее», а кто лучше калибрует уверенность
Контроль галлюцинаций — это не просто отказ отвечать на всё подряд. Полезная модель должна отвечать, когда данных достаточно; задавать уточняющие вопросы, если запрос расплывчатый; и воздерживаться, если ответ нельзя обосновать. Это и есть практический смысл калиброванной неопределённости.
Исследования поддерживают такую рамку, хотя и с оговорками. Работа 2024 года сообщает, что uncertainty-based abstention — воздержание при высокой неопределённости — улучшает корректность, снижает галлюцинации и повышает безопасность в задачах question answering [1][
4]. I-CALM описывает эпистемическое воздержание как отказ отвечать на фактические вопросы с проверяемым ответом, когда у модели нет достаточной уверенности; авторы также отмечают, что современные LLM всё ещё могут не воздерживаться там, где должны [
54]. Исследование behaviorally calibrated reinforcement learning рассматривает, как стимулировать модели признавать неопределённость через воздержание [
61].
Обзоры по uncertainty quantification рассматривают оценку неопределённости как инструмент обнаружения галлюцинаций и подчёркивают, что калиброванная неопределённость помогает понять, когда ответу модели можно доверять, когда его надо проверить, а когда лучше передать задачу человеку или внешнему источнику [53][
55]. Но важна именно калибровка: модель, которая слишком часто говорит «не знаю», безопаснее, но менее полезна; модель, которая никогда не сомневается, удобна, но рискованна.
Как честно сравнивать Claude и модели OpenAI по галлюцинациям
- Брать только официальные model ID. Для Claude —
claude-opus-4-7; для OpenAI — документированную модель вроде GPT-5 или GPT-5 mini, а не неподтверждённый ярлык Spud [16][
23][
25][
29].
- Собрать смешанный набор заданий. В тесте должны быть вопросы с ответом, недоопределённые запросы и вопросы, на которые нельзя безопасно или фактически ответить. Именно в таких случаях исследования abstention показывают пользу отказа от угадывания [
1][
4].
- Считать воздержания отдельно. Нужно фиксировать правильные ответы, неправильные ответы, корректные воздержания и ошибочные воздержания. Обзор по abstention выделяет отдельные метрики: abstention accuracy, precision и recall [
68].
- Не смешивать фактическую неопределённость и safety refusal. Отказ от вредного запроса — не то же самое, что признание нехватки данных для фактического ответа; I-CALM фокусируется именно на эпистемическом воздержании для проверяемых фактических вопросов [
54].
- Публиковать точность, долю ошибок и долю воздержаний вместе. Пример OpenAI SimpleQA показывает, что модель с более высокой долей воздержаний может иметь сопоставимую точность, но намного меньшую долю ошибок [
3].
- Держать условия одинаковыми. Retrieval, браузинг, доступ к инструментам, длина контекста и системные инструкции могут менять результат. Если одной модели дать больше внешних данных, тест будет измерять уже не только модель, а всю настройку эксперимента.
FAQ
GPT-5.5 Spud вообще существует?
В предоставленной доказательной базе — не как официальная модель OpenAI. Официальные источники OpenAI, использованные здесь, документируют GPT-5, GPT-5 mini, GPT-5.2-Codex и prompt guidance для GPT-5.4; Spud встречается в Reddit-постах и теме сообщества [7][
8][
10][
23][
25][
26][
28][
29][
45].
Можно ли сказать, что Claude Opus 4.7 галлюцинирует меньше, чем GPT-5.5 Spud?
Строго — нет. Claude Opus 4.7 задокументирован [12][
16], а вторичный источник сообщает о 91,7% MASK honesty [
14]. Но нет подтверждённой цели тестирования под названием GPT-5.5 Spud и нет общего бенчмарка для этих двух названий [
7][
8][
10][
28][
68].
Что сравнивать покупателям и разработчикам?
Сравнивайте Claude Opus 4.7 с документированными моделями OpenAI на одинаковых задачах, с одинаковыми инструментами, промптами и правилами оценки. Набор метрик должен включать не только точность, но и долю ошибок, а также поведение при неопределённости — когда модель правильно воздерживается от ответа [3][
68].
Итог
Из этих источников нельзя честно вывести ни «Claude победил», ни «Spud победил». Поддерживаемый вывод уже и осторожнее: Claude Opus 4.7 официально документирован; GPT-5.5 Spud не подтверждён в процитированных официальных материалах OpenAI; а лучший способ оценивать контроль галлюцинаций — вознаграждать калиброванную неопределённость, включая корректное воздержание там, где утверждение нельзя подтвердить [3][
12][
16][
23][
25][
29][
45][
68].




