В спорах о моделях ИИ легко спросить: «кто победил?» Но по проверяемости исследований такой вопрос часто поставлен неправильно. В рассмотренных документах Anthropic называет Claude Opus 4.7 моделью последнего поколения и самой мощной общедоступной моделью компании для сложных задач, тогда как релевантный модельный документ OpenAI в этой подборке относится к GPT-5.4, а не к GPT-5.5 Spud [53][
65][
75]. Поэтому честный вывод здесь не про победителя. Он про то, какие «следы» оставляет исследовательский workflow.
Короткий ответ
Прямой, проверенный по источникам результат сравнения Claude Opus 4.7 и GPT-5.5 Spud именно по research provenance подтвердить нельзя. Подтверждается более узкая картина: OpenAI документирует требования к пользовательским веб-цитатам в Deep Research, а Anthropic документирует цитирование документов в Claude, когда документы переданы модели и citations включены [23][
77].
Для команд, которые покупают, внедряют или оценивают такие системы, это важнее очередного «топа моделей». Проверяемость исследования — это не красивый список ссылок в конце отчёта. Это возможность пройти от важного утверждения к конкретному URL, файлу, фрагменту документа или другому артефакту, который человек может открыть и перепроверить.
Что на самом деле должно входить в provenance
В русскоязычной практике это часто называют проверяемостью, трассируемостью или доказательной базой ответа. Полезно разделять три слоя:
- Цитаты. Видимые указатели от утверждений к источникам.
- Сохранённые исходники. Страницы, файлы, документы, retrieved chunks или другие материалы, на которых строился ответ.
- Артефакты рассуждения. Краткие summaries reasoning, scratchpad-подобные заметки, thinking blocks и настройки рассуждения.
Главная ошибка — считать третий пункт доказательством первого. Черновик рассуждения может объяснять ход работы модели, но сам по себе не доказывает, что конкретный факт взят из конкретного источника.
OpenAI: наиболее сильное подтверждение — видимые веб-цитаты
Самое ясное требование OpenAI в этих источниках относится к Deep Research: когда веб-результаты или информация из веб-результатов показываются конечным пользователям, inline-цитаты должны быть отчётливо видны и кликабельны [23]. Это важно: ссылка, спрятанная в метаданных или оторванная от конкретного утверждения, хуже подходит для проверки.
Есть и дополнительные элементы. Руководство OpenAI по форматированию цитат объясняет, как готовить материал, пригодный для цитирования, и как инструктировать модель, чтобы она оформляла ссылки эффективно [22]. Пример Deep Research API говорит, что ответ включает структурированный финальный текст с inline-цитатами, summaries шагов рассуждения и информацией об источниках [
24]. В справочном центре OpenAI также указано, что результаты Deep Research содержат citations или source links, чтобы пользователь мог проверить информацию [
30].
Вывод ограниченный, но существенный: в этих документах OpenAI явно описывает, как должны выглядеть цитаты в веб-исследовательских сценариях. Это не доказывает, что каждая ссылка всегда точна, и не даёт отдельного подтверждения именно для GPT-5.5 Spud.
Anthropic: наиболее сильное подтверждение — цитирование документов
У Anthropic в этой подборке лучше всего подтверждены две вещи: позиционирование Claude Opus 4.7 и механика документных citations. Anthropic описывает Claude Opus 4.7 как часть последнего поколения Claude и рекомендует начинать с неё для самых сложных задач, называя её самой мощной общедоступной моделью компании [53][
65].
Для проверяемости ключевой источник — документация Anthropic по citations. В ней сказано, что Claude может давать подробные ссылки при ответах на вопросы о документах, помогая отслеживать и проверять источники информации, если документы предоставлены и citations включены [77]. Там же описана гранулярность: plain-text и PDF-документы по умолчанию автоматически разбиваются на предложения, а custom content documents можно использовать, если разработчикам нужен более тонкий контроль [
77].
Есть и смежные детали. Документация по PDF у Anthropic говорит, что визуальный анализ PDF в Converse API требует включённых citations [58]. Files API позволяет разработчикам загружать и управлять файлами для Claude API без повторной загрузки одного и того же контента в каждом запросе [
52]. Само хранение файлов не гарантирует точность цитат, но в сочетании с сохранёнными источниками и ссылками на уровне утверждений оно может усилить audit trail.
Scratchpad и thinking blocks — не то же самое, что источник
В оценке «исследовательской проверяемости» особенно легко перепутать рассуждение модели с доказательством. Но это разные вещи.
OpenAI в best practices для reasoning-моделей пишет, что такие модели выполняют reasoning internally, и советует не просить их «думать шаг за шагом» или раскрывать chain of thought [42]. Отдельный гайд OpenAI по reasoning-моделям фокусируется на настройках вроде reasoning effort, reasoning tokens и сохранения reasoning state между ходами [
43].
У Anthropic терминов вокруг thinking больше. Документация по prompt caching говорит, что thinking blocks имеют особое поведение при extended thinking и prompt caching [55]. Документация extended thinking различает full thinking tokens и summarized output в Claude 4 и более поздних моделях [
76]. Release notes Anthropic описывают поле display, позволяющее не включать thinking content в ответы, а документация Claude Code говорит, что слово
ultrathink в skill включает extended thinking для этого skill [66][
63].
Эти возможности могут быть полезны разработчикам: например, для сложных агентных сценариев или настройки поведения модели. Но scratchpad, скрытый chain of thought или краткое summary рассуждения не устанавливают происхождение факта. Для проверки нужен путь от утверждения к материалу: странице, документу, файлу или конкретному фрагменту.
Практический чек-лист для AI-исследований
Если задача — не просто получить убедительный текст, а пройти проверку, сравнивать стоит не только названия моделей. Смотрите на весь процесс.
- Цитаты на уровне утверждений. Для веб-данных OpenAI Deep Research требует видимые и кликабельные inline-цитаты [
23]. Для документных сценариев Claude Anthropic описывает citations при переданных документах и включённой функции citations [
77].
- Проверяемые исходные артефакты. Сохраняйте не только итоговый ответ, но и материалы, на которых он построен. Пример Deep Research API у OpenAI упоминает source information, а Files API Anthropic поддерживает повторно используемые файловые входы для Claude API workflows [
24][
52].
- Достаточная гранулярность ссылок. Хорошая цитата указывает не на «где-то в документе», а на релевантный кусок доказательства. Anthropic описывает разбиение plain-text и PDF на предложения по умолчанию, а также custom content documents для более тонкого контроля [
77]. OpenAI отдельно даёт рекомендации по подготовке цитируемого материала и форматированию citations [
22].
- Разделение рассуждения и доказательств. Reasoning controls могут улучшать поведение системы, но OpenAI и Anthropic описывают их как механики reasoning/thinking, а не как замену ссылкам на источники [
42][
43][
55][
76].
- Ручная проверка важных выводов. Вендорская документация описывает функции цитирования и отображения. Она не является независимой гарантией, что каждое процитированное утверждение верно. Для юридических, медицинских, финансовых и научных задач исходники всё равно нужно проверять человеком.
Итог
Из рассмотренных документов получается не таблица лидеров, а аккуратное сравнение зон, где у каждого вендора лучше подтверждены отдельные элементы provenance. OpenAI сильнее подтверждён здесь в части пользовательских веб-цитат: Deep Research прямо говорит о видимых и кликабельных inline-ссылках при показе веб-информации пользователям [23]. Anthropic сильнее подтверждён в части документно-ориентированных citations у Claude: документация описывает включение citations для предоставленных документов и управление гранулярностью через разбиение на предложения и custom content [
77].
Claude Opus 4.7 действительно описан Anthropic как самая мощная общедоступная модель компании для сложных задач, но модельный источник OpenAI в этой подборке — про GPT-5.4, а не про GPT-5.5 Spud [53][
65][
75]. Если вам нужна проверяемая AI-аналитика, начинайте не с выбора «самой умной» модели, а с вопросов: где хранятся источники, насколько точны ссылки, можно ли открыть доказательство и кто проверяет критичные утверждения.




