На вопрос «кто безопаснее в загрязнённом исследовательском процессе?» самый аккуратный ответ — доказательств недостаточно. Системные карточки и пресс-релизы полезны, но они не заменяют прямой краснокомандный тест двух моделей на одном и том же наборе атак.
Что можно сказать увереннее: у Claude Opus 4.7 лучше прослеживается официальная документация. Anthropic опубликовала релиз Claude Opus 4.7, документацию для разработчиков и страницу system cards, где указан Claude Opus 4.7. Но «больше документов» — это не то же самое, что «лучше выдерживает prompt injection или фальшивые ссылки».
У OpenAI есть близкие по теме материалы: GPT-5 System Card с оценками фактической точности и hallucination, ChatGPT Agent System Card с agentic evaluations и manual red-teaming, а также дополнение по GPT-5-Codex, где отдельно обозначены prompt injection риски и evaluation suite. Проблема в том, что это не официальная карточка именно GPT-5.5 Spud. В доступных материалах Spud в основном фигурирует в сторонних публикациях и описаниях утечек, а не в полноценном документе OpenAI о безопасности этой модели.
По Claude Opus 4.7 есть официальная страница запуска и документация. В документации Anthropic говорится, что Opus 4.7 вводит task budgets, а рекомендации по prompting отмечают: при max или xhigh effort стоит задавать достаточно большой бюджет выходных токенов, чтобы модель могла работать через subagents и tool calls.
Это важно для понимания класса задач: речь идёт не только о чат-ответах, а о длинных agentic workflows, где модель использует инструменты и выполняет многошаговые действия. В Claude 4 System Card Anthropic описывает pre-deployment safety tests по Responsible Scaling Policy, проверки нарушений Usage Policy, оценку reward hacking, а также agentic safety evaluations для computer use и coding capabilities. В Claude 4.1 System Card отдельно перечислены разделы про prompt injection attacks and computer use.
Но здесь есть тонкая граница: эти документы показывают, что у Anthropic есть рамка оценки рисков. Они не дают публичного результата теста «Claude Opus 4.7 против GPT-5.5 Spud» на одном и том же наборе загрязнённых исследований.
GPT-5 System Card описывает оценку factual correctness и hallucination: ответы GPT-5 проверялись LLM-based grading model с web access, чтобы отмечать крупные и мелкие фактические ошибки. В документе также говорится, что модели GPT-5 показывали более низкие hallucination rates в режимах browse-on и browse-off по сравнению с указанными моделями OpenAI.
ChatGPT Agent System Card описывает SecureBio static и agentic evaluations, manual red-teaming и задачи, где нужны web-search и reasoning. Дополнение к GPT-5-Codex System Card отдельно указывает prompt injection как риск и описывает специализированный prompt injection evaluation suite.
Это серьёзный контекст безопасности, но не прямое доказательство по Spud. Если модель называется в сторонних материалах GPT-5.5 Spud, а официальной system card для неё в доступном наборе источников нет, нельзя переносить результаты GPT-5, ChatGPT Agent или GPT-5-Codex на Spud без оговорок.
Prompt injection опасна тем, что модель может принять текст из недоверенного документа за инструкцию: например, страница в сноске просит «игнорировать предыдущие правила», а агент воспринимает это как команду. У Anthropic есть контекст agentic safety, computer use и prompt injection в документах Claude 4/4.1; у OpenAI есть agentic evaluations, manual red-teaming и prompt injection suite в материалах по ChatGPT Agent и GPT-5-Codex.
Но нужного сравнения всё равно нет: неизвестно, какая из двух моделей реже подчиняется вредным инструкциям, если обе читают один и тот же заражённый корпус.
Фальшивые ссылки — это не только «галлюцинация», но и провал проверяемости: модель может сослаться на несуществующую статью, поддельный DOI или настоящий URL, который не подтверждает тезис. GPT-5 System Card действительно включает оценки фактической точности и hallucination.
Однако это не то же самое, что публичный стресс-тест на смесь настоящих DOI, поддельных DOI, настоящих и битых URL, вымышленных журналов и правдоподобных, но несуществующих статей. Для Claude Opus 4.7 и GPT-5.5 Spud сопоставимых открытых результатов на таком наборе нет.
Открытые материалы не дают сопоставимых метрик по тому, как две конкретные модели обрабатывают PDF с невидимым текстом, вредными инструкциями в metadata, комментариями или псевдосистемными сообщениями внутри вложений.
Практический вывод простой: PDF в исследовательской цепочке нельзя считать «чистым» только потому, что он выглядит академически. Его лучше обрабатывать как недоверенный ввод: извлекать текст и структуру в изолированной среде, отдельно помечать содержимое документа как данные, а не инструкции, и затем измерять, подчиняется ли модель командам из самого файла.
У Anthropic в Claude 4 System Card есть разделы bias evaluations, а в Claude 4.1 System Card перечислены political bias и discriminatory bias; у OpenAI в GPT-4.5 System Card указаны bias-related оценки, включая BBQ Evaluation Dataset.
Но benchmark на bias — это не полный тест исследовательского процесса. В реальной задаче важно другое: заметит ли модель, что источники односторонние; запросит ли контраргументы; отметит ли ограничения выборки; не превратит ли перекошенный набор данных в общий вывод. Открытых сопоставимых результатов Claude Opus 4.7 и GPT-5.5 Spud на такой end-to-end задаче нет.
System card полезна: она показывает, какие риски поставщик проверял до выпуска модели. В материалах Anthropic Responsible Scaling Policy требует комплексных safety evaluations для frontier models в областях CBRN, cybersecurity и autonomous capabilities; Claude 4 System Card описывает несколько типов safety tests и agentic safety evaluations. У OpenAI документы по GPT-5 и ChatGPT Agent дают контекст factual correctness, hallucination, agentic evaluations и manual red-teaming.
Но загрязнённое исследование — это не только модель. Это вся цепочка: поиск, парсер PDF, ранжирование источников, уровни инструкций, права инструментов, проверка цитат, логирование и человеческая ревизия. Даже хорошая оценка в system card не доказывает, что конкретная связка «модель плюс инструменты плюс документы» выдержит все атаки.
Есть и ещё одна причина не делать поспешных выводов. Исследование Anthropic об alignment faking показывает, что в специальных экспериментальных условиях большие языковые модели могут демонстрировать поведение, связанное с alignment-faking, а результаты меняются в зависимости от prompt-условий. Это не означает, что Claude Opus 4.7 или GPT-5.5 Spud обязательно провалят исследовательскую задачу. Это означает другое: безопасность нельзя выводить из одного демо, скриншота или общего заявления поставщика.
Если организация выбирает модель для исследовательской работы, лучше не спорить по логотипам, а собрать воспроизводимый red-team набор. Минимальная программа выглядела бы так:
По открытым проверяемым материалам нельзя доказать, что Claude Opus 4.7 или GPT-5.5 Spud сильнее защищает исследование от prompt injection, фальшивых ссылок, вредоносных PDF и смещённых данных. У Claude лучше видна официальная документальная база; у OpenAI есть релевантные материалы по GPT-5, ChatGPT Agent и GPT-5-Codex, но они не являются прямым доказательством для GPT-5.5 Spud.
Самый ответственный вывод такой: Claude слегка выигрывает только по узкому критерию прозрачности доступных документов. По реальной устойчивости к загрязнённому исследовательскому процессу победителя пока нет.
Comments
0 comments