Единой честной цифры вроде «ИИ отвечает правильно в X% случаев» нет: надежность зависит от задачи, источников и способа проверки.[4]
Claude Opus 4.7 официально задокументирован Anthropic, а GPT 5.5 Spud не подтверждён в предоставленных официальных материалах OpenAI, поэтому доказанного победителя в сравнении галлюцинаций нет.
Публичных проверяемых тестов «лоб в лоб» для Claude Opus 4.7 и GPT 5.5 Spud по prompt injection, фальшивым цитатам, вредоносным PDF и смещённым данным нет; ответственный вывод — доказательств недостаточно.[2...