ИИ читает полный текст источника — не только заголовки или аннотации — и проверяет, подтверждает ли источник утверждение, противоречит ли ему или вообще не относится к делу. Система улавливает искажения, избирательное цитирование и вырванные из контекста фразы . Она отдаёт предпочтение контенту, который ссылается на первичные данные с указанием конкретных источников и который содержит ссылки на другие авторитетные сайты и сам цитируется ими
. Материалы анонимных авторов, ссылающихся на неназванных «экспертов отрасли» без внешних подтверждений, функционально неверифицируемы и вряд ли будут процитированы
.
Системы автоматического фактчекинга сверяют утверждения по нескольким независимым источникам. Если утверждение подтверждается несколькими авторитетными источниками, вероятность его цитирования растёт. Если источники противоречат друг другу, система может понизить надёжность . Речь идёт не об абсолютной «истине», а о консенсусе между теми источниками, которые ИИ считает заслуживающими доверия
. Система ищет пересечения, согласованность и соответствие между разными публикациями, проверяя, встречается ли та же идея в похожей форме в других местах
.
Каждую страницу-кандидата система прогоняет через пять одинаковых проверок: добраться до страницы, прочитать её, извлечь чёткий ответ, оценить, насколько источник заслуживает доверия по данной конкретной теме, проверить, достаточно ли он конкретен для верификации утверждения, и убедиться, что информация актуальна для данного вопроса . Страница должна точно соответствовать заданному вопросу, а не просто общей теме
. Контент, сфокусированный на одной чёткой концепции, ИИ извлекает и использует легче, чем широкие или разнородные страницы
. Страница, прошедшая все проверки, получает цитату; страница, провалившая хотя бы одну, — извлекается, рассматривается и незаметно отбрасывается
.
Когда система получает нужные документы, она использует их для привязки своего ответа — то есть генерирует ответ на основе извлечённого контента, а не полагается исключительно на свои обучающие данные. Этот шаг призван сократить количество необоснованных утверждений и галлюцинаций .
Несмотря на все эти проверки, точность ИИ-поисковиков при цитировании источников далека от идеала. Исследование Columbia Journalism Review, в котором протестировали восемь ИИ-поисковиков, показало, что они ссылаются на неверные источники с тревожной частотой — примерно в 60% случаев . Движки иногда полностью фабрикуют цитирования или выдергивают факты из посторонних разделов источника. Как отмечается в одном отраслевом анализе, механизмы верификации «ни один не является безошибочным»
.
Понимание этого конвейера помогает объяснить, почему одни источники цитируются, а другие — нет. Система ставит консенсус выше новизны, авторитет выше анонимности, а верифицируемость выше удобства. Но высокий уровень ошибок означает, что пользователям всё равно стоит перепроверять утверждения, полученные от ИИ, по первоисточникам — особенно в новостях, статистике и чувствительной ко времени информации. ИИ может быстро найти информацию, но решить, можно ли её безопасно повторить, — вот что действительно сложно .
Comments
0 comments