AIは見出しや要約だけでなく、情報源全体を読み、その情報源が主張を直接支持しているか、矛盾しているか、無関係かをチェックします。また、誤った表現、選択的な引用、省略された文脈も見抜きます 。システムは、名前の明らかな情報源を引用した一次データを提示し、他の信頼できるサイトとリンクし合っているコンテンツを好みます
。匿名の著者が「業界の専門家」という匿名の情報源を挙げ、外部参照がないコンテンツは事実上検証不可能であり、引用される可能性は低くなります
。
自動ファクトチェックシステムは、複数の独立した情報源に対して主張を相互参照します。ある主張が複数の権威ある情報源によって支持されている場合、引用される可能性が高まります。逆に、情報源間で矛盾がある場合、システムは信頼性を引き下げる可能性があります 。これは絶対的な意味で「正しい」かどうかではなく、AIが信頼できると判断した情報源の間での「コンセンサス」が基準となります
。システムは、情報源間の重複、一貫性、一致を探し、同じアイデアが他の場所でも同様の形で現れているかを確認します
。
システムは全ての候補ページを同じ5つのチェックにかけます。すなわち、ページに到達して読めるか、そこから明確な回答を抽出できるか、その情報源が特定のトピックに関して信頼できるか、主張を検証するのに十分に具体的か、そして質問に対して十分に新しい情報かを確認します 。あるページは、単に一般的なトピックだけでなく、回答しようとしている特定の質問に密接に一致していなければなりません
。1つの明確なコンセプトに焦点を当てたコンテンツは、広範またはトピックが混在したページよりも、AIが検索・再利用しやすいです
。全てのチェックをクリアしたページは引用され、1つでも失敗したページは検索され、考慮された後、静かにドロップされます
。
適切な文書を入手した後、システムはそれらを使って応答を「グラウンディング」します。つまり、トレーニングデータだけに頼るのではなく、検索したコンテンツに基づいて回答を生成します。このグラウンディングのステップは、根拠のない主張や幻覚(ハルシネーション)を減らすことを目的としています 。
これらすべてのチェックにもかかわらず、AI検索エンジンの情報源引用の精度は決して完璧ではありません。コロンビア大学ジャーナリズムレビュー(CJR)の調査では、8つのAI検索エンジンをテストした結果、約60%という驚くべき割合で誤った情報源を引用していることが判明しました 。エンジンは時として、まったく存在しない情報源を作り出したり(ハルシネーション)、情報源の無関係なセクションから事実を引き出したりします。ある業界分析では、検証メカニズムは「どれ一つとして完璧ではない」と表現されています
。
このパイプラインを理解することは、なぜある情報源が引用され、他がされないのかを説明するのに役立ちます。システムは、目新しさよりもコンセンサスを、匿名性よりも権威を、利便性よりも検証可能性を優先します。しかし、高いエラー率は、ユーザーがAIが引用した情報源の主張を、特にニュース、統計、時事情報に関しては、元の情報源で確認する必要があることを意味します。AIは素早く情報を見つけることができますが、それを「繰り返しても安全か」を判断するのは難しい部分なのです 。
Comments
0 comments