調査や研究では、いくつかの典型的な原因が報告されています。
大規模言語モデルは、ウェブページや文書など大量のデータを学習します。その中には、電話番号や住所が含まれる公開文書や政府記録が存在する場合があります。特定の質問に対して、それらの情報が再現されることがあると指摘されています 。
AIドクシングの体系的な統計はまだ少ないものの、複数の具体的な事例が報告されています。
こうした事例は、意図的ではなくてもAIの回答が現実のトラブルにつながる可能性を示しています。
以前は、多くの個人情報が**「実質的な匿名状態(practical obscurity)」**にありました。理論上は公開されていても、探し出すには手間がかかったからです。
例えば住所を調べる場合、自治体の記録や古いウェブページをいくつも検索する必要がありました。
その結果、AIが事実上「自動データブローカー」のような役割を果たしてしまうのではないかという懸念も出ています。
個人情報がAIの学習データに含まれてしまうと、完全な修正は簡単ではありません。
言語モデルは個々の記録をそのまま保存しているわけではなく、統計的なパターンとして学習します。そのため、特定の情報だけを完全に削除するのは技術的に難しいとされています。
この問題に対して、専門家や企業は複数の対策を検討しています。
AIドクシングが示しているのは、生成AIが**「見つけにくかった情報」を簡単に見つけられるようにしてしまう**という構造的な問題です。
その情報が必ずしも秘密だったわけではなくても、AIの
によって影響は大きくなります。
Comments
0 comments