Важно, что модель не обязательно «хранит» эти данные напрямую. Она может:
Когда система объединяет такие фрагменты в один ответ, поиск личных данных становится намного проще, чем при обычном веб‑поиске .
Расследования и эксперименты исследователей показывают несколько основных механизмов.
Большие языковые модели обучаются на огромных массивах текста — веб‑страницах, документах и архивных данных. Некоторые из этих источников содержат контактную информацию людей. В отдельных случаях модели воспроизводили телефонные номера или адреса, встречавшиеся в таких материалах .
Даже если информация формально открыта — например в земельных реестрах или государственных документах — раньше её было трудно найти. Чат‑бот может быстро собрать её из разных источников и выдать готовый ответ .
Иногда модель не извлекает реальные данные, а ошибочно придумывает или приписывает номер телефона. Проблема в том, что такой номер может принадлежать настоящему человеку — и его начинают беспокоить звонками .
Исследователи также показали, что последовательные уточняющие запросы иногда позволяют обойти фильтры безопасности и постепенно получить чувствительную информацию .
Хотя масштаб проблемы пока трудно измерить, уже есть несколько задокументированных случаев.
Нежелательные звонки незнакомцев. Некоторые люди сообщали, что им начали звонить незнакомые люди, которые утверждали, что нашли номер через чат‑бот, когда искали контакты юриста или мастера‑слесаря .
«ИИ дал мне ваш номер». Один из пострадавших рассказал, что регулярно получал звонки от людей, уверенных, что чат‑бот выдал его номер как контакт для различных услуг .
Ошибочный номер службы поддержки. Сообщалось о случае, когда израильский разработчик начал получать звонки от клиентов, потому что ИИ указал его личный номер как номер службы поддержки .
Эксперименты исследователей. Учёные университетов показали, что с помощью определённых запросов можно извлечь из чат‑бота номер телефона коллеги или домашний адрес преподавателя .
Раскрытие домашних адресов. В некоторых расследованиях сообщалось, что чат‑боты могли выдавать точные адреса проживания людей по запросу с их именем .
Эти случаи показывают, что даже случайные утечки могут быстро превращаться в реальные проблемы для людей.
До появления ИИ большая часть личной информации находилась в состоянии так называемой «практической скрытости».
Формально она могла быть публичной — например в архиве муниципальных документов — но найти её было сложно и требовало времени.
ИИ‑ассистенты резко уменьшают этот барьер. Один вопрос на естественном языке может заменить долгий поиск по нескольким базам данных и сайтам .
Поэтому некоторые исследователи считают, что чат‑боты начинают фактически выполнять роль автоматических брокеров данных, делая персональную информацию гораздо более доступной.
Полностью устранить риск AI‑доксинга технически непросто.
Телефон или адрес могут встречаться одновременно в веб‑архивах, государственных документах, справочниках и обучающих наборах данных. Удаление одного источника не гарантирует исчезновение информации .
Языковые модели кодируют статистические закономерности текста, а не хранят записи в таблицах. Поэтому удалить конкретную строку данных после обучения намного сложнее.
Разработчики вводят ограничения на выдачу личных данных. Но исследования показывают, что результат может зависеть от формулировки запроса или контекста .
Исследователи отмечают, что политика конфиденциальности ИИ‑сервисов часто сложна и непонятна, поэтому людям трудно узнать, как используются их данные и как запросить их удаление .
Эксперты по приватности и разработчики предлагают несколько направлений решения проблемы.
Минимизация данных при обучении. Компании могут исключать источники, содержащие персональные контактные данные, если это возможно .
Тестирование на утечки. Системы проверяют с помощью специальных «провокационных» запросов, чтобы выявлять потенциальные сценарии доксинга .
Блокировка чувствительных ответов. Некоторые чат‑боты уже отказываются выдавать личные номера телефонов или домашние адреса даже если они есть в публичных источниках .
Быстрые процедуры жалоб. Эксперты предлагают создавать понятные механизмы для людей, чьи данные появляются в ответах ИИ .
AI‑доксинг показывает более общий эффект генеративного ИИ: технологии могут резко облегчить поиск информации, которая раньше была трудно доступна.
Это не всегда означает, что данные были секретными. Но скорость, автоматизация и разговорный интерфейс ИИ делают последствия раскрытия личных данных намного сильнее.
По мере того как чат‑боты становятся частью поисковых систем, мессенджеров и повседневных цифровых сервисов, исследователи предупреждают: без более жёстких правил конфиденциальности и улучшенных защитных механизмов риск случайного раскрытия персональных данных будет сохраняться .
Comments
0 comments