Самый надёжный ориентир — не логотип сервиса, а четыре вопроса: чувствительны ли данные; как сервис их хранит и использует; разрешает ли это ваша организация; можно ли отследить и обработать инцидент. Если по этим пунктам нет ясности, оригинал загружать не стоит.
Если хотя бы на один вопрос нет ответа, не отправляйте исходный документ в обычный публичный ИИ.
Фраза в запросе вроде «сохрани это в тайне» не является мерой безопасности. Важно не то, что вы попросили модель, а то, какие технические, договорные и организационные правила действуют вокруг данных: где они хранятся, кто имеет доступ, можно ли отказаться от повторного использования, кто отвечает за инцидент и разрешено ли это вашей организацией.
Этот список переводит принципы защиты данных, хранения и риск-ориентированного контроля на бытовой язык. Он не заменяет юридическую консультацию и внутренние регламенты: для компании, ведомства, вуза или НКО решающими остаются их собственные правила информационной безопасности, работы с персональными данными и документооборота.
Важно: «данные уже в интернете» не означает «риска нет». Если открытый материал всё ещё содержит персональные или чувствительные сведения, к нему нужно применять правила приватности и защиты данных.
Такие данные не обязательно навсегда запрещены для ИИ. Но они не должны попадать в публичный сервис без утверждённого инструмента, правил хранения, контроля доступа, мониторинга и сценария реагирования на инциденты.
Удалить фамилию из документа часто недостаточно. Номер дела, телефон, email, адрес, должность, редкая специализация, дата и место события, комбинация подразделения и проекта — всё это может снова вывести на конкретного человека, клиента или ситуацию. Именно поэтому документы о LLM-системах говорят не только о приватности в целом, но и о снижении рисков через продуманную обработку данных.
Более безопасный подход выглядит так: замените реальные имена и названия компаний условными обозначениями; оставьте только нужный фрагмент; перепишите исходный документ в абстрактный сценарий; агрегируйте таблицы и списки; удалите идентификаторы, служебные номера и метаданные; если без оригинала не обойтись, используйте только одобренный инструмент и утверждённый процесс.
Применение генеративного ИИ в публичном секторе нельзя свести к формуле «всё запретить» или «всё разрешить». В отчёте JRC о генеративном ИИ применение таких систем в государственном секторе выделено как отдельная область рассмотрения; в приложении Европарламента пример с официальными данными Бундестага, то есть парламента Германии, описан как использование официальных данных с избеганием персональной или чувствительной информации.
На практике более безопасной категорией обычно будут уже опубликованные, низкочувствительные и законно используемые официальные материалы. Гораздо осторожнее нужно относиться к непубличным служебным документам, проектам решений, материалам проверок, расследований, правоприменения, закупочных процедур и любым файлам с персональными или чувствительными данными. Первую группу всё равно надо проверять по условиям использования; вторую не следует напрямую отправлять в обычный публичный ИИ.
Если утечка файла может навредить человеку, организации, общественным интересам или соблюдению правил, не загружайте оригинал в публичный ИИ-сервис. Сначала минимизируйте, замаскируйте и обобщите данные. Если задачу невозможно решить без исходного документа, используйте утверждённый контролируемый инструмент и проверьте защиту данных, хранение, права доступа, мониторинг, возможность отказа от повторного использования и порядок реагирования на инциденты.
Comments
0 comments