Antes de arrastrar un PDF, pegar una tabla, resumir un contrato o pedir ayuda con código, conviene cambiar la pregunta. No basta con preguntar: “¿esta IA es segura?”. La pregunta útil es: ¿qué daño causaría que esta información se filtrara, se conservara o se reutilizara fuera de mi control?
El marco del NIST —el Instituto Nacional de Estándares y Tecnología de EE. UU.— para gestionar riesgos de IA generativa incluye, entre otros puntos de gobernanza, la procedencia, protección y retención de datos, el uso comercial, las opciones de exclusión, las evaluaciones de impacto, la respuesta a incidentes, la supervisión y los controles basados en riesgo. El documento del Comité Europeo de Protección de Datos sobre modelos de lenguaje grandes también se centra en los riesgos de privacidad y en cómo mitigarlos.[1][
2]
En esta guía llamamos IA pública no controlada a una herramienta en la nube que no ha sido aprobada por tu organización y sobre la que no tienes respuestas verificables: cuánto conserva los datos, si puede usarlos comercialmente o reprocesarlos, si existe una opción de exclusión, quién puede acceder, cómo se monitoriza el uso y qué pasa si hay un incidente. Eso no significa que ninguna IA pueda tratar información sensible; significa que, antes de hacerlo, debe existir una gobernanza comprobable.[2]
Respuesta rápida: si no puedes responder, no subas el original
Los datos personales identificables, los secretos de empresa y los documentos gubernamentales no publicados no deberían pegarse directamente en una IA pública no controlada. Aunque solo quieras resumir, traducir, reescribir o depurar, si el contenido revela información sobre personas, clientes, decisiones internas, credenciales o datos protegidos, lo prudente es desidentificar, resumir, eliminar campos sensibles o usar una herramienta aprobada y controlada por la organización.[1][
2]
El criterio más seguro no es la marca del chatbot. Es este conjunto de preguntas: qué tan sensible es el dato, qué hace el servicio con lo que subes, si tu organización lo autoriza y si se podría rastrear y gestionar un problema. Si no hay respuesta clara sobre protección de datos, retención, supervisión, respuesta a incidentes, opciones de exclusión y controles basados en riesgo, no subas el texto o archivo original.[2]
Cómo distinguir datos personales, secretos de empresa y documentos públicos
| Tipo de información | Criterio práctico | Qué comprobar antes |
|---|---|---|
| Datos personales | No subas texto que permita identificar a una persona. Si es imprescindible trabajar con el contenido, aplica minimización, enmascaramiento o desidentificación, y revisa si las normas internas y las condiciones del servicio lo permiten. | El EDPB trata los riesgos de privacidad en sistemas basados en LLM, y el NIST incluye protección de datos, retención, evaluaciones de impacto y monitorización entre los puntos de gestión de riesgo de IA generativa.[ |
| Información confidencial de empresa | No la pegues en una IA pública no aprobada. Contratos, listas de clientes, licitaciones, operaciones de fusión o adquisición, documentos legales, código fuente, claves y credenciales deben tratarse como material de alto riesgo. | El NIST incluye uso comercial, procedencia de datos, protección, retención, respuesta a incidentes, monitorización y desarrollo seguro de software entre los elementos de gobernanza.[ |
| Documentos de la Administración | Separa lo ya publicado, de baja sensibilidad y reutilizable conforme a las reglas aplicables, de expedientes internos, borradores, documentos no publicados, datos de investigación o información de aplicación de la ley. | El informe del JRC de la Comisión Europea dedica un apartado al uso de IA generativa en el sector público, y un anexo del Parlamento Europeo cita casos que usan datos oficiales del Bundestag —el Parlamento federal alemán— evitando información personal o sensible.[ |
Cinco preguntas antes de pegar nada en una IA
Si no puedes contestar alguna, no subas el original a una IA pública no controlada.
- ¿El contenido incluye datos personales o información sensible? Si puede identificar a alguien o crear un riesgo de privacidad, no pegues el texto completo sin antes reducirlo, ocultarlo o desidentificarlo.[
1]
- ¿El servicio conserva las entradas o salidas? ¿Durante cuánto tiempo? La retención de datos aparece entre los elementos de gestión de riesgo de IA generativa del NIST.[
2]
- ¿Puede usar el contenido con fines comerciales, reprocesarlo o emplearlo para mejorar el servicio? ¿Hay opción de exclusión? El NIST incluye uso comercial, protección y retención de datos, y opciones de exclusión entre los aspectos de gobernanza que deben revisarse.[
2]
- ¿Quién puede usar la herramienta y se puede auditar el uso? El NIST menciona credenciales y cualificaciones de los actores de IA, evitar el uso anónimo y monitorizar; en la práctica, la organización necesita saber quién usó la herramienta, con qué finalidad y con qué tipo de datos.[
2]
- ¿Hay evaluación de impacto, respuesta a incidentes y controles basados en riesgo? Esos elementos también forman parte del enfoque de gestión de riesgo para IA generativa del NIST.[
2]
Una frase en el prompt como “mantén esto confidencial” no es un control de seguridad. Lo que importa es cómo se almacenan los datos, quién puede acceder, si pueden reutilizarse, si existe exclusión, quién responde ante un incidente y si tu organización permite ese uso.[2]
Semáforo de datos: qué puede ir, qué debe revisarse y qué no debe subirse
Esta lista convierte principios de protección, retención y control de riesgo en decisiones cotidianas. No sustituye el criterio del área legal, de privacidad, de seguridad de la información ni de gestión documental de tu organización.[1][
2]
Verde: se puede considerar, pero revisando condiciones
- Información ya pública, de baja sensibilidad y que tienes derecho a utilizar.
- Contenido desidentificado, sin campos sensibles y sin detalles que permitan reconstruir razonablemente quién es la persona, el cliente, el expediente o el asunto interno.[
1]
- Preguntas redactadas con el contexto mínimo necesario, en lugar de subir un contrato entero, una tabla de clientes, un expediente completo o un repositorio de código.[
2]
Que algo sea público no significa que no tenga riesgo. Si el material publicado contiene datos personales o información sensible, sigue siendo necesario aplicar reglas de privacidad y protección de datos.[1]
Amarillo: primero reescribe, oculta o pide aprobación
- Información sobre clientes, empleados, proveedores, pacientes, estudiantes, partes de un expediente o ciudadanos.[
1]
- Borradores de contrato, datos financieros, presentaciones internas, actas de reuniones, opiniones legales o borradores de política pública.[
2]
- Código fuente, documentación técnica o diagramas de arquitectura, especialmente si pueden incluir claves, credenciales, tokens o información sobre vulnerabilidades; el NIST incluye desarrollo seguro de software y controles basados en riesgo en la gobernanza de IA generativa.[
2]
- Documentos internos de organismos públicos, comunicaciones no publicadas, borradores, materiales de evaluación o archivos de colaboración entre instituciones; en el sector público también deben evitarse riesgos ligados a información personal o sensible.[
3][
11]
Estos datos no están necesariamente prohibidos para cualquier uso de IA, pero no deberían introducirse en una herramienta pública no controlada sin aprobación, reglas de retención, monitorización y respuesta a incidentes.[2]
Rojo: no lo subas a una IA pública no controlada
- Información que la ley, un contrato o una política interna prohíben compartir fuera de un entorno autorizado.
- Documentos clasificados o de alta sensibilidad, incluidos materiales relacionados con seguridad nacional, investigaciones, aplicación de la ley o evaluaciones de contratación pública.
- Contraseñas, claves API, claves privadas, certificados, tokens de acceso o cualquier dato que permita entrar en un sistema.
- Información cuya procedencia, autorización, retención, eliminación o posible reutilización no puedes confirmar.[
2]
Desidentificar no es solo borrar el nombre
Quitar el nombre de una persona puede no ser suficiente. Un número de identificación, teléfono, correo electrónico, dirección, cuenta, número de expediente, cargo poco común o una combinación de fecha y lugar puede seguir apuntando a una persona o caso concreto. Por eso, antes de subir contenido a una IA, conviene eliminar o reescribir identificadores, detalles que permitan inferencias y campos que no sean necesarios para la tarea.[1]
Una forma más segura de trabajar es sustituir nombres reales por etiquetas como “Persona A” o “Empresa B”, compartir solo el fragmento imprescindible, convertir el documento original en una situación abstracta, agregar tablas o listados antes de usarlos y reservar el tratamiento del texto original para herramientas y flujos aprobados por la organización.[1][
2]
Documentos de la Administración: datos abiertos no es lo mismo que expediente interno
El uso de IA generativa en el sector público no se resuelve con un “sí” o “no” universal. El informe del JRC de la Comisión Europea lo trata como un ámbito específico, y un anexo del Parlamento Europeo resume casos que emplean datos oficiales del Bundestag evitando información personal o sensible.[3][
11]
Puede ser razonable trabajar con información oficial ya publicada, de baja sensibilidad y reutilizable conforme a las condiciones aplicables. En cambio, conviene ser especialmente restrictivo con documentos no publicados, expedientes internos, borradores de políticas, investigaciones, actuaciones de aplicación de la ley, evaluaciones de contratación y cualquier archivo que contenga datos personales o información sensible. Lo primero exige revisar condiciones de uso; lo segundo no debería terminar en una IA pública no controlada.[1][
2][
3]
La regla más sencilla
Si una filtración podría perjudicar a una persona, a una organización, al interés público o al cumplimiento normativo, no subas el original a una IA pública no controlada. Resume, oculta, desidentifica y minimiza. Si la tarea realmente necesita el documento íntegro, usa un proceso aprobado y una herramienta controlada, con protección de datos, reglas de retención, permisos de acceso, monitorización y respuesta a incidentes.[1][
2]




