Incluso el ajuste fino con fines aparentemente inofensivos puede destruir el alineamiento de seguridad. Un estudio demostró que mezclar pequeñas cantidades de datos maliciosos con datos benignos durante el ajuste fino debilita drásticamente las protecciones . Otro artículo confirmó que tanto el ajuste fino de modelos de peso abierto como las API de ajuste fino cerradas pueden dar lugar a modelos sin ninguna medida de protección
.
Diversas técnicas documentadas recientemente muestran lo fácil que se ha vuelto vulnerar estos sistemas.
'Sockpuppeting' (suplantación por prefilled). Esta técnica inyecta una falsa "aceptación" en la respuesta pregenerada del asistente, explotando la tendencia del modelo a la autoconsistencia. No requiere optimización, acceso a los pesos del modelo ni herramientas especializadas; solo necesita una API que admita el prellenado de respuestas del asistente. En pruebas realizadas en abril de 2026, todos los modelos que aceptaron el prellenado fueron vulnerables al menos parcialmente, incluidos GPT-4o, Claude 4 Sonnet y Gemini 2.5 Flash .
Ataques derivados de artículos académicos. Representan una alarmante meta-vulnerabilidad. Un estudio de 2026 descubrió que usar contenido de artículos publicados sobre seguridad en LLMs como instrucciones (prompts) logra una tasa de éxito de ataque del 97-98 % contra modelos bien alineados, incluidos sistemas cerrados como Claude 3.5 Sonnet .
Amplificación mediante direccionamiento de seguridad. Esta técnica muestra cómo los métodos diseñados para mejorar la seguridad pueden resultar contraproducentes. Las intervenciones en tiempo de inferencia para modificar activaciones, destinadas a reducir el "exceso de rechazo" en consultas benignas, amplificaron inadvertidamente las vulnerabilidades de jailbreak en modelos como Llama 3.1 8B y Gemma 2 2B .
Subversión de barreras de razonamiento. Es uno de los nuevos vectores más preocupantes. Un estudio de marzo de 2026 desveló que añadir solo unas pocas plantillas de texto (tokens) a una instrucción de entrada puede secuestrar las barreras de seguridad basadas en razonamiento. Una vez comprometidas, estos sistemas de razonamiento pueden generar respuestas incluso más dañinas que modelos sin dichas protecciones .
Las normas sobre IA de Propósito General (GPAI, por sus siglas en inglés) de la Ley de IA de la UE entraron en vigor en agosto de 2025 . Cualquier modelo entrenado con una potencia de cálculo superior a 10²⁵ operaciones de coma flotante (FLOPs) —un umbral que abarca a modelos como Llama 4.2 Ultra y prácticamente todos los grandes modelos comerciales— se clasifica como de riesgo sistémico
.
Las implicaciones para las empresas son inmediatas:
Existen exenciones para el código abierto, pero con límites muy claros. Los modelos lanzados bajo licencias libres y de código abierto sin monetización quedan en gran medida fuera de las obligaciones más estrictas , pero la exención desaparece inmediatamente si el modelo supone un riesgo sistémico
. La revisión de la norma por parte de la UE en mayo de 2026 reafirmó este límite
. Ya se ha señalado que la licencia comunitaria de Llama de Meta no cumple los requisitos para acogerse a la exención de código abierto
.
La aplicación de la ley ya no es teórica. A principios de 2026, la UE lanzó investigaciones de alto riesgo por riesgo sistémico contra grandes plataformas, incluida Meta, exigiendo una transparencia sin precedentes sobre los conjuntos de datos de entrenamiento y las barreras de seguridad .
Las abrumadoras pruebas de vulnerabilidad están alimentando la presión del mercado para que se apliquen mejores sistemas de reacondicionamiento de seguridad. Un estudio de 2025 demostró que entrenar con tan solo 2.000 muestras de seguridad —con un coste de aproximadamente 3 $ (dólares) para modelos de 8.000 millones de parámetros y 20 $ para modelos de 72.000 millones— podía reducir las tasas de éxito de los ataques entre un 10 % y un 30 %. Los métodos de ataque más exitosos quedaban reducidos a una tasa de éxito de alrededor del 5 % tras el reacondicionamiento .
Las cifras sugieren que un reacondicionamiento de bajo coste es viable, pero aún no se ha convertido en una práctica estándar en todo el ecosistema de modelos de peso abierto. A medida que aumenta la presión regulatoria y el panorama de amenazas se agudiza, a las empresas que despliegan estos modelos en producción les resultará cada vez más difícil justificar el saltarse esa "póliza de seguro" de 20 dólares.
Comments
0 comments