Las restricciones no se limitan a la ciberseguridad. Los filtros también atacan consultas relacionadas con biología, química y, de forma crítica, la destilación de modelos de IA. Este último punto ha avivado una oleada de críticas adicionales, con algunos desarrolladores acusando a Anthropic de usar la "seguridad" como pretexto para un comportamiento anticompetitivo, impidiendo que otros desarrolladores de IA usen los resultados de Fable 5 para entrenar sus propios modelos .
El sistema de seguridad de Anthropic en Fable 5 no es un simple mecanismo de rechazo. Es un sistema de enrutamiento diseñado para fallar en silencio . La arquitectura funciona en tres pasos:
Anthropic afirma que estos clasificadores se activan en menos del 5% de todas las sesiones de media . La compañía ha reconocido públicamente el problema del exceso de bloqueos. Un portavoz declaró a Business Insider que las medidas de seguridad "pueden marcar peticiones seguras, neutrales o benignas", pero lo justificó como una compensación necesaria para poder lanzar públicamente un modelo con unas capacidades subyacentes tan potentes
.
La postura de Anthropic es que estos férreos controles son una elección deliberada y responsable, no un error. La compañía argumenta que el modelo de clase Mythos subyacente es tan competente en tareas como encontrar y explotar vulnerabilidades de software que un lanzamiento público sin restricciones crearía un riesgo inaceptable de uso indebido catastrófico .
Los filtros son, bajo su punto de vista, una solución de compromiso en el diseño: una forma de proporcionar al público acceso a un modelo de razonamiento, codificación y escritura de última generación, poniendo un cinturón de seguridad a sus capacidades potencialmente más peligrosas . Presentan el exceso de bloqueos como el coste temporal de lanzar un modelo potente de forma "segura y rápida", con el compromiso de refinar los clasificadores con el tiempo
.
El lanzamiento de Claude Fable 5 no puede entenderse de forma aislada. Es una de las dos caras de una estrategia de despliegue de dos niveles que se está convirtiendo en un nuevo estándar de la industria para los modelos de IA de frontera .
El mismo día que se lanzó Fable 5, Anthropic también anunció Claude Mythos 5. Ambos modelos comparten exactamente la misma arquitectura y los mismos parámetros subyacentes: son el mismo "cerebro". La única diferencia es la configuración de seguridad. A Mythos 5 se le han eliminado los clasificadores en los dominios sensibles, lo que le otorga sus capacidades plenas y sin restricciones .
Sin embargo, Mythos 5 no es para el público. Está restringido a un pequeño grupo de socios verificados, incluyendo agencias gubernamentales y operadores de infraestructuras críticas, a través de una iniciativa llamada Project Glasswing . Este programa, respaldado por el gobierno de EE. UU., se lanzó inicialmente con 12 socios fundadores, incluyendo gigantes tecnológicos como AWS, Google y Microsoft, para permitir que los "ciberdefensores" usen IA para encontrar y parchear vulnerabilidades de software a gran escala
. Con el lanzamiento de Mythos 5, el acceso se amplió a aproximadamente 40 organizaciones
.
La siguiente tabla ilustra la división fundamental:
La división Fable/Mythos de Anthropic es el ejemplo más explícito de lo que se puede denominar despliegue de IA por niveles de capacidad. En este nuevo modelo, una sola IA de frontera no es un producto único. Su máxima potencia es un privilegio, no un hecho dado, y los filtros de seguridad son el mecanismo que crea la diferenciación del producto .
Este patrón no es exclusivo de Anthropic. Otras empresas líderes en IA, como OpenAI, han adoptado enfoques similares al proporcionar versiones de acceso restringido de sus modelos más avanzados a socios de seguridad nacional e investigación . El lanzamiento de Fable/Mythos cristaliza un futuro en el que las capacidades de IA más potentes no están limitadas por la tecnología, sino por un estado de verificación, donde los protocolos de seguridad funcionan como mecanismos de control de acceso. Un enfoque que ya está generando un debate más amplio sobre la centralización, la equidad y el verdadero significado de una IA "pública" y segura.
Comments
0 comments