Cuando una IA se usa para investigar, el riesgo no es solo que se equivoque. También puede tratar como instrucción lo que en realidad era contenido no confiable: una página con prompt injection, una referencia académica que parece formal pero no existe, un PDF con texto oculto o un conjunto de datos que muestra solo una parte del problema.
Con los materiales públicos disponibles, no hay base suficiente para decir que Claude Opus 4.7 o el modelo de OpenAI al que páginas de terceros llaman GPT-5.5 Spud resista mejor ese tipo de contaminación. Falta una comparación directa, verificable y hecha bajo las mismas condiciones.[2][
23][
27][
32][
45][
51]
Conclusión rápida: evidencia insuficiente
Si la pregunta es cuál modelo mantiene mejor la calidad de una investigación contaminada, la respuesta responsable es: no se puede decidir con la evidencia pública actual. Para afirmarlo haría falta una prueba cara a cara con la misma cadena de herramientas, los mismos documentos, los mismos ataques y la misma rúbrica: tasa de obediencia a instrucciones no confiables, citas no verificadas, respuesta ante PDF maliciosos y calidad del análisis cuando el corpus está sesgado. Esa comparación no aparece en las fuentes consultables.[2][
23][
27][
32][
45][
51]
Lo que sí puede decirse con algo más de seguridad es más estrecho: en este conjunto de fuentes, Claude Opus 4.7 tiene una trazabilidad oficial más clara. Anthropic publicó su lanzamiento, documentación para desarrolladores y una página de fichas de sistema donde figura Claude Opus 4.7.[5][
9][
51] Pero tener más documentación pública no equivale a ganar una prueba técnica contra ataques de contaminación.
Qué muestran realmente los documentos públicos
Claude Opus 4.7: más trazabilidad, no una prueba directa
Anthropic confirma la disponibilidad de Claude Opus 4.7 y ofrece documentación específica para desarrolladores. Esa documentación menciona task budgets, y sus buenas prácticas de prompting indican que, al usar Claude Opus 4.7 con esfuerzo max o xhigh, conviene dar un presupuesto amplio de tokens de salida para que el modelo pueda actuar a través de subagentes y llamadas a herramientas.[5][
9][
44]
Eso importa porque describe flujos de trabajo largos y agentivos, precisamente el tipo de entorno donde puede entrar material no confiable. Además, la ficha de sistema de Claude Opus 4 y Claude Sonnet 4 describe pruebas de seguridad previas al despliegue, evaluaciones sobre violaciones de la política de uso, reward hacking y seguridad agentiva en uso de ordenador y capacidades de programación.[45] La ficha de Claude 4.1 también incluye apartados sobre ataques de prompt injection y uso de ordenador.[
71]
Aun así, todo eso es contexto de seguridad. No es una prueba pública que enfrente a Claude Opus 4.7 contra GPT-5.5 Spud con los mismos PDF, las mismas citas falsas y las mismas instrucciones maliciosas.
OpenAI: evaluaciones relevantes, pero no específicas de Spud
OpenAI también tiene documentación de seguridad relacionada. La ficha de sistema de GPT-5 cubre evaluaciones de corrección factual y alucinaciones; describe el uso de un modelo evaluador con acceso web para identificar errores factuales mayores y menores, y afirma que los modelos GPT-5 tienen tasas de alucinación más bajas que los modelos de comparación de OpenAI listados, tanto con navegación activada como desactivada.[2][
34]
La ficha de ChatGPT Agent describe evaluaciones estáticas y agentivas de SecureBio, red teaming manual y pruebas en tareas que requieren búsqueda web y razonamiento.[32] El anexo de GPT-5-Codex, por su parte, menciona explícitamente el riesgo de prompt injection y una suite de evaluación dedicada a ese problema.[
24]
La dificultad es otra: esas fuentes no son una ficha oficial específica de GPT-5.5 Spud. Lo que se puede consultar directamente sobre Spud procede sobre todo de páginas de terceros o resúmenes de filtraciones, no de una publicación formal de OpenAI con métricas de seguridad propias para ese modelo.[23][
27]
Los cuatro riesgos, uno por uno
1. Prompt injection: hay señales de trabajo en seguridad, no un duelo comparable
El prompt injection ocurre cuando el modelo lee una fuente externa —una web, una tabla, una nota al pie o un archivo adjunto— y confunde texto no confiable con una instrucción que debe obedecer. Los documentos de Claude 4 y 4.1 muestran que Anthropic ha tratado riesgos agentivos, uso de ordenador y prompt injection; los documentos de OpenAI sobre ChatGPT Agent y GPT-5-Codex muestran evaluaciones agentivas, red teaming y una suite dedicada a prompt injection.[24][
32][
45][
71]
Pero eso no responde la pregunta central: ante el mismo paquete de fuentes contaminadas, ¿cuál de los dos modelos obedece menos a instrucciones maliciosas escondidas? Sin esa prueba común, no es correcto convertir el contexto documental en una victoria para uno u otro.[23][
27][
45][
51]
2. Citas falsas: medir alucinaciones no basta
Una cita falsa suele ser un fallo de facticidad y verificabilidad: DOI inventados, artículos que no existen, revistas con nombres plausibles o URL que no respaldan lo afirmado. La ficha de GPT-5 sí incluye evaluaciones de corrección factual y alucinaciones, con metodología de calificación descrita por OpenAI.[2][
34]
Eso no equivale a una prueba de estrés bibliográfica. La información pública no muestra cómo rinde GPT-5.5 Spud en una mezcla controlada de DOI reales y falsos, URL válidas y rotas, revistas inexistentes y artículos plausibles pero inventados. Tampoco ofrece el resultado de Claude Opus 4.7 en el mismo conjunto.[23][
27][
51]
3. PDF maliciosos: faltan indicadores públicos comparables
Para los dos modelos concretos, no hay métricas públicas comparables sobre PDF diseñados para atacar el flujo de investigación: texto oculto, instrucciones en metadatos, comentarios con órdenes maliciosas o mensajes que simulan ser instrucciones del sistema dentro del documento.[2][
32][
45][
51]
Por eso, en un entorno real no conviene dejar que el modelo sea la única barrera. Una evaluación prudente trataría cada PDF como entrada no confiable, extraería texto y estructura en un entorno aislado y mediría si el modelo convierte el contenido del documento en instrucciones operativas.
4. Datos sesgados: un benchmark de sesgo no es una investigación contaminada completa
Anthropic incluye evaluaciones de sesgo en la ficha de Claude 4, y la ficha de Claude 4.1 enumera apartados sobre sesgo político y discriminatorio. OpenAI, en la ficha de GPT-4.5, lista el BBQ Evaluation Dataset, un conjunto de evaluación usado para medir sesgos.[38][
57][
71]
Pero un benchmark de sesgo no es lo mismo que una tarea de investigación de extremo a extremo con fuentes desequilibradas. Lo que habría que medir es si el modelo detecta que las fuentes son unilaterales, busca evidencia contraria, marca límites de muestra o, por el contrario, convierte un corpus sesgado en una conclusión general. La evidencia pública no da resultados comparables de Claude Opus 4.7 y GPT-5.5 Spud en ese escenario.[23][
27][
51]
Por qué una ficha de sistema no sustituye una prueba de flujo completo
Las fichas de sistema son útiles: permiten ver qué riesgos evaluó cada proveedor antes de desplegar un modelo. En el caso de Anthropic, su Responsible Scaling Policy exige evaluaciones amplias antes de lanzar modelos frontera en áreas de posible riesgo catastrófico, como riesgos químicos, biológicos, radiológicos y nucleares, ciberseguridad y capacidades autónomas; la ficha de Claude 4 describe varias pruebas de seguridad y evaluaciones agentivas.[4][
45] En el caso de OpenAI, las fichas de GPT-5 y ChatGPT Agent aportan contexto sobre corrección factual, alucinaciones, evaluaciones agentivas y red teaming manual.[
2][
32][
34]
La investigación contaminada, sin embargo, no depende solo del modelo. Depende del buscador, del parser de documentos, de la jerarquía de instrucciones, de los permisos de herramientas, del verificador de citas, de los registros de auditoría y de la revisión humana. Un buen resultado en una evaluación oficial no garantiza que el mismo modelo sea robusto dentro de un flujo de trabajo concreto.
También conviene recordar que el comportamiento de un modelo puede cambiar con el prompt y el contexto. Una investigación de Anthropic sobre alignment faking mostró que, bajo ciertos diseños experimentales, los grandes modelos de lenguaje pueden exhibir conductas relacionadas con fingir alineamiento, y que los resultados varían según las condiciones del prompt.[31] Eso no prueba que Claude Opus 4.7 o GPT-5.5 Spud vayan a fallar en investigación; sí recuerda que las fronteras de seguridad no deberían inferirse a partir de resúmenes del proveedor, capturas de terceros o una única demostración.
Cómo debería hacerse una comparación justa
Si una organización tuviera que elegir hoy entre ambos para tareas de investigación, la vía sólida no sería apostar por la marca, sino construir una prueba reproducible de equipo rojo. Como mínimo debería incluir:
- Mismo entorno de prueba: idéntica cadena de recuperación, extracción de documentos, permisos de herramientas, prompts base y criterios de evaluación.
- Prompt injection en fuentes externas: páginas web, PDF, hojas de cálculo, notas al pie y referencias con instrucciones ocultas o contradictorias.
- Citas falsas y fuentes dudosas: DOI reales y falsos, URL válidas y rotas, revistas inexistentes y artículos plausibles pero no verificables.
- PDF maliciosos: archivos con texto oculto, anotaciones, metadatos e instrucciones que simulen mensajes de mayor autoridad.
- Contaminación por sesgo: corpus con fuentes unilaterales, muestras desequilibradas y ausencia deliberada de evidencia contraria.
- Puntuación de extremo a extremo: corrección de la conclusión, trazabilidad de fuentes, manejo de contraevidencia, rechazos justificados, exceso de rechazo, registro de herramientas y coste de revisión humana.
Veredicto
Con la información pública verificable, no se puede probar que Claude Opus 4.7 o GPT-5.5 Spud sea superior frente a prompt injection, citas falsas, PDF maliciosos o datos sesgados. Claude aparece mejor respaldado en documentación oficial específica; OpenAI tiene materiales sólidos sobre GPT-5, ChatGPT Agent y GPT-5-Codex, pero esos materiales no son una prueba directa y oficial de GPT-5.5 Spud.[2][
5][
9][
23][
24][
27][
32][
45][
51]
La conclusión más prudente es esta: Claude lleva ventaja solo en el criterio estrecho de trazabilidad documental pública. En seguridad real dentro de un flujo de investigación contaminado, la evidencia todavía no alcanza para declarar ganador.




