Las comparaciones entre modelos suelen sonar tajantes: cuál “gana”, cuál “razona mejor”, cuál “cita mejor”. Pero cuando el criterio es la procedencia verificable de la evidencia, la pregunta cambia. No basta con que un modelo responda bien; hay que poder seguir el rastro desde una afirmación hasta el material que la respalda.
En la documentación revisada, Anthropic identifica a Claude Opus 4.7 como parte de la última generación de Claude y como su modelo generalmente disponible más capaz para tareas complejas [53][
65]. En cambio, la guía específica de modelo de OpenAI incluida en las fuentes corresponde a GPT-5.4, no a GPT-5.5 Spud [
75]. Por eso, la conclusión honesta no es “gana Claude” ni “gana GPT”. Es esta: no hay un resultado directo y verificable de Claude Opus 4.7 vs GPT-5.5 Spud en procedencia de investigación.
La respuesta verificable
Con estas fuentes no se puede confirmar una comparación directa entre Claude Opus 4.7 y GPT-5.5 Spud sobre trazabilidad de investigación. Lo que sí se puede verificar es más concreto: OpenAI documenta requisitos de citas web visibles para Deep Research, y Anthropic documenta citas basadas en documentos cuando esos documentos se proporcionan a Claude y las citas están activadas [23][
77].
Para equipos de producto, investigadores, periodistas, analistas o desarrolladores, esa distinción es más útil que una tabla de posiciones. Un flujo de investigación con IA es auditable cuando permite conectar las afirmaciones importantes con evidencia inspeccionable: URL, archivos, páginas web, fragmentos recuperados, documentos u otros artefactos revisables por una persona.
Qué debería incluir una buena trazabilidad
En una evaluación seria conviene separar tres capas que a menudo se mezclan:
- Citas: enlaces o marcas visibles que conectan una afirmación con una fuente.
- Captura de fuentes: conservación de documentos, páginas web, archivos, fragmentos o materiales recuperados durante el proceso.
- Artefactos de razonamiento: resúmenes de pensamiento, contenido tipo scratchpad o controles internos de razonamiento que pueden ayudar a diseñar el flujo, pero no prueban por sí solos de dónde salió un dato.
Las citas son la parte más visible, pero no bastan. La prueba fuerte es si una persona puede ir desde una afirmación hasta el material exacto que la sostiene y comprobarlo.
OpenAI: evidencia más clara en citas web visibles
La exigencia de procedencia más clara de OpenAI en estas fuentes aparece en la documentación de Deep Research: cuando se muestran a usuarios resultados web, o información contenida en esos resultados, las citas en línea deben ser claramente visibles y clicables [23]. Esto importa porque la trazabilidad se debilita cuando los enlaces quedan escondidos en metadatos o separados de las frases que supuestamente respaldan.
OpenAI también ofrece una guía de formato de citas para preparar material citable e indicar al modelo cómo dar formato a las referencias de forma eficaz [22]. Su ejemplo de la API de Deep Research dice que las respuestas incluyen una respuesta final estructurada con citas en línea, resúmenes de pasos de razonamiento e información de fuentes [
24]. El Centro de ayuda de OpenAI añade que las salidas de Deep Research incluyen citas o enlaces de fuente para que los usuarios puedan verificar la información [
30].
La conclusión verificable es limitada, pero relevante: en esta documentación, OpenAI es explícita sobre cómo deben presentarse las citas en flujos de investigación web. Eso no demuestra que todas las citas sean correctas, ni establece nada específico sobre GPT-5.5 Spud.
Anthropic: evidencia más clara en citas sobre documentos
En el caso de Anthropic, la documentación es más fuerte en dos puntos: el posicionamiento de Claude Opus 4.7 y la mecánica de citas basadas en documentos. Anthropic describe Claude Opus 4.7 como parte de la generación más reciente de Claude y lo recomienda para las tareas más complejas como su modelo generalmente disponible más capaz [53][
65].
Para la procedencia de evidencia, la fuente clave es la documentación de citas de Claude. Allí se indica que Claude puede proporcionar citas detalladas al responder preguntas sobre documentos, lo que ayuda a rastrear y verificar las fuentes de información, siempre que se proporcionen documentos y se activen las citas [77]. Esa documentación también describe la granularidad: los documentos de texto plano y PDF se dividen automáticamente en frases por defecto, mientras que los documentos de contenido personalizado pueden usarse cuando los desarrolladores necesitan más control [
77].
La documentación de soporte PDF de Anthropic añade otro detalle relacionado con la trazabilidad: el análisis visual de PDF en la Converse API requiere que las citas estén activadas [58]. Anthropic también documenta una Files API que permite subir y gestionar archivos para usarlos con la API de Claude sin reenviar el mismo contenido en cada solicitud [
52]. La gestión de archivos no prueba que una cita sea correcta, pero puede ayudar a construir una pista de auditoría más sólida si se combina con fuentes almacenadas y citas a nivel de afirmación.
Los scratchpads no son procedencia de fuentes
Uno de los errores más comunes al evaluar “trazabilidad” es tratar los artefactos de pensamiento como si fueran evidencia. No lo son.
La página de buenas prácticas de razonamiento de OpenAI dice que los modelos de razonamiento razonan internamente y aconseja no pedirles que piensen paso a paso ni que expliquen su cadena de pensamiento [42]. La guía de modelos de razonamiento de OpenAI se centra en controles como el esfuerzo de razonamiento, los tokens de razonamiento y la conservación del estado de razonamiento entre turnos [
43].
Anthropic usa más terminología visible en torno a estos mecanismos. Su documentación de caché de prompts señala que los “thinking blocks” tienen un comportamiento especial cuando se usa pensamiento extendido con caché de prompts [55]. La documentación de pensamiento extendido distingue entre tokens completos de pensamiento y salida resumida en Claude 4 y modelos posteriores [
76]. Las notas de lanzamiento de Anthropic describen un campo de visualización que permite omitir contenido de pensamiento en las respuestas, y la documentación de Claude Code indica que añadir
ultrathink a una skill activa pensamiento extendido en esa skill [66][
63].
Estas funciones pueden ser útiles para ajustar flujos complejos. Pero un scratchpad, una cadena de pensamiento oculta o un resumen de razonamiento no demuestran que una afirmación factual provenga de una URL, un documento o un archivo concreto. Deben tratarse como contexto operativo, no como una auditoría de fuentes.
Lista práctica para evaluar flujos de investigación con IA
En lugar de elegir solo por el nombre del modelo, conviene evaluar si el flujo completo resistiría una revisión externa.
- Citas visibles a nivel de afirmación. Para información derivada de la web, la documentación de Deep Research de OpenAI pide citas en línea visibles y clicables [
23]. Para flujos con documentos en Claude, Anthropic documenta citas cuando se suministran documentos y se activan las citas [
77].
- Fuentes inspeccionables. Hay que conservar los materiales detrás de la respuesta, no solo el texto final. El ejemplo de la API de Deep Research de OpenAI menciona información de fuentes, mientras que la Files API de Anthropic permite reutilizar archivos en flujos con la API de Claude [
24][
52].
- Granularidad de la cita. Una cita útil debe apuntar a la evidencia relevante, no a un contenedor demasiado amplio. Anthropic documenta fragmentación por frases para texto plano y PDF, además de documentos de contenido personalizado para mayor control [
77]. OpenAI, por su parte, ofrece orientación para preparar material citable y pedir al modelo un formato de citas eficaz [
22].
- Razonamiento separado de evidencia. Los controles de razonamiento pueden mejorar el comportamiento del flujo, pero OpenAI y Anthropic los describen como mecanismos de razonamiento o pensamiento, no como sustitutos de afirmaciones enlazadas a fuentes [
42][
43][
55][
76].
- Validación humana en afirmaciones de alto impacto. La documentación de los proveedores describe funciones de citación y presentación; no garantiza de forma independiente que cada afirmación citada sea correcta. Los resultados importantes deben comprobarse contra el material original.
Conclusión
La documentación revisada permite una comparación matizada, no un ranking definitivo. OpenAI queda mejor respaldada aquí en requisitos de citas web visibles para usuarios, porque Deep Research pide expresamente citas en línea visibles y clicables cuando se muestra información derivada de la web [23]. Anthropic queda mejor respaldada aquí en citas de Claude ancladas a documentos, porque sus documentos explican cómo activar citas sobre materiales suministrados y cómo controlar la granularidad mediante fragmentación por frases y contenido personalizado [
77].
Claude Opus 4.7 está documentado como el modelo generalmente disponible más capaz de Anthropic para tareas complejas, pero la fuente específica de modelo de OpenAI revisada aquí es GPT-5.4, no GPT-5.5 Spud [53][
65][
75]. Si el objetivo es investigación con IA auditable, conviene comparar captura de fuentes, granularidad de citas y prácticas de validación antes de comparar nombres de modelos.




