Los rumores sobre GPT-5.5 «Spud» giran en torno a una promesa atractiva: un nuevo modelo de OpenAI con mejor anclaje multimodal para imágenes, formularios, gráficos, escaneos y documentos. Pero el registro verificable revisado aquí es más estrecho. En las fuentes oficiales de OpenAI incluidas, el modelo documentado es GPT-5.4, no GPT-5.5 ni Spud [20][
23][
24].
Eso no demuestra que «Spud» nunca haya existido como nombre interno. Lo que sí implica es que las afirmaciones públicas sobre su fecha de lanzamiento, sus resultados en benchmarks o una supuesta mejora frente a GPT-5.4 en comprensión de imágenes y documentos no quedan establecidas por la evidencia oficial de este conjunto de fuentes.
Veredicto: trate GPT-5.5 «Spud» como no verificado
La evidencia oficial más sólida apunta a GPT-5.4. La página de OpenAI para GPT-5.4 lo describe como su modelo de frontera para trabajo profesional complejo, y tanto la guía del modelo más reciente como el índice de modelos también dirigen a GPT-5.4 [20][
23][
24].
En cambio, las referencias específicas a Spud revisadas aquí proceden de artículos web generales, Reddit, publicaciones en X y vídeos de YouTube; no de páginas oficiales de modelos, guías técnicas, model cards ni informes de benchmarks de OpenAI [2][
3][
5][
7][
9][
12]. La conclusión prudente es sencilla: GPT-5.5 Spud debe leerse como rumor o etiqueta no verificada hasta que OpenAI publique documentación oficial.
Comprobación de afirmaciones: Spud frente a GPT-5.4
| Afirmación | Estado | Qué respaldan las fuentes |
|---|---|---|
| GPT-5.5 «Spud» es un modelo público oficial de OpenAI | No verificado | Las fuentes oficiales de OpenAI revisadas documentan GPT-5.4, no una página de modelo GPT-5.5 o Spud [ |
| Spud es inminente o ya está validado | No verificado | Las referencias a Spud en este conjunto proceden de fuentes web generales o de contenido social y de vídeo generado por usuarios [ |
| OpenAI ha documentado flujos multimodales para documentos | Verificado para GPT-5.4 | OpenAI ofrece guía de GPT-5.4 para visión y comprensión de documentos, además de recomendaciones de prompting para imágenes densas o con información espacial [ |
| Spud es mejor que GPT-5.4 en anclaje multimodal | No respaldado aquí | La documentación oficial revisada respalda guías y ejemplos de GPT-5.4; no aporta capacidades ni resultados de benchmark específicos para Spud [ |
Qué ha documentado OpenAI en realidad
La página oficial de GPT-5.4 afirma que GPT-5.4 es el modelo de frontera de OpenAI para trabajo profesional complejo [20]. OpenAI también publica una página de cookbook centrada en visión y comprensión de documentos con GPT-5.4 [
1]. En el material recuperado, esa guía se asocia con ejemplos como extracción estructurada de un formulario de seguro manuscrito, razonamiento espacial sobre el plano de un apartamento, comprensión de gráficos y extracción de cajas delimitadoras en un formulario policial [
1].
Estos ejemplos importan porque el trabajo real con documentos exige más que resumir con soltura. Un modelo bien anclado debe conectar su respuesta con evidencia visible: etiquetas y valores de campos, celdas de tablas, marcas de gráficos, escritura a mano, diseño de página y posición espacial. Aun así, el material de GPT-5.4 revisado aquí es guía y demostración publicada por OpenAI, no un informe de benchmark independiente y auditado para cada flujo de producción con documentos [1][
20][
22].
La guía de prompting de OpenAI también es práctica para evaluar resultados. Recomienda usar el detalle de imagen original en imágenes grandes, densas o sensibles a la posición, especialmente en tareas de uso de ordenador, localización, OCR y precisión de clics [22]. Para formularios, escaneos, capturas de pantalla y gráficos, esto significa que un flujo puede perder precisión si reduce la imagen o elimina detalles que el modelo necesita inspeccionar.
Por qué el anclaje multimodal es más difícil que el OCR
El OCR intenta leer texto. El anclaje multimodal va más allá: busca conectar texto, maquetación, posición, estructura visual y razonamiento en una respuesta que pueda comprobarse contra la página.
La investigación sobre evaluación de documentos respalda esa idea más amplia. Las pruebas de comprensión documental abarcan tareas como comprensión de formularios, extracción de recibos y preguntas visuales sobre documentos, conocidas como document VQA [38]. En documentos de varias páginas, la respuesta puede exigir razonar entre páginas, navegar por el archivo, recuperar contenido relevante e inspeccionar páginas concretas, no solo mirar una imagen o un recorte aislado [
37].
Por eso una captura de pantalla llamativa no basta. Una evaluación seria debería cubrir los tipos de documento reales, la calidad de los escaneos, el número de páginas, la escritura manual, las tablas, los gráficos, el texto pequeño y los casos de fallo que se parecen al flujo de trabajo que se quiere automatizar.
Cómo evaluar hoy modelos de OpenAI para imágenes y documentos
- Empiece por modelos documentados, no por nombres filtrados. En las fuentes oficiales revisadas, el modelo documentado de OpenAI es GPT-5.4; GPT-5.5 Spud no está verificado [
20][
23][
24].
- Conserve el detalle visual cuando importe. Use detalle de imagen
originalen entradas densas, grandes o sensibles al espacio, como OCR, localización, precisión de clics y tareas de uso de ordenador [22].
- Puntúe la evidencia, no la fluidez. En extracción, compare valores exactos de campos. En gráficos, exija valores trazables. En formularios y capturas, pida cajas o coordenadas cuando la ubicación sea importante; los ejemplos de GPT-5.4 incluyen extracción de bounding boxes [
1].
- Pruebe los documentos que realmente procesa. Incluya formularios, recibos y tareas tipo document VQA, porque esas categorías aparecen en la literatura de benchmarks de comprensión documental [
38].
- Incluya casos multipágina. El document VQA multipágina puede requerir navegación por documentos, razonamiento visual estructurado, recuperación semántica y búsqueda de páginas concretas [
37].
- Compare diseños de pipeline. Algunas tareas pueden funcionar en una sola pasada del modelo; otras quizá necesiten OCR, análisis de maquetación, recuperación, recortes o selección de páginas, sobre todo cuando los archivos son largos, densos o sensibles a la posición [
22][
37][
38].
Conclusión
El nombre «Spud» aparece en cobertura de tipo rumor, pero no queda verificado como modelo público oficial de OpenAI en las fuentes revisadas. La conclusión útil es más acotada: evalúe GPT-5.4 para los flujos de visión y comprensión de documentos que OpenAI sí ha documentado, y trate las afirmaciones sobre el anclaje multimodal de GPT-5.5 Spud como no probadas hasta que OpenAI publique una página oficial de modelo, una guía, una model card o un informe de benchmark [1][
20][
22][
23][
24].




