围绕 GPT-5.5 “Spud”的传闻,最吸引人的部分是一个高价值承诺:OpenAI 似乎即将推出一个在图像、表单、图表、扫描件和文档理解上更强的新模型。问题在于,传闻很热,证据却没有同等强度。
本次核查的结论很窄,也很明确:在所审阅的 OpenAI 官方来源里,被正式文档化的是 GPT-5.4,而不是 GPT-5.5,也不是名为 Spud 的公开模型 [20][
23][
24]。
这并不能证明“Spud”从未作为内部代号存在过。但它意味着,关于 Spud 发布时间、基准成绩,或其在图像和文档“多模态证据定位”(grounding)上优于 GPT-5.4 的公开说法,目前不能当作已证实事实。
结论:把 GPT-5.5 “Spud”视为未证实传闻
官方证据最强的一端,指向的是 GPT-5.4。OpenAI 的 GPT-5.4 模型页面称 GPT-5.4 是其面向复杂专业工作的前沿模型;OpenAI 的最新版模型指南和模型索引也把读者引向 GPT-5.4 [20][
23][
24]。
相对地,本次材料中提到 Spud 的来源主要是普通网页文章、Reddit、X 帖文和 YouTube 视频,而不是 OpenAI 官方模型页面、模型指南、模型卡或基准报告 [2][
3][
5][
7][
9][
12]。因此,更稳妥的判断是:在 OpenAI 发布正式文档前,GPT-5.5 Spud 应被视为传闻或未经验证的标签。
逐条核查:Spud 与 GPT-5.4
| 说法 | 状态 | 现有来源支持什么 |
|---|---|---|
| GPT-5.5 “Spud”是 OpenAI 官方公开模型 | 未证实 | 本次审阅的 OpenAI 官方来源记录的是 GPT-5.4,而不是 GPT-5.5 或 Spud 模型页面 [ |
| Spud 即将发布或已经获得验证 | 未证实 | 这组资料中的 Spud 相关说法来自普通网页或用户生成的社交、视频内容 [ |
| OpenAI 已记录多模态文档工作流 | 对 GPT-5.4 成立 | OpenAI 提供了 GPT-5.4 的视觉和文档理解指导,也给出针对密集图像、空间敏感图像任务的提示建议 [ |
| Spud 在多模态证据定位上强于 GPT-5.4 | 本材料不支持 | 官方文档支持的是 GPT-5.4 的相关指导,没有给出 Spud 的能力说明或基准证据 [ |
OpenAI 实际写进文档的是什么
OpenAI 的 GPT-5.4 官方页面称,GPT-5.4 是其面向复杂专业工作的前沿模型 [20]。OpenAI 还提供了一篇面向 GPT-5.4 的视觉与文档理解 cookbook 指南 [
1]。在检索到的材料中,这些示例包括:从手写保险表单中做结构化抽取、对公寓平面图进行空间推理、理解图表,以及从警方表单中提取边界框 [
1]。
这些例子之所以重要,是因为真实文档处理远不只是“把字读出来”。一个有证据定位能力的多模态模型,需要把答案和页面上的可见证据对应起来:字段名与字段值、表格单元格、图表标记、手写内容、版式结构,以及空间位置。
但也要看清边界:这里的 GPT-5.4 材料是 OpenAI 编写的指南与演示,不等同于覆盖所有生产级文档工作流的独立审计基准报告 [1][
20][
22]。
OpenAI 的提示建议也很实用。它建议在大型、密集或对空间位置敏感的图像中使用 original 图像细节,尤其是计算机使用、定位、OCR 和点击准确性任务 [22]。换句话说,处理表单、扫描件、截图和图表时,如果流程过早压缩图片、降采样或丢掉细节,模型可能失去判断所需的视觉证据。
为什么这不只是 OCR
OCR 解决的是“读出文字”。多模态证据定位要解决的是:把文字、版式、位置、视觉结构和推理连起来,给出能回到页面上检查的答案。
研究背景也支持这种更宽的理解。文档理解评测通常覆盖表单理解、收据解析和文档视觉问答等任务 [38]。多页文档视觉问答还可能要求模型跨页推理、在文档中导航、检索相关内容,并有针对性地查看页面,而不是只看单张图片或一页裁剪图 [
37]。
因此,一张漂亮的截图演示并不足以证明一个模型适合严肃业务场景。真正的评测应该覆盖你实际会遇到的文档类型、扫描质量、页数、手写比例、表格和图表复杂度、小字号文本,以及容易出错的边界情况。
现在该如何评估 OpenAI 图像与文档模型
- 先看已文档化模型,不要被泄露代号带节奏。 在本次审阅的官方来源中,OpenAI 已文档化的是 GPT-5.4;GPT-5.5 Spud 尚未得到验证 [
20][
23][
24]。
- 该保留细节时就保留细节。 对密集、大尺寸或空间敏感输入,例如 OCR、定位、点击准确性和计算机使用任务,应使用
original图像细节 [22]。
- 评估证据,不只评估表达流畅度。 做字段抽取时比较精确字段值;做图表任务时要求可追溯的数值;做表单和截图任务时,如果位置重要,应要求模型给出框或坐标。OpenAI 的 GPT-5.4 示例中就包含边界框抽取 [
1]。
- 用你真实会处理的文档测试。 表单、收据和文档视觉问答都是文档理解基准文献中的典型类别 [
38]。
- 加入多页样本。 多页文档视觉问答可能需要文档导航、结构化视觉推理、语义检索和目标页面获取 [
37]。
- 比较不同流程设计。 有些任务可以一次交给模型完成;有些任务则可能需要 OCR、版面解析、检索、裁剪或页面选择,尤其是在文件很长、很密集或空间位置很关键时 [
22][
37][
38]。
最后一句话
“Spud”这个名字出现在传闻式报道和社交内容中,但在本次审阅的官方来源里,它还不是一个已验证的 OpenAI 公开模型。更可执行的结论是:如果你关心图像感知和文档理解,当前应评估 OpenAI 已文档化的 GPT-5.4 工作流;至于 GPT-5.5 Spud 的多模态增强说法,在 OpenAI 发布正式模型页面、模型指南、模型卡或基准报告前,都应视为未证实 [1][
20][
22][
23][
24]。




