關於 GPT-5.5「Spud」的傳聞,最吸引人之處是同一個承諾:OpenAI 可能會推出一個更強的新模型,特別擅長處理圖片、表格、掃描文件、手寫表格和多頁文件等「睇圖又要理解版面」的工作。
但查證要分清楚兩件事:網上有人講,同 OpenAI 官方有文件寫明,係兩個層次。就今次審閱到的官方 OpenAI 來源而言,有正式文件支撐的是 GPT-5.4,而不是 GPT-5.5 或「Spud」[20][
23][
24]。
這並不等於可以證明「Spud」從來沒有在內部存在過。較準確的講法是:在這批來源之中,關於 Spud 的發布時間、基準測試成績,或者比 GPT-5.4 更強的圖像/文件 grounding 能力,暫時都未有官方證據成立。
結論:GPT-5.5「Spud」應先視為未證實
目前最硬淨的官方證據,都指向 GPT-5.4。OpenAI 的 GPT-5.4 模型頁面把 GPT-5.4 描述為面向複雜專業工作的 frontier model;OpenAI 的最新模型指南和模型索引亦引導讀者去 GPT-5.4 [20][
23][
24]。
相反,這批來源入面與 Spud 直接相關的資料,主要是一般網頁文章、Reddit、X 貼文和 YouTube 影片,而不是 OpenAI 官方模型頁、模型指南、model card 或正式基準報告 [2][
3][
5][
7][
9][
12]。所以比較穩陣的判斷是:在 OpenAI 發布正式文件之前,GPT-5.5「Spud」應該當作傳聞或未驗證標籤。
逐項拆解:Spud 傳聞 vs GPT-5.4 官方資料
| 說法 | 狀態 | 來源實際支持到甚麼 |
|---|---|---|
| GPT-5.5「Spud」是 OpenAI 官方公開模型 | 未證實 | 今次審閱到的 OpenAI 官方來源有記錄 GPT-5.4,未見 GPT-5.5 或 Spud 模型頁 [ |
| Spud 即將推出或已經獲驗證 | 未證實 | Spud 相關引用來自一般網頁、社交平台或影片等來源 [ |
| OpenAI 有文件記錄多模態文件工作流程 | 對 GPT-5.4 屬已證實 | OpenAI 提供 GPT-5.4 視覺與文件理解指引,亦有針對密集或空間敏感圖片任務的 prompt 建議 [ |
| Spud 在多模態 grounding 方面勝過 GPT-5.4 | 這批來源不支持 | 官方文件支撐的是 GPT-5.4 指引;未有 Spud 專屬能力或 benchmark 證據 [ |
OpenAI 官方實際寫了甚麼
OpenAI 官方 GPT-5.4 頁面表示,GPT-5.4 是其用於複雜專業工作的 frontier model [20]。OpenAI 亦有一篇針對 GPT-5.4 的 cookbook,主題是 vision and document understanding,即視覺與文件理解 [
1]。
在已檢索資料中,這些 GPT-5.4 指引包括幾類例子:從手寫保險表格抽取結構化資料、理解單位平面圖的空間關係、分析圖表,以及從警方表格抽取 bounding box 等 [1]。
這一點之所以重要,是因為真正的文件工作不只是「讀到字」。如果系統要可靠,它要能夠把答案扣回頁面上的可見證據:欄位標籤、欄位值、表格格仔、圖表標記、手寫字、文件版面,甚至某個資料在頁面上的位置。不過要講清楚:今次審閱到的 GPT-5.4 資料屬 OpenAI 撰寫的指引和示範,並不是針對所有實際生產文件流程的獨立審核 benchmark 報告 [1][
20][
22]。
OpenAI 的 prompt 指引亦有實務價值。官方建議,對大型、密集或空間位置敏感的圖片,尤其是 computer use、定位、OCR 和點擊準確度任務,應使用 original 圖像細節 [22]。換句話講,如果工作是處理表格、掃描件、截圖或圖表,流程若把圖片壓細、降解或移除細節,模型準確度可能會受影響。
點解多模態 grounding 難過普通 OCR?
OCR 主要是讀出文字;多模態 grounding 則要再行多幾步:把文字、版面、位置、視覺結構和推理連起來,交出一個可以回到原文件核對的答案。
研究背景亦支持這個更闊的理解。文件理解評估通常涵蓋表格理解、收據解析和文件視覺問答等範疇 [38]。而多頁文件 VQA 可能要求模型跨頁推理、瀏覽文件、檢索相關內容,再針對特定頁面仔細檢查,而不是靠單張圖片或單頁裁剪就完成 [
37]。
所以,一張看起來很厲害的示範截圖,未必足以證明模型在真實工作流程中可靠。認真的評估應該覆蓋實際會處理的文件種類、掃描質素、頁數、手寫內容、表格、圖表、小字,以及容易出錯的邊界情況。
依家應該點樣評估 OpenAI 的圖片與文件模型?
- 先睇有文件支撐的模型,不要只追 leaked name。 在今次審閱到的官方來源中,已記錄的 OpenAI 模型是 GPT-5.4;GPT-5.5「Spud」未獲證實 [
20][
23][
24]。
- 有需要時保留原圖細節。 對密集、大型或空間敏感輸入,例如 OCR、定位、點擊準確度和 computer-use 任務,使用
original圖像細節 [22]。
- 評估證據,不只評估文筆。 抽取任務要對準欄位值;圖表任務要能追溯數值;表格和截圖如果位置重要,就應要求 box 或座標。OpenAI 的 GPT-5.4 例子包括 bounding-box extraction [
1]。
- 用你真正會處理的文件測試。 表格、收據和文件 VQA 類任務,都出現在文件理解 benchmark 文獻之中 [
38]。
- 加入多頁文件情境。 多頁文件 VQA 可能涉及文件導航、結構化視覺推理、語義檢索和針對頁面擷取 [
37]。
- 比較不同流程設計。 有些任務單次模型輸入已足夠;有些則可能需要 OCR、版面解析、檢索、裁剪或頁面選擇,尤其是文件很長、很密集或對空間位置敏感時 [
22][
37][
38]。
最後一句
「Spud」這個名字確實出現在不少傳聞式內容之中,但在今次審閱到的來源裡,它未被證實為 OpenAI 官方公開模型。更可行的結論是:如果你要做圖像和文件理解測試,應先圍繞 OpenAI 已有文件支撐的 GPT-5.4;至於 GPT-5.5 Spud 的多模態 grounding 能力、發布時間和性能說法,在 OpenAI 發布官方模型頁、模型指南、model card 或 benchmark 報告之前,都應視為未證實 [1][
20][
22][
23][
24]。




