網路上關於 GPT-5.5「Spud」的說法很多:有人說它已完成訓練、有人貼出 Demo,也有人把發布日與基準測試分數講得像既定事實。若把證據一層層拆開,結論其實保守得多:Spud 可能是 OpenAI 內部正在準備的模型代號,但它是否會公開叫 GPT-5.5、何時發布、能力到哪裡,目前都還沒有官方文件或可重現測試能確認。[23][
26][
21]
先說結論:Spud 可能存在,但 GPT-5.5 還沒被確認
目前最有分量的線索,不是社群截圖或 YouTube 標題,而是媒體報導鏈。The Information 有一篇題為《OpenAI CEO Shifts Responsibilities, Preps ‘Spud’ AI Model》的報導;The Decoder 隨後轉述稱,OpenAI reportedly finished pretraining 一個代號為 Spud 的新 AI model,消息來自 Sam Altman 對員工的內部 memo。[23][
26]
這讓「Spud 是 OpenAI 內部模型代號」成為值得追蹤的說法,但還不能把它視為已發布產品。就本次可查資料而言,OpenAI API Models 文件列出的是 gpt-5.4、gpt-5.4-mini、gpt-5.4-nano,並未確認 Spud 或 GPT-5.5 已公開可用。[21]
比較準確的說法應該是:Spud 是被媒體報導的 OpenAI 內部模型代號;它的公開名稱、能力分數、發布時間與 API 可用性,尚未獲 OpenAI 官方文件或可重現 benchmark 證實。[23][
26][
21]
判斷 AI 模型外洩:什麼才算可驗證?
看 AI model leak,最重要的不是轉發量,而是證據能否回到原始來源。較嚴格的核查標準包括:
- 官方文件:API model list、release note、model card 或 system card。
- 公開 benchmark artifact:排行榜列項、eval card、run log、prompt set 或提交紀錄。
- 原始 Demo artifact:完整影片、prompt、生成流程、模型名稱與時間戳。
- 可重現測試:第三方能用相同方法跑出接近結果。
用這個標準來看,Spud 的「存在與訓練進度」有媒體報導支持;但網傳的 benchmark、Demo、release date 與 GPT-5.5 命名,多數還沒有跨過可驗證門檻。[23][
26][
3][
4][
21]
可信度總覽
| 網傳說法 | 目前能核實到什麼 | 判定 |
|---|---|---|
| OpenAI 有一個代號「Spud」的新模型 | The Information 題名直接提到 OpenAI 正準備「Spud」AI model;The Decoder 轉述稱 OpenAI reportedly finished pretraining a new AI model codenamed Spud。[ | 有媒體報導交叉支持,但未官方確認 |
| Spud 已公開,或將以 GPT-5.5 名義推出 | 本次 OpenAI API Models 來源列出 gpt-5.4 系列,未確認 Spud/GPT-5.5 已公開。[ | 未驗證 |
| Spud benchmark 追近或超越 Claude Mythos | Holter 文中的 77.80% 是 Claude Mythos Preview 在 SWE-bench Pro 的數字,57.70% 是 GPT-5.4;對 Spud 的描述是 expectation 語氣,不是 Spud 原始分數。[ | 未驗證 |
| SWE-bench 已有 Spud 成績 | SWE-bench 有公開 leaderboard,但本次來源材料未提供可直接對應 Spud 的提交、結果頁或 eval card。[ | 未驗證 |
| 3D worlds、SVG、網站設計、互動遊戲 Demo 證明 Spud 能力 | Geeky Gadgets 寫明是 | 二手轉述,不能當能力證明 |
| April 16、Q2 2026、一定叫 GPT-5.5 | 有文章將 Spud 寫成 GPT-5.5 並預期 Q2/April–May 2026;Holter 標題也使用「Leaked April 16 Release」與「GPT-5.5 or GPT-6 Might Mean」這類未定語氣。[ | 偏傳聞,未驗證 |
| OpenAI Developer Community 出現「SPUD Release」字眼 | 相關頁面標題是「Please Add an Optional Expression Mode with the SPUD Release」,語境是 feature request,不是 release note、API 文件或 model card。[ | 不能當官方確認 |
Benchmark 傳聞:最容易被誤讀的是「別人的分數」
Spud 傳聞中最常被放大的,是基準測試成績。Holter 文章提到 Claude Mythos Preview 在 SWE-bench Pro 為 77.80%,GPT-5.4 為 57.70%;但該文對 Spud 的關鍵描述是「the expectation is that Spud closes most or all of that gap」這類推測語氣。[3]
換句話說,這些數字最多只能支持「有人用其他模型的分數推測 Spud 可能追上」。它們不能支持「Spud 已經有獨立驗證的 benchmark 分數」。
如果要把 Spud benchmark 當成可信事實,至少需要看到以下其中一種證據:官方 benchmark 報告、model card、system card、公開 leaderboard entry、eval card、run log、prompt set、submission,或第三方可重現測試。
SWE-bench 本身有公開 leaderboard,是核對 coding benchmark claim 的基礎來源;但本次來源材料沒有提供任何可核實的 Spud leaderboard entry。[30]
Demo 傳聞:可以當線索,不能當證明
流傳的 Spud Demo 包括 3D simulations、interactive environments、website designs、SVG designs、interactive games 等。問題不在於這些展示一定是假的,而是它們目前無法證明兩件事:第一,確實由 Spud 生成;第二,第三方可以重現同樣結果。
Geeky Gadgets 的相關報導明確寫成 According to Universe of AI4] 因此,這類內容目前較適合歸類為「網傳輸出」或「二手展示」,而不是已驗證產品能力。
若要升級為可引用證據,至少需要原始影片來源、完整 prompt、生成過程、模型名稱、時間戳、可重現步驟,或 OpenAI 官方 Demo page。
發布日期與命名:GPT-5.5、GPT-6、April 16 都還沒定案
「Spud 會叫 GPT-5.5」與「某日發布」是最吸睛、也最容易被放大的部分。有文章已直接將 Spud 包裝成 GPT-5.5,並寫出 Q2 或 April–May 2026 的預期;另一邊,Holter 文章標題使用「Leaked April 16 Release」和「GPT-5.5 or GPT-6 Might Mean」這類仍不確定的寫法。[1][
3]
從事實核查角度看,這些都還沒有達到官方發布門檻。除非 OpenAI 在 model docs、API、release notes 或官方 blog 裡列出正式名稱與可用性,否則「GPT-5.5」只能視為外界命名或推測,而不是已確認產品名。本次可查 OpenAI API Models 來源未能確認 Spud/GPT-5.5 已公開。[21]
Developer Community 帖文不是 release proof
OpenAI Developer Community 上出現「SPUD Release」字眼,容易被截圖包裝成官方暗示。但本次提供的相關頁面標題是「Please Add an Optional Expression Mode with the SPUD Release」,語境是使用者提出 feature request,而不是 OpenAI release note、API 文件或 model card。[13]
換句話說,論壇提及可以證明社群有人在討論 Spud;不能證明 OpenAI 已確認 Spud 發布。
開發者與產品團隊該怎麼處理 Spud 傳聞?
如果你正在為 coding workflow、AI agent、產品 roadmap 或採購決策評估模型,現階段不應把 Spud benchmark 當成已知事實。比較穩健的做法是:
- 以官方 API model documentation 作為「可用模型」基準;本次 OpenAI API Models 來源指向 gpt-5.4 系列,而不是 Spud/GPT-5.5。[
21]
- 對 coding 能力 claim,要求公開 leaderboard、eval card 或可重現測試;SWE-bench 這類公開 leaderboard 是應核對的基礎來源。[
30]
- 對 Demo claim,要求原始 artifact、完整 prompt、模型名稱與重現步驟;單一影片、截圖或二手文章不足以證明模型能力。[
4]
- 對 release date 與產品名,等待官方 release note 或 API entry;「leaked」「expected」「might」這些字眼本身就代表不確定。[
1][
3]
最終判定
Spud 可能真有其事,因為有媒體報導 OpenAI 正準備一個代號 Spud 的模型,也有報導轉述稱它已完成 pretraining。[23][
26] 但能穩健對外引用的結論要窄得多:目前不能把網傳 benchmark、3D Demo、發布日期或 GPT-5.5 命名當成已獨立驗證的事實。[
3][
4][
21][
30]
最準確的表述是:Spud 是一個被報導的 OpenAI 內部模型代號;其公開名稱、能力、分數與發布時間仍未獲 OpenAI 官方文件或可重現 benchmark 證實。[21][
30]




