網上關於 GPT-5.5「Spud」的說法很多,但真正能夠獨立核實的部分很窄。較穩陣的結論是:有媒體報道 OpenAI 正準備一個代號「Spud」的模型,The Decoder 亦轉述稱這個模型已完成 pretraining;但這仍然不是 OpenAI 官方發布、API entry、model card、system card,亦不是可重現 benchmark。[23][
26][
21]
先講結論:Spud 可能存在,但「GPT-5.5」仍未確認
以本次可查資料計,Spud 最強的證據來自媒體報道鏈,而不是社交截圖、YouTube 標題或 demo 圖。The Information 有一篇題為《OpenAI CEO Shifts Responsibilities, Preps ‘Spud’ AI Model》的報道;The Decoder 其後轉述稱,OpenAI reportedly finished pretraining 一個代號為 Spud 的新 AI model,消息來自 Sam Altman 對員工的內部 memo。[23][
26]
這足以令「Spud 是 OpenAI 內部模型代號」成為值得追蹤的說法,但仍未等於公開產品。OpenAI API Models 來源在本次材料中列出的是 gpt-5.4、gpt-5.4-mini、gpt-5.4-nano,未能確認 Spud 或 GPT-5.5 已公開可用。[21]
換句話說,較準確的寫法是:Spud 是一個被媒體報道的 OpenAI 內部模型代號;它的公開名稱、能力分數、發布時間與 API 可用性,仍未有官方文件或可重現 benchmark 證實。[23][
26][
21]
判斷 AI model leak:甚麼才算「可驗證」?
核查模型傳聞時,最重要不是有多少人轉發,而是證據能否追溯。較嚴格的標準包括:
- 官方文件:API model list、release note、model card 或 system card。
- 公開 benchmark artifact:leaderboard row、eval card、run log、prompt set 或提交紀錄。
- 原始 demo artifact:完整影片、prompt、生成流程、模型名稱與時間戳。
- 可重現測試:第三方能用同一方法跑出接近結果。
按這個標準,Spud 的「存在與訓練進度」有媒體報道支持;但網傳 benchmark、demo、release date 和 GPT-5.5 命名,大多仍未過線。[23][
26][
3][
4][
21]
可信度總覽
| 網傳 claim | 目前可核實到甚麼 | 判定 |
|---|---|---|
| OpenAI 有一個代號「Spud」的新模型 | The Information 題名直接提到 OpenAI 正準備「Spud」AI model;The Decoder 轉述稱 OpenAI reportedly finished pretraining a new AI model codenamed Spud。[ | 部分交叉印證,但未官方確認 |
| Spud 已公開,或將以 GPT-5.5 名義推出 | 本次 OpenAI API Models 來源列出 gpt-5.4 系列,未能確認 Spud/GPT-5.5 已公開。[ | 未驗證 |
| Spud benchmark 追近或超越 Claude Mythos | Holter 文中的 77.80% 是 Claude Mythos Preview 在 SWE-bench Pro 的數字,57.70% 是 GPT-5.4;對 Spud 的描述是 expectation 語氣,不是 Spud 原始分數。[ | 未驗證 |
| SWE-bench 已有 Spud 成績 | SWE-bench 有公開 leaderboard,但本次來源材料未提供可直接對應 Spud 的提交、結果頁或 eval card。[ | 未驗證 |
| 3D worlds、SVG、網站設計、互動遊戲 demo 證明 Spud 能力 | Geeky Gadgets 寫明是「According to Universe of AI」的轉述,並提到 official performance metrics remain undisclosed。[ | 二手轉述,不能當能力證明 |
| April 16、Q2 2026、一定叫 GPT-5.5 | 有文章將 Spud 寫成 GPT-5.5 並預期 Q2/April–May 2026;Holter 標題亦使用「Leaked April 16 Release」與「GPT-5.5 or GPT-6 Might Mean」這類未定語氣。[ | 偏 rumor,未驗證 |
| OpenAI Developer Community 出現「SPUD Release」字眼 | 相關頁面標題是「Please Add an Optional Expression Mode with the SPUD Release」,語境是 feature request,不是 release note、API 文件或 model card。[ | 不能當官方確認 |
Benchmark 傳聞:最多人誤讀的是「別人的分數」
Spud 傳聞中最容易被放大的部分,是 benchmark。Holter 文章提到 Claude Mythos Preview 在 SWE-bench Pro 為 77.80%,GPT-5.4 為 57.70%;但文章對 Spud 的關鍵描述是「the expectation is that Spud closes most or all of that gap」這類推測語氣。[3]
所以,這些數字最多只能支持「有人用其他模型分數推測 Spud 可能追上」;它們不能支持「Spud 已有獨立驗證 benchmark 分數」。如果要把 Spud benchmark 當成可信事實,至少需要見到以下其中一種證據:官方 benchmark 報告、model card、system card、公開 leaderboard entry、eval card、run log、prompt set、submission,或第三方可重現測試。
SWE-bench 本身有公開 leaderboard,是核對 coding benchmark claim 的基礎來源;但本次來源材料沒有提供任何可核實的 Spud leaderboard entry。[30]
Demo 傳聞:可以當線索,不能當證明
流傳的 Spud demo 包括 3D simulations、interactive environments、website designs、SVG designs、interactive games 等。問題不是這些 demo 一定假,而是它們暫時未能證明「由 Spud 生成」和「可以重現」。Geeky Gadgets 的相關報道明確寫成「According to Universe of AI」的轉述,並提到官方 performance metrics 仍未公開。[4]
因此,這些 demo 目前較適合分類為「網傳輸出」或「二手展示」,而不是已驗證產品能力。若要升級為可引用證據,至少需要原始影片來源、完整 prompt、生成過程、模型名稱、時間戳、可重現步驟,或者 OpenAI 官方 demo page。
發布日期與命名:GPT-5.5、GPT-6、April 16 都未定
「Spud 會叫 GPT-5.5」和「某日發布」是最吸睛、亦最容易被放大的部分。有文章已直接將 Spud 包裝成 GPT-5.5,並寫出 Q2 或 April–May 2026 的預期;另一邊,Holter 文章標題使用「Leaked April 16 Release」和「GPT-5.5 or GPT-6 Might Mean」這類仍然不確定的寫法。[1][
3]
從事實核查角度看,這些都未達到官方發布門檻。除非 OpenAI 在 model docs、API、release notes 或官方 blog 裡列出正式名稱與可用性,否則「GPT-5.5」只能視為外界命名或推測,而不是已確認產品名。本次可查 OpenAI API Models 來源未能確認 Spud/GPT-5.5 已公開。[21]
Developer Community 帖文不是 release proof
OpenAI Developer Community 上出現「SPUD Release」字眼,容易被截圖包裝成官方暗示。但本次提供的相關頁面標題是「Please Add an Optional Expression Mode with the SPUD Release」,語境是用戶 feature request,而不是 OpenAI release note、API 文件或 model card。[13]
Forum mention 可以證明社群有人在討論 Spud;它不能證明 OpenAI 已確認 Spud 發布。
開發者與產品團隊應該點樣處理 Spud 傳聞?
如果你要為 coding workflow、AI agent、產品 roadmap 或採購決策評估模型,暫時不應把 Spud benchmark 當成已知事實。較穩陣的做法是:
- 以官方 API model documentation 作為「可用模型」基準;本次 OpenAI API Models 來源指向 gpt-5.4 系列,而不是 Spud/GPT-5.5。[
21]
- 對 coding 能力 claim,要求公開 leaderboard、eval card 或可重現測試;SWE-bench 這類公開 leaderboard 是應核對的基礎來源。[
30]
- 對 demo claim,要求原始 artifact、完整 prompt、模型名稱與重現步驟;單一影片、截圖或二手文章不足以證明模型能力。[
4]
- 對 release date 與產品名,等待官方 release note 或 API entry;「leaked」「expected」「might」這類字眼本身就代表不確定。[
1][
3]
最終判定
Spud 可能真有其事,因為有具名媒體報道 OpenAI 正準備一個代號 Spud 的模型,亦有報道轉述稱它已完成 pretraining。[23][
26] 但可發布、可依賴的結論要窄得多:目前不能把網傳 benchmark、3D demo、發布日期或 GPT-5.5 命名當成已獨立驗證事實。[
3][
4][
21][
30]
對外溝通時,最準確的版本是:Spud 是一個被報道的 OpenAI 內部模型代號;其公開名稱、能力、分數與發布時間仍未獲 OpenAI 官方文件或可重現 benchmark 證實。[21][
30]




