模型喺 AIME 2025 數學測試拎到 81.2 分,比起 GPT-5.3 Instant 嘅 65.4 分有明顯進步;喺 MMMU-Pro 多模態推理基準測試亦拎到 76 分,高過之前嘅 69.2 分。
OpenAI 推出咗一個新版本嘅 GPT-5.5 Instant,目標係令答案更短、少啲要點、更加口語化。OpenAI 研究主管 Michelle Pokras 形容之前嘅模型「太沉迷用要點」,並話新版本喺「討好用戶傾向、事實準確度同多語言表現」方面有改善
。
Canvas 功能退役:對 GPT-5.5 Instant 同 GPT-5.5 Thinking 都適用。之前用 Canvas 側面板嘅寫作同編碼任務,而家直接以內嵌寫作區塊同代碼區塊嘅形式喺對話串入面顯示。付費用戶可以喺過渡期間透過舊版模型繼續使用 Canvas
。
OpenAI 自己嘅文件確認,Plus 用戶每 3 小時最多可以發送 160 條 GPT-5.5 訊息,之後「系統會靜默切換到 mini 模型直至配額重置」——呢個政策可能解釋到點解一啲用戶覺得體驗唔一致。
6 月 24 日嘅快照特別在於佢欠奉嘅嘢:冇行為細節、冇功能說明、冇效能比較。變更日誌得一行字。呢個做法同 OpenAI 將
chat-latest 當作滾動測試目標嘅慣例一致,但就令用戶同開發者冇辦法清楚知道今次改咗啲乜。
關於 6 月 24 日更新特別改善咗用戶意圖理解、複雜限制處理、或者購物同本地推薦嘅講法,喺現有資料中係搵唔到確認嘅。呢啲能力係屬於更廣泛嘅 GPT-5.5 生態系統——4 月 23 日嘅 GPT-5.5 旗艦推出時強調「更快理解你諗住做咩」
,而 2026 年 3 月嘅 ChatGPT 發佈說明亦介紹咗互動式購物研究體驗
——但冇一樣係同 6 月 24 日嘅快 snapshot 有直接關連。
自從 5 月 5 日推出以嚟,GPT-5.5 Instant 喺事實準確度、回覆簡潔度同對話語氣方面確實有明顯改善。6 月 24 日嘅快照延續咗定期更新嘅模式,但欠缺文件說明去驗證具體嘅行為改動。如果用戶覺得體驗唔一致,可能係遇到咗靜默 mini 模型降級政策,而唔係模型本身退步。對於依賴 chat-latest 做生產環境嘅開發者嚟講,鑑於變更日誌嘅細節不足,每個快照都要針對自己嘅用例做測試,呢一點仍然係好重要嘅。
Comments
0 comments