如果你負責將 AI 放入開發流程、內部知識庫或自動化工具,GPT-5.5 的確值得排入測試清單。不過,佢唔係 GPT-5.4 的「無腦替代品」。OpenAI 在 2026年4月23日發布 GPT-5.5,system card 指佢面向複雜真實工作,包括寫 code、網上 research、分析資料、製作文件同 spreadsheet,以及喺多個工具之間切換。[22][
15]
但要小心一點:公開資料入面,GPT-5.4 標準版、GPT-5.4 Pro、gpt-5.4-thinking 經常係分開比較。如果將幾個型號撈埋一齊講,就好容易得出錯誤結論。[1][
9][
24]
先講結論:GPT-5.5 值得先試,但未必應該即刻全線換
GPT-5.5 最有說服力的場景,是 coding agent、電腦操作、知識工作同 research workflow。OpenAI 的 Codex changelog 指 GPT-5.5 已可在 Codex 使用,定位為處理複雜 coding、computer use、knowledge work 同 research workflow 的最新 frontier model。[13] GPT-5.5 system card 亦用相近方式描述:佢係為實際工作而設計,包括寫 code、網上調研、分析資訊、整文件與 spreadsheet,以及跨工具完成任務。[
15]
數字上,LLM Stats 指 GPT-5.5 在可直接同 GPT-5.4 比較的 10 個 benchmark 入面,有 9 個出現改善。[9] 不過,BenchLM 的 GPT-5.4 Pro 對 GPT-5.5 比較就顯示,GPT-5.4 Pro 在 provisional leaderboard 以 92 對 89 領先。[
1] 再加上 BenchLM 的 GPT-5.5 profile 目前只公開 153 個追蹤 benchmark 入面的 20 個,所以用公開數字就一槌定音,風險偏高。[
4]
快速比較表
| 要睇咩 | GPT-5.5 的吸引位 | 升級前要核對 |
|---|---|---|
| 主要用途 | OpenAI 指 GPT-5.5 面向真實工作,包括 code、online research、資訊分析、文件與 spreadsheet、跨工具操作。[ | 官方資料未有提供一張完整表,將 GPT-5.4 標準版同 GPT-5.5 所有項目逐一正面比較。[ |
| Coding/agent | GPT-5.5 已在 Codex 提供,用於複雜 coding、computer use、knowledge work、research workflow。[ | 真實表現要睇你自己的 codebase、工具調用方式同 prompt 設計。 |
| Benchmark | LLM Stats 指 GPT-5.5 在 10 個可直接比較 benchmark 入面,有 9 個優於 GPT-5.4。[ | BenchLM 對 GPT-5.4 Pro 的比較顯示 GPT-5.4 Pro 在 provisional leaderboard 以 92 對 89 領先。[ |
| 成本 | BenchLM 對 GPT-5.4 Pro 的比較標示,GPT-5.5 為每 100萬 tokens 輸入 $5.00、輸出 $30.00,低過 GPT-5.4 Pro。[ | LLM Stats 對 GPT-5.4 標準版的比較就指,GPT-5.5 的 per-token price 是 GPT-5.4 的兩倍。[ |
| Context window | BenchLM 標示 GPT-5.5 的 context window 為 1M。[ | 同一比較中,GPT-5.4 Pro 標示為 1.05M,略大過 GPT-5.5。[ |
| 安全性 | OpenAI Safety Hub 的 challenging prompts 表顯示,GPT-5.5 在部分類別高過 gpt-5.4-thinking。[ | 同一表亦有 GPT-5.5 較低的類別,所以要按風險類型逐項睇。[ |
表現:強項集中喺 coding agent、research 同工具流
GPT-5.5 的產品定位幾清晰:唔係單純聊天,而係幫你完成一串實務工序。OpenAI system card 提到的例子,包括寫 code、網上 research、分析資訊、建立文件與 spreadsheet、跨工具完成工作。[15] Codex changelog 亦指出,GPT-5.5 在 Codex 裏面用於複雜 coding、computer use、knowledge work 同 research workflow。[
13]
第三方資料大致支持呢個方向。BenchLM 的 GPT-5.5 profile 指,佢最強的類別是 Agentic,並形容其表現特別適合 coding agents、browser research 同 computer-use workflows。[4] LLM Stats 則指 GPT-5.5 在可直接比較的 10 個 GPT-5.4 benchmark 入面,有 9 個有改善。[
9]
但呢個結論唔等於「所有情況都贏」。BenchLM 同時註明,GPT-5.5 profile 目前只公開 153 個追蹤 benchmark 入面的 20 個;未有 sourced evaluation 的類別會留空。[4] 所以公開 benchmark 最適合用嚟判斷方向,真正導入前仍然要用你自己的任務、資料、錯誤成本同延遲要求再測一次。
同 GPT-5.4 Pro 比,答案會即刻唔同
最多人踩中的位,是將 GPT-5.4 標準版同 GPT-5.4 Pro 當成同一件事。LLM Stats 對 GPT-5.5 vs GPT-5.4 的比較,顯示 GPT-5.5 在 10 個可比較 benchmark 中有 9 個改善。[9] 但 BenchLM 的 GPT-5.4 Pro vs GPT-5.5 比較,就顯示 GPT-5.4 Pro 在 provisional leaderboard 以 92 對 89 領先。[
1]
同一 BenchLM 比較亦列出 MMMU-Pro:GPT-5.4 Pro 為 94%,GPT-5.5 為 81.2%。Context window 方面,GPT-5.4 Pro 是 1.05M,GPT-5.5 是 1M。[1] 如果你公司而家已經用緊 GPT-5.4 Pro,而且特別依賴某些 benchmark 表現、超長文件或大型 codebase,一步到位全換 GPT-5.5 未必係最穩陣做法;比較合理係兩邊並行跑一輪你自己的 workload。
成本:有人話平、有人話貴,其實可以同時啱
價錢比較最容易令人誤會,因為比較對象一變,答案就變。
BenchLM 對 GPT-5.4 Pro vs GPT-5.5 的比較標示,GPT-5.4 Pro 為每 100萬 tokens 輸入 $30.00、輸出 $180.00;GPT-5.5 則為輸入 $5.00、輸出 $30.00。[1] 用呢個基準,GPT-5.5 明顯平好多。
但 LLM Stats 對 GPT-5.5 vs GPT-5.4 標準版的比較,就指 GPT-5.5 的 per-token price 是 GPT-5.4 的兩倍。[9] 換言之,「GPT-5.5 較平」通常係相對 GPT-5.4 Pro;如果你本身用緊 GPT-5.4 標準版,就未必成立。[
1][
9]
仲要睇 token 效率。DataCamp 摘要指 GPT-5.5 維持同 GPT-5.4 相近的 per-token latency,同時用較少 tokens 完成相同 Codex 任務。[8] 所以真正成本唔應該只睇標價,而要計:你而家用邊個 SKU、輸入同輸出 tokens 比例、同一件事 GPT-5.5 可唔可以減少 tokens,以及錯誤重試會唔會變少。[
1][
8][
9]
速度同 context:逐 token 延遲唔等於用戶體感
DataCamp 同 LLM Stats 都指向同一個大方向:GPT-5.5 維持 GPT-5.4 水平的 per-token latency。[8][
9] DataCamp 亦補充,GPT-5.5 用較少 tokens 完成相同 Codex 任務。[
8]
不過,per-token latency 只係一部分。對用戶來講,真正感受到的是整個任務幾耐完成。若 GPT-5.5 用少啲 tokens,某些 workflow 可能更快;但如果任務涉及多次工具調用、長輸出、瀏覽器 research 或多輪檢查,總時間仍然會受 prompt 結構同工具調用方式影響。公開資料比較能支持的說法,是 GPT-5.5 未見明顯犧牲逐 token 速度;但唔等於每個產品環境的端到端延遲都一樣。[8][
9]
Context window 方面,GPT-5.5 絕對唔算細;BenchLM 標示為 1M。不過,GPT-5.4 Pro 在同一比較中標示為 1.05M,略大於 GPT-5.5。[1] 如果你處理的是超長合約、大型 codebase、海量會議紀錄或長期對話歷史,唔好只睇最大 context 數字;最好用同一批資料測試搜尋、摘要、引用同回收資訊的質素。
安全性:唔好淨係睇平均分
OpenAI Deployment Safety Hub 的 challenging prompts 表列出 gpt-5.4-thinking 同 GPT-5.5 的類別分數,並註明 higher is better。[24] 呢張表入面,GPT-5.5 有些項目較高,亦有些項目較低。[
24]
| 安全性類別 | gpt-5.4-thinking | GPT-5.5 | 方向 |
|---|---|---|---|
| Violent illicit behavior | 0.971 | 0.979 | GPT-5.5 較高 |
| Harassment | 0.790 | 0.822 | GPT-5.5 較高 |
| Violence | 0.831 | 0.846 | GPT-5.5 較高 |
| Nonviolent illicit behavior | 1.000 | 0.993 | GPT-5.5 較低 |
| Extremism | 1.000 | 0.925 | GPT-5.5 較低 |
| Hate | 0.943 | 0.868 | GPT-5.5 較低 |
| Self-harm standard | 0.987 | 0.959 | GPT-5.5 較低 |
| Sexual | 0.933 | 0.925 | GPT-5.5 較低 |
所以,安全性唔應該只問「邊個平均分高」。如果你的產品較容易遇到騷擾、暴力、仇恨、自殘、非法行為或性內容,就應該按實際風險類別做額外測試,而唔係用一個總體印象決定。[24]
升級判斷:四個實用問題
1. 你的核心任務係咪 coding agent、Codex、computer use、online research 或跨工具自動化? 如果係,GPT-5.5 很值得先測。OpenAI 的 Codex changelog 同 GPT-5.5 system card 都將呢類工作列為主要使用場景。[13][
15]
2. 你而家係用 GPT-5.4 標準版,定 GPT-5.4 Pro? 如果係標準版,LLM Stats 的資料顯示 GPT-5.5 表現有改善,但 per-token price 亦更高。[9] 如果係 GPT-5.4 Pro,BenchLM 的比較顯示 GPT-5.4 Pro 在 provisional leaderboard 同 context window 上有領先數字。[
1]
3. 成本瓶頸係 token 標價,定係完成一件任務的總 tokens? GPT-5.5 相對 GPT-5.4 Pro 標價較低,但相對 GPT-5.4 標準版可能較貴;同時 DataCamp 指佢完成相同 Codex 任務可用較少 tokens。[1][
8][
9] 最好用真實任務計每次成功完成的成本,而唔係只睇每 100萬 tokens 價格。
4. 你信唔信公開 benchmark 已足夠代表你的 production 環境? OpenAI 在 GPT-5.4 介紹頁亦提醒,benchmark 在 research environment 執行,某些情況下同 production ChatGPT 輸出可能略有不同。[7] 而 GPT-5.5 在 BenchLM 的公開 benchmark 覆蓋亦仍有限,只公開 153 個追蹤項目中的 20 個。[
4]
最後一句:GPT-5.5 是 coding、agentic workflow、research 同工具型工作的一個強力升級候選。[13][
15] 但考慮到 GPT-5.4 Pro 的部分 benchmark 仍有優勢、成本比較要分清標準版同 Pro、context window 只差少許但仍有差別、安全性分數亦按類別高低互見,最穩陣做法係先用核心 workload 做並行評估,再決定是否全面遷移。[
1][
9][
24]




