DeepSeek 官方 API 文件中有「DeepSeek-V4 Preview Release」頁面,日期為 2026/04/24 。OpenAI 則在 2026/04/23 發表 GPT-5.5,並於 2026/04/24 更新表示 GPT-5.5 與 GPT-5.5 Pro 已在 API 可用
。兩者幾乎同一時間公開,但文件透明度與可直接用於部署規劃的細節並不相同。
有一點要特別小心:OpenAI API 文件寫 GPT-5.5 的 context window 是 1M tokens ,但 Artificial Analysis 的 GPT-5.5 high 比較頁顯示 922k tokens,而 DeepSeek V4 Pro high 則是 1000k tokens
。這不一定代表誰的數字「錯」,更可能是 model variant、reasoning level、測量口徑不同。因此,不應把不同網站、不同設定下的 context 數字硬湊成單一結論。
o-mega 的整理文章指出,GPT-5.5 在 SWE-bench Verified 達到 88.7%,DeepSeek V4-Pro 為 80.6%,差距為 8.1 個百分點 。如果你的主要用途是 software engineering、修 bug、改 repo、跑 coding agent,這是一個值得重視的訊號。
但單一 SWE-bench 分數不能取代內部評測。coding agent 的結果很容易受到 prompt、reasoning 設定、tool 權限、retry 次數、測試環境、patch format 與 scoring harness 影響。比較務實的讀法是:88.7% vs 80.6% 讓 GPT-5.5 值得優先進入 coding 測試,而不是證明 GPT-5.5 在所有任務都必勝 。
OpenAI Deployment Safety Hub 指出,GPT-5.5 的 controllability 以 CoT-Control 評測;這套評估包含超過 13,000 個任務,並建立在 GPQA、MMLU-Pro、HLE、BFCL、SWE-Bench Verified 等 benchmark 之上 。這有助於理解 OpenAI 如何測 GPT-5.5,也顯示其評測範圍不只一般問答。
不過,這不是 GPT-5.5 對 DeepSeek V4 Pro 的直接對戰表。因此不能只拿這份 system card 就宣稱 GPT-5.5 在 GPQA、MMLU-Pro 或 SWE-Bench Verified 上必然全面勝過 DeepSeek V4 Pro 。
Artificial Analysis 表示,DeepSeek V4 Pro Max 在 AA-Omniscience 得分為 -10,比 V3.2 Reasoning 的 -21 進步 11 分;DeepSeek V4 Flash Max 則為 -23 。同一來源也指出,DeepSeek V4 Pro 與 V4 Flash 的 hallucination rate 分別高達 94% 與 96%,意思是當模型不知道答案時,幾乎仍會照樣回答
。
這對高可靠度產品非常關鍵。若你做的是內部知識問答、法務文件分析、財務審核、醫療輔助、compliance,或任何需要來源可追溯的流程,DeepSeek V4 Pro 的 open weights 與長上下文很有吸引力,但必須搭配 retrieval、引用檢查、來源驗證與必要的人工作業覆核 。
GPT-5.5 更適合快速進入 production API 評估。OpenAI 文件直接列出 model ID、價格、context、max output、knowledge cutoff 為 2025/12/01,並列明 Functions、Web search、File search、Computer use 等工具 。這些資訊對預估成本、設計系統限制、規劃 agent workflow 都很重要。
若你正在做 coding agent,GPT-5.5 也更適合作為第一個 baseline。第三方 SWE-bench Verified 數字目前對 GPT-5.5 較有利 。但真正上線前,仍應在自己的 repo、測試流程與 tool policy 下重跑。
DeepSeek V4 Pro 適合 open weights 是硬性條件的團隊,或需要在自有架構中做更深入評估與控制的場景。Artificial Analysis 將 DeepSeek V4 Pro 描述為 2026 年 4 月發布的 open weights 模型,支援 text input/output,並有 1m tokens context window 。
代價是 factual reliability 必須嚴格設計。Artificial Analysis 對 DeepSeek V4 Pro 記錄的 AA-Omniscience hallucination rate 為 94%,代表在「不知道」時仍回答的風險很高;需要有證據的問答流程,不應讓模型單獨直接產出最終答案 。
Artificial Analysis 的 DeepSeek V4 Pro high 與 GPT-5.5 high 比較頁顯示,GPT-5.5 high 支援 image input,而 DeepSeek V4 Pro high 不支援 。再加上 OpenAI API 文件列出 GPT-5.5 的 Functions、Web search、File search 與 Computer use,若你的工作流需要 multimodal input 或正式 agentic tool-use,現有公開資料比較支持 GPT-5.5
。
要決定 route traffic、採購 API,或把哪個模型設為預設,不要只把不同網站上的分數貼在一起。更好的做法是把兩個模型放在同一條起跑線:
若目標是 API production、coding agent、正式 tool-use,或需要清楚的 max output 與價格,GPT-5.5 是比較穩妥的起點 。若 open weights 是不可妥協的需求,且團隊願意自行建構檢索、引用、驗證與人工覆核機制,DeepSeek V4 Pro 值得測試
。
Comments
0 comments