比較 GPT-5.5、Claude Opus 4.7、DeepSeek V4 同 Kimi K2.6,最有用唔係問邊個「最叻」。更實際係問:你要處理咩工作量?預算有幾緊?上下文要幾長?要唔要開放權重或更大部署彈性?又可唔可以接受 preview 模型,或者部分價格/上下文資料只來自二手平台?
先講清楚:token 係 AI API 常用嘅計價同長度單位;1M token 即 100 萬 token。上下文視窗就係模型一次請求可以參考到幾多內容。
30 秒揀法
| 如果你最重視… | 先試… | 原因 |
|---|---|---|
| OpenAI 生態內的高階閉源模型預設選擇 | GPT-5.5 | OpenAI 有 GPT-5.5 API model page [ |
| 長上下文企業工作、文件分析和 production agents | Claude Opus 4.7 | Anthropic 官方文件指 Opus 4.7 提供 1M token 上下文視窗,按標準 API 價格收費,沒有長上下文附加費 [ |
| 成本敏感、又想測 1M context | DeepSeek V4 | DeepSeek 官方文件列出 2026/04/24 的 DeepSeek-V4 Preview Release [ |
| 開放權重、多模態和 coding 實驗 | Kimi K2.6 | Artificial Analysis 形容 Kimi K2.6 是 2026 年 4 月推出的 open-weights 模型,支援文字、圖片、影片輸入,文字輸出,並有 256K token 上下文視窗 [ |
呢張表係路由指南,不係排行榜。現有來源包括官方文件、新聞報道、API 聚合平台和部分 benchmark 表,但未見一個獨立評測把四個模型放在完全相同 prompt、工具、sampling setting、延遲限制和成本口徑下比較 [1][
30][
45][
48][
52][
70][
78]。所以 production 決策最好看 cost per successful task at your quality bar——即係每個達標答案實際要幾多錢、幾穩陣。
GPT-5.5:OpenAI 生態內最自然先測
如果你嘅產品、工作流、權限管理或者監控已經圍繞 OpenAI 建立,GPT-5.5 通常係最自然先測嘅高階模型。OpenAI 維護 GPT-5.5 的 API model page [45];OpenAI 發佈頁指 GPT-5.5 於 2026 年 4 月 23 日推出,並於 4 月 24 日更新指 GPT-5.5 同 GPT-5.5 Pro 已可在 API 使用 [
57]。The New York Times 亦報道 OpenAI 推出 GPT-5.5;CNBC 則稱 GPT-5.5 是 OpenAI 最新 AI model,並正向付費 ChatGPT 和 Codex 訂戶推出 [
46][
52]。
最有來源支持的賣點,是編碼、電腦操作和較深入研究流程。CNBC 報道 GPT-5.5 在 coding、using computers 和 pursuing deeper research capabilities 方面更好 [52]。
至於 API 價格和上下文長度,本文可用來源中最清楚的數字主要來自二手 listing:OpenRouter 列出 GPT-5.5 有 1,050,000 token context window,價格為每 1M input tokens 5 美元、每 1M output tokens 30 美元 [48]。The Decoder 亦報道 API context window 為 1M token,input/output token 價格為每 1M 5 美元/30 美元 [
58]。
因為呢啲明確價格和 context 數字主要來自二手來源,大規模部署前應直接向 OpenAI 核對最新 API 條款、模型限制和商務價格。
**適合用 GPT-5.5 的情況:**你要高階閉源模型處理推理、編碼、研究、文件工作或 computer-use workflow,而且 OpenAI 平台整合度同 token 單價一樣重要。
Claude Opus 4.7:1M 長上下文 production 文件最清楚
Claude Opus 4.7 在呢四個模型入面,長上下文官方文件最清楚。Anthropic 指 Opus 4.7 提供 1M token context window,按標準 API pricing 收費,沒有 long-context premium [1]。Anthropic 價格文件亦指 Opus 4.7 包括完整 1M token context window,900K-token request 會按同 9K-token request 一樣的每 token 費率計算 [
2]。
Anthropic 將 Claude Opus 4.7 定位為面向 coding 和 AI agents 的 hybrid reasoning model,並具備 1M context window [4]。Anthropic 產品頁亦指 Opus 4.7 在 coding、vision、複雜多步任務和專業知識工作方面有更強表現 [
4]。
價格方面,OpenRouter 列出 Claude Opus 4.7 為每 1M input tokens 5 美元、每 1M output tokens 25 美元,context window 為 1,000,000 token [3]。Vellum 亦報道 5 美元/25 美元的 input/output token pricing,並將 Opus 4.7 描述為適合 production coding agents 和長時間 workflow 的模型 [
6]。政策和計費結構應以 Anthropic 官方文件為準;二手 listing 則可用作市場參考 [
2][
3][
6]。
**適合用 Claude Opus 4.7 的情況:**你要處理長文件、大型 codebase、專業知識工作、多步工具調用,或者 asynchronous agents,而 1M token context 的穩定計價係核心要求。
DeepSeek V4:低成本長上下文有吸引力,但先當 preview 測
DeepSeek V4 最吸引的地方,是長上下文加上相對低的 token 價格。DeepSeek 官方文件列出 DeepSeek-V4 Preview Release,日期為 2026/04/24 [25]。其 models and pricing page 列出 1M context length、384K maximum output、JSON output、tool calls、chat prefix completion,以及 non-thinking mode 下的 FIM completion [
30]。
同一 DeepSeek pricing page 列出 V4 input pricing 會按 cache status 和 tier 分開:cache-hit input pricing 為每 1M tokens 0.028 美元和 0.145 美元,cache-miss input pricing 為每 1M tokens 0.14 美元和 1.74 美元;output pricing 則為每 1M tokens 0.28 美元和 3.48 美元,視乎顯示的 V4 tier 而定 [30]。文件亦指舊模型名
deepseek-chat 和 deepseek-reasoner 日後會為兼容而對應至 deepseek-v4-flash 的 non-thinking mode 和 thinking mode [30]。
主要風險係成熟度。Preview 模型可以好適合受控內部測試,但 production 團隊應先驗證 reliability、latency、structured output、tool-call 行為、拒答行為和 regression risk。
**適合用 DeepSeek V4 的情況:**你最重視每個成功任務成本,工作負載受惠於 1M context,而且可以先做受控驗證,再決定是否上 production。
Kimi K2.6:開放權重、多模態和 coding 實驗的候選
如果你重視 open weights 和部署彈性,Kimi K2.6 值得列入測試。Artificial Analysis 形容 Kimi K2.6 是 2026 年 4 月推出的 open-weights 模型,支援文字、圖片和影片輸入,輸出為文字,並有 256K token context window [70]。Artificial Analysis 另一篇文章亦指 Kimi K2.6 原生支援 image 和 video input,而最大 context length 仍為 256K [
75]。
不同 provider listing 顯示大約 256K 至 262K 的 context range,但價格會按路由或平台而變。OpenRouter 列出 Kimi K2.6 於 2026 年 4 月 20 日推出,context window 為 262,144 token,價格為每 1M input tokens 0.60 美元、每 1M output tokens 2.80 美元 [77]。Requesty 列出
kimi-k2.6 為 262K context,input/output 價格為每 1M tokens 0.95 美元/4.00 美元;AI SDK 亦列出相同 0.95 美元/4.00 美元 pricing [76][
84]。
moonshotai/Kimi-K2.6 的 Hugging Face page 包含多個 benchmark table,涵蓋 OSWorld-Verified、Terminal-Bench 2.0、SWE-Bench Pro、SWE-Bench Verified、LiveCodeBench、HLE-Full、AIME 2026 等測試 [78]。呢啲 benchmark table 可用作初步篩選,但唔應取代你自己的 workload 測試;prompt、harness、model setting、provider 和 latency 限制都會影響真實結果。
**適合用 Kimi K2.6 的情況:**open weights、多模態輸入、coding workflow 或部署彈性,比依賴成熟閉源 enterprise stack 更重要。
價格和 context:實用對照
| 模型 | Context 證據 | 價格證據 | 採用前要核對 |
|---|---|---|---|
| GPT-5.5 | OpenRouter 列出 1,050,000 context;The Decoder 報道 API context window 為 1M token [ | 二手來源列出每 1M input tokens 5 美元、每 1M output tokens 30 美元 [ | OpenAI 來源確認模型和 API availability,但本文最明確的 context/pricing 數字主要來自二手來源 [ |
| Claude Opus 4.7 | Anthropic 官方文件列出 1M token context window,按標準 pricing 收費 [ | OpenRouter 和 Vellum 列出每 1M input/output tokens 5 美元/25 美元 [ | 長上下文支援文件最清楚,但 task-specific quality 和 latency 仍要實測。 |
| DeepSeek V4 | DeepSeek 官方列出 1M context 和 384K maximum output [ | 官方顯示 input pricing 由每 1M tokens 0.028 美元至 1.74 美元不等,視 cache/tier 而定;output pricing 為每 1M tokens 0.28 美元至 3.48 美元 [ | 官方 release note 標示 V4 為 preview [ |
| Kimi K2.6 | Artificial Analysis 列出 256K context;OpenRouter 列出 262,144 context [ | OpenRouter 列出每 1M input/output tokens 0.60 美元/2.80 美元;Requesty 和 AI SDK 列出 0.95 美元/4.00 美元 [ | Provider 選擇會改變價格,亦可能影響 latency、serving 行為和 reliability。 |
長上下文系統最平的 token,未必等於最平的答案。如果模型要更多 retry、長 prompt 漏資料、輸出 invalid JSON,或者需要更多人手覆核,標價較低都可能變成總成本較高。
點解公開 benchmark 唔能夠一錘定音
公開 benchmark 好有用,可以幫你 shortlist;但佢哋通常答唔到採購問題。本文來源包括官方 model pages、pricing docs、新聞報道、API aggregator,以及 Kimi K2.6 的 benchmark table [1][
30][
45][
48][
52][
70][
78]。但未有一個共享的獨立測試,在相同條件下同時比較 GPT-5.5、Claude Opus 4.7、DeepSeek V4 和 Kimi K2.6。
原因好簡單:prompt 格式、context 長度、准用工具、timeout、temperature、response budget、評分準則和 provider infrastructure,都可以改變結果。企業真正要看的唔係 leaderboard 排名,而係:在你要求的準確度和覆核標準下,每花一蚊可以產生幾多個可接受答案。
上線前,一個簡單但實用的測試方法
用你真實工作去測,每個模型用同一組 prompt、context、工具、timeout 和 scoring rule。至少測五類任務:
- **Coding:**debug、refactor、code generation、repo-level reasoning。
- **長上下文:**合約、會議逐字稿、研究包、政策文件、大型 codebase。
- **結構化抽取:**嚴格 JSON、schema completion、可直接入 database 的欄位。
- **工具使用:**browser、code execution、internal APIs、database、workflow automation。
- **Domain work:**finance、legal、healthcare、sales engineering、support、product analysis,或者你團隊真正懂得判斷對錯的職能。
每個模型都要評 accuracy、source faithfulness、long-context retention、tool-call correctness、structured-output validity、latency、retry rate、safety behavior、人手覆核時間,以及 total cost per accepted answer。
結論
如果你想要 OpenAI 生態內的高階預設選項,先測 GPT-5.5;尤其係高價值 reasoning、coding、research 和 computer-use workflow,但要直接向 OpenAI 核對最新 API pricing 和 context 條款 [45][
57][
52][
48][
58]。
如果你重視長上下文 production work,而且想要官方文件清楚寫明 1M token context 以標準 pricing 收費,先測 Claude Opus 4.7 [1][
2][
4]。
如果 budget 和 1M context 是硬約束,可以把 DeepSeek V4 放入 evaluation,但在通過 reliability 測試前,應把它視為 preview [25][
30]。
如果 open weights、多模態輸入和 coding experimentation 是核心要求,就測 Kimi K2.6,同時留意 provider-specific pricing 和 serving 行為 [70][
75][
76][
77][
84]。
最強模型唔一定係榜上最高分嗰個,而係能夠在你真實任務入面,以最低可靠成本交出合格答案嗰個。




