gpt-5.5 與 gpt-5.5-2026-04-23,發布頁也說 2026 年 4 月 24 日更新後 GPT-5.5 與 GPT-5.5 Pro 已可在 API 使用;但目前片段沒有足夠資訊可比較所有維度 Claude Opus 4.7 是這次比較中一手資料最完整的模型。Anthropic 將它描述為推進 coding 與 AI agents 前沿的 hybrid reasoning model,產品頁也列出 1M context window 。Anthropic 另稱,Opus 4.7 在 coding、vision 與複雜多步驟任務上有更強表現,並在專業知識工作中有更好結果
。
最明確的差異點是長上下文。Anthropic 文件說 Claude Opus 4.7 提供 1M context window,且以標準 API 價格供應,沒有 long-context premium 。同份文件也指出,它在知識工作任務有明顯提升,尤其是需要模型視覺檢查自身輸出的情境,例如 .docx 修訂、.pptx 編輯、圖表分析與圖像分析
。
第三方資料可作規劃參考,但不應與官方聲明混為一談。Caylent 稱 Opus 4.7 最高支援 128K output tokens,並沿用 Opus 標準價格:每百萬 input tokens 5 美元、每百萬 output tokens 25 美元 。這對成本試算有用,但本文中最強的一手價格證據,仍是 Anthropic 對「不收長上下文加價」的說明
。
GPT-5.5 已足以放進採購或技術評估清單。OpenAI API 文件列出 gpt-5.5 與日期版本 gpt-5.5-2026-04-23,並標示 long context 與 rate-limit tiers 。OpenAI 發布頁日期為 2026 年 4 月 23 日,並在 2026 年 4 月 24 日更新中表示 GPT-5.5 與 GPT-5.5 Pro 已可在 API 使用
。
但這只能確認 API 狀態,還不足以負責任地把 GPT-5.5 排在其他三款模型之前或之後。本文可見的 OpenAI 官方片段沒有列出精確 context size、output limit、pricing、benchmark scores、modality details、coding performance 或 latency 。
第三方頁面補上了一些線索,但它們不等同於 OpenAI 官方文件。DesignForOnline 稱 GPT-5.5 價格為每百萬 input tokens 5 美元、每百萬 output tokens 30 美元 。LLM Stats 稱其 API context window 為 1M input / 128K output,並支援 text 與 image input、text output
。這些資訊適合列入供應商確認清單,但不宜當成最終一手證據。
DeepSeek 在這次比較中提供了最具體的成本表。其 API pricing 頁面列出 1M context length、384K maximum output、JSON output、tool calls、beta chat-prefix completion 與 beta FIM completion 。同頁也列出 token 價格:cache-hit input 為 0.028 與 0.03625 美元,cache-miss input 為 0.14 與 0.435 美元,output tokens 為 0.28 與 0.87 美元;片段同時顯示限時折扣說明與刪除線原價
。
V4 版本本身也有支持資料,但部分較間接。EvoLink 稱截至 2026 年 4 月 24 日,DeepSeek 官方 API 文件列出 deepseek-v4-flash 與 deepseek-v4-pro,發布官方價格,並記載 1M context 與 384K max output 。Hugging Face 則稱 DeepSeek 發布了兩個 mixture-of-experts checkpoints:DeepSeek-V4-Pro 為 1.6T total parameters、49B active;DeepSeek-V4-Flash 為 284B total parameters、13B active
。Hugging Face 也說兩者都有 1M-token context window,benchmark 數字具競爭力但不是 SOTA
。
OpenRouter 的 V4 Pro 頁面另列 1,048,576-token context window,以及每百萬 input tokens 0.435 美元、每百萬 output tokens 0.87 美元 。這有助於交叉比對 V4 Pro 的商業資訊,但由於 DeepSeek 官方頁面含有限時折扣語句,團隊在上線前仍應直接確認最新價格
。
Kimi K2.6 的產品方向切中目前前沿模型需求,但本文資料中,其精確規格較少由一手文件完整支持。Moonshot 官網站稱 K2.6 是原生多模態模型,並強調 coding capabilities 與 Agent performance 。Kimi 技術部落格片段則表示,若要重現官方 Kimi-K2.6 benchmark results,建議使用官方 API;第三方 provider 則可參考 Kimi Vendor Verifier
。
較具體的 Kimi 數字,多數來自第三方。LLM Stats 稱 Kimi K2.6 的 input context window 為 262,144 tokens,且最高可產生 262,144 output tokens 。DesignForOnline 稱 Kimi K2.6 具 262K context、vision、tool use、function calling,價格從每百萬 tokens 0.7500 美元起
。Atlas Cloud 則列出 Kimi K2.6 API 價格從每百萬 tokens 0.95 美元起
。另有 LinkedIn 文章稱 Kimi K2.6 是 open-weight model,但這屬使用者生成證據,除非 Moonshot 直接確認授權條款,否則應以較低信心看待
。
因為缺少完整、同口徑、可交叉比較的公開分數。Vellum 的 Claude Opus 4.7 摘要列出 coding、agentic、finance、reasoning、multimodal/vision、search 與 safety 等評測領域,但片段沒有實際分數 。OpenAI 的 GPT-5.5 發布頁有 evaluations 結構,但片段未顯示數字
。Hugging Face 說 DeepSeek V4 的 benchmark 具競爭力但不是 SOTA
。Kimi 官方部落格片段則提到使用官方 API 重現 Kimi-K2.6 benchmark results,卻未在片段中列出結果
。
這點很重要。模型排名會隨任務改變:寫程式、長上下文檢索、多模態文件分析、tool-calling 穩定度、Agent 規劃、延遲,以及 cache hit 與 cache miss 下的實際成本,都是不同測試。若沒有同一套 benchmark 同時覆蓋四款模型,「最佳模型」更像行銷語,而不是證據結論。
gpt-5.5 API 路徑 上線前不要只看榜單。更可靠的做法,是用同一組 prompts、tools、context sizes、file inputs 與 scoring rubrics 做任務型 bake-off。至少追蹤五件事:任務成功率、tool-call reliability、long-context accuracy、latency,以及完全計入快取與輸出的 token cost。
對 DeepSeek,要把 cache-hit 與 cache-miss 成本分開算,因為官方價格頁明確拆成不同列 。對 GPT-5.5,要把 OpenAI 已確認的 API 資訊,與第三方 context/pricing 說法分開標示,直到官方文件補足細節
。對 Kimi K2.6,provider listings 與使用者生成的 open-weight 說法應視為待確認線索,不宜直接當成採購依據
。
Comments
0 comments