Reuters 報道指,DeepSeek 新模型 preview 嘅市場反應相對平淡。Omdia 首席分析師 Lian Jye Su 形容今次發布走咗一條「相當可預期」嘅路線,因為模型架構同效率改善,已經係產業同學界廣泛探索嘅方向。
換句話講,V4 並唔係無進步,而係佢進步嘅方向,對今日 AI 市場嚟講已經唔算陌生。Reuters 亦指出,Kimi、Qwen 等競爭者正在收窄差距,令 DeepSeek 更難靠一次發布就營造壓倒性領先嘅印象。
AI 模型競爭已經過咗「一個新模型就改寫全場」嘅階段。當大家都高速追趕,效率、架構、長上下文同推理能力都不斷迭代,單一版本要再令人覺得石破天驚,自然難好多。
V4 Pro 嘅改進有公開基準資料支持。Reuters 引述 Artificial Analysis 指,DeepSeek-V4 Pro 較前代有顯著提升,但整體仍屬於領先開放權重模型之一,而唔係明確超越競爭對手。
《南華早報》引用 Artificial Analysis Intelligence Index 嘅分數,亦支持呢個判斷:V4 Pro 得52分,高過前代 V3.2,但低過 Kimi K2.6 嘅54分;同一報道列出嘅美國閉源模型之中,OpenAI GPT-5.5 得60分,Anthropic Claude Opus 同 Google Gemini 3.1 Pro 都係57分。
| 模型 | Artificial Analysis Intelligence Index 分數 |
|---|---|
| OpenAI GPT-5.5 | 60 |
| Anthropic Claude Opus | 57 |
| Google Gemini 3.1 Pro | 57 |
| Kimi K2.6 | 54 |
| DeepSeek V4 Pro | 52 |
呢張表就解釋咗點解評價會分裂。如果你期待 DeepSeek V4 Pro 一出就登上所有榜單第一,佢確實唔夠震撼;但如果你關心嘅係 DeepSeek 仲係咪開放權重模型嘅前列選項,答案仍然係值得納入比較。
MIT Technology Review 對 V4 preview 嘅重點,唔係「榜單第一」,而係效率同長上下文。報道指,V4 preview 比上一代更有效率,亦可以處理更長提示,原因係新設計有助模型處理大量文字。
呢類進步未必夠搶眼,但其實好貼近產品落地。長上下文能力,對長文件摘要、程式碼庫分析、研究資料整理、合約審閱、企業知識庫問答等場景都好關鍵。效率提升,則要轉化成可量度嘅產品指標,例如延遲、吞吐量、成本、併發量同部署限制。
所以,V4 最值得問嘅問題唔係「市場有冇尖叫」,而係「同樣成本之下,佢可唔可以做更多、更穩、更長嘅任務」。
單睇通用跑分或者市場反應,都唔足以判斷 V4 適唔適合一個產品或團隊。更實際嘅測試方向包括:
更準確講,DeepSeek V4 唔係一次改寫遊戲規則嘅發布,而係一個工程成熟度訊號。對真正要將 AI 放入產品嘅人嚟講,穩定、可部署、成本可控嘅進步,往往比一時嘅市場掌聲更有價值。
Comments
0 comments