呢個部分係開發者最關心嘅環節,直接影響幫手改Code嘅效率。
小總結: 三個模型喺SWE-Bench Verified嘅表現咬得好緊,差距細到可以當誤差。Qwen3.7 Max 喺終端機操作(Terminal-Bench)同高難度工程(SWE-Pro)領先;DeepSeek V4 Pro Max 就係純編程能力嘅絕對王者,LiveCodeBench同Codeforces分數拋離對手;Kimi K2.6 就喺SWE-Bench Pro度跑出,顯示佢處理複雜、貼近現實嘅工程任務有獨到之處 。
呢度考驗模型嘅「聰明」程度,包括數學、科學同邏輯推理。
小總結: Qwen3.7 Max 嘅推理能力最平均同強勢,特別係數學同科學推理(GPQA Diamond、HMMT)攞到最高分 。DeepSeek V4 Pro Max 喺中文場景同部分數學推理表現唔錯,但喺需要廣博知識嘅HLE測試上就輸蝕少少
。Kimi K2.6 嘅策略好清晰,佢勁在「用工具」,一畀佢上網搜資料、Call API,佢喺HLE嘅分數就由37.7分爆升到54.0分,DeepSearchQA嘅92.5分更加係全場最高,證明佢係個「搜索達人」,適合做需要整合大量資訊嘅任務
。
講到錢,就係最現實嘅環節。記住,呢度係官方API嘅直接定價,如果你經第三方平台(好似OpenRouter、DeepInfra)接入,價錢可能仲有折。
DeepSeek V4 Pro Max 定價備註: DeepSeek 之前有個75折推廣優惠,令到Pro版輸入價一度低至 $0.435,輸出價 $0.87
。不過呢個優惠本身到2026年5月31號完結,標準價會變返 $1.74 / $3.48。但市面上有傳聞話DeepSeek有機會將優惠變永久
,所以格價時最好睇清官網最新公布。
坦白講,三個模型各有自己嘅「主場」,冇一個可以喺所有方面都完勝對手。與其話揀最勁嗰個,不如話揀最啱你使嗰個。
如果你係重度Coding、玩競賽編程嘅開發者: DeepSeek V4 Pro Max 會係你最強嘅武器。LiveCodeBench 93.5% 同 Codeforces 3206分嘅純編程能力冇得輸,而且佢嘅API輸出價極平(就算用正價 $3.48 都係對手嘅一半),仲有開源權重可以自己Host,成本優勢巨大 。不過要留意,NIST(美國國家標準技術研究所)嘅獨立評測指出,DeepSeek官方自己報嘅跑分可能比第三方平台評出嚟嘅結果樂觀少少,真實能力或者要打個折
。
如果你要一個全能型、推理能力強嘅AI Agent: Qwen3.7 Max 會係最全面嘅選擇。佢喺反映整體智能嘅AA Index排全球第5,係國產模型之冠 。無論係編程Agent(SWE-Pro 60.6)、終端機操作、定係科學數學推理,表現都好平均地強勢。當然,代價就係價錢最貴,輸出每百萬Token要 $7.50 美金,用得越多,條數同對手差距就越明顯
。
如果你需要AI處理複雜、多步驟、要上網查資料嘅任務(例如深度研究、自動化工作流): Kimi K2.6 係為呢類「Tool-use」場景而生嘅專家。佢喺HLE with tools(54.0分)同埋DeepSearchQA(92.5分)嘅表現,證明佢整合外部工具同資訊嘅能力係頂級,可以直接派去處理複雜嘅Agent工作 。價錢上,佢介乎兩者之間(輸出 $4.00),不過上下文窗口得26萬Token,係三個模型入面最細,處理超長文檔時要留意
。
希望呢個詳細比較可以幫到你喺呢個AI「戰國時代」入面,搵到最啱自己使嘅搵食架生!
Comments
0 comments