在所有能力類型中,「寫程式與修程式」是最容易看到差異的一類。
GPT‑5.5在同一測試中為 58.6%,略低於Opus,但它在另一類工程任務中表現極強——例如終端機操作與工具協作。
至於 Grok 4.3,公開數據多來自不同類型的評估,例如:
近年的AI評估開始更重視「代理型能力」,也就是模型能否調用多個工具、規劃流程並完成多步任務。
在這方面,Google報告指出 Gemini 3.5 Flash 在多項工具使用基準中領先,例如:
單看基準測試並不能完整反映實際部署價值。
Grok 4.3 特別強調長上下文與成本效率。xAI文件指出其:
DeepSeek 系列模型則通常以開放權重或低成本部署策略為主,使企業能在本地或自建基礎設施運行模型。
目前最具權威性的DeepSeek V4評估之一來自 美國國家標準與技術研究院(NIST)旗下的 CAISI 計畫。
該評估指出:
即使有大量數據,跨模型比較仍然存在幾個問題:
因此任何「從第一名排到第五名」的結論都需要謹慎解讀。
綜合公開資料,大致可以得出以下觀察:
實際上,最佳模型仍取決於使用情境——例如程式代理、研究助手、長文件分析或低成本推理等場景,各模型可能各有優勢。
Comments
0 comments