Anthropic 推出嘅 Claude Opus 4.7 通常被視為最強編程模型之一。
代表性基準包括:
Google 嘅 Gemini 3.5 Flash 有啲特別——佢其實定位為 高速、低成本模型,但基準表現仍然相當強。
公開數據包括:
因此 Gemini 3.5 Flash 最大優勢係:
速度與能力之間嘅平衡——接近旗艦級表現,但延遲更低、成本更友善。
中國AI公司 DeepSeek 推出嘅 DeepSeek V4 最大特色係:開放權重(open‑weight)。
模型分為兩個版本:
官方技術報告顯示,V4‑Pro 在最高推理模式下可達:
不過,美國 NIST(國家標準與技術研究院)CAISI 計劃 的獨立評估指出:
即是說,官方數據與第三方評估之間仍然存在差距。
Elon Musk 創立嘅 xAI 推出 Grok 4.3,相對前代進步相當大,尤其係代理任務測試。
公開數據包括:
綜合目前公開測試,大致趨勢如下:
不過呢啲結論都只可以當作 方向性觀察,而唔係絕對排名。
AI基準比較之所以不斷變動,主要原因包括:
因此真正可靠嘅排名,往往要等 數月後大量第三方測試 才會比較清晰。
2026年AI競爭格局其實並唔係「一個模型全勝」。
相反,前沿模型開始出現明顯專長分工:
隨著更多獨立測試出現,未來一年這些模型的真正排名仍可能持續變化。
Comments
0 comments