Anthropic 的 Claude Opus 4.7 在软件工程相关评测中表现尤为突出。
核心成绩包括:
Google DeepMind 的 Gemini 3.5 Flash 很特殊,因为它并不是旗舰模型,而是主打速度与成本效率。
公开成绩包括:
因此,Gemini 3.5 Flash 的主要优势是:
接近旗舰能力,但延迟更低、成本更低。
DeepSeek V4 受到关注的原因在于它是开权重(open‑weight)模型,可以被研究者和企业自行部署。
该系列包含两个版本:
在最大推理模式下,V4‑Pro 的成绩包括:
不过,美国国家标准与技术研究院(NIST)旗下 CAISI 项目的独立评估指出:
这说明开源模型正在逼近前沿,但仍存在差距。
xAI 的 Grok 4.3 相比前代有明显提升,尤其是在代理任务方面。
公开数据包括:
综合多个评测,可以看到明显的分工:
不过这些结论仍然只是趋势判断,因为不同公司报告的评测设置并不完全一致。
当前AI评测难以稳定排名,主要原因包括:
因此,新模型发布后的几个月内,排名通常会随着独立测试增加而不断变化。
截至2026年的公开数据,并不存在一个“全面碾压”的AI模型。相反,前沿模型已经出现明显分工:
随着更多独立评测出现,这些模型之间的真实差距和排名仍可能继续变化。
Comments
0 comments