在各类评测中,编程能力是最容易区分模型差异的领域之一。
Claude Opus 4.7 的优势最明显。
GPT‑5.5 在同一评测中的成绩为:
虽然略低,但 GPT‑5.5 在更复杂的工程流程任务中表现强劲。例如:
Gemini 3.5 Flash 在编程评测中的成绩为:
对于 Grok 4.3,公开指标包括:
近年来,大模型评测越来越重视“代理能力”,即模型能否调用工具并完成复杂任务。
在这方面,Gemini 3.5 Flash 表现非常强势。Google 公布的结果包括:
GPT‑5.5 在类似场景中也非常强。例如:
Claude Opus 4.7 在“电脑操作型”任务中也表现稳定:
基准测试无法完全反映模型部署时的重要因素,例如上下文窗口、推理速度和价格。
Grok 4.3 的特点之一是超长上下文:
价格约为:
DeepSeek 系列模型通常强调开放权重或低成本部署策略,这使它们在需要本地部署或自建基础设施的场景中更具吸引力。
目前最可信的独立评测来自 美国国家标准与技术研究院(NIST)的 CAISI 项目。
评估结论包括:
报告还指出:
这也说明为什么跨公司比较 AI 模型时,独立评测非常重要。
即使有公开数字,不同模型之间仍然很难进行完全公平的排名,主要原因包括:
因此,目前所有模型的“绝对排名”都需要谨慎解读。
根据目前最可靠的公开证据,可以得出一个大致判断:
在实际应用中,“最好”的模型往往取决于具体场景:编程代理、研究助手、长文档分析或成本敏感型推理任务,可能分别适合不同模型。
Comments
0 comments