| Grok 4.3 | 2026年4月30日 | xAI | 中端市场的实力派选手,以性价比和领域优势见长 |
| DeepSeek V4 Pro | 2026年4月24日 | 深度求索 | 编程竞赛特长生,以极低成本比肩顶级闭源模型 |
这份表格整合了厂商官方、独立评测机构及学术界截至5月底的最新数据,帮你一眼看清谁在哪个领域称王。
* Gemini 3.5 Flash、Grok 4.3 和 DeepSeek V4 Pro 的 SWE-Bench Pro 成绩来自同一项第三方测试 ,Google 官方给出的分数可能不同,详见下文注意事项。
除了性能,选择模型时还有两个关键的商业考量:成本和速度。
5月28日才最新发布的 Opus 4.8 是当前综合实力最强的模型之一。它在智能体编程 (SWE-Bench Pro)、知识工作 (GDPval-AA 1890)、电脑操控 (OSWorld)、多学科推理 (Humanity’s Last Exam) 以及金融分析等多个硬核领域都拔得头筹 。在 BenchLM 的临时排行榜上,它以93/100的综合评分傲居第二
。对于需要处理复杂、长链条任务的企业或专业人士来说,Opus 4.8 是当前的首选。
OpenAI 的 GPT-5.5 在命令行环境下的编码能力 (Terminal-Bench) 上展现了统治级优势,以 78.2–82.7% 的成绩大幅领先 。同时,它在抽象视觉推理 (ARC-AGI-2 85.0%)、博士级科学问题 (GPQA Diamond 96.0%) 和前沿数学 (FrontierMath) 等考验纯粹思考力的领域都位列第一
。如果你的工作流重度依赖终端操作或复杂的逻辑推理,GPT-5.5 是更锋利的刀。
Google 的这款 Flash 模型证明了一件事:不用最强的计算资源,也能打出漂亮的战绩。它虽然定位为轻量级,但其工具协调能力 (MCP Atlas 83.6%) 却是全场最佳 。更夸张的是它接近 289 Token/秒的输出速度,几乎是其他旗舰模型的4倍,而成本却是最低的
。对于需要高吞吐量、对成本敏感的 Agent 应用和 API 调用场景,Gemini 3.5 Flash 无疑是性价比之王。
深度求索的 V4 Pro 证明了“便宜也有好货”。在编程竞赛领域,它带着 Codeforces ELO 3206 和 LiveCodeBench 93.5% 的傲人成绩单横扫千军,甚至在部分编程基准上与 Claude 不相上下 。更重要的是,它以极低的价格实现了这一切。对于高频次调用 API 的独立开发者或预算有限但追求顶级代码能力的团队,DeepSeek V4 Pro 是那个“真香”的选择。
xAI 的 Grok 4.3 处于“比上不足,比下有余”的位置。它的综合评分 (AA Index 53) 高于平均水平,速度和定价都很有竞争力,在特定领域(如法律、金融)表现亮眼,但在多数前沿基准测试中,仍落后于前三强 。对于已有 xAI 生态、或在特定垂直领域有需求的用户,它是一个非常可靠的选择。
作为直接前代,Opus 4.7 的成绩依然能打,尤其是在SWE-Bench Verified (87.6%) 上 。但它的继任者 Opus 4.8 在每一项关键指标上都实现了超越,使其不可避免地成为了“上一个时代”的最佳选择。
在根据以上数据做决策前,有几个“坑”需要注意:
Comments
0 comments