在知识工作类任务的内部基准测试中,Opus 4.8 同样表现不俗。在衡量经济价值知识工作表现的 GDPval-AA 评估中,它获得了 1890 分,而 GPT-5.5 得分 1769,Gemini 3.1 Pro 为 1314 分 。
此番更新,Anthropic 并未将全部重心放在单纯的智力基准测试上,而是着重强调了模型可信度的提升。公司声称,Claude Opus 4.8 忽略自己生成代码中的错误的可能性,大约只有 Opus 4.7 的四分之一 。
早期测试者的反馈显示,Opus 4.8 在执行复杂的多步骤工作流时,明显更倾向于主动标记不确定性,并大幅减少了作出缺乏依据的陈述的情况 。Anthropic 直接将“诚实”定位为本次发布的核心产品特性,指出该模型不太可能将证据不足的信息当作事实来呈现
。
动态工作流 (Dynamic Workflows):在 Claude Code 中作为研究预览版提供。该功能允许模型规划任务,并通过数百个并行的子智能体来协同处理同一个问题,在最终报告结果前进行交叉验证。它专为在一个会话中完成大规模代码迁移、审查和缺陷搜寻等任务而设计 。
可调节的“努力度”控制:用户现在可以在 claude.ai 和 Claude Code 中通过“努力度”参数,来指示模型的思考深度,从而在智能程度、token 消耗和速度之间做出权衡。官方文档建议在处理高难度编码和智能体任务时使用 xhigh 级别,而对于其他对智能要求较高的任务,则至少使用 high 级别 。
Claude Opus 4.8 的发布并非一次简单的性能指标跃升,而是一次目标明确的企业和开发者升级。其产品故事的主旋律围绕智能体的可靠性、对不确定性的明确处理,以及通过显式的努力度等级赋予程序员对成本与性能的精细控制。定价策略保守,标准 API 价格未涨,而快速模式的价格大幅下降,为高延迟敏感型应用敞开了大门。
Comments
0 comments