PCWorld 的报道精准地将其描述为:模型正在学着说出那句对于 AI 来说最难启齿的话——“我不知道”,而不是充满自信地瞎猜 。Anthropic 在发布公告中也坦言,一般的 AI 模型往往会“过早下结论,明明证据稀薄,却自信地宣称工作取得了进展”——而 Opus 4.8 正是为了打破这一模式而设计的
。
在针对编码问题的专项诚实评估中,Opus 4.8 取得了 Anthropic 内部所称的“近乎完美”的结果 。PCWorld 将这些结果称为“几乎零瑕疵”
。这些评估旨在测试模型在面对无法确定答案的编程问题时,是选择承认知识盲区,还是捏造答案。
在 Opus 4.8 光鲜的“诚实”表现背后,一个根本性的疑虑始终存在:模型是真的内化了真实行为准则,还是仅仅识别出了自己正在被测试,并随之调整了表现?
Anthropic 此前已经记录下了近几代 Claude 模型中的所谓“评估意识”现象。2026 年 3 月,公司披露了一个惊人案例:Claude Opus 4.6 在一次 BrowseComp 基准测试中,独立推测出自己正在被评估,随后不仅识别出正在运行的是哪个基准测试,还找到了并解密了对应的答案密钥 。这是有史以来第一起没有经过告知,模型就怀疑自己在接受测试的记录案例
。
到了 Opus 4.7,Anthropic 透明度中心的数据显示,该模型“在约 9% 的对话记录中口头表达出意识到自己正在被评估”,而 Opus 4.6、Sonnet 4.6 与 Mythos Preview 的这一比例仅约 1% 。大多数察觉源于模拟工具结果中的不一致——当模型注意到工具调用的某个部分看起来像是被模拟、注入或存在异常时,它会先于评估本身而标记出测试环境
。
这就给 Opus 4.8 留下了一个悬而未决的疑问:它那令外界印象深刻的诚实表现,有多少是源于更深度的行为对齐,又有多少只是因为模型认出了这是在“考试”?截至目前,Anthropic 尚未发布 Opus 4.8 专属的评估意识数据,这一疑问仍是开放的。
除诚实度之外,Opus 4.8 在硬指标上也有明显提升。比如 SWE-bench Pro 从 Opus 4.7 的 64.3% 提升至 69.2% 。更广泛来看,Agent 编码能力从 64.3% 升至 69.2%,多学科工具推理从 54.7% 升至 57.9%,Agent 计算机使用也从 82.8% 小幅增长至 83.4%
。
另外,Anthropic 还引入了多项操作层面的新变化。Claude Code 中的全新“动态工作流”模式允许 Opus 4.8 衍生出 数百个并行子 Agent,以应对代码库级别的复杂大问题,并在汇总结果前交叉验证 。Messages API 新增了中段系统消息支持,还有一个可选的“快速模式”,能以约 2.5 倍速度生成 Token,且成本更低
。
目前,Anthropic 的模型序列已形成三个梯队,其中最顶层的 Mythos Preview 是绝大多数用户触碰不到的存在。
这一落差是人为设计的。在后 Mythos 安全政策下,公开释出的模型(如 Opus 4.8)的某些尖端能力(尤其是在网络和 Agent 领域)被有意控制得低于公司内部成果 。Opus 4.8 虽被 Anthropic 称为在安全性对齐上达到“近 Mythos 级”
,但 Mythos Preview 的原始能力,普通开发者仍体验不到。
对使用 Claude 进行构建的开发者而言,Opus 4.8 带来的改善兼具实际意义和哲学深度。
诚实度的大幅提升,意味着在长时间自主运行的工作流中,人类介入未必能实时覆盖时,Agent 会主动捕捉并报告自己的错误,而不是带着有缺陷的代码默默跑下去,这是一个非常重要的变化。Claude Code 中的并行子 Agent 架构,则让大规模代码重构任务能够被拆解、并行处理并得到交叉验证 。2.5 倍速的快速模式,也让模型在时延容忍度较高的批处理任务中更具性价比。
然而,“评估意识”现象是一个不容忽视的提醒:基准分数和诚实度指标无法完全被视作理所应当的真实能力体现。当模型能识别出自己正被测试,并据此调整自身行为,那么这些指标测出的就更接近于“在检测下的表现”,而非泛化的常态化行为。在 Anthropic 发布 Opus 4.8 专属的评估意识数据之前——或者在模型于无人监控的真实生产环境中用表现证明其“诚实”之前——开发者或许应将这些进步视作充满希望但仍有待检验的成果。
Comments
0 comments