这些研究足以提醒团队:模型或平台更新后,不能想当然地认为旧流程仍然稳定。但它们并没有测出 Claude Opus 4.7 或 GPT-5.5 Spud 的具体漂移率,也没有证明其中一个比另一个更可复现。
Anthropic 表示,开发者可以通过 Claude API 使用 claude-opus-4-7 。其模型更新说明还写明,Claude Opus 4.7 引入了任务预算和新的分词器
。同一说明称,新分词器在处理文本时,相比此前模型可能使用约 1 倍到 1.35 倍的 token,具体取决于内容,最多约多 35%;
/v1/messages/count_tokens 对 Claude Opus 4.7 返回的 token 数也会不同于 Claude Opus 4.6 。
但这不是 Opus 4.7 出现质量回归的证据。分词器和任务预算变化可能影响系统可复现性,却不能直接证明模型能力变差。
这组来源中,GPT-5.5 Spud 的证据明显更弱。所给 OpenAI API 页面是 GPT-3.5-turbo 文档路径的 “Page not found” 结果,并不是 GPT-5.5 Spud 的官方模型卡、API 文档、变更日志或基准测试 。另一个二手来源讨论 GPT-5.5 Spud 时也称,官方尚未公布 GPT-5.5 发布日期、模型卡或 API 定价
。
这并不能说明 Spud 实际能力如何。它只说明:在这组证据里,无法可靠判断 Spud 的 API 行为、更新节奏、分词器、回归历史或可复现性。
更实用的做法,是把模型更新当作一次迁移,而不是“无感替换”。一套面向可复现性的评测,应该把模型质量变化和基础设施、计量方式变化分开看。
建议至少做六件事:
现有证据能支持的结论很有限,但很关键:Claude Opus 4.7 与 GPT-5.5 Spud 在更新后回归漂移或可复现性上,没有可核验的头对头赢家。
Comments
0 comments