OpenAI 还提供了引用格式指南,用于说明如何准备可引用材料,并指导模型更有效地格式化引用 。其 Deep Research API 示例也提到,响应包含结构化的最终答案、内联引用、推理步骤摘要和来源信息
。OpenAI 帮助中心则表示,Deep Research 输出包含引用或来源链接,方便用户验证信息
。
这支持一个有限但重要的判断:在网页研究工作流中,OpenAI 这些文档对引用呈现方式说得比较明确。它并不证明每一条引用都一定准确,也不能证明 GPT-5.5 Spud 这个具体模型具备怎样的溯源优势。
Anthropic 资料的重点在两处:一是 Claude Opus 4.7 的模型定位,二是基于文档的引用机制。Anthropic 将 Claude Opus 4.7 描述为最新一代 Claude 模型之一,并建议在最复杂任务上优先考虑它,称其为公司最有能力的已普遍开放模型 。
在证据溯源方面,关键资料是 Anthropic 的 citations 文档。该文档说,当用户提供文档并启用 citations 时,Claude 能在回答文档相关问题时给出详细引用,帮助用户追踪和验证信息来源 。它还说明了引用颗粒度:纯文本和 PDF 文档默认会自动按句切分;如果开发者需要更细控制,例如处理项目符号、转录稿或特定检索增强生成片段,则可以使用自定义内容文档
。
Anthropic 的 PDF 支持文档还补充了一个相关细节:在 Converse API 中进行视觉 PDF 分析时,必须启用引用 。此外,Anthropic 的 Files API 允许开发者上传并管理供 Claude API 使用的文件,不必每次请求都重新上传同一内容
。文件管理本身不能证明引用一定准确,但如果和源文件留存、逐条引用结合,就更有利于形成可复查的证据链。
评估研究溯源时,最容易踩的坑,是把模型的思考痕迹当成证据。它们不是一回事。
OpenAI 的推理最佳实践页面说明,推理模型会在内部进行推理,并建议开发者不要提示模型逐步思考或解释完整思维链 。OpenAI 的推理模型指南关注的是 reasoning effort、reasoning tokens,以及跨轮次保留推理状态等控制项
。
Anthropic 在思考机制方面提供了更多术语。其提示缓存文档称,在 extended thinking 与 prompt caching 一起使用时,thinking blocks 有特殊行为 。extended thinking 文档区分了 Claude 4 及后续模型中的完整 thinking tokens 与摘要输出
。Anthropic 发布说明提到 display 字段可从响应中省略 thinking 内容,Claude Code 文档也说,在 skill 内容中加入
ultrathink 可为该 skill 启用 extended thinking 。
这些能力可能有助于开发者优化复杂工作流。但隐藏的思维链、scratchpad 式草稿,或压缩后的推理摘要,都不能证明某个事实结论来自哪一个 URL、哪份文档或哪个文件。它们最多是辅助上下文,不是源材料审计轨迹。
如果目标是可审计的 AI 研究流程,不妨先放下模型排行榜,用下面的清单检查整个工作流。
本轮资料支持的是一个细分比较,而不是总榜单。OpenAI 在网页研究的用户可见引用要求上证据更明确,因为 Deep Research 文档明说,向用户展示网页来源信息时应有清晰可见、可点击的内联引用 。Anthropic 在 Claude 的文档型引用上证据更具体,因为其文档说明了提供文档并启用 citations 后的引用能力,以及通过按句切分和自定义内容控制颗粒度的方式
。
Claude Opus 4.7 被 Anthropic 文档描述为面向复杂任务的、能力最强的已普遍开放模型;但本文核查到的 OpenAI 模型专属资料是 GPT-5.4,而非 GPT-5.5 Spud 。如果你真正要做可审计的 AI 研究,先比较源材料留存、引用颗粒度和人工验证机制,再比较模型名字。
Comments
0 comments