先講結論:唔好急住判邊個贏
模型對模型嘅比較好易講到天花龍鳳,但要審核其實好難。按今次審閱到嘅文件,Anthropic 將 Claude Opus 4.7 列為最新一代 Claude 模型之一,亦稱它是公司最有能力、可普遍使用、適合複雜任務嘅模型;但 OpenAI 範圍內可見嘅模型專門指南係 GPT-5.4,唔係 GPT-5.5 Spud [53][
65][
75]。
所以,最負責任嘅答案唔係「Claude 贏」或者「GPT 贏」。今次真正可驗證嘅,是一張來源追溯 checklist:你嘅 AI 研究流程,能唔能夠將重要說法連返去人類可以檢查嘅證據?
今次可以核實到啲乜?
由呢批來源睇,未能核實一個直接比較 Claude Opus 4.7 同 GPT-5.5 Spud 嘅研究來源追溯結果。可核實嘅範圍窄好多:OpenAI 有文件講明 Deep Research 嘅用戶可見網頁引用要求;Anthropic 則有文件講明,當開發者提供文件並啟用 citations 時,Claude 可作文件為本嘅引用 [23][
77]。
對採購團隊、開發者同研究人員嚟講,呢個窄結論反而更實用。因為「可追溯」唔係一個模型名就可以保證,而係成個工作流程能否做到:一個重要 claim 出現時,審閱者可唔可以一路追到 URL、文件、檢索片段、上載檔案,或者其他可檢查嘅材料。
來源追溯應該分清三樣嘢
好多 AI 研究產品會將幾件事混埋一齊講。實際審核時,最好分開睇:
- 引用 citations: 答案入面可見、指向來源嘅標記。
- 來源留存 source capture: 系統有冇保存生成答案時用過嘅網頁、文件、檔案、chunk 或檢索結果。
- 推理痕跡 reasoning artifacts: 例如 thinking summary、scratchpad 式內容、內部推理控制。呢啲可能幫到設計工作流,但唔等於證明某個事實 claim 來自邊份材料。
引用係最易見到嘅一層,但單靠引用唔夠。更強嘅測試係:審閱者能否由一句說法,去到對應嘅證據位置,再親自核對。
OpenAI:網頁引用展示要求最清楚
喺今次來源入面,OpenAI 最清楚嘅 provenance 要求出現喺 Deep Research 文件:當向最終用戶展示網頁結果,或者展示來自網頁結果嘅資料時,行內引用應該清楚可見,而且可以點擊 [23]。
呢點重要,因為如果連結只係收埋喺 metadata,或者同支持嘅說法分開,來源追溯力就會弱好多。OpenAI 另外亦提供 citation formatting 指引,講點樣準備可引用材料,同點樣指示模型有效格式化引用 [22]。OpenAI Deep Research API 範例亦指,回應包括結構化最終答案、行內引用、推理步驟摘要同來源資訊 [
24]。OpenAI Help Center 亦表示,Deep Research 輸出包括引用或來源連結,讓用戶可以驗證資料 [
30]。
可以講嘅有限但重要:就網頁研究工作流而言,OpenAI 文件對引用展示講得相對明確。不過,呢啲文件唔等於證明每一條引用都準確,亦唔能夠建立任何關於 GPT-5.5 Spud 嘅模型專屬結論。
Anthropic:文件為本引用機制最清楚
Anthropic 呢邊,今次最強嘅文件證據集中喺兩方面:Claude Opus 4.7 嘅定位,以及 Claude 引用文件嘅機制。Anthropic 將 Claude Opus 4.7 描述為最新一代 Claude 模型之一,並建議複雜任務可考慮由 Claude Opus 4.7 開始,稱它是公司最有能力、可普遍使用嘅模型 [53][
65]。
至於來源追溯,關鍵係 Anthropic 嘅 citations 文件。文件表示,當 Claude 回答有關文件嘅問題時,可以提供詳細引用,幫助用戶追蹤同驗證回應中嘅資訊來源;前提係要提供文件並啟用 citations [77]。文件亦講到引用粒度:純文字同 PDF 文件預設會自動按句子切分;如果開發者需要更細控制,可以使用 custom content documents [
77]。
Anthropic PDF support 文件亦有一個同 provenance 有關嘅細節:Converse API 嘅視覺 PDF 分析要求啟用 citations [58]。另外,Anthropic Files API 讓開發者上載同管理 Claude API 使用嘅檔案,毋須每次請求都重新上載同一內容 [
52]。檔案管理本身唔證明引用一定準確,但如果配合已保存來源同 claim-level citations,就可以支援更強嘅審核軌跡。
Scratchpad 同 thinking block 唔等於證據來源
評估「研究來源追溯」時,最大陷阱之一係將模型嘅推理痕跡當成證據。兩者唔係同一回事。
OpenAI 嘅 reasoning best practices 文件表示,reasoning models 係內部進行推理,並建議開發者唔好要求模型 step by step 思考或解釋 chain of thought [42]。OpenAI reasoning models 指南則聚焦 reasoning effort、reasoning tokens、跨輪保留 reasoning state 等控制 [
43]。
Anthropic 對 thinking 機制有更多術語。其 prompt caching 文件表示,使用 extended thinking 配合 prompt caching 時,thinking blocks 有特殊行為 [55]。extended thinking 文件亦區分 Claude 4 及之後模型嘅 full thinking tokens 同 summarized output [
76]。Anthropic release notes 提到一個 display field,可在回應中省略 thinking content;Claude Code 文件亦表示,在 skill 內容加入
ultrathink 可為該 skill 啟用 extended thinking [66][
63]。
呢啲功能可以幫開發者調校複雜工作流,但 scratchpad、隱藏 chain of thought,或者推理摘要,都唔能夠證明某句 factual claim 來自某個 URL、文件或檔案。實務上,應將 reasoning artifacts 視為輔助背景,而唔係來源審核軌跡。
審核 AI 研究工作流:一張實用 checklist
與其單靠模型名落注,不如問成個流程經唔經得起覆核。
- 有冇可見嘅 claim-level citations。 對網頁來源資料,OpenAI Deep Research 文件要求向用戶展示時有清楚可見、可點擊嘅行內引用 [
23]。對 Claude 文件流程,Anthropic 文件記載在提供文件並啟用 citations 時可作引用 [
77]。
- 有冇可檢查嘅來源材料。 唔好只保存最終答案;要保留答案背後用過嘅材料。OpenAI Deep Research API 範例提到 source information,Anthropic Files API 則支援 Claude API 工作流重用已上載檔案 [
24][
52]。
- 引用粒度夠唔夠細。 有用嘅引用應該指向相關證據,而唔係一大包模糊來源。Anthropic 文件記載純文字同 PDF 預設按句子切分,亦可用 custom content documents 作更細控制 [
77]。OpenAI 亦另有準備可引用材料同提示模型格式化引用嘅指引 [
22]。
- 推理同證據要分開。 Reasoning controls 可以改善工作流表現,但 OpenAI 同 Anthropic 文件都將相關功能描述為 reasoning 或 thinking 機制,而唔係 source-linked claims 嘅替代品 [
42][
43][
55][
76]。
- 高風險內容仍要人手核對。 供應商文件描述引用功能同展示行為,但唔獨立保證每個 cited claim 都正確。重要輸出仍然要對返原始來源材料。
底線:今次係細緻比較,唔係排行榜
已審閱文件支持嘅,是一個有分寸嘅比較,而唔係 leaderboard。OpenAI 喺用戶可見網頁引用要求方面有較強文件證據,因為 Deep Research 明確要求:向用戶展示來自網頁嘅資料時,行內引用要清楚可見而且可以點擊 [23]。Anthropic 喺文件為本嘅 Claude citations 方面有較強文件證據,因為其文件講明提供文件並啟用 citations 後可作引用,並透過句子切分同 custom content 控制引用粒度 [
77]。
Claude Opus 4.7 有文件記載為 Anthropic 最有能力、可普遍使用、適合複雜任務嘅模型;但今次範圍內 OpenAI 嘅模型專門來源係 GPT-5.4,唔係 GPT-5.5 Spud [53][
65][
75]。如果目標係可審核嘅 AI 研究,先比較來源留存、引用粒度同驗證流程,再比較模型名,會實際得多。




