對推理模型嚟講,問題唔止係「最後答覆有冇跟指示」。更難嘅係:模型解題途中產生嘅中間推理痕跡,係咪都可以留喺預期範圍之內?
換句話講,一個模型最後回覆可以睇落好聽話、格式好靚、答案好流暢;但用戶睇唔到或者只睇到一部分嘅推理痕跡,可能遠比最後輸出更難控制。 所以,產品評估唔可以只睇 final answer quality、格式同 instruction-following,就當推理痕跡已經可治理。
目前最直接嘅模型行為證據,來自論文《Reasoning Models Struggle to Control their Chains of Thought》。研究者評估 OLMo-3-7B-RL-Zero-Math,發現佢喺後續 checkpoint 中控制 chain-of-thought 嘅能力,下降超過一個數量級。
呢個結果唔代表所有推理模型都一定會咁倒退,亦唔係直接測試 Spud。但佢足以挑戰一個常見假設:推理痕跡愈長、愈明顯,唔等於自然愈容易被引導。OpenAI 託管嘅 PDF 亦將 CoT 可控性同輸出可控性並排比較,進一步說明「控制推理痕跡」同「控制最後輸出」唔係同一個指標。
CoT 可控性低,唔可以簡單解讀成「安全」或者「危險」。一方面,OpenAI 託管嘅論文提到,即使模型獲得逃避監察嘅理由,亦可能未能成功避開監察;第三方報道亦指,OpenAI 視較弱嘅 CoT 操控能力為可能有利安全嘅訊號。
但產品治理角度就冇咁輕鬆。若模型唔能夠精準操控自己嘅推理痕跡,營運者亦可能更難喺痕跡層面塑形、約束同預測模型行為。實務上,應該直接量度 monitorability(可監察性)、controllability(可控性)同 predictability(可預測性),而唔係由流暢嘅最後答案反推模型已經受控。
另一篇立場論文亦警告,唔應該將中間 token 直接擬人化成真正嘅「思考」或「推理」痕跡。 從治理角度講,有意義嘅人類控制,重點係要平衡 AI 系統自主性、可監察性、可控性同可預測性,而唔係單純叫模型輸出更多字。
長推理痕跡唔係免費。Finding RELIEF 將其方法部分建基於避免長推理痕跡帶來嘅高成本。 Thought-Transfer 研究針對 chain-of-thought 推理模型嘅投毒攻擊,並報告指對抗性推理痕跡可以誘導模型生成過度冗長嘅推理痕跡。
現有證據唔支持「放心用長 CoT」;較合理方向係加控制、再驗證:
如果將來真係有 GPT-5.5/Spud 類模型,或者任何會暴露長推理痕跡嘅推理模型,較穩陣做法係:
最安全嘅預設係:長推理痕跡係需要評估嘅證據,唔係可以直接假設成立嘅治理。
Comments
0 comments