如果你看到「Claude Opus 4.7 vs. GPT-5.5 Spud,誰比較不會幻覺?」這類問題,先別急著找排行榜。這裡第一個問題不是誰贏,而是:兩邊的模型名稱是否都能被官方文件確認。
目前可支持的結論很窄,也很重要:Anthropic 已公開 Claude Opus 4.7,並在文件與公告中列出 claude-opus-4-7 這個 API 識別碼 [12][
16];但本次提供的 OpenAI 官方資料記載的是 GPT-5、GPT-5 mini、GPT-5.2-Codex 與 GPT-5.4 提示指南,沒有可核對的公開模型名為 GPT-5.5 Spud [
23][
25][
26][
29][
45]。換句話說,現在不能負責任地宣稱「Claude 贏」或「Spud 贏」。
先看可驗證結論
| 問題 | 目前證據能支持的回答 |
|---|---|
| Claude Opus 4.7 是否已被確認? | 是。Anthropic 文件記載 Claude Opus 4.7,並表示開發者可透過 Claude API 使用 claude-opus-4-7 [ |
| GPT-5.5 Spud 是否已被確認為 OpenAI 官方模型? | 在本次提供的 OpenAI 官方來源中,沒有。這些來源記載的是 GPT-5、GPT-5 mini、GPT-5.2-Codex 與 GPT-5.4 提示指南 [ |
| Spud 這個名稱出現在何處? | 出現在 Reddit 貼文與 OpenAI Developer Community 的功能請求討論串,而不是發布公告、模型卡或 API 模型文件 [ |
| 是否已有 Claude Opus 4.7 對 GPT-5.5 Spud 的幻覺基準? | 沒有提供同題、同環境、同評分規則的對測來源;公平測試還應把避答行為與事實錯誤分開評分 [ |
這並不代表未來或私人版本的 Spud 一定不存在;它只表示,以目前提供的證據,不能把 GPT-5.5 Spud 當成已驗證的 OpenAI 官方模型,也不能拿它來宣稱幻覺控制的勝負。
Claude Opus 4.7:官方資料能證明什麼?
Claude Opus 4.7 的證據基礎比較清楚,但要注意它不是一份跨廠商幻覺排行榜。Anthropic 表示開發者可以透過 Claude API 使用 claude-opus-4-7 [16];其文件也指出 Claude Opus 4.7 引入 task budgets,也就是任務預算機制 [
12]。
任務預算對產品控制很有用:它關乎模型在特定任務中可使用多少處理資源或推理投入。但這不等於公開、可校準的不確定性基準。它本身不能證明模型在遇到不確定事實時,會在什麼條件下承認不知道、要求補充資料,或停止猜測。
與誠實度較相關的一項訊號來自次級報導。Mashable 報導引述 Anthropic 的 Opus 4.7 system card,稱 Claude Opus 4.7 的 MASK honesty rate 為 91.7%,且相較先前的 Anthropic 模型與其他前沿 AI 模型,更不容易產生幻覺或迎合使用者 [14]。這對評估誠實性有參考價值,但仍不能回答 Claude 對 Spud 的問題,因為它不是針對已驗證 GPT-5.5 Spud 的同題對測。
GPT-5.5 Spud:目前比較像社群線索,不是官方測試對象
本次提供的 OpenAI 來源可確認幾個 GPT-5 系列相關項目:GPT-5、GPT-5 mini、GPT-5.2-Codex,以及 GPT-5.4 的提示指南 [23][
25][
26][
29][
45]。Spud 的線索則來自 Reddit 討論與 OpenAI Developer Community 的功能請求串 [
7][
8][
10][
28]。
這類社群貼文可以是觀察市場傳聞或使用者期待的線索,但不能取代官方模型頁、API model ID、模型卡或正式發布公告。對採購、開發或治理團隊來說,這一點尤其關鍵:如果模型名稱本身無法驗證,後面的幻覺率、能力比較與安全結論都站不穩。
為什麼「會不會避答」比單看正確率更重要
OpenAI 對幻覺問題的說明,對評測設計很有參考價值。OpenAI 指出,常見訓練與評估流程會獎勵猜答案,而不是獎勵承認不確定;模型在不確定時,應該表明不確定或要求釐清,而不是自信地給出錯誤資訊 [3]。
SimpleQA 的例子說明了為什麼只看正確率容易誤導。OpenAI 列出的數字中,gpt-5-thinking-mini 的避答率為 52%、正確率為 22%、錯誤率為 26%;o4-mini 的避答率為 1%、正確率為 24%、錯誤率為 75% [3]。前者答得比較少,但在該例中錯得也少得多 [
3]。對要把模型放進產品流程的團隊來說,這種取捨往往比「每題都很有自信」更重要。
真正該測的是校準的不確定性
幻覺控制不是叫模型什麼都拒答。好的模型應該在證據充分時回答,在問題描述不足時追問,在沒有足夠根據時避答。這就是校準的不確定性:不是保守到沒有用,也不是大膽到亂編。
研究也支持這個方向,但仍有但書。2024 年一項研究指出,在問答情境中,根據不確定性進行避答可以改善正確性、幻覺與安全表現 [1][
4]。I-CALM 把重點放在 epistemic abstention,也就是面對有可驗證答案的事實問題時,在不知道或證據不足時選擇避答,並指出目前大型語言模型仍可能在該避答時沒有避答 [
54]。Behaviorally calibrated reinforcement learning 相關研究也探討如何透過獎勵機制,鼓勵模型在不確定時承認不確定並避答 [
61]。
更廣泛的綜述則把 uncertainty quantification,也就是不確定性量化,視為偵測幻覺的重要工具;校準的不確定性有助使用者判斷何時可以相信模型、何時應轉交人工或再查證 [53][
55]。但重點是「校準」:太常說不知道的模型可能安全但不好用;從不避答的模型可能好用但風險高。
如果真的要比較 Claude 與 OpenAI 模型,應該這樣測
- 使用官方模型 ID。 Claude 端可測
claude-opus-4-7;OpenAI 端應使用已文件化的模型,例如 GPT-5 或 GPT-5 mini,而不是未驗證的 Spud 標籤 [16][
23][
25][
29]。
- 建立混合題組。 題目應包含可回答問題、條件不足問題與不可回答問題;避答研究關注的正是模型在高不確定性或無法安全回答時是否能拒絕猜測 [
1][
4]。
- 把避答獨立計分。 應分開統計正答、錯答、正確避答與錯誤避答。避答研究已定義 abstention accuracy、abstention precision 與 abstention recall 等指標 [
68]。
- 區分事實不確定與安全拒答。 拒絕有害內容,和承認某個事實答案缺乏證據,不是同一種行為;I-CALM 聚焦的是有可驗證答案之事實問題上的 epistemic abstention [
54]。
- 同時報告正確率、錯誤率與避答率。 OpenAI 的 SimpleQA 範例顯示,高避答率可能伴隨相近正確率但大幅較低錯誤率 [
3]。
- 固定測試環境。 檢索、瀏覽、工具使用、上下文長度與系統提示都會影響結果。若只給其中一個模型額外資料,測到的就不只是模型本身,而是整套設定。
常見問題
GPT-5.5 Spud 是真的嗎?
在本次提供的證據中,它不是已被 OpenAI 官方文件確認的模型。官方 OpenAI 來源記載的是 GPT-5、GPT-5 mini、GPT-5.2-Codex 與 GPT-5.4 提示指南;Spud 出現在 Reddit 貼文與開發者社群的功能請求討論串 [7][
8][
10][
23][
25][
26][
28][
29][
45]。
Claude Opus 4.7 是否比 GPT-5.5 Spud 更少幻覺?
不能從這批資料嚴格回答。Claude Opus 4.7 有官方文件可查 [12][
16],也有次級報導提到 91.7% 的 MASK 誠實率 [
14];但目前沒有已驗證的 GPT-5.5 Spud 測試對象,也沒有兩者共用的同題基準 [
7][
8][
10][
28][
68]。
採購或開發團隊該比較什麼?
應把 Claude Opus 4.7 與已文件化的 OpenAI 模型放在相同任務、相同工具、相同提示與相同評分規則下比較。核心指標不應只有正確率,還要同時看錯誤率與避答行為 [3][
68]。
結論
不要根據目前這批證據得出「Claude 勝」或「Spud 勝」的幻覺結論。能支持的說法是:Claude Opus 4.7 已有官方文件;GPT-5.5 Spud 尚未在引用的 OpenAI 官方資料中被驗證;而評估幻覺控制的更好方法,是獎勵校準的不確定性,包括在缺乏證據時能正確避答 [3][
12][
16][
23][
25][
29][
45][
68]。




