你問 AI,一秒得到一段語氣肯定、結構完整的回答。真正需要小心的是:文字順,不代表資料已被查證。AI 可以幫你快速掌握方向,但一旦把它的回答直接當成事實、引用或決策依據,風險就會上升。
先說結論:沒有簡單的「正確率」
問「AI 回答有幾成可信」其實太籠統。一般知識問答、整理你提供的文件、法律研究、醫療或財務判斷,風險完全不同。
史丹佛 AI Index 2025 指出,用負責任 AI(Responsible AI)標準評估 AI 系統仍不普遍;HELM Safety、AIR-Bench 等新基準正在出現,但 HaluEval、TruthfulQA 等較早的測試,單靠它們仍不足以完整評估現代大型語言模型(LLM)。![]()
所以,較好的問題不是「AI 到底準不準」,而是:它正在回答哪一類問題?有沒有可檢查的來源?回答後是否有人驗證?
幻覺問題:法律工具也不能免疫
所謂 AI「幻覺」,是指模型產生看似合理、其實不正確或缺乏依據的內容。麻煩在於,這些錯誤常常寫得很像真的。
一項 2025 年發布的史丹佛研究,評估法律領域的主要 AI 研究/檢索工具,發現不同系統的幻覺率落在 17% 至 33%。
同一研究中,表現最佳的受測系統在 65% 的情況下正確;另一個系統正確率為 42%;還有一個系統在超過 60% 的查詢中給出不完整答案。![]()
這些數字不是所有聊天機器人的整體錯誤率。它們提醒我們:即使是專門用途、會搭配資料來源的 AI 檢索工具,仍可能給出錯誤或不完整結果。![]()
有來源,不等於已經查證
傳統網路搜尋會列出多個結果,讓你比較不同來源。AI 則常把這個過程濃縮成一段單一答案。這很省時間,但也把查核責任推到使用者身上。
重點不只是「AI 有沒有列來源」,而是:那個來源是否真的支持該句話。特別是數字、排名、日期、法律說法、研究結論與直接引文,都應打開來源,找到能支撐該主張的原文位置。
如果來源只是主題相近,卻沒有證明 AI 的具體說法,那就不能算已驗證。
企業為什麼也擔心 AI 不準
史丹佛 AI Index 2025 提到,在企業使用 AI 時,「不準確」是重要疑慮之一;64% 的受訪主管將其列為問題。
報告也引用 AI Incidents Database 的資料:2024 年通報的 AI 相關事件為 233 件,比 2023 年增加 56.4%。
Comments
0 comments