AI 答案最容易令人誤會嘅地方,係佢可以講得好流暢、好肯定,但流暢唔等於已經查證。現有史丹福數據顯示,AI 可靠性唔係一個全球通用百分比,而係取決於你問咩、AI 用咩資料、同之後有冇人手核對。![]()
換句話講:AI 可以係好好嘅起點,但唔應該自動當成終點。
先講結論:冇一個簡單命中率
如果有人話「AI 答案有幾多幾多百分比一定正確」,其實好容易誤導。史丹福 AI Index 2025 指出,用 Responsible AI(負責任 AI,即評估安全、可靠、偏差等風險)準則去評估 AI 系統,現時仍未廣泛標準化;HELM Safety、AIR-Bench 等新 benchmark 開始出現,但 HaluEval、TruthfulQA 呢類較早期測試,已經不足以全面評估現代大型語言模型(LLM)。![]()
所以更實際嘅問題唔係「AI 總體準唔準」,而係:
- 你問嘅係普通知識,定係專業判斷?
- AI 有冇用到可核實來源?
- 答案會唔會影響法律、醫療、財務或安全決定?
- 你有冇開返來源逐句核對?
一段文章摘要、一個旅遊靈感、一份法律研究、同一個醫療決定,唔可以用同一把尺量。
AI「幻覺」點解咁麻煩?
所謂 AI 幻覺,唔一定係答案寫得亂七八糟;相反,最危險嘅情況係佢講到似層層,但內容其實錯、無根據,或者引用支持唔到嗰句說法。
2025 年一項史丹福研究檢視領先嘅法律 AI 研究工具,發現不同系統嘅幻覺率介乎 17% 至 33%。
同一研究入面,表現最好嘅系統喺 65% 個案答啱;另一個系統準確率為 42%;仲有一個系統喺超過 60% 查詢入面交出不完整答案。![]()
呢啲數字唔係話所有聊天機械人都有同一錯誤率。重點係:連專門用嚟做法律研究、而且有接駁資料來源嘅工具,都仍然可以答錯或者答漏。![]()
有來源,唔代表已經有證據
傳統網上搜尋,你會見到多個結果,自己比較來源。AI 答案就通常將呢個過程壓縮成一段「整理好」嘅文字。咁做慳時間,但亦令查證責任變得更重要。
Comments
0 comments