AI 回答最有价值的地方,是帮人快速进入一个问题:理清概念、搭框架、列线索。但风险也正在这里——语言越流畅,越容易让人误以为它已经等同于查证过的事实。
从现有斯坦福数据看,AI 可靠性不能用一个简单的“正确率”概括。它取决于具体任务、可用资料、模型或工具的设计,以及回答之后有没有人工核查。![]()
先给结论:不存在一个简单的“准确率”
问“AI 回答有多少百分比是对的”,听起来直接,但很容易误导。普通知识问答、总结你提供的一段文字、检索法律资料、判断医疗或金融问题,风险等级完全不同。
斯坦福 AI Index 2025 指出,用负责任 AI 标准评估 AI 系统的做法仍不普遍。新的评估基准,如 HELM Safety 和 AIR-Bench,正在出现;但早期用于评估幻觉和真实性的 HaluEval、TruthfulQA 等测试,已经不足以全面衡量现代大语言模型。![]()
换句话说,更好的问题不是“AI 到底准不准”,而是:它在什么任务上、依据什么来源、经过什么核查后,能不能被信任?
幻觉数据说明了什么
所谓“幻觉”,是指 AI 生成了看似合理、甚至语气非常笃定,但实际上错误、虚构或没有依据的内容。它麻烦的地方在于:很多幻觉并不像胡言乱语,反而像一段写得很专业的说明。
一项 2025 年发表的斯坦福研究考察了法律领域领先的 AI 研究工具,发现不同系统的幻觉率为 17%至33%。
同一研究还显示,表现最好的被测系统在 65%的情况下是正确的;另一个系统准确率为 42%;还有一个系统在超过 60%的查询中给出了不完整回答。![]()
这些数字不能直接当作“所有聊天机器人的错误率”。但它们提醒我们:即使是面向专业场景、并接入资料来源的 AI 工具,也可能给出错误或不完整的结果。![]()
有引用,不等于已经核实
很多人看到 AI 回答里列出来源,就会放心一些。但来源本身不是“免检章”。真正要看的是:这个来源是否支持那一句具体说法。
传统网页搜索会给出多个结果,你需要自己比较来源。AI 则常常把这个过程压缩成一段完整答案,效率更高,但也把核查责任转移给了用户。
Comments
0 comments