AI 回答最危险的地方,往往不是写得生硬,而是写得太顺、太肯定、太像真的。美国国家标准与技术研究院(NIST)的 GenAI text-2026 页面说明,评测会关注生成文本与人类写作的难以区分程度、生成叙事的可信度,也提到通过可信但具误导性的叙事训练检测器 [1]。另有研究把 AI hallucinations 作为新的不准确来源来建立概念框架 [
2];新西兰政府数字化指引也把 hallucinations 视为与 misinformation、disinformation 相关但不同的问题 [
4]。
核心原则很简单:相信可核查来源,不要相信 AI 的自信语气。
AI 可以帮你起步,但不能替你证明
AI 很适合用来整理问题、列出可能资料、提醒你哪些细节需要核对。但只要内容涉及事实、数据、政策、医疗、法律、投资或新闻事件,判断标准就不是它写得是否自然,而是下面四件事:
- 这个说法能否追到原始来源?
- 原文是否真的支持 AI 的总结?
- 日期、地区、定义和上下文是否一致?
- 是否有另一个独立可靠来源可以互相印证?
如果一个关键说法只能追溯到 AI 自己,而找不到公开文件、原文、数据或当事机构,就应当先标为未证实。
5 步核查 AI 回答
1. 先拆成一条条可核查主张
不要把一整段回答直接判断为对或错。先拆开:数字归数字,日期归日期,结论归结论,引用归引用。
可以直接这样问 AI:
请把以上回答拆成逐条可核查主张。每条列出原始来源、发布机构或作者、日期、URL 和原文引句;如果没有来源,标记为未证实。
拆开之后,你通常会很快发现:哪些内容有明确出处,哪些只是 AI 顺着上下文补出来的。
2. 打开来源,确认它真的存在
有来源名称,不等于已经核实。你需要亲自打开链接或搜索原文,检查:
- URL 是否能打开;
- 标题、作者或机构、发布日期是否与 AI 的说法一致;
- 原文是否真的支持 AI 总结的那句话;
- 引用是否完整,还是被截取后改变了含义;
- AI 是否把推测、评论或背景材料写成了确定事实。
如果来源找不到、日期对不上,或原文意思和 AI 总结不一致,这条主张就要降级为未证实或有问题。
3. 尽量追到原始来源,不要停在二手摘要
优先核对最接近事件或数据本身的材料,例如:
- 政府公告、法规、监管文件;
- 法院文件、判决书、官方记录;
- 公司公告、年报、新闻稿;
- 学术论文、研究报告、数据集;
- 当事人、机构或研究团队的公开声明。
媒体报道、博客和社交平台帖子可以帮助理解背景,但如果你要引用、转发、写报告或据此做决定,最好继续追到原始文件。若许多文章互相引用,却没有一篇能链接到原文,就要视为高风险。
4. 用独立来源交叉验证
一个来源存在,不代表整个结论就安全。更稳妥的做法是做两层核查:
- 原始来源:先找官方文件、论文、公告、法院文件或数据集。
- 独立来源:再找另一个可靠来源核对,例如主流媒体、学术机构、监管机构或专业组织。
如果两边说法不一致,不要急着选边。先标记为有争议或暂不能确认,再看分歧来自时间不同、定义不同、地区不同,还是有人引用错误。
5. 给结果分级,而不是硬判真假
事实核查不一定马上得出真或假。更实用的做法,是给每条主张分级:
| 状态 | 如何判断 | 应该怎么做 |
|---|---|---|
| 已证实 | 可追到原始来源,且原文支持该主张 | 可以引用,但保留来源 |
| 未证实 | 有说法,但找不到足够来源 | 不要当事实转述 |
| 推测 | AI 或作者根据资料推论 | 明确标注为推测 |
| 有争议 | 多个来源说法不同 | 说明分歧,避免下定论 |
这一步可以防止 AI 把可能、估计、有人认为包装成已经确定的事实。
6 个最容易出错的地方
数字:百分比、金额、排名、增长率、样本量都要查。特别注意年份、地区、分母和数据来源。
时间:政策、价格、法规、产品功能和公司状况都可能过时。除了发布日期,也要看是否有更新日期。
地区:同一个词在不同国家和地区可能对应完全不同的制度。法律、税务、医疗、移民、隐私和投资内容尤其要小心。
定义:AI、用户、收入、风险、合规、有效等词,在不同行业可能有不同定义。核查时要看原文怎么界定。
引用句:看到引号不代表真实。要搜索原文,确认句子是否存在、是否完整、上下文是否支持 AI 的解读。
来源质量:来源存在,不等于可靠。要区分它是官方文件、学术研究、新闻报道、公司内容、个人博客,还是单纯转载。
高风险内容:不要只靠 AI
以下主题一旦出错,代价可能很高,应使用更严格的标准:
- 医疗诊断、药物、治疗方案;
- 法律意见、合同、诉讼、移民或税务;
- 投资、保险、财务建议;
- 人身安全、网络安全、紧急应对;
- 突发新闻、爆料、指控、政治内容。
法律领域已有现实风险:OECD.AI 记录过一起生成式 AI 幻觉影响法律程序的事件,并把其伤害描述为错误信息影响法律程序 [5]。这类内容可以让 AI 帮你整理问题清单,但不应让 AI 取代官方文件、专业人士意见或正式程序。
看到这些信号,先当高危处理
- 语气非常肯定,但完全没有来源;
- 只写研究显示、专家指出,却没有研究名、作者、机构或日期;
- 引用很多细节,但你找不到原文;
- 数字精确到小数点,却没有数据来源;
- 答案特别符合你的立场,让你很想马上相信;
- 来源之间互相引用,最后追不到原始文件;
- 内容涉及最新消息,却没有清楚的更新时间。
NIST 已将生成叙事的可信度,以及可信但具误导性的内容纳入文字评测脉络 [1]。换句话说:越像真的,越不能跳过查证。
可直接复制的核查 prompt
请只列出可公开核查的原始来源,不要自行推测。
请在每一个关键主张后面加上来源链接、发布机构、日期和原文引句。
如果你不确定,请直接写未知或未能确认,不要补完。
请把内容分成三栏:已证实、未证实、推测。
请指出以上回答最可能出错的地方,包括数字、日期、地区、定义和引用。
最后记住一句话
能追到原始来源,可以继续看;只能追到 AI 自己,不能当事实。
AI 最适合做检索起点、问题整理器和待核查清单生成器。真正决定一段内容是否可信的,仍然是公开、可核查、上下文完整的来源。




