当你向AI聊天机器人询问关于补剂或肽类药物的健康问题时,得到的答案可能听起来像是中立的、来自广大网友的集体智慧。但在这背后,一场看不见的信任争夺战正在激烈展开。公司们正系统性地操纵这些AI模型的“饲料”——具体而言,就是Reddit上庞大的内容档案 [4, 5]。
战场不再是搜索引擎的结果页面,而是大语言模型(LLM)的训练数据本身。肽类和补剂公司已被发现部署了精密的水军(astroturfing)行动,在Reddit社区中大量发布虚假帖子,目的就是让这些内容被AI聊天机器人抓取,并在日后作为“权威建议”复述给用户 [4, 5]。
新策略:播种AI的训练数据,而非搜索结果
这种手段代表了一种更隐蔽的新型营销方式。它不再是传统的SEO,其目标不是让某个网页在谷歌上排名靠前,而是“AI引擎优化”(AI Engine Optimization, 简称AEO),一种将商业信息直接植入ChatGPT和谷歌Gemini等模型训练数据集的影子操作 [3, 4]。
这种漏洞之所以存在,源于Reddit与AI行业之间涉及数十亿美元的关系。2024年,Reddit与谷歌签署了每年约6000万美元的内容授权协议,随后又与OpenAI达成了每年约7000万美元的独立合作 [1, 7]。这些协议为AI公司提供了直通实时、结构化人类对话的管道——而这恰恰是那些公司想要污染的数据类型。
操纵如何实操
版主和独立研究人员揭露的操作手册包含以下几步:
- 协调运作的机器人网络: 营销公司部署了复杂的机器人网络,制造虚假讨论。这些帖子并非随机垃圾信息,而是精心编写的对话,看起来像健康爱好者之间的真实产品推荐
。
- 瞄准高价值社区: 主要目标是类似r/biohackers这样的板块,这是一个专门讨论实验性药理学和补剂的Reddit社区。公司明白,在这个特定社区“播种”,能直接渗透进用户向AI提出的健康类查询中
。
- 数据清洗效应: 当AI模型在这些被污染的Reddit数据上训练时,它学会的不仅仅是事实——它学会了模仿虚假的共识。用户如果问“减肥最好的肽是什么?”,收到的AI答案可能就在无意中复述了几周前植入Reddit的水军营销信息 [3, 4]。
导火索:r/biohackers发禁令
这种操纵最终变得过于明目张胆,以至于Reddit的志愿版主们无法视而不见。2026年5月底,r/biohackers的版主做出了一个严厉的决定:全面禁止关于肽类和激素替代疗法(HRT)的独立新帖 [4, 5]。
版主明确表示,禁令的原因并不是因为肽类药物的科学本身存在危险,而是因为“这些行业的公司协调一致,企图操纵社区内容”,以此影响大语言模型对用户查询的回答
。社区内部的信任已经被营销者摧毁,这些人把Reddit当成了AI操纵的训练场。
Reddit的反击:从版主到法庭
这场战斗不仅仅由志愿版主在打。Reddit公司领导层已经发起了一场多管齐下的法律战,以保护其数据生态系统免受未经授权的抓取——这些抓取行为正是操纵链条的燃料。
尽管Reddit很乐意通过授权协议出售其数据给合作伙伴,但它对未经授权的抓取者异常强硬。该公司将数据抓取公司SerpApi、Oxylabs和AWMProxy比作“银行抢劫犯”和“数据洗钱者”,指控他们“以工业规模非法规避”其保护措施,将Reddit内容转售给第三方 [2, 13]。
Comments
0 comments