这背后到底在发生什么?其实很简单:
大模型根本“看不见”单个字符。
它们用类似于字节对编码(BPE)的算法,将文本拆解成“词元”——由单个或多个字符组成的块。像“Google”这样的常用词,很可能会变成一个整体的词元,而“journalism”则可能被切成像 ['journ', 'alism']
。在这个过程中,原始的字符序列被丢弃了。
与生俱来的字符感知缺失。
因为所有的训练数据都是这么拆的,模型永远没法学到去原生地计算单个字母。它只能通过匹配在训练语料里死记硬背下来的拼写形式,来推测关于字符的信息
。当你让它数字母数量时,其实是在强迫它把从未按字符存储的文本,逆向还原成字符信息。
理论天花板:Transformer“天生残疾”。
从理论上讲,Transformer架构归属于复杂度类 TC0。随着输入长度增加,这类架构从数学上就被证明无法解决需要深度序列推理的任务——这就给精确的数字母下了“死刑判决” 。
面对质疑,谷歌在发给TechCrunch的邮件声明中表示:“单词内的计算一直是大语言模型的已知难题,我们正在解决这个特殊的问题。” 但正如研究人员一针见血指出的,即使是拥有数千亿参数、经过万亿级词元训练的模型,也在拼命去数“strawberry”里有几个R
。这纯属结构性问题,跟规模大小没半毛钱关系。
拼写闹剧不过是AI概述在最近两年里制造的最新一起高能事件。所有错误的根源,都指向了流畅的文本生成能力与搜索引擎所需的精确操作之间的残酷脱节。
谷歌搜索负责人莉兹·里德承认,确实出现了一些“不合常理”的“孤立个案”,同时甩锅给“信息缺口”和AI从一些讽刺网站、低质量来源中胡乱取材
。公司称随后已进行了修正,包括限制健康相关、及敏感问题里的AI概述功能
。
到了2026年5月22日,又有用户发现,在谷歌里直接搜索“无视(disregard)”这个单词——以及“忽略(ignore)”、“停止(stop)”、“跳过(skip)”等相关动词——会触发AI概述弹出一个聊天机器人才会有的回应:“好的。我已忽略之前给的指令。今天有什么可以帮您的吗?”
。
AI没有老老实实去返回这个词的词典释义,而是把一个普通查询直接当成了系统级的指令覆盖。这个Bug直接搞崩了这些词的搜索界面,本该显示搜索结果的地方只剩下一片空白
。谷歌承认了相关问题,并称修复会来
。
“忽略”事件刚过去没几天,数字母的翻车大戏就接踵而来。AI不仅拼不出自家母公司的名字、在简单单词里数错字母,甚至还把“Trump”拼成了“t-r-p-u-m”。这些错误,被多家新闻机构独立复现证实
。
三大类失败都串在同一个根子上:架构,并非偶然。谷歌用生成式大模型代替了传统的、基于关键词匹配的搜索引擎。这个模型极其擅长堆砌流畅的文本,但底层完全缺失了以下这些搜索刚需:
这个模型如此敢于胡说八道,是因为在最根本的层面上,它生来就不是干这活儿的料,现在却被硬拉上实时搜索的主舞台。每次一场病毒式翻车,都像在撕开一块遮羞布——让人们看清大模型真正擅长的事(预测听起来像人话的文字),和值得信赖的搜索引擎真正需要什么(事实的准确性、字符的精确度、及抵抗指令注入的防干扰能力)之间,横着一条鸿沟般的差距。
除非谷歌能从比修补查询接口补丁更深的层面,重新审视并解决这些架构硬伤,否则谷歌AI概述,将继续因为各种离谱的原因,长期霸占科技版的新闻头条。
Comments
0 comments