沒有天生的字母感知力。 因為訓練資料在餵給模型前都已經過分詞化,模型從來沒有學過要如何原生的計算個別字母。它只能靠著比對記憶中的拼字模式,去「近似」地推敲出字母層次的知識 。當你要求模型計算字母數量,等於是要它從一堆根本沒逐字儲存的文字中,逆向工程出字母資訊。
對於外界的質疑,Google 在一封寄給 TechCrunch 的電子郵件聲明中表示:「計算單字中的字母數,一直是大型語言模型已知的挑戰,我們正在努力修復這個特定的問題。」 但研究人員早已指出,即使是擁有數千億參數、用數兆個分詞訓練出的超大模型,依然很難可靠地算出「strawberry」這個字裡到底有幾個 R
。這道難題是結構性的,無關規模大小。
拼字災難只是最新一集,回顧過去兩年,AI 總覽頻頻發生重大出包,全都源自於同一個核心斷層:流暢的文字生成能力,與一臺搜尋引擎必須執行的精準操作之間,有著巨大的鴻溝。
Google 搜尋部門負責人 Liz Reid 為此親上火線,承認這些「零星的案例」內容「毫無意義」,並將其歸咎於「資訊落差」以及 AI 抓取到諷刺或低品質來源的內容 。公司表示已進行修正,包括限制 AI 總覽在健康相關及敏感問題上的應用
。
2026 年 5 月 22 日,有用戶發現,只要搜尋「disregard」這個單字——以及「ignore」、「dismiss」、「skip」、「stop」等相關詞彙——就會觸發 AI 總覽產出一個聊天機器人風格的回應:「瞭解了。我已忽略您先前的提示。請問今天我能為您做些什麼?」
它不但沒有回傳字典定義,反而把一個單純的搜尋查詢,誤解成系統層級的指令覆蓋。這個錯誤甚至破壞了 Google 搜尋的介面,讓這些關鍵字的搜尋結果頁面出現一大片空白 。Google 已坦承此問題並表示修復即將到來
。
就在「disregard」事件發生後幾天,字母計數錯誤緊接著爆發。AI 不僅拼不出自家母公司名稱,連簡單單字的字母都能算錯,甚至還把「Trump」拼成「t-r-p-u-m」。這些錯誤獲得了多家新聞媒體的獨立驗證
。
貫穿這三大類失敗的共同線索,是架構層面的問題,並非偶然。Google 用一個擅長生成流暢文字的語言模型,取代了傳統的關鍵字比對搜尋引擎,但這種模型先天缺乏以下關鍵能力:
這個模型之所以會自信地給出錯誤答案,正是因為它在最根本的層面上,從來就不是為了處理這些在即時搜尋環境中被迫執行的任務而設計的。每一次爆紅的失敗,都暴露了大型語言模型真正的強項(預測聽起來合理的文字)與一個可信賴的搜尋引擎所需具備的條件(事實準確、字元精準、對指令注入具備抵抗力)之間的巨大差距。
只要這些架構上的根本限制沒有得到更深層次的解決,而非只是針對個別查詢類型進行事後修補,AI 總覽恐怕還會一再登上媒體頭條——而且總是出於錯誤的原因。
Comments
0 comments