生来の文字認識能力の欠如。 学習データがトークン化されているため、モデルは個々の文字を数えることをネイティブに学習しない。学習コーパスから記憶した綴りに対してパターンマッチングすることで、文字レベルの知識を近似するしかない 。文字数を尋ねることは、文字単位で保存されたことのないテキストから、文字情報を逆算するようモデルに強いる行為なのだ。
埋め込み層が文字構造を過小評価している。 研究によると、トークンの埋め込み表現は、特に各トークンの先頭文字を超えた文字レベルの情報を完全にはエンコードしていない。このため、文字に関する構成的な推論が信頼できないものになる 。
理論的な限界。 トランスフォーマーアーキテクチャは計算複雑性クラスTC0に属しており、入力長の増大に伴って深さに依存した推論を必要とするタスクを解くことが理論的に不可能である。これは、正確な逐次カウントに対する数学的な制約だ 。
「単語内の文字を数えることはLLMにとって既知の課題であり、この特定の問題を修正するために取り組んでいます」とGoogleはTechCrunchへのメール声明で述べた 。しかし研究者たちが指摘するように、数兆のトークンで学習した数千億のパラメータを持つモデルでさえ、「strawberry」の「R」の数を確実に数えるのに苦労している
。この問題は構造的なものであり、規模の問題ではないのだ。
今回のスペル騒動は、AI Overviewsが2年にわたって起こしてきた一連の重大なミスの最新エピソードに過ぎない。そのすべては、流暢なテキスト生成と、検索エンジンが実行すべき正確な操作との間の断絶に起因している。
Googleの検索部門責任者リズ・リードは、「ナンセンス」な「孤立した事例」を認め、「情報のギャップ」とAIが風刺的で低品質なソースから引用したことの複合的な原因だと説明した 。同社は健康関連や機密性の高いクエリに対するAI Overviewsを制限するなどの修正を行ったと発表した
。
2026年5月22日、ユーザーは「disregard」という単語や、「ignore」「dismiss」「skip」「stop」といった関連用語を検索すると、AI Overviewsがチャットボットのような応答を返すことを発見した:「了解しました。以前のプロンプトを無視しました。今日はどのようなご用件でしょうか?」。
辞書の定義を返す代わりに、AIは単純なクエリをシステムレベルの命令上書きとして解釈したのだ。このバグはこれらの検索語においてGoogleの検索インターフェースを破壊し、結果が表示されるべき場所に空白を表示させた 。Googleは問題を認識し、修正が行われると述べた
。
「disregard」事件のわずか数日後、文字数のカウントエラーが噴出した。AIは自身の親会社の名前の綴りすらできず、「Trump」を「t-r-p-u-m」と綴るなど、簡単な単語の文字数を間違えた 。これらのエラーは複数の報道機関によって独自に検証された
。
これら3つの失敗カテゴリーに共通するのは、偶発的ではなく、アーキテクチャに根差した問題だという点だ。Googleは従来のキーワードマッチング型検索エンジンを、流暢なテキスト生成には優れているが、以下のような能力を欠いた生成LLMに置き換えてしまった:
モデルは、根本的なレベルで、現在ライブ検索環境で実行を求められているタスクを処理するために構築されていないため、自信満々で誤った答えを生成する。それぞれのバイラルな失敗は、LLMが得意とすること(もっともらしいテキストの予測)と、信頼できる検索エンジンに必要なこと(事実の正確性、文字の精度、命令注入への耐性)との間のギャップを露呈させている。
個々のクエリタイプへのパッチ適用以上の深いレベルでこれらのアーキテクチャ上の限界に対処しない限り、AI Overviewsはおそらく、今後も間違った理由で話題を提供し続けるだろう。
Comments
0 comments