Слово «Google» может быть закодировано как один токен ["Google"] или как два токена вроде ["Go", "ogle"]["G", "o", "o", "g", "l", "e"]
Это порождает две взаимосвязанные проблемы.
Во-первых, слой эмбеддингов (векторного представления слов) не хранит полной информации о символах. Исследования показывают, что эмбеддинги LLM хорошо «знают» только первый символ каждого токена; дальше детализация на уровне букв резко падает . Когда модели нужно подсчитать буквы внутри токена, ей приходится восстанавливать последовательность символов из представления, которое и не было рассчитано на ее хранение. Более глубокие слои трансформера частично компенсируют этот провал: исследователи наблюдают отчетливый момент «прорыва», когда модель все-таки «произносит» токен по буквам, — но этот процесс ненадежен и хрупок
.
**Во-вторых, подсловные токенизаторы «практически не осведомлены о внутренней структуре токенов». ** В исследовании 2024 года с платформы Arxiv для описания этой уязвимости был придуман термин «проклятие токенизации»: токенизаторы по своей природе чувствительны к опечаткам, вариациям длины и слепы к внутреннему составу тех самых токенов, которые они создают . Слово «journalism» может оказаться единым токеном — модель никогда не училась раскладывать его на
j-o-u-r-n-a-l-i-s-m, поэтому, когда ее просят произнести слово по буквам, она просто «угадывает».
Итог — то, что увидели пользователи Google AI Overviews: ИИ, способный рассуждать о философии и писать программный код, убежденно заявляет, что в слове «Google» две буквы «p», а в слове «poop» — ровно одна «r» .
Если проблема в токенизации, напрашивается очевидное решение — перейти на посимвольные (character-level) или побайтовые (byte-level) модели, чтобы ИИ «видел» каждую букву. Такие модели существуют — например, ByT5 работает напрямую с сырыми байтами, — но не получили широкого распространения, потому что делают обучение и работу моделей значительно дороже .
При чисто посимвольной обработке длина последовательностей вырастает примерно в 3–5 раз, что пропорционально увеличивает вычислительные затраты и сильно затрудняет изучение моделью долгосрочных зависимостей и смысловых связей в тексте . Подсловные токенизаторы — это компромисс ради эффективности, который и сделал возможным появление современных LLM: они «сжимают» текст до управляемого размера словаря, сохраняя при этом достаточно смысла для беглой языковой генерации.
Исследователи в целом сходятся во мнении, что «идеального» токенизатора, скорее всего, не существует . Токенизаторы «регулярно порождают неоднозначные кодировки» и создают «репрезентационное несоответствие», которое носит глубоко архитектурный характер — это не простой баг, который можно исправить заплаткой
. Компромисс между точностью на уровне символов и смысловой беглостью, судя по всему, является фундаментальным для архитектуры трансформеров.
Провалы в правописании обнажают несколько структурных ограничений, которые выходят далеко за рамки Google AI Overviews.
LLM — это машины поиска закономерностей, а не манипуляторы символами. Подсчет букв — тривиальная алгоритмическая задача для любого компьютера, работающего по традиционному коду, но LLM не выполняют алгоритмов: они предсказывают наиболее вероятный следующий токен, опираясь на статистические паттерны обучающих данных . Когда модель просят подсчитать буквы, она генерирует ответ, похожий на правдоподобный, на основе усвоенных ассоциаций, а не реальной операции счета.
Уверенность никак не связана с правильностью. ИИ выдал «две» с идеальной грамматической гладкостью — и был объективно неправ. Это один из главных признаков «галлюцинирования» LLM: уверенные, правдоподобно звучащие ответы, не подкрепленные встроенным механизмом проверки. Сама Google еще в 2024 году подтверждала, что, хотя AI Overviews «спроектированы так, чтобы показывать только информацию, подтвержденную лучшими результатами из веба», они все равно могут неверно интерпретировать запросы или смысловые нюансы .
«Слепое пятно» является архитектурным, а не случайным. Все основные LLM, использующие подсловную токенизацию — включая модели от OpenAI, Anthropic и Meta, — демонстрируют схожие слабости в задачах на уровне символов: произнести слово задом наперед, подсчитать буквы, разгадать анаграмму . Увеличение масштаба моделей отчасти помогает, но сама предрасположенность к ошибкам никуда не исчезает
.
Подобные провалы могут выглядеть неловко — ИИ не способен правильно написать название собственной компании, — но индустрия не воспринимает их как кризис, потому что колоссальная ценность LLM лежит в совсем другой плоскости.
Свободная генерация текста, суммаризация, логические рассуждения, перевод, написание кода — все эти способности проистекают из умения модели работать на смысловом уровне, где абстракция на уровне токенов — не баг, а фича . Точность на уровне отдельных символов просто не является тем, подо что эти архитектуры изначально оптимизировались.
Практическое решение состоит в том, чтобы перенаправлять запросы на правописание и подсчет букв традиционному программному обеспечению, основанному на правилах, а не просить LLM обрабатывать их. Ряд версий AI Overviews уже пытается выявлять и переадресовывать такие запросы, хотя нашумевшие ошибки в мае 2026 года демонстрируют, что сам механизм выявления пока несовершенен . Отдельное исследование показало, что AI Overviews неправильно произносят слова наоборот в 52% случаев — и только 10% слов из трех и более слогов были «перевернуты» корректно
.
Google работает над исправлением конкретных проблем с подсчетом букв, ставших достоянием общественности . Но для тех, кто понимает компромисс, называемый токенизацией, главный урок заключается не в том, что Google выпустила продукт с багами. Он в том, что архитектура, приводящая в движение ИИ-революцию, имеет фундаментальное «слепое пятно» — и никто пока не нашел способа его устранить, не пожертвовав тем, что и делает LLM по-настоящему ценными.
Comments
0 comments