La palabra "Google" podría codificarse como un único token ["Google"] o como dos tokens, por ejemplo ["Go", "ogle"]["G", "o", "o", "g", "l", "e"]
Esto genera dos problemas que se agravan mutuamente:
Primero, la capa de embedding no codifica completamente la información a nivel de carácter. Las investigaciones muestran que las capas de embedding de los LLM almacenan información sólida sobre caracteres solo para la primera letra de cada token; a partir de ahí, el detalle a nivel de carácter se degrada rápidamente . Cuando un modelo necesita contar letras dentro de un token, debe reconstruir la secuencia de caracteres a partir de una representación que nunca fue diseñada para preservarla. Las capas posteriores del Transformer lo compensan parcialmente —se ha observado un punto de "avance" distinto donde el modelo logra deletrear un token correctamente—, pero el proceso es poco fiable y frágil
.
Segundo, los tokenizadores de subpalabras son "en gran medida ajenos a la estructura interna de los tokens". Un estudio de 2024 de Arxiv acuñó la frase "la maldición de la tokenización" para describir esta vulnerabilidad: los tokenizadores son intrínsecamente sensibles a los errores tipográficos, a las variaciones de longitud y son ciegos a la composición interna de los propios tokens . Una palabra como "journalism" puede ser un único token: el modelo nunca aprendió a descomponerla en
j-o-u-r-n-a-l-i-s-m a nivel de carácter, así que cuando se le pide que la deletree, improvisa.
El resultado es lo que los usuarios vieron con AI Overview de Google: una IA que puede debatir sobre filosofía y escribir código con soltura, pero que insiste en que hay dos 'p' en "Google" y que "poop" contiene exactamente una 'r' .
Si el problema es la tokenización, la solución intuitiva es usar modelos a nivel de carácter o de byte, es decir, dejar que el modelo vea cada letra. Ese enfoque existe —modelos como ByT5 operan directamente sobre bytes sin procesar—, pero no se ha adoptado de forma generalizada porque encarece drásticamente el funcionamiento de los modelos .
Pasar a un procesamiento puro a nivel de carácter multiplica las secuencias de texto por un estimado de 3 a 5 veces, aumentando proporcionalmente los costes de computación y dificultando que el modelo aprenda dependencias a larga distancia y relaciones semánticas . Los tokenizadores de subpalabras son la solución de compromiso en eficiencia que hizo prácticos a los LLM modernos: comprimen el texto en tamaños de vocabulario manejables y preservan el significado suficiente para una generación de lenguaje fluida.
Los investigadores coinciden mayoritariamente en que probablemente no existe un tokenizador "perfecto" . Los tokenizadores "producen rutinariamente codificaciones no únicas" y crean un "desajuste representacional" profundamente arquitectónico, no un simple error que se pueda parchear
. El dilema entre la precisión a nivel de carácter y la fluidez semántica parece ser fundamental en la arquitectura de los transformadores.
Los fallos de ortografía sacan a la luz varias limitaciones estructurales que se aplican mucho más allá de AI Overview de Google.
Los LLM son detectores de patrones, no manipuladores de símbolos. Contar letras es una tarea algorítmica trivial para cualquier ordenador que ejecute código tradicional, pero los LLM no ejecutan algoritmos: predicen el siguiente token más probable basándose en patrones estadísticos de sus datos de entrenamiento . Cuando se les pide un recuento de letras, el modelo genera una respuesta que suena plausible a partir de asociaciones aprendidas, no una operación de conteo.
La confianza no guarda relación con la corrección. La IA respondió "dos" con una fluidez gramatical perfecta y, sin embargo, era objetivamente incorrecta. Esta es una seña de identidad de la alucinación de los LLM: respuestas convincentes y verosímiles sin un mecanismo de verificación incorporado. La propia Google reconoció en 2024 que, aunque AI Overviews está "diseñado para mostrar solo información respaldada por los mejores resultados web", aún puede malinterpretar las consultas o los matices del lenguaje .
El punto ciego es arquitectónico, no incidental. Todos los grandes LLM que utilizan tokenización de subpalabras —incluidos los modelos de OpenAI, Anthropic y Meta— muestran debilidades similares en tareas a nivel de carácter, como deletrear palabras al revés, contar letras o manejar anagramas . Aumentar la escala de los modelos ayuda en cierta medida, pero el sesgo persiste
.
Estos fallos pueden parecer embarazosos —una IA que no sabe deletrear el nombre de su propia empresa—, pero el sector no los trata como una crisis porque el enorme valor de los LLM reside en otra parte.
La generación de texto fluido, el resumen, el razonamiento, la traducción, la generación de código... todas estas capacidades provienen de la habilidad del modelo para trabajar a nivel semántico, donde la abstracción a nivel de token es una ventaja, no un error . La precisión a nivel de carácter simplemente no es para lo que están diseñadas estas arquitecturas.
La solución práctica consiste en redirigir las consultas de deletreo y conteo a software tradicional basado en reglas, en lugar de pedirle al LLM que las gestione. Varias implementaciones de AI Overviews ya intentan detectar y desviar este tipo de consultas, aunque los errores tan visibles de mayo de 2026 demuestran que la detección en sí misma sigue siendo imperfecta . Un estudio independiente reveló que AI Overviews de Google responde incorrectamente a las consultas para deletrear palabras al revés el 52 % de las veces, y solo el 10 % de las palabras con tres o más sílabas se invirtieron correctamente
.
Google está trabajando en soluciones para los problemas concretos de conteo que se hicieron públicos . Pero para cualquiera que entienda el dilema de la tokenización, la verdadera lección no es que Google haya lanzado un producto con errores. Es que la arquitectura que impulsa la revolución de la IA tiene un punto ciego fundamental, y nadie ha encontrado la forma de corregirlo sin sacrificar lo que hace valiosos a los LLM en primer lugar.
Comments
0 comments