Esto es lo que sucede bajo el capó:
Los LLM no ven caracteres individuales. En su lugar, descomponen el texto en tokens —fragmentos de uno o más caracteres— usando algoritmos como la Codificación por Pares de Bytes (BPE). Una palabra común como "Google" puede convertirse en un único token, mientras que "periodismo" podría dividirse en piezas más pequeñas como ['perio', 'dismo']. El modelo nunca almacena ni procesa la secuencia de caracteres en bruto.
No hay una conciencia innata del carácter. Al entrenarse con datos tokenizados, el modelo no aprende de forma nativa a contar letras individuales. Solo puede aproximar un conocimiento a nivel de carácter mediante el emparejamiento de patrones con las ortografías memorizadas de su corpus de entrenamiento . Cuando le preguntas cuántas letras hay, estás forzando al modelo a aplicar ingeniería inversa sobre una información textual que nunca se almacenó carácter por carácter.
La capa de incrustación infra-representa la estructura de los caracteres. Las investigaciones demuestran que las incrustaciones de tokens no codifican por completo la información a nivel de carácter, en especial más allá de la primera letra de cada token. Esto hace que el razonamiento compositivo sobre las letras no sea fiable .
Límites teóricos. Las arquitecturas de transformador pertenecen a la clase de complejidad TC0, lo que las hace teóricamente incapaces de resolver tareas que exigen un razonamiento que dependa de la profundidad a medida que la entrada crece en longitud —una restricción matemática para el conteo secuencial preciso .
"Contar letras dentro de las palabras ha sido un desafío conocido para los LLM, y estamos trabajando para solucionar este problema en particular", declaró Google al medio TechCrunch en un comunicado por correo electrónico . Pero como han señalado los investigadores, incluso los modelos con cientos de miles de millones de parámetros entrenados con billones de tokens tienen dificultades para contar de forma fiable el número de 'R' en 'strawberry'
. El problema es estructural, no una cuestión de escala.
Este fiasco ortográfico es solo el episodio más reciente en un historial de dos años de fallos sonados de AI Overviews, todos derivados de la misma desconexión entre la generación de texto fluido y las operaciones precisas que un motor de búsqueda necesita realizar.
A los pocos días del despliegue en EE. UU. en mayo de 2024, AI Overviews generó una serie de respuestas virales sin sentido :
La responsable de Búsqueda de Google, Liz Reid, reconoció que eran "ejemplos aislados" y "sin sentido", y culpó a una combinación de "vacíos de información" y a que la IA extraía datos de fuentes satíricas y de baja calidad . La compañía afirmó haber hecho correcciones, incluyendo la limitación de AI Overviews para consultas de salud y sensibles
.
El 22 de mayo de 2026, los usuarios descubrieron que al buscar la palabra "disregard" (ignorar) —junto con términos relacionados como "ignore", "dismiss", "skip" y "stop"— AI Overviews mostraba una respuesta típica de chatbot: "Entendido. He ignorado tu instrucción anterior. ¿En qué puedo ayudarte hoy?" .
En lugar de devolver la definición del diccionario, la IA interpretó una simple consulta como una anulación de instrucciones a nivel del sistema. El fallo rompió la interfaz de búsqueda de Google para esos términos, mostrando un espacio en blanco donde deberían haber estado los resultados . Google reconoció el problema y dijo que una solución estaba en camino
.
Investigadores de seguridad lo identificaron como un caso clásico de inyección de instrucciones (prompt injection): el modelo confundía términos de búsqueda normales con comandos dirigidos a un asistente de IA .
Apenas unos días después del incidente de "disregard", surgieron los errores de conteo de letras. La IA no podía deletrear el nombre de su propia empresa matriz, contaba mal las letras en palabras sencillas e incluso escribió mal "Trump" como "t-r-p-u-m" . Los errores fueron verificados de forma independiente por múltiples medios de comunicación
.
El hilo conductor de las tres categorías de fallos es arquitectónico, no anecdótico. Google sustituyó un motor de búsqueda tradicional (basado en la coincidencia de palabras clave) por un LLM generativo que destaca en la generación de texto fluido, pero que carece de la maquinaria para:
El modelo produce respuestas erróneas con total seguridad porque nunca fue construido —a un nivel fundamental— para manejar las tareas que ahora se le pide que realice en un entorno de búsqueda en vivo. Cada fracaso viral expone la brecha entre aquello para lo que los LLM son buenos (predecir texto que suena plausible) y lo que un motor de búsqueda fiable requiere (precisión factual, exactitud en los caracteres y resistencia a la inyección de instrucciones).
Hasta que estas limitaciones arquitectónicas se aborden a un nivel más profundo que el de poner parches a tipos de consulta individuales, AI Overviews probablemente seguirá generando titulares por las razones equivocadas.
Comments
0 comments