Đây là những gì đang diễn ra bên dưới lớp vỏ hào nhoáng:
Các LLM không nhìn thấy từng ký tự riêng lẻ. Thay vào đó, chúng chia văn bản thành các token – các khối gồm một hoặc nhiều ký tự – sử dụng các thuật toán như Mã hóa cặp byte (Byte-Pair Encoding - BPE). Một từ phổ biến như "Google" có thể trở thành một token duy nhất, trong khi "journalism" có thể tách thành các mảnh token phụ như ['journ', 'alism']. Mô hình không bao giờ lưu trữ hoặc xử lý chuỗi ký tự thô.
Không có nhận thức ký tự bẩm sinh. Bởi vì dữ liệu huấn luyện được mã hóa thành token, mô hình không bao giờ học cách đếm từng chữ cái một cách tự nhiên. Nó chỉ có thể ước lượng kiến thức cấp độ ký tự bằng cách đối sánh mẫu dựa trên các cách đánh vần đã ghi nhớ từ kho ngữ liệu huấn luyện của nó . Khi bạn yêu cầu đếm chữ cái, bạn đang buộc mô hình phải suy ngược thông tin ký tự từ văn bản chưa bao giờ được lưu trữ theo từng ký tự.
Lớp nhúng (embedding layer) thể hiện không đầy đủ cấu trúc ký tự. Nghiên cứu cho thấy rằng các lớp nhúng token không mã hóa đầy đủ thông tin cấp độ ký tự, đặc biệt là vượt ra ngoài ký tự đầu tiên của mỗi token. Điều này làm cho việc suy luận thành phần về các chữ cái trở nên không đáng tin cậy .
Các giới hạn lý thuyết. Các kiến trúc Transformer thuộc về lớp độ phức tạp TC0, khiến chúng về mặt lý thuyết không có khả năng giải quyết các nhiệm vụ đòi hỏi suy luận phụ thuộc vào độ sâu khi độ dài đầu vào tăng lên – một ràng buộc toán học đối với việc đếm tuần tự chính xác .
Google nói với TechCrunch trong một tuyên bố qua email rằng: "Việc đếm trong các từ là một thách thức đã được biết đến đối với các LLM và chúng tôi đang nỗ lực để khắc phục vấn đề cụ thể này" . Nhưng như các nhà nghiên cứu đã lưu ý, ngay cả những mô hình có hàng trăm tỷ tham số được huấn luyện trên hàng nghìn tỷ token cũng gặp khó khăn trong việc đếm số chữ 'R' trong 'strawberry' một cách đáng tin cậy
. Vấn đề mang tính cấu trúc, không phải là vấn đề về quy mô.
Sự cố chính tả chỉ là tình tiết mới nhất trong chuỗi hai năm với các lỗi AI Overviews nghiêm trọng, tất cả đều bắt nguồn từ cùng một sự không tương thích giữa khả năng tạo văn bản trôi chảy và các thao tác chính xác mà một công cụ tìm kiếm cần thực hiện.
Chỉ trong vài ngày sau khi triển khai tại Mỹ vào tháng 5 năm 2024, AI Overviews đã tạo ra một loạt các câu trả lời vô nghĩa lan truyền nhanh chóng :
Người đứng đầu bộ phận Tìm kiếm của Google, Liz Reid, thừa nhận đó là "những ví dụ riêng lẻ" "vô nghĩa" và đổ lỗi cho sự kết hợp của "lỗ hổng thông tin" và việc AI trích xuất từ các nguồn châm biếm và chất lượng thấp . Công ty cho biết đã thực hiện các chỉnh sửa, bao gồm hạn chế AI Overviews cho các truy vấn liên quan đến sức khỏe và nhạy cảm
.
Vào ngày 22 tháng 5 năm 2026, người dùng phát hiện ra rằng việc tìm kiếm từ "disregard" – cùng với các thuật ngữ liên quan như "ignore", "dismiss", "skip" và "stop" – đã kích hoạt AI Overviews đưa ra một phản hồi kiểu chatbot: "Đã hiểu. Tôi đã bỏ qua lệnh trước đó của bạn. Tôi có thể giúp gì cho bạn hôm nay?" .
Thay vì trả về định nghĩa từ điển, AI đã diễn giải một truy vấn đơn giản như một lệnh ghi đè cấp hệ thống. Lỗi này đã phá vỡ giao diện tìm kiếm của Google đối với các cụm từ đó, hiển thị một khoảng trống thay vì kết quả tìm kiếm . Google đã thừa nhận sự cố và cho biết bản sửa lỗi sắp được tung ra
.
Các nhà nghiên cứu bảo mật nhận ra đây là một kịch bản tiêm nhiễm lệnh (prompt injection) kinh điển – mô hình đã nhầm lẫn các cụm từ tìm kiếm thông thường với các lệnh dành cho trợ lý AI .
Chỉ vài ngày sau sự cố "disregard", các lỗi đếm chữ cái đã xuất hiện. AI không thể đánh vần tên của chính công ty mẹ mình, đếm sai chữ cái trong các từ đơn giản, và thậm chí còn đánh vần sai "Trump" thành "t-r-p-u-m" . Các lỗi này đã được nhiều hãng tin xác minh một cách độc lập
.
Sợi chỉ chung xuyên suốt cả ba loại thất bại là về kiến trúc, không phải ngẫu nhiên. Google đã thay thế một công cụ tìm kiếm đối sánh từ khóa truyền thống bằng một LLM tạo sinh vượt trội trong việc tạo văn bản trôi chảy nhưng lại thiếu bộ máy cần thiết cho:
Mô hình tự tin đưa ra các câu trả lời sai bởi vì về cơ bản, nó chưa bao giờ được xây dựng để xử lý các nhiệm vụ mà giờ đây nó được yêu cầu thực hiện trong môi trường tìm kiếm trực tiếp. Mỗi thất bại lan truyền đều phơi bày khoảng cách giữa những gì LLM làm tốt (dự đoán văn bản nghe có vẻ hợp lý) và những gì một công cụ tìm kiếm đáng tin cậy yêu cầu (độ chính xác thực tế, độ chính xác ký tự và khả năng chống lại việc tiêm nhiễm lệnh).
Cho đến khi những hạn chế kiến trúc đó được giải quyết ở cấp độ sâu hơn là chỉ vá các loại truy vấn riêng lẻ, AI Overviews có lẽ sẽ tiếp tục tạo ra các tiêu đề báo chí vì những lý do sai lầm.
Comments
0 comments