AI sẽ đọc toàn bộ nguồn tin, chứ không chỉ tiêu đề hay tóm tắt, và kiểm tra xem nguồn đó trực tiếp ủng hộ, mâu thuẫn hay không liên quan đến tuyên bố. Nó có thể phát hiện ra sự xuyên tạc, trích dẫn có chọn lọc hoặc thiếu ngữ cảnh . Hệ thống ưu ái nội dung trích dẫn dữ liệu gốc với các nguồn được nêu tên rõ ràng, và có liên kết đến cũng như từ các trang web uy tín khác
. Nội dung của các tác giả vô danh trích dẫn "các chuyên gia trong ngành" không rõ tên tuổi, không có tài liệu tham khảo bên ngoài, về cơ bản là không thể xác minh và khó có khả năng được trích dẫn
.
Các hệ thống xác minh thông tin tự động sẽ đối chiếu các tuyên bố với nhiều nguồn độc lập. Nếu một tuyên bố được hỗ trợ bởi nhiều nguồn có thẩm quyền, nó có nhiều khả năng được trích dẫn hơn. Nếu các nguồn mâu thuẫn với nhau, hệ thống có thể hạ thấp độ tin cậy . Điều này không phải là về việc "đúng" ở một nghĩa tuyệt đối — mà là về sự đồng thuận giữa các nguồn mà AI cho là đáng tin cậy
. Hệ thống tìm kiếm sự trùng lặp, nhất quán và thống nhất giữa các nguồn, kiểm tra xem cùng một ý tưởng có xuất hiện ở nơi khác dưới một hình thức tương tự hay không
.
Hệ thống sẽ kiểm tra mọi trang ứng viên thông qua cùng năm bước kiểm tra: truy cập trang, đọc nó, rút ra câu trả lời rõ ràng từ nó, cân nhắc xem nguồn có đáng tin cậy về chủ đề cụ thể hay không, kiểm tra xem nó có đủ cụ thể để xác minh tuyên bố hay không, và xác nhận xem nó có đủ cập nhật cho câu hỏi hay không . Một trang phải phù hợp chặt chẽ với câu hỏi cụ thể đang được trả lời, chứ không chỉ là chủ đề chung chung
. Nội dung tập trung vào một khái niệm rõ ràng sẽ dễ dàng hơn cho AI để truy xuất và sử dụng lại so với các trang có chủ đề rộng hoặc hỗn hợp
. Một trang vượt qua tất cả các bước kiểm tra sẽ nhận được trích dẫn; một trang thất bại ở bất kỳ bước nào sẽ bị truy xuất, xem xét, và sau đó lặng lẽ bị loại bỏ
.
Khi hệ thống đã có các tài liệu phù hợp, nó sẽ sử dụng chúng để 'cắm rễ' cho phản hồi của mình — nghĩa là tạo ra câu trả lời dựa trên nội dung đã truy xuất thay vì chỉ dựa vào dữ liệu huấn luyện. Bước 'cắm rễ' này nhằm giảm thiểu các tuyên bố không được hỗ trợ và các 'ảo giác' (hallucination) của AI .
Bất chấp tất cả các bước kiểm tra này, độ chính xác của các công cụ tìm kiếm AI khi trích dẫn nguồn vẫn còn rất xa mức hoàn hảo. Một nghiên cứu của Columbia Journalism Review (Tạp chí Phê bình Báo chí Columbia) đã thử nghiệm tám công cụ tìm kiếm AI và phát hiện ra rằng chúng trích dẫn sai nguồn với tỷ lệ đáng báo động — khoảng 60% . Các công cụ này đôi khi bịa đặt hoàn toàn các trích dẫn hoặc lấy thông tin từ các phần không liên quan của một nguồn. Như một phân tích trong ngành đã nhận xét, các cơ chế xác minh là "không có cái nào là hoàn hảo"
.
Hiểu được quy trình này giúp giải thích lý do tại sao một số nguồn được trích dẫn còn những nguồn khác thì không. Hệ thống ưu tiên sự đồng thuận hơn tính mới lạ, uy tín hơn sự ẩn danh, và khả năng xác minh hơn sự tiện lợi. Nhưng tỷ lệ sai sót cao có nghĩa là người dùng vẫn nên xác minh các tuyên bố do AI cung cấp dựa trên nguồn gốc ban đầu — đặc biệt là đối với tin tức, số liệu thống kê và thông tin nhạy cảm về thời gian. AI có thể tìm thấy thông tin một cách nhanh chóng, nhưng việc quyết định xem liệu có an toàn để lặp lại thông tin đó hay không mới là phần khó khăn .
Comments
0 comments