Đối với các điểm dữ liệu đơn giản như năm xuất bản, quốc gia hoặc số lượng người tham gia, AI hoạt động tốt. Nó gặp khó khăn hơn với dữ liệu phức tạp như mô tả kết quả hoặc chi tiết can thiệp .
Trong một dự án nghiên cứu lâm sàng thực tế, việc trích xuất tự động bằng AI từ các tài liệu PDF đã giúp tăng tốc độ lên gấp 500 lần so với trích xuất thủ công, đồng thời cho kết quả chính xác hơn và giảm đáng kể công sức lao động thủ công . Dự án này đã huấn luyện một mô hình ngôn ngữ tiền huấn luyện chuyên ngành để nhận dạng 20 thực thể có liên quan (ví dụ: tên thuốc, ngày bắt đầu và kết thúc thử nghiệm)
.
Khả năng khôi phục cấu trúc bảng biểu là điểm yếu lớn. Một bài kiểm tra trên 200 tài liệu thực tế cho thấy các trình phân tích PDF cơ bản đạt điểm 0.000 trong việc khôi phục cấu trúc bảng — văn bản được trích xuất, nhưng mối quan hệ giữa hàng và cột bị mất . Các bố cục phức tạp, PDF được quét (scanned) mà không có lớp văn bản phù hợp và các tài liệu nhiều cột gây ra nhiều lỗi nhất. Nếu không có ngữ cảnh bố cục, các LLM có thể 'ảo tưởng' ra các giá trị hoặc tạo ra các lỗi thiếu sót, phân loại sai và sai sót về mặt thực tế
.
Các thách thức dai dẳng khác bao gồm sự thiếu linh hoạt của các phương pháp dựa trên quy tắc và việc thiếu các bộ dữ liệu chú thích theo từng lĩnh vực cụ thể để huấn luyện các phương pháp dựa trên học máy .
Một số công cụ AI hiện đang nhắm mục tiêu cụ thể vào quy trình tổng quan hệ thống (systematic review) và phân tích gộp (meta-analysis):
AI có thể trích xuất dữ liệu, phương pháp luận và kết quả từ các nghiên cứu PDF với độ chính xác hữu ích và tốc độ vượt trội. Nhưng nó vẫn chưa đủ tin cậy để thay thế hoàn toàn việc đánh giá của con người cho các ứng dụng quan trọng như hồ sơ phê duyệt hoặc bảng dữ liệu tổng quan hệ thống cuối cùng — đặc biệt khi có sự tham gia của các bảng biểu và bố cục phức tạp. Việc kiểm định dữ liệu do AI trích xuất bằng con người vẫn là phương pháp được khuyến nghị cho các trường hợp sử dụng quan trọng .
Comments
0 comments