Dalam proyek studi klinis nyata, ekstraksi otomatis bertenaga AI dari dokumen PDF menghasilkan peningkatan kecepatan 500 kali lipat dibandingkan ekstraksi manual, dengan hasil yang lebih presisi dan pengurangan signifikan dalam upaya manual . Proyek ini melatih model bahasa khusus domain untuk mengenali 20 entitas relevan (misalnya, nama obat, tanggal mulai dan berakhirnya uji coba)
.
Pemulihan struktur tabel adalah kelemahan utama. Tolok ukur pada 200 dokumen nyata menunjukkan bahwa parser PDF dasar mendapat skor 0,000 dalam pemulihan struktur tabel—teks berhasil diambil, tapi hubungan baris-kolomnya hilang . Tata letak rumit, PDF pindaian tanpa lapisan teks yang memadai, dan dokumen multi-kolom menyebabkan kesalahan paling banyak. Tanpa konteks tata letak, LLM bisa berhalusinasi, menghasilkan nilai yang keliru, atau melakukan penghilangan, misklasifikasi, dan kesalahan faktual
.
Tantangan lain yang persisten meliputi kekakuan metode berbasis aturan dan kurangnya dataset anotasi khusus domain untuk melatih pendekatan berbasis pembelajaran .
Beberapa alat AI kini menyasar langsung alur kerja systematic review dan meta-analisis:
AI bisa mengekstrak data, metodologi, dan hasil dari PDF studi dengan akurasi yang berguna dan kecepatan yang transformatif. Namun, AI belum cukup andal untuk menggantikan tinjauan manusia pada aplikasi kritis seperti pengajuan regulasi atau tabel data systematic review tahap akhir—terutama jika melibatkan tabel dan tata letak kompleks. Validasi manusia terhadap data yang diekstrak AI tetap menjadi praktik yang direkomendasikan untuk penggunaan kritis .
Comments
0 comments