重點摘要:AI 確實可以從 PDF 中提取數據,但並非萬能。 現代大型語言模型(LLM)在許多數據類型上的準確率可達 71% 至 76%,專用工具更能將人工提取時間縮減 500 倍。然而,表格結構還原經常失敗,關鍵工作仍須仰賴人工驗證。
AI 如何從 PDF 研究中提取數據
AI 驅動的 PDF 數據提取結合了多種技術,將封存在 PDF 中的文本轉換為結構化的可用數據。目前主要的方法論可分為三大類:規則型系統、統計學習模型與神經網路方法
。現代的生產管線通常會結合光學字元辨識(OCR)、先進的自然語言處理(NLP)與深度學習,以同時處理文本和表格結構
。
AI 數據提取的準確度如何?
一項 2025 年的研究測試了三款大型語言模型——Gemini 1.5 Flash、Gemini 1.5 Pro 和 Mistral Large 2——針對一份已發表的範疇回顧(scoping review)中的 112 篇研究進行數據提取。這些模型總共提取了 24 種數據類型,包括 9 個明確陳述的變數和 15 個衍生類別變數。與人工編碼相比,整體提取準確率分別為 71.17%、72.14% 和 62.43%
。另一項使用 ChatGPT 解析期刊論文的概念驗證研究則指出,AI 可以「在不影響準確度的前提下,大幅減少人力投入時間」
。
對於較簡單的數據點,如出版年份、國家或參與者人數,AI 表現良好。但對於複雜數據,例如結果描述或介入措施細節,AI 的表現就相對遜色
。
速度提升非常驚人
在一個真實的臨床研究專案中,使用 AI 驅動的自動化技術從 PDF 文件中提取數據,結果顯示速度比人工提取快了 500 倍,同時結果更精確,並大幅減少了人工工作量
。該專案訓練了一個特定領域的預訓練語言模型,用以辨識 20 個相關實體(例如:藥物名稱、試驗開始與結束日期)。
Comments
0 comments