I ett verkligt kliniskt studieprojekt resulterade AI-driven automatiserad extraktion från PDF-dokument i en 500-faldig hastighetsökning jämfört med manuell extraktion, tillsammans med mer precisa resultat och en betydande minskning av manuellt arbete . Detta innebar att träna en domänspecifik förtränad språkmodell för att känna igen 20 relevanta entiteter (t.ex. läkemedelsnamn, start- och slutdatum för prövningar)
.
Återhämtning av tabellstruktur är en stor svaghet. En benchmark på 200 verkliga dokument visade att grundläggande PDF-tolkare fick 0,000 i återhämtning av tabellstruktur – texten plockas ut, men rad- och kolumnrelationerna går förlorade . Komplexa layouter, skannade PDF:ar utan ordentliga textlager och dokument med flera kolumner orsakar flest fel. Utan layoutkontext kan LLM:er hallucinera värden eller producera utelämnanden, felklassificeringar och faktiska fel
.
Andra bestående utmaningar inkluderar styvheten i regelbaserade metoder och bristen på annoterade domänspecifika dataset för träning av inlärningsbaserade tillvägagångssätt .
Flera AI-verktyg riktar sig nu specifikt till arbetsflödet för systematiska översikter och metaanalyser:
AI kan extrahera data, metodik och resultat från PDF-studier med användbar noggrannhet och transformativ hastighet. Men det är ännu inte tillförlitligt nog för att ersätta mänsklig granskning för kritiska tillämpningar som regulatoriska inlämningar eller slutgiltiga systematiska översiktsdatatabeller – särskilt när tabeller och komplexa layouter är inblandade. Mänsklig validering av AI-extraherade data förblir den rekommenderade praxisen för kritiska användningsfall .
Comments
0 comments