I et reelt klinisk studieprosjekt resulterte AI-drevet automatisert ekstraksjon fra PDF-dokumenter i en 500-dobling av hastigheten sammenlignet med manuell ekstraksjon, sammen med mer presise resultater og betydelig reduksjon i manuell innsats . Dette innebar å trene en domenespesifikk, forhåndstrent språkmodell til å gjenkjenne 20 relevante enheter (f.eks. legemiddelnavn, prøvestart- og sluttdatoer)
.
Gjenoppretting av tabellstruktur er en stor svakhet. En benchmark på 200 ekte dokumenter fant at grunnleggende PDF-tolkere skåret 0,000 på tabellstrukturgjenoppretting – teksten hentes ut, men rad-og-kolonne-relasjonene går tapt . Komplekse oppsett, skannede PDF-er uten ordentlig tekstlag og flerkolonnedokumenter forårsaker flest feil. Uten layoutkontekst kan LLM-er hallucinere verdier eller produsere utelatelser, feilklassifiseringer og faktiske feil
.
Andre vedvarende utfordringer inkluderer rigiditeten til regelbaserte metoder og mangelen på annoterte domenespesifikke datasett for opplæring av læringsbaserte tilnærminger .
Flere AI-verktøy retter seg nå spesifikt mot systematisk oversikts- og meta-analysearbeidsflyten:
AI kan trekke ut data, metodikk og resultater fra PDF-studier med brukbar nøyaktighet og transformativ hastighet. Men den er ennå ikke pålitelig nok til å erstatte menneskelig gjennomgang for kritiske anvendelser som regulatoriske innsendinger eller endelige systematiske oversiktsdatatabeller – spesielt når tabeller og komplekse oppsett er involvert. Menneskelig validering av AI-ekstraherte data forblir den anbefalte praksisen for kritiske bruksområder .
Comments
0 comments