Bei einfacheren Datenpunkten wie Erscheinungsjahr, Land oder Teilnehmerzahlen liefert KI gute Ergebnisse. Schwieriger wird es bei komplexen Daten wie Ergebnisbeschreibungen oder Interventionsdetails .
In einem realen klinischen Studienprojekt führte die KI-gestützte automatisierte Extraktion aus PDF-Dokumenten zu einer 500-fachen Steigerung der Geschwindigkeit im Vergleich zur manuellen Extraktion, verbunden mit präziseren Ergebnissen und einer deutlichen Reduzierung des manuellen Aufwands . Dabei wurde ein domänenspezifisches, vortrainiertes Sprachmodell trainiert, um 20 relevante Entitäten zu erkennen (z. B. Medikamentenname, Beginn und Ende einer Studienreihe)
.
Die Wiederherstellung von Tabellenstrukturen ist eine große Schwachstelle. Ein Benchmark an 200 echten Dokumenten ergab, dass einfache PDF-Parser bei der Tabellenstruktur-Wiederherstellung eine Punktzahl von 0,000 erreichten – der Text wird zwar extrahiert, aber die Zeilen-Spalten-Beziehungen gehen verloren . Komplexe Layouts, gescannte PDFs ohne ordentliche Textebene und mehrspaltige Dokumente verursachen die meisten Fehler. Ohne Layoutkontext können LLMs Werte halluzinieren oder Auslassungen, Fehlklassifikationen und inhaltliche Fehler produzieren
.
Weitere anhaltende Herausforderungen sind die Starrheit regelbasierter Methoden und der Mangel an annotierten domänenspezifischen Datensätzen für lernbasierte Ansätze .
Mehrere KI-Tools zielen inzwischen speziell auf den Workflow systematischer Reviews und Meta-Analysen ab:
KI kann Daten, Methoden und Ergebnisse aus PDF-Studien mit brauchbarer Genauigkeit und transformativer Geschwindigkeit extrahieren. Für kritische Anwendungen wie regulatorische Einreichungen oder finale Datentabellen systematischer Reviews – insbesondere wenn Tabellen und komplexe Layouts involviert sind – ist sie jedoch noch nicht zuverlässig genug, um die menschliche Prüfung zu ersetzen. Die menschliche Validierung KI-extrahierter Daten bleibt für kritische Anwendungsfälle die empfohlene Praxis .
Comments
0 comments