Lokale große Sprachmodelle für Informationsextraktion aus medizinischen Dokumenten

Medizinische Texte wie Arztbriefe, Befundtexte sowie einfache Visiten- und Verlaufseinträge sind entscheidende Dokumente in der Patientenversorgung. Sie werden im klinischen Alltag zur Informationsübermittlung zwischen Fachdisziplinen, verschiedenen Sektoren (ambulant vs. stationär) aber auch den Patienten verwendet. Die Patientenreise ist ohne die darin enthaltene Information nur begrenzt nachvollziehbar. Durch den Ausbau der Datenintegrationszentren und Forschungsdatenportalen an Universitätskliniken werden klinische Informationen zunehmend für Forschung und Qualitätssicherung zugänglich. Eine Herausforderung bleibt jedoch bestehen, nämlich die fehlende Verfügbarkeit wertvoller Informationen aus Freitext. Hier setzt unser Projekt an: Wir nutzen große Sprachmodelle (Large language models) wie beispielsweise ChatGPT oder lokale open-source-Varianten (z.B. Llama) hiervon, um skalierbar Informationen aus medizinischen Freitexten zu extrahieren und sie somit für wissenschaftliche Auswertungen verfügbar zu machen.

In einer unserer Arbeiten verwendeten wir das open-source large language model Llama 2 für die Extraktion von gastroenterologischen Schlüsselsymptomen, in diesem Fall angelehnt an die dekompensierte Leberzirrhose: Das Vorhandensein von Bauchschmerzen, Kurzatmigkeit, Verwirrung, Leberzirrhose und Aszites wurde aus 500 Anamnesen des MIMIC-IV Datensatzes extrahiert (Pipeline siehe Abbildung 1). Dabei erzielte das große Sprachmodell erstaunliche Ergebnisse: Ohne weiteres Training bestand für die Detektion der Merkmale Leberzirrhose und Aszites eine Sensitivität von 100% und 95% sowie eine Spezifität von 96% und 95%. Die Merkmale zur Überprüfung der Orientierung bzw. Verwirrtheit, Bauchschmerzen und Dyspnoe zeigten ebenfalls eine hohe Sensitivität (76 %, 84% bzw. 87%) und hohe Spezifität (94 %, 97 % bzw. 96 %) (siehe Abbildung 2). Diese großen Sprachmodelle erlauben einen lokalen Einsatz mit minimalen Hardware-Voraussetzungen am Ort der Datenentstehung und erfüllen damit die Anforderungen an den Datenschutz. Weitere unserer Gastroenterologie-fokussierte Projekte befassen sich mit der Extraktion entscheidender Informationen aus Endoskopieberichten, Tumorboardbeschlüssen, Radiologiebefunden, und Verlaufsberichten der ambulanten Versorgung von CED-PatientInnen.

Ansprechpartner:
Dr. med. Isabella C. Wiest
Prof. Dr. med. Sebastian Belle
Prof. Dr. med. Matthias P. Ebert
Prof. Dr. med. Jakob Nikolas Kather

Department of Medicine II
Medical Faculty Mannheim
Heidelberg University
Mannheim