© sdecoret – stock.adobe.com

Artikel • Generative KI in der Medizin

Wie man LLMs beibringt, wie ein Arzt zu denken

Generative KI zeigt zwar immenses Potenzial für das Gesundheitswesen, doch die Zuverlässigkeit der großen Sprachmodelle leidet unter einem ernsten Problem: LLMs denken einfach nicht wie Ärzte, erklärte ein Experte für Datenwissenschaften auf dem Kongress Emerging Technologies in Medicine (ETIM) in Essen. Dieser potenziell folgenschwere Fehler könne jedoch behoben werden.

Artikel: Wolfgang Behrends

Von der Patientenkommunikation über klinische Entscheidungshilfe bis hin zum automatisierten Befund – Large Language Models (LLMs) haben großes Potenzial, Mediziner bei fast allen Aufgaben entlang der Behandlungskette zu unterstützen, betonte Prof. Michael Gertz.1 Allerdings sei das Qualitätsniveau der KI-generierten Ergebnisse nicht beständig genug, um für sensible Anwendungen im Gesundheitswesen eingesetzt zu werden, erklärte der Leiter der Data Science Group an der Universität Heidelberg.2

Das Kernproblem hinter den Ungenauigkeiten im KI-Output sei, „dass ein LLM im Grunde immer nur das wahrscheinlichste nächste Wort vorhersagt“, sagte Gertz. Während dies für Aufgaben nützlich sei, bei denen es auf ein gewisses Maß an Kreativität ankommt, könne es in der Medizin zu potenziell folgenschweren Fehlern führen.

Dieser Artikel könnte Sie auch interessieren

Photo

Artikel • Künstliche Intelligenz in der Inneren Medizin

Medizinische KI: Auftritt der ‚Dea ex machina‘

In der Welt des Theaters ist der ‚Deus ex machina‘, der Gott aus der Maschine, ein dramaturgischer Kniff, um scheinbar unlösbare Konflikte zu klären. Kann Künstliche Intelligenz (KI) für die Innere Medizin ebenfalls ein solcher universeller Problemlöser sein? Auf dem DGIM-Jahreskongress in Wiesbaden ging Dr. Isabella Wiest dem Potenzial – und den Limitationen – der KI-Helfer nach.

„Die bemerkenswerten sprachlichen Fähigkeiten von LLMs können leicht mit echter Sachkenntnis verwechselt werden“, warnte der Experte. „In der Medizin kann diese Fehleinschätzung realen Schaden anrichten. Trotz ihrer vielversprechenden Eigenschaften muss die Integration dieser Modelle daher sorgfältig erfolgen, mit menschlicher Aufsicht und robusten Methoden zur Überprüfung von Korrektheit und Quellen.“

Einen Schritt nach dem anderen

Kliniker und Patienten wollen wissen, woher eine bestimmte Information stammt – aus einer von Fachleuten begutachteten Studie, einer angesehenen Leitlinie oder einfach von irgendwo aus dem Internet?

Michael Gertz

Um die Zuverlässigkeit der LLM-Ergebnisse zu erhöhen, sind sorgfältiges Prompt-Engineering, der Einsatz von Techniken wie der Retrieval-Augmented Generation (RAG) sowie ein gründliches Fine-Tuning der Ergebnisse in sicheren Testumgebungen erforderlich. Dadurch sei es möglich, KI-Modelle zumindest annäherungsweise an das klinische Denken heranzuführen, schlug Gertz vor. Dazu gehört die evidenzbasierte Entscheidungsfindung, Mustererkennung und probabilistisches Denken.

Mithilfe der ‚Chain-of-Thought‘ (CoT)-Methode, die ihren Ursprung in den strukturierten Interviews der Psychotherapie hat, könne einem LLM diese Art des Denkens vermittelt werden, so der Experte. Dabei wird die standardmäßig assoziative Arbeitsweise des LLM durch ein gründlicheres schrittweises Vorgehen ersetzt, bei dem die KI Entscheidungsbäumen und kausalen Zusammenhängen folgt, bevor eine Diagnose gestellt wird.3 

Vertrauen schaffen durch transparente Zuordnung

Photo
Prof. Michael Gertz während seines Vortrags auf der ETIM in Essen

Foto: HiE/Behrends

Zwar verringern die genannten Maßnahmen die Wahrscheinlichkeit KI-generierter ‚Halluzinationen‘, dennoch müsse eine Reihe von Problemen bei den aktuellen LLMs angegangen werden, bevor sie sicher im medizinischen Umfeld eingesetzt werden können, sagte Gertz. Zum einen würden die Modelle oft mit Hilfe riesiger, unkuratierter Datensätze trainiert. Dies mache es nahezu unmöglich, den Ursprung einer einzelnen Aussage genau zu bestimmen. „Im Gesundheitswesen hängen Vertrauen und Verantwortlichkeit aber von der Nachvollziehbarkeit ab“, betonte der Experte. „Kliniker und Patienten wollen wissen, woher eine bestimmte Information stammt – aus einer von Fachleuten begutachteten Studie, einer angesehenen Leitlinie oder einfach von irgendwo aus dem Internet?“ Eine umfassende und transparente Quellenangabe ist daher unerlässlich – vor allem vor dem Hintergrund, dass derzeitige Modelle dazu neigen, schlichtweg Zitate zu erfinden, um eigene Aussagen zu untermauern. Dies stelle ein ernsthaftes ethisches und praktisches Problem im medizinischen Kontext dar, so Gertz weiter. 

Problematisch sei weiterhin, dass die Zuverlässigkeit von LLMs deutlich abnehme, wenn die Modelle mit neuartigen oder komplexen Fällen konfrontiert werden, und auch die rechtliche Situation im Falle einer fehlerhaften medizinischen Beratung noch unklar sei. Dies bedeute, dass auf absehbare Zeit immer ein Mensch involviert sein müsse, so Gertz abschließend, „ein Medizinexperte, der die Ergebnisse interpretiert und validiert, bevor wichtige Entscheidungen getroffen werden“. 


Profil: 

Michael Gertz ist Professor an der Universität Heidelberg, wo er die Data Science Group an der Fakultät für Mathematik und Informatik leitet. Von 1997 bis 2008 war er Dozent am Department of Computer Science der University of California in Davis. Seine Forschungsinteressen umfassen natürliche Sprachverarbeitung, künstliche Intelligenz, komplexe Netzwerke und wissenschaftliches Datenmanagement, mit Anwendungen in den Bereichen Medizin, Recht, Physik, Politikwissenschaften und Wirtschaft. 


Literatur: 

  1. Bhayana R: Chatbots and Large Language Models in Radiology: A Practical Primer for Clinical and Research Applications; Radiology 2024; https://doi.org/10.1148/radiol.232756 
  2. Gupta M, Virostko J, Kaufmann C: Large language models in radiology: Fluctuating performance and decreasing discordance over time; European Journal of Radiology 2025; https://doi.org/10.1016/j.ejrad.2024.111842 
  3. Liévin V, Hother CE, Motzfeldt AG, Winther O: Can large language models reason about medical questions?; arXiv preprint 2023; https://doi.org/10.48550/arXiv.2207.08143

07.04.2025

Verwandte Artikel

Photo

Artikel • Künstliche Intelligenz in der Inneren Medizin

Medizinische KI: Auftritt der ‚Dea ex machina‘

In der Welt des Theaters ist der ‚Deus ex machina‘, der Gott aus der Maschine, ein dramaturgischer Kniff, um scheinbar unlösbare Konflikte zu klären. Kann Künstliche Intelligenz (KI) für die…

Photo

News • Föderaler Diagnosealgorithmus

Selbstlernende KI analysiert MRT-Daten

Ein neu entwickelter Algorithmus wertet Bilddaten von MRT-Scans aus, ohne umfangreiche, zeitaufwendige Befunde oder Markierungen von Radiologen und ohne dabei den Datenschutz zu verletzen.

Photo

Artikel • Machine Learning in der Labormedizin

Möglichkeiten von ML bei der Analyse medizinischer Labordaten

Maschinelles Lernen (ML) kann dabei helfen, Labordaten effizient und präzise auszuwerten, um fundierte medizinische Entscheidungen zu treffen. Prof. Dr. Frank Klawonn zeigte in einem Vortrag auf der…

Verwandte Produkte

Newsletter abonnieren