
© merydolla – stock.adobe.com
News • Große Sprachmodelle in der Radiologie
KI-Erklärungen helfen Ärzten (wenn sie die richtigen Fragen stellen)
Studie zeigt: Nicht jede Form der KI-Hilfe ist gleich hilfreich / Schrittweise Erklärungen verbessern die Genauigkeit
Große Sprachmodelle wie ChatGPT werden zunehmend als Unterstützung in der Medizin diskutiert. Sie können Informationen zusammenfassen, Diagnosen vorschlagen und ihre Einschätzungen in einfacher Sprache begründen. Gerade darin liegt ein zentrales Versprechen solcher Systeme: Sie liefern nicht nur eine Diagnose, sondern können auch erklären, warum eine bestimmte Diagnose zutreffend ist. Doch ob solche Erklärungen Ärztinnen und Ärzten tatsächlich helfen – und welche Form besonders nützlich ist –, ist bislang unklar.
Ein Forschungsteam der Ludwig-Maximilians-Universität (LMU) München, des LMU Klinikums, des Karlsruher Instituts für Technologie und der Universität Bayreuth hat nun untersucht, wie unterschiedliche Formen von KI-Erklärungen die diagnostische Genauigkeit in der Radiologie beeinflussen. In einem randomisierten Experiment beurteilten 101 Radiologinnen und Radiologen reale klinische Fälle mit radiologischen Bildern, etwa aus der Computertomographie (CT) oder der Magnetresonanztomographie (MRT), und sollten jeweils eine Diagnose als Freitext formulieren.
Die Wissenschaftler veröffentlichten ihre Erkenntnisse im Fachjournal NPJ Digital Medicine.
Wer nicht nur nach einer Antwort fragt, sondern auch nach einer nachvollziehbaren Begründung, kann solche Systeme deutlich besser nutzen. Eine gute KI-Antwort ist nicht nur korrekt, sondern überprüfbar
Stefan Feuerriegel
„In der Radiologie geht es oft darum, komplexe Bildbefunde mit klinischen Informationen zusammenzuführen“, sagt Boj Friedrich Hoppe vom LMU Klinikum. „Sprachmodelle können hier prinzipiell unterstützen. Unsere Studie zeigt aber, dass nicht jede Form von KI-Hilfe gleich hilfreich ist. Entscheidend ist, ob die Ärztinnen und Ärzte die Empfehlung nachvollziehen und kritisch prüfen können.“
Die Teilnehmenden wurden zufällig vier Gruppen zugeteilt: Eine arbeitete ohne KI-Unterstützung, drei weitere erhielten unterschiedliche Hinweise eines multimodalen Sprachmodells. Die KI gab entweder nur eine Diagnose, eine Differenzialdiagnose oder eine schrittweise „Chain-of-Thought“-Erklärung aus. Letztere erläuterte Bildmerkmale, klinische Hinweise und Ausschlusskriterien nachvollziehbar und half Ärztinnen und Ärzten besonders dabei, die Empfehlung mit ihrem Fachwissen abzugleichen.
„Für die klinische Praxis ist es nicht ausreichend, wenn ein KI-System nur eine plausibel klingende Antwort gibt“, sagt Hoppe. „Ärztinnen und Ärzte müssen nachvollziehen können, welche Hinweise für eine Diagnose sprechen und wo mögliche Unsicherheiten liegen.“
Dieser Artikel könnte Sie auch interessieren

News • Themenkanal
Blickpunkt: KI in der Medizin
Künstliche Intelligenz soll menschliche Denkprozesse nachbilden und die Arbeit fast aller medizinischer Teilgebiete erleichtern. Doch was geht im Inneren eines KI-Algorithmus vor, worauf basieren seine Entscheidungen? Kann man einer Maschine gar eine medizinische Diagnose anvertrauen?
Die Studie zeigt: Radiologinnen und Radiologen erzielten die höchste diagnostische Genauigkeit mit schrittweisen KI-Erklärungen – die Trefferquote lag 12,2 Prozentpunkte über der Kontrollgruppe ohne KI. Einfache Diagnoseausgaben und Differenzialdiagnosen schnitten schlechter ab. Besonders bei fehlerhaften KI-Vorschlägen folgten Teilnehmende der Differenzialdiagnose häufiger, was auf Automationsbias hindeutet. Schritt-für-Schritt-Erklärungen halfen dagegen, korrekte Hinweise gezielter zu übernehmen und Fehler eher zu erkennen.
Die Ergebnisse legen nahe, dass nicht allein die Qualität der Diagnose entscheidend ist, sondern auch die Form der Erklärung Ärztinnen und Ärzte dabei unterstützt, die Empfehlung kritisch zu bewerten. Schrittweise Begründungen machen die Argumentation des Modells sichtbarer und erleichtern den Abgleich mit dem eigenen Fachwissen.
Differenzialdiagnosen sind in der Medizin wichtig. In der Interaktion mit Sprachmodellen können sie jedoch mehrere Diagnosen nennen und so den Eindruck erwecken, der diagnostische Raum sei bereits vollständig abgedeckt. Das kann dazu führen, dass Ärzte bei seltenen oder komplexen Fällen weniger über die genannten Diagnosen hinausdenken.

© Florian Generotzky / LMU
Die Studie fokussiert sich zwar auf die Radiologie, ihre Ergebnisse reichen laut Stefan Feuerriegel, Professor an der LMU Munich School of Management und korrespondierender Autor der Studie, aber weit darüber hinaus. Systeme wie ChatGPT würden zunehmend für Entscheidungen im Alltag und Beruf genutzt. „Unsere Ergebnisse zeigen: Wer nicht nur nach einer Antwort fragt, sondern auch nach einer nachvollziehbaren Begründung, kann solche Systeme deutlich besser nutzen.“
Entscheidend sei daher nicht nur die Leistungsfähigkeit der Modelle, sondern auch die Art der Interaktion. Nutzerinnen und Nutzer sollten KI-Antworten aktiv prüfen. „Eine gute KI-Antwort ist nicht nur korrekt, sondern überprüfbar“, so Feuerriegel.
Die Forschenden betonen, dass Sprachmodelle Fehler machen können – sowohl bei Diagnosen als auch bei deren Begründung. KI-Systeme sollten daher nicht als Ersatz für ärztliche Expertise verstanden werden, sondern als unterstützende Werkzeuge.
Gerade schrittweise Erklärungen können dabei helfen, Empfehlungen kritisch zu prüfen und Annahmen der KI sichtbar zu machen. Die Studie zeigt: KI verbessert die diagnostische Leistung vor allem dann, wenn ihre Vorschläge nachvollziehbar präsentiert werden. Knappe Antworten oder reine Listen können dagegen Fehlvertrauen fördern.
Quelle: Ludwig-Maximilians-Universität München
22.05.2026



