News • Studien zu digitalen Ratgeber-Tools

ChatGPT und Apps für Gesundheitsberatung auf dem Prüfstand

Patienten greifen immer häufiger auf digitale Tools zurück, um Krankheiten zu erkennen und Handlungsempfehlungen zu erhalten.

Zwei aktuelle Studien der TU Berlin haben nun die Qualität und Wirksamkeit solcher digitalen Gesundheitsempfehlungen untersucht. Die Ergebnisse zeigen sowohl Potenziale als auch Risiken auf. Die Studien sind in den Fachzeitschriften Journal Scientific Reports und npj Health Systems Journal erschienen.

In der ersten Studie entwickelte ein Team um Dr. Marvin Kopka aus dem Fachgebiet Arbeitswissenschaft an der TU Berlin eine neue Testmethode, um die Genauigkeit von Gesundheitsempfehlungen durch ChatGPT und andere KI-Modelle wie Meta’s LLaMa sowie speziell entwickelte Symptom-Checker-Apps, die Symptome abfragen und darauf basierend Handlungsempfehlungen geben, zu bewerten. Während frühere Tests auf idealisierten Lehrbuchfällen basierten, die in der Realität so kaum vorkommen, setzt die neue Methode auf echte Patientenfälle, mit denen die Wissenschaftler der TU Berlin verschiedene digitale Tools testeten. Dadurch lässt sich realistischer einschätzen, wie präzise und hilfreich die digitalen Tools in der Praxis sind. „Man kann unsere standardisierte Methode als eine Art ‚Stiftung Warentest‘ ansehen, da wir mit ihr die Genauigkeit von verschiedenen Apps vergleichen können, aber auch ihre Stärken und Schwächen finden“, sagt Studienleiter Marvin Kopka.

Die KI motiviert die Nutzer häufig dazu, bei den kleinsten Symptomen sofort einen Arzt oder die Notaufnahme aufzusuchen. Das kann zu einer massiven Überlastung führen
Marvin Kopka

Die Ergebnisse der neu entwickelten Bewertungsmethode zeigen, dass Symptom-Checker-Apps für Laien deutlich hilfreicher sind als ChatGPT, insbesondere wenn es um die Unterscheidung zwischen harmlosen und ernsten Symptomen geht. Während ChatGPT fast jeden Fall als Notfall oder hochdringlich einstuft, können die spezialisierten Apps in den meisten Fällen fundierte und angemessenere Empfehlungen geben. Was auch schon andere Studien belegen: ChatGPT kann Krankheiten gut diagnostizieren, wenn Laborwerte oder Untersuchungsergebnisse vorliegen. Da diese zu Hause meist fehlen, bleibt die Diagnose aber oft ungenau und die vom Modell vorgeschlagene Liste mit mehreren möglichen Erkrankungen hilft Laien wenig. Entscheidender sind Handlungsempfehlungen wie „Geh zum Arzt“ oder „Ruf die 112“ – hier schneidet ChatGPT jedoch schlecht ab, da es fast jeden Fall als behandlungsbedürftig einstuft, selbst bei harmlosen Symptomen.

Was die Forscher auch herausfanden: Laien erkennen medizinische Notfälle meist zuverlässig und rufen in ernsten Fällen, wie bei einer schweren Kopfverletzung mit Erbrechen und Schwindel, den Rettungsdienst. Schwerer fällt es ihnen jedoch, harmlose Symptome richtig einzuschätzen. So neigen viele dazu, bei leichten Beschwerden wie kurzfristigem Durchfall oder einer kleinen Hautveränderung vorschnell ärztliche Hilfe in Anspruch zu nehmen, obwohl dies oft nicht nötig wäre. „Dass immer mehr Menschen ChatGPT für medizinische Ratschläge nutzen, ist schädlich für das Gesundheitssystem. Die KI motiviert die Nutzer häufig dazu, bei den kleinsten Symptomen sofort einen Arzt oder die Notaufnahme aufzusuchen. Das kann zu einer massiven Überlastung führen", warnt Studienleiter Dr. Marvin Kopka.

Dieser Artikel könnte Sie auch interessieren

News • Themenkanal

Blickpunkt: KI in der Medizin

Künstliche Intelligenz soll menschliche Denkprozesse nachbilden und die Arbeit fast aller medizinischer Teilgebiete erleichtern. Doch was geht im Inneren eines KI-Algorithmus vor, worauf basieren seine Entscheidungen? Kann man einer Maschine gar eine medizinische Diagnose anvertrauen?

Die zweite Studie verglich nicht nur Menschen und Technik, sondern untersuchte, wie genau Menschen die Empfehlungen von ChatGPT und Symptom-Checker-Apps in ihre eigenen Entscheidungen einbeziehen. Dabei zeigte sich, dass Nutzer die Empfehlungen nicht unkritisch übernehmen, sondern mit anderen Quellen wie Google-Suchen, dem Rat von Freunden oder weiteren Apps abgleichen. „Auf der anderen Seite gibt es auch Fälle, in denen Patienten zu viele und teils unverständliche Informationen von den digitalen Tools bekommen, die sie nicht einordnen können. Das erzeugt Angst und sie suchen dann den Expertenrat in der Notaufnahme oder beim Hausarzt – auch bei harmlosen Beschwerden, so wie es ihnen ChatGPT empfiehlt“, so Kopka.

Vor einer quantitativen Untersuchung mit 600 Probanden wurden in der zweiten Studie zunächst 24 Personen bei der Nutzung beobachtet und anschließend ein Modell aufgestellt, wie sie Entscheidungen mit Hilfe von ChatGPT und Apps treffen. Die Auswertung ergab erneut, dass ChatGPT die Selbstversorgung erschwert und die Zahl unnötiger Arztbesuche erhöht. Demgegenüber konnten gut funktionierende Symptom-Checker-Apps dazu beitragen, dass Nutzer sich in passenden Fällen für die Selbstversorgung entschieden und so zur Entlastung des Gesundheitssystems beitrugen. „ChatGPT hat viele sinnvolle Anwendungsfälle, aber zur Entscheidung, ob ich zum Arzt gehen sollte, ist es nicht geeignet – dafür ist es viel zu ungenau", resümiert Kopka. „Wir sollten uns eher fragen, ob eine App uns hilft, gute Entscheidungen zu treffen, statt von ihr Perfektion zu erwarten. Denn Menschen treffen bereits jetzt in den meisten Fällen sichere und vernünftige Entscheidungen. In einigen Situationen können Sie jedoch von den Apps profitieren."

Die Studien verdeutlichen, dass digitale Tools sinnvoll eingesetzt werden können, um Patienten in ihrer Entscheidungsfindung zu unterstützen. Speziell entwickelte Symptom-Checker-Apps erweisen sich dabei aktuell als hilfreicher als generative KI-Modelle wie ChatGPT. Dennoch bleibt laut der Wissenschaftler ein kritischer Umgang mit digitalen Empfehlungen entscheidend, um Fehleinschätzungen und eine unnötige Belastung des Gesundheitssystems zu vermeiden.

Quelle: TU Berlin; Autorin: Barbara Halstenberg

29.04.2025

Mehr zu den Themen: