© Google DeepMind – pexels.com (KI-generiertes Bild)
News • Projekt evaluiert KI-Modelle
Chatbots für die Radioonkologie: Studie zu LLM-Einsatz
In der Medizin spielen künstliche Intelligenz (KI), insbesondere sogenannte Large Language Models (LLMs) eine zunehmende Rolle. LLMs sind leistungsstarke KI-Sprachmodelle, die natürliche Sprache verstehen, verarbeiten und Antworten generieren können.
Diese LLM-Chatbots basieren auf neuronalen Netzarchitekturen, die anhand umfangreicher Datensätze, einschließlich Webseiten und anderen Artikeln oder öffentlich verfügbaren Textdateien trainiert werden. Laut Studien können LLMs die US-amerikanische ärztliche Zulassungsprüfung bestehen1 und bessere Diagnosen stellen als medizinische Laien2. Mit der Fähigkeit, komplexe medizinische Texte zu verstehen und daraus präzise Antworten abzuleiten, dienen Chatbots bereits regelmäßig als primäre Patienteninformationsquelle.
Dieser Artikel könnte Sie auch interessieren
Artikel • Künstliche Intelligenz in der Inneren Medizin
Medizinische KI: Auftritt der ‚Dea ex machina‘
In der Welt des Theaters ist der ‚Deus ex machina‘, der Gott aus der Maschine, ein dramaturgischer Kniff, um scheinbar unlösbare Konflikte zu klären. Kann Künstliche Intelligenz (KI) für die Innere Medizin ebenfalls ein solcher universeller Problemlöser sein? Auf dem DGIM-Jahreskongress in Wiesbaden ging Dr. Isabella Wiest dem Potenzial – und den Limitationen – der KI-Helfer nach.
Bei der Verwendung von LLMs in der medizinischen Diagnostik und Therapie können aber Probleme auftreten. Diese betreffen Sicherheit und Genauigkeit von Diagnosen und anderer Informationen oder gar die Notwendigkeit einer Schulung der User vor der Interpretation der Suchergebnisse. Dies zeigte eine Studie, die in der Fachzeitschrift „JAMA Oncology“ veröffentlicht wurde.3 Darin untersuchte ein interdisziplinäres universitäres Team aus New York anhand von validierten Instrumenten die Qualität von Chatbot-Antworten auf die häufigsten Suchanfragen (2021-2023) zu den fünf häufigsten Krebsarten (Haut-, Lungen-, Brust-, Darm- und Prostatakrebs). Die Suchdaten wurden aus der öffentlichen Google Trends-Plattform extrahiert.
Die Analyse umfasste 100 Fragen und die Antworten, die von vier Chatbots erzeugt wurden; darunter ChatGPT (Version 3.5, OpenAI), Perplexity.AI, Chatsoic (Writesonic) und Bing AI (Microsoft). Die Qualität der Antworttexte wurde insgesamt als gut bewertet, es wurden keine Fehlinformationen gefunden. Die Lesbarkeit und Verständlichkeit der Antworten wurde jedoch nur als moderat, bzw. als „College-Leseniveau“ und die Umsetzbarkeit als gering bewertet. Die Ergebnisse sprechen nach Ansicht des Autorenteams dafür, dass Chatbots genaue und zuverlässige Informationen liefern, aber nur ergänzend und nicht als primäre Quelle für medizinische Informationen verwendet werden sollten. Chatbots sollten medizinisches Fachpersonal bei individuellen Gesundheitsfragen daher nicht ersetzen.
Die Fähigkeiten der großen Sprachmodelle sind bemerkenswert. Aber die Messlatte für klinische Anwendungen liegt sehr hoch, da es um Menschenleben geht
Stephanie Combs
Aber nicht nur medizinische Laien nutzen LLMs/Chatbots, sondern zunehmend auch Mediziner. Hier stellen sich an die Expertise, Präzision und Vollständigkeit der erzielten Ergebnisse besondere Anforderungen. Eine weitere Studie bewertete ChatGPT-Antworten hinsichtlich der Behandlung von Brust-, Prostata- und Lungenkrebs.4 Entscheidend war unter anderem, dass die entsprechenden aktuellen NCCN-Leitlinien („National Comprehensive Cancer Network 3 Guidelines“) berücksichtigt wurden. Die von ChatGPT (OpenAI) erstellten Empfehlungen wurden von onkologischen Fachärzten überprüft und die Übereinstimmung mit den NCCN-Richtlinien anhand von fünf Kriterien beurteilt. Die Ergebnisse zeigten, dass für 98% der Anfragen mindestens eine Empfehlung ausgegeben wurde, wobei alle Empfehlungen zumindest eine Behandlungsoption enthielten, die den NCCN-Richtlinien entsprach. Doch etwa ein Drittel der Empfehlungen entsprach nicht vollständig den Leitlinien. In 12,5% der Fälle wurden sogar falsche Empfehlungen gegeben, allerdings handelte es sich um Fehler, die selbst für Fachleute schwer zu erkennen waren, betont das Autorenteam.
„Die Studien geben Hinweise auf Problembereiche der medizinischen Chatbot-Technologie und auf den Bedarf einer künftigen Weiterentwicklung und Evaluierung“, so PD Dr. Jan Peeken, TU München, Beisitzer der AG Digitalisierung und künstliche Intelligenz der Deutschen Gesellschaft für Radioonkologie (DEGRO). In einem Kooperationsprojekt der ISROI („International Society for Radiation Oncology Informatics“) und der DEGRO will man sich nun dieser Herausforderung stellen. Das von Dr. Fabio Dennstädt, Universitätsklinik für Radio-Onkologie, Inselspital/Universität Bern, geleitete Projekt soll untersuchen, wie ein für medizinische Anwendungen speziell trainiertes KI-Sprachmodell klinische Fragen aus der Radioonkologie beantworten kann und ob die LLM-Antworten möglicherweise gefährlich sein könnten, wenn sie für die klinische Entscheidungsfindung verwendet würden.
An der multizentrischen Studie nehmen sechs Schweizer Spitale, das Krankenhaus Bozen/Italien, das Klinikum rechts der Isar TU München sowie die Universitätsklinika Tübingen und Erlangen teil. Geplant sind drei Studienphasen. In der kürzlich abgeschlossenen Phase 1 wurden Fragen aus dem klinischen Alltag durch die teilnehmenden Radioonkologen gesammelt und auf der Plattform „SmartOncology“ eingetragen. Es war dabei egal, ob die Fragen einfach oder sehr schwierig waren bzw. ob es eindeutige Antworten darauf gab. In Phase 2 sollen die Fragen nun von definierten Experten sowie dem medizinischen Sprachmodell beantwortet werden. In Phase 3 sollen die Antworten durch die teilnehmenden Radioonkologen verglichen und bewertet werden.
„Die Fähigkeiten der großen Sprachmodelle sind bemerkenswert“, konstatiert Universitätsprofessorin Dr. Stephanie Combs, Pressesprecherin der DEGRO. „Aber die Messlatte für klinische Anwendungen liegt sehr hoch, da es um Menschenleben geht. Medizin beinhaltet nicht nur bloße Fakten, wir haben es regelmäßig mit ethischen Fragen zu tun und mit individuellen Faktoren, die innerhalb von Behandlungsleitlinien zu berücksichtigen sind. Dies darf in Zukunft bei Entscheidungen auf Basis von KI-Algorithmen nicht zu kurz kommen. Daher sind Studien zur Evaluierung der LLMs essenziell und wir freuen uns, dass die DEGRO-AG aktiv an der Erforschung dieser wichtigen, innovativen Fragestellungen beteiligt ist.“
Literatur:
- Singhal K, Azizi S, Tu T et al. Large language models encode clinical knowledge. Nature. 2023 Aug;620(7972):172-180. doi: 10.1038/s41586-023-06291-2.
- Levine DM, Tuwani R, Kompa B et al. The diagnostic and triage accuracy of the GPT-3 artificial intelligence model. medRxiv. Preprint posted online February 1, 2023. Accessed February 20, 2023. doi: 10.1101/2023.01.30.23285067 [CrossRef]
- Pan A, Musheyev D, Bockelman et al. Assessment of Artificial Intelligence Chatbot Responses to Top Searched Queries About Cancer. JAMA Oncol. 2023 Oct 1;9(10):1437-1440. doi: 10.1001/jamaoncol.2023.2947. PMID: 37615960; PMCID: PMC10450581.
- Chen S, Kann BH, Foote MB et al. Use of Artificial Intelligence Chatbots for Cancer Treatment Information. JAMA Oncol. 2023 Oct 1;9(10):1459-1462. doi: 10.1001/jamaoncol.2023.2954. PMID: 37615976; PMCID: PMC10450584.
Quelle: Deutsche Gesellschaft für Radioonkologie
30.07.2024