Interview • Sprachbarrieren, Bias und mehr

Generative KI in der Medizin: Das Entscheidende sind die Daten

Unsere Daten werden im Internet inzwischen überall gesammelt und auch zum Training von Large Language Models wie ChatGPT eingesetzt. Doch wie wird die Künstliche Intelligenz (KI) trainiert, wie wird sichergestellt, dass keine Verzerrungen, sogenannte Bias in den Modellen entstehen und wie wird dabei der Datenschutz eingehalten?

Portraitfoto von Reinhard Heckel
Reinhard Heckel, Professor für Maschinelles Lernen

Bildquelle: TUM; Foto: Astrid Eckert

Antworten auf diese Fragen gibt Reinhard Heckel, Professor für Maschinelles Lernen an der Technischen Universität München (TUM). Er forscht zu Large Language Models und bildgebenden Verfahren in der Medizin. 

Welche Rolle spielen Daten beim Trainieren von KI-Systemen? 

Prof. Heckel: "KI-Systeme nutzen Daten als Trainingsbeispiele. Large Language Models wie ChatGPT können nur Fragen zu Themen beantworten, auf die sie auch trainiert worden sind. 

Die meisten Informationen, die allgemeine Sprachmodelle zum Training verwenden, sind Daten, die im Internet frei zugänglich sind. Je mehr Trainingsdaten zu einer Frage vorliegen, desto besser sind auch die Ergebnisse. Liegen zum Beispiel für eine KI, die bei Mathematikaufgaben helfen soll, viele gute Texte vor, die Zusammenhänge in der Mathematik beschreiben, sind die Trainingsdaten entsprechend gut. Gleichzeitig wird bei der Auswahl der Daten im Moment sehr stark gefiltert. Aus der großen Masse an Daten werden nur die guten Daten gesammelt und für das Training verwendet."

Wie wird bei der Auswahl der Daten verhindert, dass die KI zum Beispiel rassistische oder sexistische Stereotypen, sogenannte Bias produziert?

"Es ist sehr schwer eine Methode zu entwickeln, die nicht auf klassische Stereotype zurückgreift und unvoreingenommen und fair agiert. Möchte man zum Beispiel verhindern, dass es eine Verzerrung der Ergebnisse hinsichtlich der Hautfarbe gibt, ist das relativ einfach. Kommt aber neben der Hautfarbe auch noch das Geschlecht hinzu, können Situationen entstehen, bei denen es nicht mehr möglich ist, dass das Modell völlig unvoreingenommen in Bezug auf die Hautfarbe und das Geschlecht gleichzeitig agiert. 

Die meisten Sprachmodelle versuchen deswegen zum Beispiel bei politischen Fragen eine ausgewogene Antwort zu geben und mehrere Perspektiven zu beleuchten. Beim Training auf Grundlage von Medieninhalten werden Medien bevorzugt, die den journalistischen Qualitätskriterien entsprechen. Außerdem wird beim Filtern von Daten darauf geachtet, dass bestimmte Worte, die beispielsweise rassistisch oder sexistisch sind, nicht vorkommen."

Dieser Artikel könnte Sie auch interessieren

Photo

Artikel • Diversität in Trainingsdaten

Künstliche Intelligenz im Gesundheitswesen: nicht immer fair

Machine Learning und KI spielen eine zunehmend wichtige Rolle in Medizin und Gesundheitswesen. Dies gilt vor allem in datenintensiven Fachgebieten wie Radiologie, Pathologie oder Intensivmedizin. Doch die Güte von Diagnostik und Entscheidungsfindung per KI ist nicht nur davon abhängig, wie ausgefeilt der zugrunde liegende Algorithmus ist – sondern auch von der Qualität der Trainingsdaten.

In einigen Sprachen gibt es sehr viele Inhalte im Internet, bei anderen hingegen deutlich weniger. Wie wirkt sich das auf die Qualität der Ergebnisse aus?

"Der größte Teil im Internet ist auf Englisch. Dadurch funktionieren Large Language Models in Englisch am besten. Aber auch für die deutsche Sprache gibt es sehr viele Inhalte. Bei Sprachen hingegen, die nicht so bekannt sind und für die nicht so viele Texte existieren, gibt es weniger Trainingsdaten und die Modelle funktionieren dadurch schlechter. 

Wie gut Sprachmodelle in bestimmten Sprachen eingesetzt werden können, lässt sich aber ganz einfach beobachten, da sie sogenannten Skalierungsgesetzen folgen. Dabei wird getestet, ob ein Sprachmodell in der Lage ist, das nächste Wort vorherzusagen. Je mehr Trainingsdaten vorliegen, desto besser wird auch das Modell. Aber es wird dabei nicht nur immer besser, sondern auch vorhersagbar besser. Dies lässt sich gut durch eine mathematische Gleichung abbilden."

Wie genau muss eine KI in der Praxis sein?

Im Bereich der medizinischen Bildverarbeitung [...] ist es sehr wichtig, dass wirklich jedes Detail von einem erzeugten Bild stimmt. Nutze ich hier KI für Diagnosen, muss diese absolut richtig sein

Reinhard Heckel

"Das hängt sehr vom jeweiligen Anwendungsbereich ab. Bei Fotos beispielsweise, die mithilfe von KI nachbearbeitet werden, kommt es nicht darauf an, ob am Ende jedes Haar an der richtigen Stelle ist. Es reicht oft, wenn ein Bild am Ende gut aussieht. Auch bei Large Language Models ist es wichtig, dass die Fragen gut beantwortet werden, ob Details fehlen oder fehlerhaft sind, ist nicht immer ausschlaggebend. Neben Sprachmodellen forsche ich aber auch im Bereich der medizinischen Bildverarbeitung. Hier ist es sehr wichtig, dass wirklich jedes Detail von einem erzeugten Bild stimmt. Nutze ich hier KI für Diagnosen, muss diese absolut richtig sein."

Im Zusammenhang mit KI wird häufig auch der fehlende Datenschutz diskutiert. Wie wird sichergestellt, dass die persönlichen Daten insbesondere im medizinischen Kontext geschützt werden?

"Bei den meisten medizinischen Anwendungen werden Daten von Patienten verwendet, die anonymisiert sind. Die eigentliche Gefahr besteht nun darin, dass es Situationen gibt, in denen man aus den Daten doch Rückschlüsse ziehen kann. Zum Beispiel lässt sich anhand der diagnostizierten Krankheit oft das Alter oder das Geschlecht zurückverfolgen. Also einige eigentlich anonymisierte Informationen stecken in den Daten. Hier ist es wichtig, die Patienten ausreichend aufzuklären."

Welche weiteren Schwierigkeiten gibt es beim Training von KI im medizinischen Kontext?

"Eine große Schwierigkeit besteht darin, Daten zu sammeln, die sehr viele unterschiedliche Situationen und Szenarien abbilden. KI funktioniert am besten, wenn die Daten, auf die sie angewendet wird, den Trainingsdaten ähnlich sind. Jedoch unterscheiden sich die Daten von Krankhaus zu Krankenhaus zum Beispiel im Hinblick auf die Patientenzusammensetzung oder die Apparaturen, die Daten generieren. Um das Problem zu lösen, gibt es zwei Möglichkeiten: Entweder es gelingt uns die Algorithmen zu verbessern oder wir müssen unsere Daten so optimieren, dass sie besser auch auf andere Situationen angewendet werden können." 


Quelle: Technische Universität München

12.08.2024

Verwandte Artikel

Photo

News • "Guardian"-System

Neue Technik zur Analyse und Visualisierung medizinischer Bilddaten

Ein Forscherteam aus Kaiserslautern und Leipzig arbeitet an einem System, das medizinische Daten automatisch analysiert und visualisiert, auch deren Unsicherheiten.

Photo

Artikel • Round Table Session beim ECR 2023

Künstliche Intelligenz: der Hunger auf Radiologie-Daten

Künstliche Intelligenz (KI) ist auf große Mengen von Daten angewiesen. Jüngste Initiativen der EU könnten den Austausch von radiologischen Daten zwischen öffentlichen Gesundheitseinrichtungen…

Photo

Artikel • Diversität in Trainingsdaten

Künstliche Intelligenz im Gesundheitswesen: nicht immer fair

Machine Learning und KI spielen eine zunehmend wichtige Rolle in Medizin und Gesundheitswesen. Dies gilt vor allem in datenintensiven Fachgebieten wie Radiologie, Pathologie oder Intensivmedizin.…

Verwandte Produkte

Newsletter abonnieren