Künstliche Intelligenz im Gesundheitswesen: nicht immer fair

Nicht erst seit ChatGPT spielen Machine Learning und künstliche Intelligenz (KI) eine zunehmend wichtige Rolle in Medizin und Gesundheitswesen. Dies gilt vor allem in datenintensiven Fachgebieten wie der Radiologie, der Pathologie oder der Intensivmedizin. Doch die Güte von Diagnostik und Entscheidungsfindung per KI ist nicht nur davon abhängig, wie ausgefeilt der zugrunde liegende Algorithmus ist – sondern auch und wesentlich von der Qualität der Trainingsdaten.

Artikel: Dr. Christina Czeschik

Künstliche Intelligenz ist ein öffentlichkeitswirksamer Sammelbegriff – „unter der Haube“ besteht KI aus Algorithmen, die auf bestimmten Methoden des maschinellen Lernens beruhen. Eine dieser Methoden, die in den letzten Jahren besonders viel Aufmerksamkeit erhalten hat, ist das sogenannte künstliche neuronale Netzwerk. Hierbei werden algorithmisch die Schichten von Nervenzellen (idealisiert) nachgebildet, die bei Lernprozessen im menschlichen Gehirn beteiligt sind. Besonders komplexe Lernaufgaben erfordern hierbei besonders viele Schichten an künstlichen Neuronen – dies ist das sogenannte Deep Learning, ein weiteres Schlagwort aus dem Bereich der KI.

Ein neuronales Netzwerk (und andere Formen der KI) lernt die Erfüllung seiner Aufgabe – etwa das Stellen einer bestimmten Diagnose – anhand von Trainingsdaten. Wenn die Aufgabe etwa ist, bösartige von gutartigen Veränderungen auf Röntgen-Thorax-Bildern zu unterscheiden, dann werden als Trainingsdaten viele Tausend oder Millionen von Röntgenbildern von gutartigen und bösartigen Veränderungen benötigt. Der Algorithmus klassifiziert jedes einzelne dieser Trainingsbilder und vergleicht sein Ergebnis jeweils mit der „realen“, menschlich gestellten Diagnose, die mit dem Trainingsdatensatz mitgeliefert wird. War die Diagnose des Algorithmus falsch, werden Gewichtungen einzelner Verbindungen zwischen den virtuellen Neuronen neu gewichtet, um beim nächsten Durchlauf die Genauigkeit zu verbessern.

Sind alle Trainingsdaten verarbeitet, wird ein neues, kleineres Datenset herangezogen, um die Treffsicherheit des fertig trainierten Algorithmus zu überprüfen – die sogenannte Validation.

Qualität der Trainingsdaten: Garbage in, garbage out

An dieser Stelle wird schon deutlich: Die Genauigkeit des KI-Algorithmus kann nur so gut werden wie die Qualität der Trainingsdaten. Wenn sich etwa in die Trainingsdaten viele Röntgenbilder verirrt haben, in denen einer bösartigen Veränderung irrtümlicherweise durch den menschlichen Experten das Label „gutartig“ zugewiesen wurde oder umgekehrt – dann wird die KI an falschen Beispielen lernen, was später ihre Treffsicherheit beeinträchtigen wird.

Qualitativ hochwertige Trainingsdaten für Algorithmen zu bekommen, stellt sich in unserem bisher nur zögerlich digitalisierten Gesundheitswesen häufig als schwierig heraus. Sorgfältig von Hand validierte Daten lassen sich oft nur in geringem Umfang beschaffen – für ein gutes Training benötigt der Algorithmus aber eine sehr hohe Anzahl an Trainingsdaten. Wenn massenhaft digitale Daten beschafft werden können, dann häufig aus Quellen mit inkonsistenter Qualität. Weiter kompliziert wird dies durch die Frage des Schutzes personenbezogener Daten im Gesundheitswesen.

Die Tatsache, dass die Genauigkeit eines Klassifikationsalgorithmus immer von der Güte der Trainingsdaten abhängt, wird oft in dem flapsigen Merksatz „Garbage in, garbage out“ zusammengefasst: wenn die Input-Daten Müll sind, werden auch die Klassifikationen, die die KI liefert, Müll sein.

Aber nicht alle Arten von mangelhaftem Output sind sofort als solche erkennbar. Tückisch sind subtile Verzerrungen in den Klassifikationen eines Algorithmus, die durch eine unausgewogene Zusammensetzung der Trainingsdaten verursacht wurden. So ist die Genauigkeit von diagnostischen Algorithmen in solchen Populationen schlechter, deren Daten in den ursprünglichen Trainingsdaten unterrepräsentiert waren.

Ein bekanntes Beispiel sind Algorithmen zur Klassifikation bösartiger Hauttumoren, die mit Trainingsdaten von überwiegend hellhäutigen (kaukasischen) Personen trainiert wurden. Diese zeigen später eine geringere diagnostische Genauigkeit, wenn sie eine korrekte Diagnose bei einem dunkelhäutigen Menschen stellen sollen.¹

Dieser Artikel könnte Sie auch interessieren

Article • Experts point out lack of diverse data

AI in skin cancer detection: darker skin, inferior results?

Does artificial intelligence (AI) need more diversity? This aspect is brought up by experts in the context of AI systems to diagnose skin cancer. Their concern: images used to train such programs do not include data on a wide range of skin colours, leading to inferior results when diagnosing non-white patients.

Nicht immer ist die Quelle der Verzerrung (Bias) so offensichtlich: Im US-amerikanischen Gesundheitswesen wurde in der Vergangenheit ein KI-Algorithmus angewendet, um einzuschätzen, welche stationären Patienten zusätzliche Pflege benötigen würden² – und zwar anhand von Trainingsdaten, bei denen die Kosten von Patienten in der Vergangenheit als Surrogatmarker für die Schwere der Erkrankung eingesetzt wurde. So entstand ein Bias, der dazu führte, dass bei afroamerikanischen Patienten seltener zusätzliche Pflege empfohlen wurde – weil diese Patienten in der Vergangenheit geringere Kosten verursacht hatten. Dies lag aber nicht an ihrer geringeren Krankheitsschwere, sondern an ihrem geringeren Zugang zum Gesundheitswesen, also einer bereits zuvor bestehenden systemischen Benachteiligung.

Die häufig unausgewogene Zusammensetzung von Trainingsdaten wird im englischsprachigen Raum mit dem Akronym WEIRD zusammengefasst: „white, educated, industrialized, rich and democratic countries“ sind überrepräsentiert.

Auch Frauen und Ältere benachteiligt

Und nicht nur die Herkunft zählt: Auch Frauen sind im Bereich der KI nicht fair repräsentiert. So vermuten Forscher etwa, dass Frauen im Bereich der Diagnose von Depressionen überrepräsentiert sind, weil diagnostische Algorithmen unter anderem Verhaltensweisen abfragen, die bei Frauen – unabhängig von einer klinischen Depression – häufiger vorliegen.³ Dagegen zeigte das Institute of Health Informatics des University College London, dass ein KI-Algorithmus zur Diagnose von Lebererkrankungen bei Frauen eine deutlich geringere Trefferquote hatte – er lag bei 44% der Frauen falsch, aber nur bei 23% der Männer.⁴

Dieser Artikel könnte Sie auch interessieren

Artikel • Vorbelastete Datenlage

Diskriminierung vorprogrammiert? KI und die Geschlechterlücke

KI-gestützte Technologien gelten als der Inbegriff modernen Fortschritts. Doch die Daten, aus denen Algorithmen ihre Schlüsse ziehen, sind oft überholt. Sie vernachlässigen die Dimensionen sowohl von biologischem als auch soziokulturellem Geschlecht. So werden nicht nur diskriminierende Vorurteile reproduziert, sondern auch suboptimale bis fehlerhafte Ergebnisse generiert.

Und ein weiterer Faktor, der eine Rolle in der Entstehung von Bias spielen kann: das Lebensalter. Hier wurde beispielsweise gezeigt, dass Algorithmen zur Gesichtserkennung in einer älteren Bevölkerung ungenauer arbeiten.⁵ Dies ist besonders kritisch, wenn man berücksichtigt, dass mehr und mehr Robotik in der Altenpflege zum Einsatz kommt, etwa zur Information und Unterhaltung älterer und dementer Menschen, und hier unter anderem an der verbesserten maschinellen Erkennung von Emotionen anhand des Gesichtsausdruckes gearbeitet wird.

Der Weg zur Behebung dieser Verzerrungen und einer gleichberechtigten Behandlung von Personen in einem digitalisierten Gesundheitswesen muss über diverse, ausgewogene und qualitativ hochwertige Trainingsdatensätze führen. Notwendig hierzu ist auch eine bessere Rechtssicherheit im Bereich der Nutzung von Patientendaten für die Forschung und Entwicklung – etwas, das in Deutschland und Europa in der nächsten Zeit auch regulatorisch angegangen werden wird, etwa mit den Gesetzesvorhaben in der Digitalisierungsstrategie des Bundesgesundheitsministeriums⁶ und dem europäischen Gesundheitsdatenraum⁷.

Quellen:

13.06.2023

Mehr zu den Themen: