Wer hat's geschrieben: Mensch oder KI? Die Algorithmen von ChatGPT haben mit gefälschten wissenschaftlichen Abstracts sogar Fachleute gefoppt.

Bildquelle: Adobe Stock/dimon_ua

News • ChatGPT

KI-generierte Abstracts führen Experten hinters Licht

Ein Chatbot mit künstlicher Intelligenz (KI) kann gefälschte Zusammenfassungen von Forschungsarbeiten so überzeugend verfassen, dass Wissenschaftler sie oft nicht von echten unterscheiden können.

Dies geht aus einem Preprint hervor, der Ende Dezember auf dem bioRxiv-Server veröffentlicht wurde. Die Auswirkungen auf den Umgang mit solchen wissenschaftlichen Abstracts sind bislang nicht absehbar. Besorgt zeigt sich etwa Sandra Wachter, Technologie-Expertin von der Universität Oxford, die nicht an der Studie beteiligt war. "Wenn Experten nicht in der Lage sind zu bestimmen, was wahr ist und was nicht, verlieren wir eine vermittelnde Instanz, die wir dringend brauchen, um uns durch komplizierte Themen zu führen", fügt sie hinzu.

Die Forscher nutzten den Chatbot ChatGPT, der realistische und intelligent klingende Texte als Antwort auf Benutzereingaben generieren kann. Dahinter steckt ein sogenanntes 'large language model', bei dem neuronale Netze große Mengen an von Menschen verfassten Texten nutzt, um die per Nutzereingabe gestellten Aufgaben zu erfüllen. ChatGPT wurde Ende November vom US-Softwareunternehmen OpenAI zur öffentlichen und kostenlosen Nutzung freigegeben. Seit der Veröffentlichung wirft das Tool Fragen zu den ethischen Aspekten seiner Verwendung auf, da sich die KI-generierten Ergebnisse zum Teil nur noch schwer von von Menschen geschriebenen Texten unterscheiden lassen.

Um die Fertigkeiten von ChatGPT auszuloten, hat eine Forschungsgruppe unter der Leitung von Catherine Gao an der Northwestern University in Chicago, den Chatbot eingesetzt, um künstliche Zusammenfassungen von Forschungspapieren zu erstellen und zu testen, ob Wissenschaftler sie erkennen können. Die Forscher wiesen den Chatbot an, 50 medizinische Forschungszusammenfassungen zu schreiben, die auf einer Auswahl von Veröffentlichungen in JAMA, The New England Journal of Medicine, The BMJ, The Lancet und Nature Medicine basieren. Anschließend verglichen sie diese mit den Originalabstracts, indem sie sie durch einen Plagiatsdetektor und einen KI-Output-Detektor laufen ließen. Dann baten sie eine Gruppe medizinischer Forscher, die gefälschten Abstracts zu erkennen.

Die Grenzen des ethischen und akzeptablen Einsatzes zur Unterstützung des wissenschaftlichen Schreibens müssen noch festgelegt werden
Catherine Gao et. al.

Schon die Plagiatsprüfung bestand der Chatbot mit Bravour: Im Median lag die Originalitätsbewertung der eingereichten Texte bei 100%, was bedeutet, dass kein Plagiat entdeckt wurde. Zwar entdeckte der anschließend eingesetzte KI-Output-Detektor knapp zwei Drittel der Zusammenfassungen als Werke von ChatGPT – allerdings schnitten auch die menschlichen Prüfer hier nicht viel besser ab: Sie ordneten nur 68% der KI-generierten und 86% der echten Abstracts richtig zu. Mit anderen Worten: Sie hielten 32% der KI-Abstracts für echt und 14% der echten Abstracts für eine Kreation des Chatbots. "ChatGPT schreibt glaubwürdige wissenschaftliche Abstracts", bringen es Gao und ihre Kollegen im Preprint auf den Punkt. "Die Grenzen des ethischen und akzeptablen Einsatzes zur Unterstützung des wissenschaftlichen Schreibens müssen noch festgelegt werden."

Wenn Wissenschaftler nicht mehr feststellen können, ob eine eingereichte Forschung wahr ist oder nicht, könne das schwerwiegende Folgen haben, warnt Wachter. Nicht nur für die Forscher sei der Einsatz von Chatbots problematisch, weil sie mit gefälschten Forschungsergebnissen auf die falsche Fährten gelockt werden können. Die Auswirkungen erstrecken sich auch "auf die Gesellschaft insgesamt, da die wissenschaftliche Forschung eine so große Rolle in unserer Gesellschaft spielt", so die Expertin. So könnten zum Beispiel auf Grundlage gefälschter Forschungsergebnisse falsche politische Entscheidungen getroffen werden, fügt sie hinzu.

Arvind Narayanan, Informatiker an der Princeton University in New Jersey, sieht den Einsatz des Tools ebenfalls kritisch: "Es ist unwahrscheinlich, dass ein ernsthafter Wissenschaftler ChatGPT zur Erstellung von Abstracts verwenden wird". Seiner Ansicht nach sei es irrelevant, ob KI-generierte Zusammenfassungen als solche erkannt werden können. "Die Frage ist, ob das Tool eine genaue und überzeugende Zusammenfassung erstellen kann. Da dies nicht der Fall ist, ist der Vorteil der Verwendung von ChatGPT gering und der Nachteil erheblich", erklärt er.

Irene Solaiman, die beim Unternehmen Hugging Face die sozialen Auswirkungen von KI erforscht, hat Bedenken zum Einsatz großer Sprachmodelle für wissenschaftliches Denken. "Diese Modelle werden auf der Grundlage von Informationen aus der Vergangenheit trainiert. Sozialer und wissenschaftlicher Fortschritt kann aber oft erst dadurch entstehen, anders zu denken als bisher und offen für neue Denkmuster ist."

Die Autoren sprechen sich dafür aus, dass diejenigen, die wissenschaftliche Mitteilungen wie Forschungsarbeiten und Konferenzberichte bewerten, Maßnahmen ergreifen sollten, um die Verwendung von KI-generierten Texten zu unterbinden. Institutionen, die die Verwendung dieser Technologie zulassen, sollten klare Regeln für die Offenlegung aufstellen. So hat mittlerweile eine große KI-Konferenz – die International Conference on Machine Learning – ein Verbot für von ChatGPT und anderen KI-Sprachwerkzeugen geschriebene Beiträge erlassen.

Auch Fachzeitschriften sollten entsprechende Vorsichtsmaßnahmen treffen, mahnt Solaiman; in Bereichen, in denen gefälschte Informationen die Sicherheit von Menschen gefährden können – etwa in der Medizin – müsse eine strengere Kontrolle der Authentizität von Informationen erfolgen.

Abschließend gibt Narayanan zu bedenken, dass sich die Diskusion dieser Probleme nicht nur auf die Chatbots selbst konzentrieren sollte, sondern auf die Anreize, die zu deren Missbrauch führen. Diese Anmerkung zielt unter anderem auf die Praxis einiger Universitäten, bei Einstellungen oder Beförderungen nur nach der Zahl eingereichter wissenschaftlicher Arbeiten gehen, ohne Rücksicht auf deren Qualität oder Impact.

Quelle: Nature

16.01.2023

Mehr zu den Themen: