Erstautor Žiga Avsec an seinem Arbeitsplatz im Home Office

Bild: Avsec / TUM                                      

Genregulation in der DNA entschlüsselt

KI knackt Rätsel genetischer Codes

Mit Hilfe künstlicher Intelligenz (KI) ist es einem deutsch-amerikanischen Wissenschaftsteam gelungen, komplexe Anweisungen der Genregulation in der DNA zu entschlüsseln.

Sie trainierten ihr neuronales Netzwerk mit hochauflösenden Protein-DNA-Bindungsdaten. Mit Hilfe von Modellinterpretationstechniken gelang es ihnen, die relevanten DNA-Sequenzmuster aufzudecken. Die Ergebnisse liefern ein tieferes Verständnis dafür, wie DNA Sequenzen organisiert sind, um Gene zu regulieren.

Die Forscher veröffentlichten ihre Erkenntnisse jetzt im Fachjournal Nature Genetics.

KI-Algorithmen sind äußerst leistungsfähig, um umfangreiche und komplexe Datensätze zu erschließen. Wie die Maschine zu bestimmten Vorhersagen kommt, wenn eine bestimmte Eingabe präsentiert wird, ist jedoch nicht einfach zu verstehen. Da nachvollziehbare Interpretationen in der medizinischen Diagnostik wichtig sind, steht dieses Black-Box-Verhalten der KI einer breiten Akzeptanz entgegen und schränkt ihre Nützlichkeit in Naturwissenschaften ein, in denen das Verständnis von Mechanismen das Ziel ist. 

Ein interdisziplinäres Forschungsteam aus Biologie und Informatik der Technischen Universität München, des Stowers Institute for Medical Research und der Stanford University hat nun gezeigt, dass die Anwendung neuronaler Netze, wie sie zur Gesichtserkennung verwendet werden, zusammen mit neu entwickelten Techniken zur Modellinterpretation verwendet werden kann, um komplexe Anweisungen zu entschlüsseln, die in der DNA kodiert sind.

Eines der großen ungelösten Probleme in der Biologie ist der zweite Code des Genoms, der regulatorische Code. Denn die Abfolge der DNA-Basen beinhaltet nicht nur die Anweisungen zum Aufbau von Proteinen, sondern auch wann und wo diese Proteine in einem Organismus hergestellt werden. Der regulatorische Code wird von Proteinen gelesen, die Transkriptionsfaktoren genannt werden und an kurze DNA-Abschnitte binden, die als Motive bezeichnet werden. Wie bestimmte Kombinationen und Anordnungen von Motiven die regulatorische Aktivität beeinflussen, ist jedoch ein äußerst komplexes Problem, das bisher nicht lösbar war.

Neuronale Netze gelten als schwer durchschaubare Black Box, sie können aber digital befragt werden. Mit einer großen Zahl virtueller Experimente gelingt es so, die Regeln herauszufinden, die das neuronale Netz gelernt hat

Žiga Avsec

Ein wichtiger Schlüssel zum Erfolg war es, Transkriptionsfaktor-DNA-Bindungsexperimente und Computermodellierungen mit der höchstmöglichen Auflösung durchzuführen, also auf der Ebene einzelner DNA-Basen. Die hohe Auflösung ermöglichte es dem Team, nicht nur hochpräzise neuronalen Netzwerkmodelle zu trainieren, sondern auch die Schlüsselelemente und Muster aus den Modellen zu extrahieren, einschließlich der Bindungsmotive für Transkriptionsfaktoren und der kombinatorischen Regeln, nach denen sie zusammen als Code fungieren. „Neuronale Netze gelten als schwer durchschaubare Black Box, sie können aber digital befragt werden. Mit einer großen Zahl virtueller Experimente gelingt es so, die Regeln herauszufinden, die das neuronale Netz gelernt hat,“ sagt Erstautor Dr. Žiga Avsec, Mitarbeiter im Labor von Julien Gagneur, Professor für Computational Molecular Medicince an der TU München. Zusammen mit Anshul Kundaje, Professor an der Stanford University, schuf er die erste Version des Modells, als er Stanford als Gastwissenschaftler besuchte.

Das Team wandte den Ansatz auf die Hauptregulatoren embryonaler Stammzellen der Maus an und bestätigte die Ergebnisse durch CRISPR-Genom-Edition experimentell. Die entdeckten Muster zeigten klare Regeln, die unter anderem auf eine präzise Positionierung entlang der DNA-Doppelhelix hinwiesen und eine bevorzugte Reihenfolge der Transkriptionsfaktoren beinhalten. „Das war äußerst befriedigend,“ sagt Projektleiterin Julia Zeitlinger, Forscherin am Stowers Institute und Professorin am Medical Center der University of Kansas, „da die Ergebnisse hervorragend zu den vorhandenen experimentellen Ergebnissen passen, aber auch neue, überraschende Erkenntnisse enthüllen.“

transcription factor nanog
Durch Beobachtung des Transkriptionsfaktors Nanog konnten die Forscher neue Erkenntnisse über ihr neuronales Netz gewinnen

Zum Beispiel fand das Forschungsteam heraus, dass ein gut untersuchter Transkriptionsfaktor namens Nanog bevorzugt an DNA bindet, wenn mehrere seiner Motive periodisch angeordnet sind, so dass sie auf derselben Seite der spiralförmigen DNA-Helix erscheinen. „Es gibt eine Menge experimenteller Hinweise, dass eine solche Motivperiodizität im Regulierungscode manchmal vorkommt,“ sagt Zeitlinger. „Die genauen Umstände waren jedoch bisher schwer zu erfassen. Es war daher eine Überraschung, dass Nanog ein solches Muster zeigt, insbesondere da wir nicht speziell nach diesem Muster gesucht haben.“ „Dies ist der Hauptvorteil der Verwendung neuronaler Netze für diese Aufgabe. Ein klassisches Rechenmodell basiert auf handgefertigten, starren Regeln, um sicherzustellen, dass es interpretiert werden kann “, sagt Avsec. „Die Biologie ist jedoch äußerst reich und kompliziert. Indem wir darauf verzichten, einzelne Parameter zu interpretieren, können wir viel flexiblere und vielschichtigere Modelle trainieren, die alle biologischen Phänomene erfassen, einschließlich der noch unbekannten.“

Dieses neuronale Netzmodell, Base Pair Network genannt, oder kurz BPNet, ist ein leistungsstarker Bottom-up-Ansatz, der der Gesichtserkennung in Bildern ähnelt. Das neuronale Netzwerk erkennt zuerst Kanten in den Pixeln, dann lernt es, wie Kanten Gesichtselemente wie Auge, Nase oder Mund formen, und schließlich, wie Gesichtselemente zusammen ein Gesicht bilden. Anstatt aus Pixeln zu lernen, lernt BPNet aus der DNA-Sequenz. Es lernt zuerst Motive zu erkennen und dann die kombinatorischen Regeln, nach denen die Elemente zusammen die Bindungsdaten vorhersagen.

Die Arbeitsgruppen von Julia Zeitlinger und Anshul Kundaje verwenden BPNet bereits, um Bindungsmotive für andere Zelltypen zuverlässig zu identifizieren, Motive mit biophysikalischen Eigenschaften in Verbindung zu bringen und andere strukturelle Merkmale im Genom zu analysieren. Damit andere Wissenschaftler BPNet verwenden und an ihre eigenen Bedürfnisse anpassen können, haben die Forscher die gesamte Software mit Dokumentation und Tutorials auf GitHub zur Verfügung gestellt. „Diese Arbeit ist eine technologische Tour de Force,“ sagt Julien Gagneur. „Sie kombiniert Deep-Learning-Modellierung genomweiter Daten in höchster Auflösung mit neuentwickelten erklärbaren KI-Techniken, mit denen interpretiert werden kann, was die „Black Box“ gelernt hat. Die Methodik wird der biologischen Forschung helfen, die vollständige regulatorische Grammatik zu studieren.“


Quelle: Technische Universität München (TUM)

19.02.2021

Mehr aktuelle Beiträge lesen

Verwandte Artikel

Photo

Bildbasierte Krebsdiagnostik

KI erkennt genetische Veränderungen von Tumoren

Forscher der Uniklinik RWTH Aachen entwickelten in Zusammenarbeit mit dem Deutschen Krebsforschungszentrums (DKFZ), dem Deutschen Konsortium für Translationale Krebsforschung (DKTK) und dem…

Photo

Software "Janggu"

KI bringt genomische Daten auf einen Nenner

Forscher des Max-Delbrück-Centrums für Molekulare Medizin in der Helmholtz-Gemeinschaft (MDC) haben eine neues Softwareanwendung entwickelt, mit der sich Deep Learning für Genomik-Studien optimal…

Photo

Technik in den Genen

Was KI in der Genomforschung leisten kann (und was nicht)

Die Entschlüsselung des menschlichen Erbguts gibt noch immer Rätsel auf. Künstliche Intelligenz könnte helfen, diese zu lösen. Neue therapeutische Ansätze für schwerwiegende Krankheiten…

Verwandte Produkte

Orion Diagnostica Oy – Orion GenRead

Amplification

Orion Diagnostica Oy – Orion GenRead

Orion Diagnostics Oy
Sarstedt – Low DNA Binding Micro Tubes

Research Use Only (RUO)

Sarstedt – Low DNA Binding Micro Tubes

SARSTEDT AG & CO. KG
Sarstedt – White Multiply PCR Plates

Amplification

Sarstedt – White Multiply PCR Plates

SARSTEDT AG & CO. KG
Newsletter abonnieren