Brain-to-Text
Spracherkennung aus Gehirnströmen
Sprache ist eine der Aufgaben der menschlichen Großhirnrinde (Kortex). Sprachprozesse drücken sich in Hirnströmen aus, die mittels Elektroden direkt am Kortex aufgezeichnet werden können. Nun ist es erstmals gelungen, aus diesen Strömen kontinuierlich gesprochene Laute, Wörter und ganze Sätze zu rekonstruieren und per Computer als Text wiederzugeben. Ihr Verfahren „Brain-to-Text“ stellen Forscher des KIT und des amerikanischen Wadsworth Centers nun in der Fachzeitschrift Frontiers in Neuroscience vor.
„Schon lange wurde darüber spekuliert, ob die direkte Kommunikation zwischen Mensch und Maschine über Gehirnströme möglich ist“, erklärt Tanja Schultz, die mit Ihrem Team am Cognitive Systems Lab des KIT die vorliegende Studie durchgeführt hat. „Wir konnten nun zeigen, dass aus Gehirnströmen einzelne Sprachlaute und kontinuierlich gesprochene komplette Sätze erkannt werden können.“
Die Ergebnisse wurden durch die interdisziplinäre Zusammenarbeit von Forscherinnen und Forschern aus Informatik, Neurowissenschaften und Medizin möglich. In Karlsruhe wurden Methoden aus der Signalverarbeitung und der automatischen Spracherkennung angewendet. „Diese erlauben neben der Erkennung von Sprache aus Gehirnsignalen eine detaillierte Analyse der am Sprachprozess beteiligten Gehirnregionen und ihrer Interaktionen“, sagen Christian Herff und Dominic Heger, die im Rahmen ihrer Promotion das Brain-to-Text-System entwickelt haben.
Die aktuelle Arbeit ist weltweit die Erste, die kontinuierlich gesprochene Sprache erkennt und in Text transformiert. Dazu werden Informationen aus dem Kortex mit linguistischem Wissen und Algorithmen des maschinellen Lernens kombiniert, um die wahrscheinlichste Wortsequenz zu extrahieren. Derzeit arbeitet Brain-to-Text auf hörbar gesprochener Sprache, die Ergebnisse sind allerdings ein sehr wichtiger erster Schritt hin zur Erkennung gedachter Sprache.
Die Hirnströme wurden im Rahmen der Behandlung von 7 Epilepsie-Patienten, die freiwillig an den Experimenten teilnahmen, in den USA aufgezeichnet. Im Zuge ihrer neurologischen Behandlung wurde ihnen ein Elektrodennetz auf die Großhirnrinde gelegt (Elektrokortikographie (ECoG)). Während die Patienten Beispieltexte laut vorlasen, wurden die räumlich und zeitlich hoch aufgelösten ECoG-Signale aufgezeichnet. Diese wurden später in Karlsruhe analysiert und dienten als Basis für die Entwicklung von Brain-to-Text. Neben der reinen Grundlagenforschung und einem besseren Verständnis der hochkomplexen Sprachprozesse im Gehirn könnte Brain-to-Text ein Baustein sein, um Locked-in-Patienten zukünftig eine sprachliche Kommunikation zu ermöglichen.
Ein Video zur Funktionsweise von Brain-To-Text:
http://csl.anthropomatik.kit.edu/publikationen_2934.php
Die Studie online:
http://journal.frontiersin.org/article/10.3389/fnins.2015.00217
Quelle: Karlsruher Institut für Technologie (KIT)
16.06.2015