Quelle: Pock – TU Graz/ICG
News • Bildverarbeitung
Maschinelles Sehen: der neue Stand der Technik
Mit dem Vorbild der Sehrinde im menschlichen Gehirn, dem sog. visuellen Cortex, entwickelte die Forschungsgruppe rund um ERC-Preisträger Thomas Pock neue mathematische Modelle und Algorithmen als Grundlage für schnellere und intelligentere Bildverarbeitungsprogramme.
Unser visueller Cortex kann in Sekundenbruchteilen Bilder erfassen und Objekte erkennen, selbst wenn diese kaum oder nur bruchstückhaft zu sehen sind. Mit ein Grund für diese fantastische Höchstleistung ist die hocheffiziente hierarchische Schichtenarchitektur des visuellen Cortex. Sie filtert die visuellen Informationen, erkennt Zusammenhänge und vervollständigt das Bild anhand vertrauter Muster. Der Prozess dahinter wird in seiner Komplexität nach wie vor kaum verstanden. Zwar existieren mittlerweile Deep Learning-Algorithmen, die bei gewissen Mustererkennungsaufgaben die menschliche Leistungsfähigkeit erreichen können oder teilweise sogar übertreffen. Ein Nachteil dieser Algorithmen ist aber, dass man kaum nachvollziehen kann was sie gelernt haben, wie sie funktionieren oder wann sie Fehler machen.
Diesem Verständnis war Thomas Pock vom Institut für Maschinelles Sehen und Darstellen der TU Graz im Rahmen seines ERC-Starting-Grant-Projekts HOMOVIS (High Level Prior Models for Computer Vision) auf der Spur. Er beschäftigte sich intensiv mit der Frage, wie sich bekannte Arbeitsweisen des visuellen Cortex mithilfe mathematischer Modelle berechnen und auf Bildverarbeitungsanwendungen übertragen lassen. Fünf Forschungsjahre, 41 Publikationen und ein Patent später haben der Forscher und seine Arbeitsgruppe umfassendes Wissen gesammelt, das neue Bildverarbeitungsalgorithmen für verschiedenste Anwendungen ermöglicht.
Anregungen bei Wertheimer und Euler
Pock orientierte sich in seiner Arbeit an den Gestaltgesetzen der Wahrnehmung von Max Wertheimer. Der Hauptbegründer der Gestaltpsychologie hat mit diesen Gesetzen den Prozess des menschlichen Sehens zu erklären versucht, bei dem Reize und Sinneseindrücke zu einem großen Ganzen zusammensetzt werden. „Der Mensch kann schon anhand einzelner Punkte oder subjektiver Konturen (Scheinkonturen) lückenhafte bzw. unvollständige Objekte korrekt erkennen. Das menschliche Gehirn ergänzt die fehlende Bildinformation automatisch. Beispielsweise, indem es die Punkte über möglichst glatte Kurven miteinander verbindet“, so Pock. Dieses Phänomen der Gestaltfindung haben Pock und sein Team erstmals mithilfe mathematischer Modelle beschrieben, die auf Euler’s Elastica beruhen – einer berühmten Gleichung des Mathematikers Leonhard Euler, mit der Kurven minimalster Krümmung berechnet werden können.
Foto: Ferdinand Schmutzer, 1921. © Creative Commons Public Domain
Darstellung in einem höherdimensionalen Raum
Auf Basis von Euler’s Elastica entwickelte Pocks Arbeitsgruppe neue Algorithmen, mit denen bestimmte krümmungsabhängige Bildverarbeitungsprobleme gelöst werden können. Die Lösung ist demzufolge umso leichter, wenn die (2D-)Bilder und deren Merkmale als Datenpunkte in einem dreidimensionalen Raum dargestellt werden. „In der dritten Dimension bekommen wir mit der Orientierung der Objektkanten eine zusätzliche Variable, erklärt Pock. Auch das ist dem menschlichen Sehen nachempfunden und geht zurück auf die bahnbrechenden Arbeiten der beiden Nobelpreisträger David Hubel und Torsten Wiesel, die 1959 feststellten, dass der visuelle Cortex aus orientierungssensitiven Schichten aufgebaut ist.
Aus mathematischer und informatischer Sicht liegt der größte Vorteil dieser dreidimensionalen Einbettung darin, dass Bildverarbeitungsprobleme mit Hilfe konvexer Optimierungsalgorithmen gelöst werden können. In der mathematischen Optimierung gilt die Grenze zwischen konvexer und nicht-konvexer Optimierung als jene große Barriere, die lösbare von nicht lösbaren Problemen unterscheidet. „Somit können wir für alle gegebenen Eingangsbilder garantiert das beste Bild berechnen – natürlich nur in Bezug auf das verwendete mathematische Modell“, so Pock.
Ausblick
Nun arbeiten Pock und sein Team an verbesserten Modellen, die die bekannten strukturellen Eigenschaften des visuellen Cortex mit Deep-Learning-Algorithmen kombinieren. Das Ziel: Die Entwicklung von Modellen, die genauso gut funktionieren wie derzeitige Deep-Learning-Algorithmen, aber auch ein tieferes Verständnis über die gelernten Strukturen erlauben. Erste Erfolge gibt es bereits bei der Rekonstruktion von Computertomographien und Magnetresonanzbildern. „Mit den neu entwickelten Algorithmen lassen sich nun trotz weniger aufgenommener Daten Bilder mit höchster Qualität rekonstruieren. Das spart Zeit und Rechenleistung und somit auch Kosten“, erklärt Pock.
Quelle: TU Graz
01.06.2021