3D Computer Vision

Modul 2-14 im Masterstudiengang Elektrotechnik und Informationstechnik (2 V, 1 Ü, 5 Credits)
Modulbeauftragter: Prof. Dr. C. Wöhler
 

Allgemeiner Überblick

Diese Vorlesung behandelt Methoden der 3D-Bildverarbeitung, d. h. der bildbasierten dreidimensionalen Rekonstruktion von natürlichen Szenen und Objekten. Sie richtet sich an Studierende ab dem 5. Fachsemester. Am Beginn der Vorlesung stehen eine Einführung in die räumliche Geometrie auf Basis linearer Algebra, die Theorie der optischen Abbildung sowie grundlegende Methoden der linearen und nichtlinearen Kalibrierung von Kamerasystemen auf Basis unterschiedlicher Kameramodelle. Es folgt ein Überblick über die dreidimensionale Rekonstruktion von Szenen mit photogrammetrischen Verfahren anhand mehrerer Aufnahmen, insbesondere mit der klassischen Methode des Bündelausgleichs. Mustererkennungsmethoden zur automatischen Ermittlung von korrespondierenden Punkten auf den Bildern der Szene werden insbesondere anhand verschiedener Ansätze zur Stereo-Bildanalyse (z. B. merkmals- und korrelationsbasiertes sowie dichtes Stereo) erläutert. Darüberhinaus wird eine Einführung in Verfahren zur Bestimmung der dreidimensionalen Lage und Orientierung von Objekten ("Pose Estimation") anhand von Geometriemodellen gegeben. Weiterhin wird die dreidimensionale Rekonstruktion der Oberfläche von Objekten anhand ihrer physikalischen Eigenschaften (z. B. Shape from Shading, Specularities, Texture, Shadow, etc.) behandelt. Praktische Anwendungsbeispiele aus der aktuellen Forschung, insbesondere aus dem Fahrzeugbereich, der industriellen Produktion und auch aus der Astronomie, illustrieren jeden der betrachteten Themenbereiche.

Weitere Informationen zu diesen Themen sind in der Beschreibung der Forschungsaktivitäten zu finden.
 

Teil I: Geometrische Verfahren der 3D-Szenenrekonstruktion

Im ersten Teil der Vorlesung werden zunächst die Grundlagen der optischen Abbildung sowie Abbildungsfehler, inbesondere Schärfe-, Farb- und Verzeichnungsfehler von Objektiven, betrachtet. Am Anfang jeder bildbasierten 3D-Szenenrekonstruktion steht die Kalibrierung der Kamera. Aus diesem Grunde wird zunächst eine Einführung in Methoden der Kamerakalibrierung mittels eines Kalibrierkörpers bekannter Geometrie gegeben. Hierbei geht es um die Bestimmung der internen Kameraparameter (Brennweite, Lage des Hauptpunktes, ggf. Verzeichnungsparameter) sowie der Bestimmung von Kameraposition und -orientierung relativ zum Kalibrierkörper (externe Parameter). Der erste betrachtete Ansatz ist die Direct Linear Transform (DLT), die auf der Lösung eines überbestimmten linearen Gleichungssystems im Sinne des minimalen quadratischen Fehlers basiert. Die Referenzpunkte auf dem Kalibrierkörper dürfen hier allerdings nicht in einer Ebene liegen. Da ebene Kalibrierkörper in der Praxis allerdings erheblich einfacher herzustellen sind als dreidimensionale (z. B. durch Ausdrucken eines entsprechenden Testmusters), wird neben der DLT die Tsai-Methode behandelt, die eine Kamerakalibrierung auch mit einem ebenen Kalibrierkörper ermöglicht.


Eines der wichtigsten Verfahren der dreidimensionalen Szenenrekonstruktion ist die Stereo-Bildanalyse, die auf der Auswertung von Paaren von Bildern einer Szene basiert. In beiden Bildern werden die Positionen von zu Szenenmerkmalen gehörigen Bildpunkten ermittelt; anschließend wird daraus die dreidimensionale Struktur der Szenenmerkmale durch Triangulation bestimmt. An dieser Stelle wird auch eine kurze Einführung in das aus mathematischer Sicht in diesem Kontext durchaus hilfreiche Konzept der projektiven Geometrie gegeben. Die Stereo-Bildanalyse basiert, wie auch komplexere multiokulare dreidimensionale Rekonstruktionsverfahren, auf der Bildung von wechselseitigen Korrespondenzen zwischen Punkten in den Bildern der Szene. Hierfür muß beispielsweise bekannt sein, welche Punkte in Bild 1 mit welchen Punkten in Bild 2 korrespondieren, d. h. welche Bildpunkte jeweils zum selben physikalischen Objekt bzw. Objektteil in der Szene gehören. Aus diesem Grunde wird ausführlich auf Wege zur Lösung des Korrespondenzproblems (z. B. Kanten- und Eckendetektion, Grauwertvergleich, Kreuzkorrelation), ihre Eigenschaften sowie ihre jeweiligen Vor- und Nachteile eingegangen. Dies wird anhand von praktischen Beispielen aus den Bereichen der fahrzeuggebundenen Bildverarbeitungssysteme und der industriellen Bildverarbeitung illustriert.


Eine Verallgemeinerung der Stereo-Bildanalyse auf im Prinzip beliebig viele Kameras, die die Szene aus unterschiedlichen Positionen betrachten, ist der sogenannte Bündelausgleich (Bundle Adjustment). Hierbei handelt es sich um die Standardmethode der Photogrammetrie, die eine simultane Bestimmung sowohl der internen als auch der externen Kameraparameter sowie der dreidimensionalen Struktur der Szene aus mehreren von verschiedenen Orten aus aufgenommenen Bildern ermöglicht.


Es folgt eine Übersicht über Methoden zur Bestimmung der dreidimensionalen Position und Orientierung von Objekten aus einem oder mehreren Bildern, was auch als Pose Estimation bezeichnet wird. Hierbei wird davon ausgegangen, daß ein Geometriemodell des betreffenden Objekts verfügbar ist.


 

Teil II: Photometrische Verfahren zur 3D-Rekonstruktion der Oberfläche von Objekten

Im Gegensatz zu den geometrischen Verfahren, bei denen aus der Position von Szenenmerkmalen in mehreren Bildern die 3D-Koordinaten des zugehörigen Szenenpunktes ermittelt werden, zielen photometrische Verfahren darauf ab, die dreidimensionale Struktur eines Objekts aus der Intensitätsverteilung im Bild abzuleiten. Zunächst werden die wichtigsten radiometrischen Größen eingeführt, und der Bildentstehungsprozeß wird aus physikalischer Sicht nachvollzogen. Erste Anhaltspunkte über die dreidimensionale Form eines Objekts lassen sich aus der Vermessung von Schatten im Bild (Shape from Shadow, Shape from Darkness) gewinnen. Dies war bereits den Mondbeobachtern des 17. Jahrhunderts bekannt, die mit diesem Ansatz die Tiefe von Kratern auf dem Mond mit erstaunlicher Genauigkeit ermittelten. Für eine weitergehende Analyse ist die Kenntnis darüber vonnöten, wie einfallendes Licht an der Objektoberfläche gestreut bzw. reflektiert wird. Hier werden als Beispiele metallische Oberflächen und Planetenoberflächen (z. B. Mond, Merkur) betrachtet. In recht einfacher Weise lassen sich unter bestimmten Annahmen sowie unter Kenntnis des Reflexionsverhaltens der Oberfläche erstaunlich präzise Oberflächengradienten und daraus Höhenverläufe entlang von Bildzeilen erhalten (Photoklinometrie), was am Beispiel flacher vulkanischer Strukturen auf dem Mond, den sogenannten Lunardomen, illustriert wird. Aus mehreren Bildern einer Szene unter verschiedenen Beleuchtungsbedingungen läßt sich ein vollständiges Tiefenbild ableiten; diese Technik wird als photometrisches Stereo bezeichnet.

Ist lediglich ein einzelnes Bild verfügbar, ist das Rekonstruktionsproblem schlecht gestellt (ill-posed), d. h. es existieren i. a. unendlich viele Lösungen. Durch die Forderung, daß die rekonstruierte Oberfläche bzw. ihre Gradienten bestimmten Bedingungen genügen müssen (z. B. Glattheit der Oberfläche, Integrabilität der Oberflächengradienten), läßt sich unter bestimmten Voraussetzungen auch aus einem Einzelbild ein vollständiges Tiefenbild der Oberfläche gewinnen. Hierzu ist der Einsatz von Variationsverfahren notwendig, weshalb an dieser Stelle auch eine kurze Einführung in das mathematisch sehr interessante Gebiet der Variationsrechnung gegeben wird. Die Vorlesung schließt mit einem Überblick über weitere photometrische Verfahren der 3D-Rekonstruktion von Oberflächen wie z. B. Shape from Texture und Polarisation Vision.


 

Übungen

Im Rahmen der Vorlesung werden Übungen abgehalten, in denen ausgewählte, zuvor in der Vorlesung behandelte Verfahren anhand praktischer Anwendungsbeispiele von den Teilnehmern in MATLAB zu implementieren sind.
 

Literatur
Mein persönlicher Kommentar ist jeweils kursiv wiedergegeben.

[1] C. Wöhler. 3D Computer Vision. Efficient Methods and Applications. Springer-Verlag, 2009.
Dient als Grundlage für die Vorlesung.

[weitere Informationen]

[2] J. Albertz. Einführung in die Fernerkundung. Wissenschaftliche Buchgesellschaft, 2001.
Eine gut verständliche Einführung, behandelt auch allgemeine Aspekte der Bildverarbeitung.

[3] J. J. Craig. Introduction to Robotics, Mechanics and Control. Addison-Wesley, 1989.
Für hartgesottene Robotiker.

[4] O. Faugeras. Three-Dimensional Computer Vision (Artificial Intelligence). MIT Press, 1993.
Ein äußerst hochwertiges und umfangreiches Werk, mathematisch sehr anspruchsvoll. Für eine erste Begegnung mit dem Gebiet der 3D-Bildverarbeitung m. E. allerdings weniger geeignet.

[5] O. Faugeras, Q.-T. Luong, T. Papadopoulo. The Geometry of Multiple Images: The Laws That Govern the Formation of Multiple Images of a Scene and Some of Their Applications. MIT Press, 2004.
Neue, überarbeitete Fassung des Buches [4].

[6] B. K. P. Horn. Robot Vision. MIT Press, 1986.
Ein exzellentes, sehr gut verständliches Werk über die Grundlagen und Methoden der 3D-Bildverarbeitung. In der Vorlesung wird an verschiedenen Stellen Bezug auf dieses Buch genommen.

[7] X. Jiang, H. Bunke. Dreidimensionales Computersehen. Gewinnung und Analyse von Tiefenbildern. Springer-Verlag, 1996.
Sehr gut lesbare Einführung in die Methoden der 3D-Bildverarbeitung.

[8] K. Kraus. Photogrammetrie. De Gruyter, 2004.
Sehr gutes Lehrbuch zur dreidimensionalen Szenenanalyse mittels photogrammetrischer Verfahren.

[9] T. Luhmann. Nahbereichsphotogrammetrie. Grundlagen, Methoden und Anwendungen. Wichmann, 2003.
Ein weiteres sehr gutes Photogrammetrie-Lehrbuch, das auch eine Einführung in wichtige allgemeine Aspekte der Bildverarbeitung gibt.

[10] R. Hartley, A. Zisserman. Multiple View Geometry in Computer Vision. Cambridge University Press, 2nd edition, 2003.
Eine gute Einführung in geometrische Methoden der 3D-Bildverarbeitung, die (in leider nicht immer sehr übersichtlicher Weise) mit den Mitteln der projektiven Geometrie herausgearbeitet werden. In der Vorlesung wird an verschiedenen Stellen Bezug auf dieses Buch genommen.

[11] S. Birchfield. An Introduction to Projective Geometry (for computer vision). http://robotics.stanford.edu/~birch/projective/projective.pdf
Eine sehr gute Kurzeinführung in die Grundlagen der projektiven Geometrie und ihre Anwendung in der dreidimensionalen Szenenrekonstruktion, insbesondere zur Stereobildverarbeitung (Epipolargeometrie, Essentialmatrix, Fundamentalmatrix).
 

Zurück zur Hauptseite