WO2007085482A1

WO2007085482A1 - Verfahren zur erzeugung und darstellung räumlich wahrnehmbarer bilder

Info

Publication number: WO2007085482A1
Application number: PCT/EP2007/000724
Authority: WO
Inventors: Alexander Schmidt
Original assignee: NEWSIGHT GmbH
Current assignee: NEWSIGHT GmbH
Priority date: 2006-01-30
Filing date: 2007-01-29
Publication date: 2007-08-02
Anticipated expiration: 2008-07-30

Abstract

Die Erfindung betrifft ein Verfahren, mit dem aus einer Szene mehrere Ansichten von vorgegebenen, in horizontaler Richtung unterschiedlichen ßetrachtungspositionen abgeleitet werden und aus den Ansichten ein Bild der Szene erzeugt wird, welches auf einem Bildwiedergabegerät zur räumlichen Darstellung mit einer vorgegebenen Auflösung räumlich wahrnehmbar wiedergegeben wird. Dabei wird die Szene zunächst in Primitive zerlegt. Dann wird eine erste Ansicht abgeleitet, indem die Primitive in ein Betrachtungskoordinatensystem transformiert werden, für jeden transformierten Vertex eine Tiefenkoordinate ermittelt wird, die dem Vertex nach Projektion in eine Projektionsfläche wieder zugeordnet wird. Die übrigen Ansichten werden aus dieser Ansicht durch Verschiebung entweder der Vertizes oder aber der nach Rasterisierung erzeugten Fragmente abgeleitet. Die Fragmente werden anhand einer Zuordnungsvorschrift für die räumliche Darstellung zum Bild kombiniert, welches dann auf dem Bildwiedergabegerät ausgegeben wird. Die Szene wird nur ein einziges Mal an eine Vertex-Processing-Einheit in der Rendering-Pipeline einer Grafikkarte übergeben und durchläuft diese nur einmal.

Description

Verfahren zur Erzeugung und Darstellung räumlich wahrnehmbarer Bilder

Die Erfindung betrifft ein Verfahren, mit dem aus einer Szene mehrere Ansichten von vorgegebenen, in horizontaler Richtung unterschiedlichen Betrachtungspositionen abgeleitet werden und aus den Ansichten ein Bild der Szene erzeugt wird, welches auf einem Bildwiedergabegerät zur räumlichen Darstellung mit einer vorgegebenen Auflösung räumlich wahrnehmbar ausgegeben wird. Sie bezieht sich auf das Problem des massiven Verärbeitungsaufwaήdes, der bei der Erzeugung des räumlich darstellbaren- Bildes entsteht, sobald für einen besseren räumlichen Eindruck eine größer Anzahl von Ansichten abgeleitet und verwendet werden soll.

Im Stand der Technik enthält eine sogenannte Szene die Beschreibung von verschiedenen Objekten in einem gemeinsamen Objektraum. Dabei kann es sich um einfache geometrische Objekte wie Quader, Kugeln, Pyramiden etc. handeln, aber auch um kompliziertere Objekte wie Teekannen, Autos etc. Um aus dieser bisher nur im Objektraum vorliegenden Szene eine Ansicht aus einer Betrachtungsperspektive zu erzeugen wird die Szene zunächst in sogenannte Primitive zerlegt. Dies sind die kleinstmögli- chen graphischen Objekte bis hin zu Linien oder Punkten, in die sich die in der Szene versammelten Objekte zerlegen lassen. Räumliche Objekte werden dabei üblicherweise in Primitive aus von Polygonen begrenzten Flächen, bevorzugt Dreiecken oder Vierek- ken, zerlegt. Jedem Scheitelpunkt eines solchen Polygons - also dort, wo zwei Kanten zusammenstoßen und sich eine Ecke des Polygons befindet - wird ein Vertex zugeordnet. Dieser Vertex enthält mindestens die räumlichen Koordinaten des Scheitelpunktes im Objektkoordinatensystem des Objektraums. Darüber hinaus kann der Vertex weitere Angaben wie beispielsweise über die Farbe, eine mögliche Transparenz, oder auch .eine Texturkoordinate enthalten.

Anhand dieser Daten kann nun eine Ansicht aus einer vorgegebenen Betrachtungsposition abgeleitet und zur Darstellung vorbereitet werden. Dies geschieht in einer Vertex- Processi ng-Einheit in der sogenannten Rendering-Pipeline auf der Graphikkarte beispielsweise eines PCs oder eines sonstigen Geräts, in dem Grafikkarten verwendet werden. Die Primitive werden dabei durch Transformation der ihnen jeweils zugeordneten Vertizes in ein Betrachtungskoordinatensystem transformiert. Praktischerweise legt man dazu den Ursprung des Betrachtungskoordinatensystems in die Betrachtungsposition, von der die Szene betrachtet werden soll. Dies ist nicht zwingend, erleichtert jedoch die nächsten Schritte. Im Vertex-Processing wird dann für jeden der transformierten Vertizes eine Tiefenkoordinate z ermittelt, die den in bezug auf eine Projektionsfläche senkrechten Betrachtungsabstand zu der Betrachtungsposition entspricht. Die Vertizes werden dann in die Projektionsfläche projiziert, wobei jedem Vertex eine horizontale und eine vertikale Koordinate x,y in der Projektionsfläche sowie die ermittelte Tiefenkoordinate z zugeordnet wird. Die Projektionsfläche oder zumindest ein Ausschnitt davon - der sogenannte Viewport - entspricht von ihrer Lage in bezug auf den Betrachter dem, was später auf einem Bildschirm angezeigt werden soll.

Im nächsten Schritt in der Rendering-Pipeline wird die Ansicht in einer Rasterisierungs- Einheit rasterisiert: Die Ansicht wird mit einem Raster unterlegt, welches in Abhängigkeit von der Auflösung des Bildwiedergabegeräts vorgegeben wird. Die Primitive werden dann aufgeteilt und in sogenannten Fragmente umgewandelt. Jedes Fragment entspricht dabei einem potentiellen Pixel auf dem Bildschirm. Außer der Farbe und den möglichen Koordinaten auf dem Bildschirm enthält ein solches Fragment - ähnlich wie der Vertex - weitere Informationen, so z.B. die Tiefenkoordinate oder Beleuchtungsin- formationeπ. Die Werte werden dabei für jedes Fragment in einem Primitiv durch Interpolation aus den den Vertizes zugeordneten entsprechenden Werten für die Eckpunkte des Primitivs gewonnen.

Im folgenden sogenannten Fragment-Processing in einer Fragment-Processing-Elnheit werden dann die Fragmente anhand ihrer Tiefenkoordinate z auf ihre Sichtbarkeit hin überprüft. Sichtbare Fragmente können optionell entsprechend eines vorgegebenen Erscheinungsbildes dabei weiter modifiziert werden. Beispielsweise können den Fragmenten Nebeleffekte oder andere Schattierungen unterlegt werden, es können auch Texturen auf die Fragmente abgebildet werden - beispielsweise kann ein Schachbrettmuster oder ein Text auf ein schräg im Raum liegendes, sich zu einem Fluchtpunkt verjüngendes Rechteck abgebildet werden.

Am Ende der Rendering-Pipeline werden die sichtbaren Fragmente üblicherweise in einem sogenannten Framebuffer an einer der Pixelposition entsprechenden Speicher- Position gespeichert. Der Inhalt des Framebuffers wird dann an das Bildwiedergabegerät ausgegeben, welches eine vorgegebene Auflösung aufweist.

Für die Erzeugung eines räumlich darstellbaren Bildes, welches auf einem entsprechend ausgerüstetem Bildwiedergabegerät für einen Betrachter dreidimensional wahrnehmbar ist, werden mehrere, mindestens jedoch zwei Ansichten der Szene benötigt, die von unterschiedlichen Betrachtungspositionen aufgenommen scheinen. Im Stand der Technik wird für jede dieser Ansichten die Rendering-Pipeline von Anfang an neu durchlaufen. Jedesmal wird die Szene dabei mit der neuen Betrachtungsposition an die Crafikkarte übergeben, und jedesmal wird beispielsweise eine nur leicht abgewandelte Beleuchtungsrechnung durchgeführt. Erst zum Schluß, wenn alle Ansichten in Framebuffern gespeichert sind, werden sie entsprechend einer Zuordnungsvorschrift für die räumliche Darstellung entsprechend kombiniert, d.h. es wird entschieden, welches Fragment aus welcher Ansicht ggf. wann welchem Pixel auf dem Bildwiedergabegerät zugeordnet wird. Auf einem entsprechend ausgestatteten Bildwiedergabegerät sieht das linke Auge dann etwas anderes als das rechte Auge, wodurch ein räumlicher Eindruck hervorgerufen wird. Auch andere Darstellungsverfahren, bei denen-beispielswei- se eine spezielle Shutter-Brille verwendet wird, beruhen auf dieser Vorgehensweise. Die Zuordnungsvorschrift kann dabei je nach Art der Darstellung variieren, so ist z.B. eine Auswahl bzw. Kombination einzelner Fragmente aus den Ansichten und ihre Zusammenstellung entsprechend der Darstellung auf einem mit Filterarraytechnologie arbeitendem Bildwiedergabegerät möglich. Der räumliche Eindruck kann aber auch durch schnell nacheinander oder gleichzeitig auf einem entsprechenden Bildschirm - der beispielsweise auf holographischer Basis arbeiten kann - gezeigte Ansichten hervorgerufen werden, sofern die Bedingung, daß das linke Auge etwas anderes als das rechte sieht, eingehalten wird. Dementsprechend werden andere Zuordnungsvorschriften verwendet, wobei auch jeweils die Auflösung des Bildwiedergabegeräts einfließt.

Das Erzeugen von mehreren Ansichten auf herkömmliche Weise wie im Stand der Technik beschrieben erfordert also die mehrfache Ausführung der Verarbeitung. Speziell die mehrfache Kommunikation des Anwendungsprogrammes mit der Graphikkarte zur Übergabe von Szene und Betrachtungsposition ist eigentlich redundant.

Bei der Erzeugung eines räumlichen Bildes aus zwei Ansichten mag dies nicht ins Gewicht fallen. So beschreibt auch die WO 00/00934 ein solches Verfahren. Für beide Ansichten wird hier jedoch ein gemeinsamer Framebuffer verwendet. In der WO 98/43442 ist beschrieben, wie verschiedene Objekte einer Szene zunächst identifiziert werden, um sie dann in Primitive zerlegt werden, wobei sich die Primitive eines jeden Objektes in einer diesem Objekt zugeordneten Tiefe befinden. Die zu einem Objekt gehörigen Primitive werden jeweils in zweidimensionalen Bildsegmenten zusammengefaßt. Um nun stereoskopische Ansichten zu erzeugen, werden die Segmente als Ganzes jeweils entsprechend der ihnen zugeordneten Tiefe und in Abhängigkeit vom Abstand zweiter Betrachtungspositionen sowohl zueinander als auch zum jeweiligen Segment verschoben. Da jedes Segment unabhängig von den andern erzeugt wird, kann auf diese Weise die Entstehung von Lücken bei der Verschiebung verhindert werden. Nachteilig ist jedoch, daß bei einer hohen Anzahl von Objekten entsprechend viele Segmente anfallen und ein hoher Bearbeitungsaufwand entsteht. Problematisch ist auch die Verarbeitung von Objekten, die sich über einen größeren Tiefenbereich, der auch mehrere andere Objekte umfassen kann, erstrecken - beispielsweise die Erfassung einer Mauer, die in das Bild hinein auf eine Fluchtpunkt zuläuft, auf der aber vorne und hinten jeweils eine Person sitzt.

Aufgabe der Erfindung ist es daher, ein Verfahren der eingangs beschriebenen Art, dahingehend zu verbessern, daß der Verarbeitungsaufwand insbesondere auf einer Graphikkarte, mit der das Verfahren realisiert werden soll, verringert wird, wobei jedoch eine möglichst hohe Genauigkeit bei der 3D-Darstellung erzielt werden soll und Artefakte, wie sie oben in bezug auf die WO 98/43442 beschrieben sind, möglichst vermieden werden.

Diese Aufgabe wird durch ein solches Verfahren, mit dem aus einer Szene mehrere Ansichten von vorgegebenen, in horizontaler Richtung unterschiedlichen Betrachtungspositionen abgeleitet werden und aus den Ansichten ein Bild der Szene erzeugt wird, welches auf einem Bildwiedergabegerät zur räumlichen Darstellung mit einer vorgegebenen Auflösung räumlich wahrnehmbar ausgegeben wird, gelöst, bei dem zunächst die Szene in Primitive aus von Polygonen begrenzten Flächen zerlegt wird, wobei jedem Scheitelpunkt eines jeden Primitivs ein Vertex zugeordnet wird, der mindestens die räumlichen Koordinaten des Scheitelpunktes in einem Objektkoordinatensystem enthält, und anschließend eine erste Ansicht abgeleitet wird, in dem die Primitive durch Transformation der ihnen jeweils zugeordneten Vertizes in ein Betrachtungskoordinatensystem transformiert werden, für jeden transformierten Vertex eine Tiefenkoordinate z ermittelt wird, die den in bezug auf eine Projektionsfläche senkrechten Betrachtungsabstand zu einer ersten der Betrachtungspositionen entspricht, und die Vertizes in die Projektionsfläche projiziert werden, wobei jedem Vertex eine horizontale und eine vertikale Koordinate x,y in der Projektionsfläche sowie die ermit- telte Tiefenkoordinate z zugeordnet wird. Die übrigen Ansichten werden dann aus der ersten Ansicht durch horizontaler Verschiebung der projizierten Primitive abgeleitet, in dem die horizontale Koordinate x jedes projizierten Vertex der ersten Ansicht entsprechend des horizontalen Abstandes der jeweiligen Betrachtungsposition zur ersten Betrachtungsposition und in Abhängigkeit von seiner Tiefen koordinate z horizontal verschoben wird. Die Verschiebung ist einzig aus dem Grund horizontal, daß die Augen eines Betrachters in der Regel auch nur einen Abstand mit horizontaler Komponente aufweisen. Der Begriff „horizontal" ist also subjektiv auf einen fiktiven Betrachter bezogen. Grundsätzlich ist es natürlich auch möglich, Verschiebungen in anderen Richtungen durchzuführen. Jeder Vertex wird also entsprechend seiner Tiefeninformation in der Projektionsebene horizontal verschoben, so daß keine Tiefeninformation verloren geht. Vorteilhaft werden dabei sämtliche Geometriedaten auf einmal an die Graphikkarte übergeben. Ebenso müssen alle Berechnungen, insbesondere die für die Beleuchtung, nur einmal pro Vertex durchgeführt werden.

Die Ansichten bzw. die Primitive, die zu den Ansichten, gehören, werden im nächsten Schritt mit einem Raster, welches in Abhängigkeit von der Auflösung des Bildwiedergabegeräts vorgegeben wird, unterlegt und die den Ansichten zugeordneten Primitive werden in Fragmente umgewandelt. Diese werden anschließend auf ihre Sichtbarkeit in der entsprechenden Ansicht überprüft. Anschließend werden die in den Ansichten sichtbaren Fragmente zum Bild kombiniert, in dem aus den Fragmenten anhand einer Zuordnungsvorschrift die räumliche Darstellung für jede Position in einem Framebuffer der entsprechende Bilddatenwert ermittelt und auf der Position gespeichert wird. Diese Zuordnungsvorschrift für die räumliche Darstellung ist an das entsprechende Bildwiedergabegerät zur räumlichen Darstellung angepaßt. Handelt es sich beispielsweise um ein mit einem Filterarray versehenes Gerät, wie es beispielsweise in der DE 100 03 326 C2 beschrieben ist, so werden die Fragmente entsprechend der dort genannten Zuordnungsvorschriften kombiniert. Nicht unbedingt alle in einer Ansicht sichtbaren Fragmente erscheinen also auch im endgültigen Bild, in Abhängigkeit von anderen Geräten können auch andere Zuordnungsvorschrifteπ, insbesondere auch solche, die mit einer zeitlich und/oder räumlich sequentiellen oder gleichzeitigen Darstellung verknüpft sind, verwendet werden.

Schließlich wird der Inhalt des Framebuffers an das Bildwiedergabegerät zur räumlichen Darstellung ausgegeben. Die Ausgabe muß dabei nicht unmittelbar und direkt an das Bildwiedergabegerät erfolgen, sondern selbstverständlich sind dabei auch die Übertragung über Zwischengeräte wie beispielsweise einen Signalsplitter eingeschlossen. In einer bevorzugten Ausgestaltung der Erfindung werden mit jedem transformierten Primitiv der ersten Ansicht die daraus durch Verschiebung erzeugten Primitive der übrigen Ansichten parallel in Fragmente umgewandelt. Bei acht Ansichten wird also das einmal transformierte Primitiv der ersten Ansicht achtmal verschoben, um so die Primitive der übrigen Ansichten zu erzeugen. Diese Primitive werden dann gemeinsam ra- sterisiert, d.h. mit Rastern unterlegt und in Fragmente umgewandelt. Mehrere Ansichten werden so gleichzeitig abgearbeitet, was die Geschwindigkeit der Bearbeitung erhöht.

Bevorzugt werden die Fragmente vor der Kombination zum Bild entsprechend eines vorgegeben Erscheinungsbildes modifiziert, wobei mit jedem Fragment der ersten Ansicht die entsprechenden Fragmente der übrigen Ansichten parallel modifiziert werden. Nach der parallelen Rasterisierung werden also die entstanden Fragmente auch parallel weiterverarbeitet. Das Erscheinungsbild kann beispielsweise durch Nebeleffekte oder Schattierungen beeinflußt werden, die eine entsprechende Modifikation erfordern. Häufig werden die Fragmente auch mit einer oder mehreren Texturen verknüpft. Auch die Sichtbarkeit der Fragmente kann in bezug auf ihre jeweilige Ansicht parallel für die jeweiligen Fragmente überprüft werden.

Bevorzugt sind in jedem Vertex zusätzlich weitere Eigenschaften der Primitive, beispielsweise Farbe, Transparenz, Art der Lichtquelle und/oder Richtung des Lichteinfalls gespeichert. Bei der Transformation sowie der Umwandlung der Primitive in Fragmente werden diese Eigenschaften ebenfalls berücksichtigt. Insbesondere im Fragment- Processing, d.h. bei der Modifikation des Erscheinungsbildes der Fragmente, werden dies Eigenschafen entsprechend für jedes Fragment angepaßt, beispielsweise durch Interpolation.

Um den Verarbeituπgsaufwand weiter zu verringern, können nach der Überprüfung auf Sichtbarkeit nur die jeweils in einer Ansicht sichtbaren Fragmente weiter verarbeitet werden. Für jede Ansicht wird also überprüft, ob Fragmente sichtbar sind, nur diese werden dann dem Fragment-Processing unterzogen und letztendlich zum Bild kombiniert

Bevorzugt werden aus einer Szene acht Ansichten abgeleitet, dies hat sich als vertretbar sowohl in Hinsicht auf den Bearbeitungsaufwand als auch auf den räumlichen Eindruck erwiesen. Selbstverständlich ist es auch möglich, mehr oder weniger als acht Ansichten zu verwenden: Die Aufgabe wird außerdem auch durch ein Verfahren gelöst, mit dem aus einer Szene mehrere Ansichten von vorgegebenen in horizontaler Richtungen unterschiedlichen Betrachtungspositionen abgeleitet werden und aus den Ansichten ein -Bild der Szene erzeugt wird, welches auf einem Bildwiedergabegerät zur räumlichen Darstellung mit einer vorgegebenen Auflösung räumlich wahrnehmbar ausgegeben wird, bei dem zunächst die Szene in Primitive aus von Polygonen begrenzten Flächen zerlegt wird, wobei jedem Scheitelpunkt eines jedem Primitivs ein Vertex zugeordnet wird, der mindestens die räumlichen Koordinaten des Scheitelpunktes in einem Objektkoordinatensystem enthält. Dann wird eine erste Ansicht abgeleitet, indem die Primitive durch Transformation der ihnen jeweils zugeordneten Vertizes in ein Betrachtungskoordinatensystem transformiert werden, für jeden transformierten Vertex eine Tiefenkoordinate z ermittelt wird, die dem in bezug auf eine Projektionsfläche senkrechten Betrachtungsabstand zu einer ersten der Betrachtungspositionen entspricht, und die Vertizes in die Projektionsfläche projiziert, wobei jedem Vertex eine horizontale und eine vertikale Koordinate x.y in der Projektionsfläche sowie die ermittelte Tiefenkoordinate z zugeordnet wird. Im Unterschied zum vorangehend beschriebenen Verfahren werden im nächsten Schritt nicht die übrigen Ansichten erzeugt, sondern es wird zunächst nur die erste Ansicht mit einem Raster, welches in Abhängigkeit von der Auflösung des Bildwiedergabegeräts vorgegeben wird, unterlegt, und es werden nur die der ersten Ansicht zugeordneten Primitive in Fragmente umgewandelt. Dann wird für jedes Fragment ein Tiefenwert aus den Tiefenkoordinaten z der Vertizes des zugehörigen Primitivs durch Interpolation ermittelt und das Fragment entsprechend seiner Position in der Ansicht und in Abhängigkeit von seinem Tiefenwert in einem von mehreren Framebuffern gespeichert. Jedem der Framebuffer ist dabei ein Tiefen bereich mit einer mittleren Tiefe zugeordnet, der von den den anderen Framebuffern zugeordneten Tiefenbereichen verschieden ist. Jeder Framebuffer korrespondiert also zu einer Tiefenscheibe, wobei nur an den Stellen Werte gespeichert sind, die in den zugehörigen Tiefenbereich fallen. Im Cegensatz zum Stand der Technik wird dabei nicht nach einzelnen Objekten unterschieden, sondern es werden die schon in Pixelgröße zerlegten Fragmente der Objekte einzelnen Tiefenbereichen zugeordnet. Auf diese Weise läßt sich eine höhere Genauigkeit erzielen.

Die übrigen Ansichten werden dann erzeugt, indem die horizontalen Positionen der Fragmente in den Framebuffern entsprechend dem horizontalen Abstand der jeweiligen Betrachtungsposition von der ersten Betrachtungsposition und in Abhängigkeit von den mittleren Tiefen verschoben werden. Grundsätzlich ist es natürlich auch möglich, Verschiebungen in anderen Richtungen als der horizontalen durchzuführen. Für jede der Ansichten werden also die Tiefenscheiben gegeneinander verschoben. Schließlich werden die Fragmente zum Bild kombiniert, indem aus den Fragmenten anhand einer Zuordnungsvorschrift für die räumliche Darstellung für jede Position in einem Framebuffer der entsprechende Biiddatenwert ermittelt und auf der Position gespeichert wird. Der Inhalt dieses Framebuffers wird an das Bildwiedergabegerät ausgegeben. Die Ausgabe muß dabei nicht unmittelbar und direkt an das Bildwiedergabegerät erfolgen, sondern selbstverständlich sind dabei auch die Übertragung über Zwischengeräte wie beispielsweise einen Signalsplitter eingeschlossen. Vor der Kombination zum Bild werden die Fragmente außerdem auf ihre Sichtbarkeit hin analysiert, bevorzugt werden dabei nur die sichtbaren Fragmente weiterverarbeitet.

Bevorzugt sind in jedem Vertex zusätzlich weitere Eigenschaften der Primitive beispielsweise Farbe, Transparenz, Arte der Lichtquelle und/oder Richtung des Lichteinfalls gespeichert und werden bei der Transformation sowie bei der Umwandlung der Primitive in Fragmente berücksichtigt. Zweckmäßig werden dann die Fragmente vor der Kombination zum Bild entsprechend eines vorgegebenen Erscheinungsbildes modifiziert. Auf dieses Erscheinungsbild haben beispielsweise die zusätzlich^" in den Vertizes gespeicherten Eigenschaften einen Einfluß. Weiterhin kann das Erscheinungsbild durch die Verknüpfung mit Texturen verändert werden. Auch in diesem Fall hat sich die Verwendung von acht Ansichten als Kompromiß im Hinblick auf Aufwand und räumlichen Eindruck bewährt. Es sei jedoch darauf hingewiesen, daß die Anzahl der Tiefenscheiben nicht von der Anzahl der Ansichten abhängt. Es können also mehr oder weniger Tiefenscheiben bzw. Framebuffer als Ansichten verwendet werden, natürlich auch gleichviel.

Die Erfindung soll im folgenden anhand von Ausführungsbeispielen näher erläutert werden. In den dazugehörigen Zeichnungen zeigt

Fig.1 den Ablauf des ersten erfindungsgemäßen Verfahrens und Fig.2 den Ablauf des zweiten erfindungsgemäßen Verfahrens.

In Fig. l ist ein erstes Verfahren dargestellt, bei der die Ansichten durch Verschiebung der Vertizes erzeugt werden. Eine räumliche Szene 1 in einem Objektraum wird zunächst durch ein Anwendungsprogramm in Primitive aus von Polygonen begrenzten Flächen zerlegt. Jedem Scheitelpunkt eines jeden Primitivs wird dann ein Vertex zugeordnet, der mindestens die räumlichen Koordinaten des Scheitelpunktes in einem Objektkoordinatensystem enthält. Anschließend werden die Primitive bzw. ihre Vertizes an eine Graphikkarte 2 übergeben, wo sie zunächst in einer Vertex-Processing-E\nhe\t 3 verarbeitet werden. Hier wird eine erste Ansicht abgeleitet, indem die Primitive durch Transformation der ihnen jeweils zugeordneten Vertizes in ein Betrachtungskoordinatensystem transformierten werden. Jedem Vertex werden außer den Koordinaten im Objektkoordinatensystem weitere Eigenschaften wie Farbe oder Transparenz zugeordnet. Diese Eigenschaften werden in der Vertex-Processing-Em^' heit 3 entsprechend der Transformation modifiziert. Außerdem wird für jeden transformierten Vertex eine Tiefenkoordinate z ermittelt, die dem in bezug auf eine Projektionsfläche senkrechten Betrachtungsabstand zu einer ersten Betrachtungsposition entspricht. Die Vertizes werden dann in die Projektionsfläche projiziert, wobei jedem Vertex eine horizontale und eine vertikale Koordinate x,y in der Projektionsfläche sowie die ermittelte Tiefenkoordinate z zugeordnet wird.

Die übrigen Ansichten werden anschließend aus der ersten Ansicht durch horizontale Verschiebung der Primitive abgeleitet. Die Verschiebung ist einzig aus dem Grund horizontal, daß die Augen eines Betrachters in der Regel auch nur einen Abstand mit horizontaler Komponente aufweisen. „Horizontal" ist also subjektiv auf einen fiktiven Betrachter bezogen. Grundsätzlich ist es natürlich auch möglich, Verschiebungen in- anderen Richtungen durchzuführen. Die horizontale Koordinate x jedes projizierten Vertex der ersten Ansicht wird entsprechend des horizontalen Abstandes der jeweiligen Betrachtungsposition zur ersten Betrachtungsposition und in Abhängigkeit von seiner Tiefenkoordinate z horizontal verschoben. Auf diese Weise wird die notwendige Disparität für die entsprechende Stereoaπsicht erzeugt. Die Verschiebung wird für jeden Vertex mehrfach nacheinander ausgeführt. Im in Fig.1 gezeigten Beispiel werden insgesamt acht Ansichten abgeleitet. Die verschobenen Vertizes werden dann an eine Rasterisierungs-Einheit 4 übergeben. Die Rasterisierungs-Einheit 4 besteht aus mehreren Untereinheiten, jede Untereinheit bearbeitet eine Ansicht, wobei die Vertizes, die aus Verschiebung auseinander hervorgegangen sind, parallel verarbeitet werden. In der Rasterisierungs-Einheit 4 werden die Ansichten jeweils mit einem Raster, welches in Abhängigkeit von der Auflösung des Bildwiedergabegeräts vorgegeben wird, unterlegt. Die den Ansichten zugeordneten Primitive werden in Fragmente umgewandelt. Ein Fragment entspricht dabei einem potentiellen Pixel, es enthält neben einem Koordinatenpaar x,y für die Position in der auf einem Bildwiedergabegerät gezeigten Ansicht als Ganzes auch die Tiefenkoordinate sowie weitere Eigenschaften wie Farbe, Transparenz, etc. Die Verarbeitung und Umwandlung in Fragmente geschieht dabei parallel für alle aus Verschiebung auseinander hervorgegangen Primitive.

Auch der nächste Schritt erfolgt parallel für alle parallelen Fragmente, d.h. Fragmente, die eine Entsprechung in den jeweils anderen Ansichten haben. Handelt es sich bei dem transformierten Primitiv um ein Dreieck, so werden die Fragmente dieses Dreiek- kes für jede Ansicht parallel verarbeitet. Die Fragmente werden dazu an eine Fragment- Processing-Einheit 5 übergeben, in der ihr Erscheinungsbild verändert wird. Dabei findet auch ein Test statt, ob das Fragment in der jeweils zugeordneten Ansicht sichtbar ist oder nicht. Ist es nicht sichtbar, so muß es nicht weiter berücksichtigt werden. Sichtbare Fragmente können beispielsweise mit Texturen unterlegt werden, Nebeleffekten o.a. Am Ende dieses Prozesses werden die Fragmente in einem Kombinationsmodul 6 zu einem Bild kombiniert, indem aus ihnen anhand einer Zuordnungsvorschrift für die räumliche Darstellung für jede Position in einem Framebuffer 7 der entsprechende Bilddatenwert ermittelt und auf der Position gespeichert wird. Nicht alle in einer jeweiligen Ansicht sichtbaren Fragmente müssen dabei zum endgültigen Bild kombiniert werden, dies hängt von der jeweiligen Zuordnungsvorschrift ab, die wiederum von der Art des Bildschirms abhängt, auf dem das räumlich wahrnehmbare Bild dargestellt werden soll. Handelt es sich beispielsweise um einen Bildschirm basierend auf Filterarraytechnologie, so wird bei acht Ansichten jeweils nur etwa ein Achtel der Jeweiligen Ansicht verwendet. In jedem Falle wird am Ende des Verfahrens der Inhalt des Framebuffers 7 an ein Bildwiedergabegerät 8 zur räumlichen Darstellung ausgegeben. Als Bildwiedergabegerät 8 sind selbstverständlich nicht nur Geräte basierend auf Filterarraytechnologie geeignet, sondern auch sogenannte SΛwffer-Brillen, oder auch Head-Mounted-Displays. In diesem letzten Fall werden nur zwei Ansichten benötigt, die Zuordnungsvorschrift muß dann modifiziert werden.

In Fig.2 ist ein anderes erfindungsgemäßes Verfahren gezeigt, wobei jedoch auch hier - nach Zerlegung der Szene 1 in Primitive aus von Polygonen begrenzten Flächen, wobei jedem Scheitelpunkt eines jeden Primitivs ein Vertex zugeordnet ist, der mindestens die räumlichen Koordinaten des Scheitelpunktes in einem Objektkoordinatensystem enthält - die Szene bzw. die Menge von Vertizes nur einmal an die Craphikkarte 2 übergeben werden muß und in der Vertex-Processing-Einbeit 3 die Transformation der Primitive durch Transformation der ihnen jeweils zugeordneten Vertizes in ein Betrachtungskoordinatensystem einschließlich der Anpassung der Eigenschaften der Primitiven, wie beispielsweise Farbe, Transparenz, Beleuchtung - Eigenschaften, die zusätzlich zu den Koordinaten in jedem Vertex gespeichert sein können -, nur einmal durchgeführt werden muß. Insbesondere die Rechnung für die Beleuchtung kann sehr aufwendig sein. In der Vertex-Processing-Eϊnheit 3 wird nach der Transformation für jeden transformierten Vertex eine Tiefe nkoordinate z ermittelt, die dem in bezug auf eine Projektionsfläche senkrechten Betrachtungsabstand zu einer ersten Betrachtungsposition entspricht, ermittelt. Anschließend werden die Vertizes in die Projektionsfläche projiziert, wobei jedem Vertex eine horizontale und eine vertikale projiziert, wobei jedem Vertex eine horizontale und eine vertikale Koordinate x,y in der Projektionsfläche sowie die ermittelte Tiefenkoordinate z zugeordnet wird.

Die so für die erste Ansicht erzeugten Vertizes bzw. Primitive werden an die Rasteπsie- rungs-Einheit 4 übergeben, wo sie mit einem Raster, welches in Abhängigkeit von der Auflösung des Bildwiedergabegerätes vorgegeben wird, unterlegt werden und die der ersten Ansicht zugeordneten Primitive in Fragmente umgewandelt werden. Anschließend werden die Fragmente an die Fragment-Processing-Einheix 5 übergeben. In dieser wird ihr Erscheinungsbild entsprechend äußerer Vorgaben angepaßt, beispielsweise können Texturen auf die Fragmente aufgetragen werden. Außerdem wird untersucht, ob das Fragment in der Ansicht sichtbar ist. Um die Entstehung von Lüdken im Bild durch die folgenden Schritte zu vermeiden ist es jedoch empfehlenswert, die Prüfung auf Sichtbarkeit später durchzuführen.

Im nächsten Schritt wird für jedes Fragment ein Tiefenwert aus den Tiefenkoordinaten z der Vertizes des zugehörigen Primitivs durch Interpolation ermittelt. Das Fragment wird dann entsprechend seiner Position in der Ansicht und in Abhängigkeit von seinem Tiefenwert einem von mehreren Tiefenscheiben in Form von Framebuffern 9 zugeordnet. Jedem der Framebuffer 9 ist dabei ein Tiefenbereich mit einer mittleren Tiefe zugeordnet. Die Tiefenbereiche aller Framebuffer 9 unterscheiden sich. Jeder Framebuffer 9 bzw. jede Tiefenscheibe deckt also einen eigenen Tiefenbereich ab.

Die übrigen Ansichten werden dann erzeugt, in dem die horizontalen Positionen der Fragmente in den Framebuffern 9 entsprechend der horizontalen Abstand der jeweiligen Betrachtungsposition von der ersten Betrachtungsposition und in Abhängigkeit von den Primitiven verschoben werden. Alle Tiefenscheiben werden also gegeneinander verschoben. Die Anzahl der Tiefeπscheiben ist dabei flexibel und bestimmt die Genauigkeit des resultierenden räumlich wahrnehmbaren Bildes. Sie ist unabhängig von der Anzahl der Ansichten, die abgeleitet werden sollen. Jede Ansicht wird sozusagen aus einem Stapel verschobener Tiefenscheiben gebildet, die von hinten nach vorn aufein- andergestapelt werden. Die Bildinhalte können dabei addiert werden. Falls die Überprüfung auf Sichtbarkeit schon in der Fragment-Processing-Einh&iX 5 durchgeführt wurde, so müssen jetzt auftretende Löcher unter Umständen durch Interpolationsalgorithmen maskiert werden.

Schließlich werden im Kombinationsmodul 6 Fragmente zürn Bild kombiniert, indem aus den Fragmenten anhand einer Zuordnungsvorschrift die räumliche Darstellung für jede Position in einem Framebuffer 7 der entsprechenden Bilddatenwert ermittelt und auf der Position gespeichert wird. Im letzten Schritt wird der Inhalt des Framebuffers 7 schließlich an das Bildwiedergabegerät 8 ausgegeben.

Mit den eben beschriebenen Verfahrensweisen kann der Verarbeitungsaufwand auf der Grafikkarte erheblich verringert werden.

Claims

Patentansprüche

Verfahren, mit dem aus einer Szene (1 ) mehrere Ansichten von vorgegebenen, in horizontaler Richtung unterschiedlichen Betrachtungspositionen abgeleitet werden und aus den Ansichten ein Bild der Szene (1 ) erzeugt wird, welches auf einem Bildwiedergabegerät (8) zur räumlichen Darstellung mit einer vorgegebenen Auflösung räumlich wahrnehmbar ausgegeben wird, bei dem die Szene (1 ) in Primitive aus von Polygonen begrenzten Flächen zerlegt wird, wobei jedem Scheitelpunkt eines jeden Primitivs ein Vertex zugeordnet wird, der mindestens die räumlichen Koordinaten des Scheitelpunkts in einem Objektkoordinatensystem enthält, eine erste Ansicht abgeleitet wird, indem die Primitive durch Transformation der ihnen jeweils zugeordneten Vertizes in ein Betrachtungskoordinatensystem transformiert werden, für jeden transformierten Vertex eine Tiefenkoordinate (z) ermittelt wird, die dem in bezug auf eine Projektionsfläche senkrechten Betrachtungsabstand zu einer ersten der Betrachtungspositionen entspricht, und die Vertizes in die Projektionsfläche projiziert werden, wobei jedem Vertex eine horizontale und eine vertikale Koordinate (x, y) in der Projektionsfläche sowie die ermittelte Tiefenkoordinate (z) zugeordnet wird, die übrigen Ansichten aus der ersten Ansicht durch horizontale Verschiebung der projizierten Primitive abgeleitet werden, indem die horizontale Koordinate (x) jedes projizierten Vertex der ersten Ansicht entsprechend des horizontalen Abstandes der jeweiligen Betrachtungsposition zur ersten Betrachtungsposition und in Abhängigkeit von seiner Tiefenkoordinate (z) horizontal verschoben wird, die Ansichten jeweils mit einem Raster, welches in Abhängigkeit von der Auflösung des Bildwiedergabegeräts (8) vorgegeben wird, unterlegt und die den Ansichten zugeordneten Primitive in Fragmente umgewandelt und diese auf ihre Sichtbarkeit in der entsprechenden Ansicht überprüft werden, die in den Ansichten sichtbaren Fragmente zum Bild kombiniert werden, indem aus den Fragmenten anhand einer Zuordnungsvorschrift für die räumliche Darstellung für jede Position in einem Framebuffer (7) der entsprechende Bilddatenwert ermittelt und auf der Position gespeichert wird, und der Inhalt des Framebuffers (7) an das Bildwiedergabegerät (8) zur räumlichen Darstellung ausgegeben wird.

2. Verfahren nach Anspruch 1 , dadurch gekennzeichnet, daß mit jedem transformierten Primitiv der ersten Ansicht die daraus durch Verschiebung erzeugten Primitive der übrigen Ansichten parallel in Fragmente umgewandelt werden.

3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die Fragmente vor der Kombination zum Bild entsprechend eines vorgegebenen Erscheinungsbildes modifiziert werden, wobei mit jedem Fragment der ersten Ansicht die entsprechenden Fragmente der übrigen Ansichten parallel modifiziert werden.

4 Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß die Fragmente mit einer oder mehreren Texturen verknüpft werden.

5. Verfahren, mit dem aus einer S;εene (1 ) mehrere Ansichten von vorgegebenen, in horizontaler Richtung unterschiedlichen Betrachtungspositionen abgeleitet werden und aus den Ansichten ein Bild der Szene (1) erzeugt wird, welches auf einem Bildwiedergabegerät (8) zur räumlichen Darstellung mit einer vorgegebenen Auflösung räumlich wahrnehmbar ausgegeben wird, bei dem die Szene (1 ) in Primitive aus von Polygonen begrenzten Flächen zerlegt wird, wobei jedem Scheitelpunkt eines jeden Primitivs ein Vertex zugeordnet wird, der mindestens die räumlichen Koordinaten des Scheitelpunkts in einem Objektkoordinatensystem enthält, eine erste Ansicht abgeleitet wird, indem die Primitive durch Transformation der ihnen jeweils zugeordneten Vertizes in ein Betrachtungskoordinatensystem transformiert werden, für jeden transformierten Vertex eine Tiefenkoordinate (z) ermittelt wird, die dem in bezug auf eine Projektionsfläche senkrechten Betrachtuπgsabstand zu einer ersten der Betrachtungspositionen entspricht, und die Vertizes in die Projektionsfläche projiziert werden, wobei jedem Vertex eine horizontale und eine vertikale Koordinate (x, y) in der Projektionsfläche sowie die ermittelte Tiefenkoordinate (z) zugeordnet wird, die erste Ansicht mit einem Raster, welches in Abhängigkeit von der Auflösung des Bildwiedergabegeräts (8) vorgegeben wird, unterlegt und die der ersten Ansicht zugeordneten Primitive in Fragmente umgewandelt werden, für jedes Fragment ein Tiefenwert aus den Tiefenkoordinaten (z) der Vertizes des zugehörigen Primitivs durch Interpolation ermittelt wird und das Fragment entsprechend seiner Position in der Ansicht und in Abhängigkeit von seinem Tiefenwert in einem von mehreren Framebuffern (9) gespeichert wird, wobei jedem der Framebuffer (9) ein Tiefenbereich mit einer mittleren Tiefe zugeordnet ist, der von den den anderen Framebuffern (9) zugeordneten Tiefenbereichen verschieden ist, die übrigen Ansichten erzeugt werden, indem die horizontalen Positionen der Fragmente in den Framebuffern (9) entsprechend dem horizontalen Abstand der jeweiligen Betrachtungsposition von der ersten Betrachtungsposition und in Abhängigkeit von den mittleren Tiefen verschoben werden, die Fragmente zum Bild kombiniert werden, indem aus den Fragmenten anhand einer Zuordnungsvorschrift für die räumliche Darstellung für jede Position in einem Framebuffer (7) der entsprechende Bilddatenwert ermittelt und auf der Position gespeichert wird, und der Inhalt dieses Framebuffers (7) an das Bildwiedergabegerät ausgegeben wird.

6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß die Fragmente vor der Kombination zum Bild entsprechend eines vorgegebenen Erscheinungsbildes modifiziert werden.

7. Verfahren nach Anspruch 5 oder 6, dadurch gekennzeichnet, daß die Fragmente der ersten Ansicht auf ihre Sichtbarkeit überprüft werden und nur die sichtbaren Fragmente weiter verarbeitet werden.

8. Verfahren nach einem der vorgenannten Ansprüche, dadurch gekennzeichnet, daß in jedem Vertex zusätzlich weitere Eigenschaften der Primitive, beispielsweise Farbe, Transparenz, Art der Lichtquelle und / oder Richtung des Lichteinfalls gespeichert und bei der Transformation sowie der Umwandlung der Primitive in Fragmente berücksichtigt werden.

9. Verfahren nach einem der vorgenannten Ansprüche, dadurch gekennzeichnet, daß aus einer Szene acht Ansichten abgeleitet werden.