DE69716413T2

DE69716413T2 - Automatische synchronisierung von videobildsequenzen mit neuen tonspuren

Info

Publication number: DE69716413T2
Application number: DE69716413T
Authority: DE
Inventors: Christoph Bregler
Original assignee: Interval Research Corp; Palo Alto Research Center Inc
Current assignee: Interval Research Corp; Palo Alto Research Center Inc
Priority date: 1996-03-25
Filing date: 1997-03-25
Publication date: 2003-06-26
Anticipated expiration: 2017-03-26
Also published as: EP0890171B1; DE69716413D1; AU2544697A; CA2250462A1; EP0890171A1; WO1997036297A1; AU716673B2; US5880788A; JP2000508845A; CA2250462C

Description

GEBIET DER ERFINDUNG

Die vorliegende Erfindung betrifft das Sychronisieren von Videobildsequenzen mit Sprachtonspuren und insbesondere ein System, das eine realistische Videosequenz eines realen Menschen, der einen beliebigen Satz spricht, bereitstellt.

STAND DER TECHNIK

Es gibt verschiedene Situationen, in denen es wünschenswert ist, dass einer Videoaufzeichnung einer sprechenden Person Worte, die anders sind als die, die während der Originalaufzeichnung des Videobildes geäußert wurden, exakt zugeordnet werden. Eine derartige Anwendung ist das Gebiet der Audiosynchronisation, bei der die ursprünglich aufgezeichnete Tonspur durch eine andere Tonspur ersetzt wird. In einem einfachen Fall kann es nach der Aufzeichnung eines Bildes eines Schauspielers, der eine Äußerung spricht, wünschenswert sein, die Äußerung erneut aufzuzeichnen, beispielsweise, um die Betonung zu verändern oder einen anderen Akzent bereitzustellen. Anstatt die gesamte Videosequenz erneut aufzuzeichnen, ermöglicht das Verfahren der erneuten Synchronisation dem Schauspieler, die Äußerung mit den gewünschten Modifikationen zu wiederholen und die ursprünglich aufgezeichnete Äußerung durch die wiederholte zu ersetzen.
Bei einer anspruchsvolleren Videoproduktion kann es wünschenswert sein, vorrätige Aufzeichnungen eines Schauspielers zu verwenden und die gesprochenen Worte des Schauspielers durch eine vollkommen andere Sprachtonspur zu ersetzen, vielleicht mit einer anderen Stimme. Beispielsweise kann die ursprüngliche Äußerung in einer anderen Sprache ausgedrückt werden, oder es können verschiedene Spezialeffekte erzeugt werden, wie beispielsweise ein Kind, das eine Rede mit der Originalstimme eines berühmten Staatsmannes hält.
Bei dieser Art von Anwendungen muss das ursprünglich aufgezeichnetete Bild modifiziert werden, so dass die Lippenbewegungen des Sprechers mit der neuen Tonspur synchronisiert werden. In der Vergangenheit haben die Verfahren zur Erzielung einer derartigen Synchronisation eine umfangreiche manuelle Eingabe und/oder ein spezialisiertes Verarbeiten erfordert, das ihre Anwendbarkeit beschränkte. Ein Beispiel eines Lösungsversuchs des Stands der Technik, der auf einer Bildausrichtung basiert, ist in U.S.-Patent Nr. 4,827,532 beschrieben. Dieses Patent betrifft besonders den Ersatz einer Tonspur in einer Sprache durch eine neue Tonspur in einer zweiten Sprache, die andere Lippenbewegungen vom Sprecher fordert. Bei dem in dem Patent offenbarten Verfahren wird eine Videoaufzeichnung eines neuen Schauspielers hergestellt, der die Äußerungen in der neuen Sprache spricht. Es werden spezielle Markierungen verwendet, um die Konturen der Lippen des Schauspielers in dem neu aufgezeichneten Bild des Schauspielers, der die neue Sprache spricht, zu markieren, und das ursprüngliche Video muss manuell markiert werden. Wenn die entsprechenden Abschnitte des alten und des neuen Videobildes identifiziert worden sind, werden Pixel des originalen Filmeinzelbildes modifiziert, damit sie so aussehen, als ob der originale Schauspieler die Worte der neuen Tonspur sprechen würde.
Ein ähnliches Verfahren ist in EP-A-0 674 315 und in einem entsprechenden Artikel von Chen et al. mit dem Titel "Lip Synchronization in Talking Head Video Utilizing Speech Information", Proceedings of the SPIE, Bd. 2501, S. 1690-1701, 1995 beschrieben. Bei diesem Verfahren speichert eine Tabelle Lippenpositionen, die Lautgruppen, d. h. Phonemen, entsprechen. Die Stimme eines Synchronisationssprechers wird analysiert, und jedes Phonem wird verwendet, um das Bild des Mundes einer synchronisierten Person den Einträgen in der Tabelle entsprechend zu modifizieren.
Das Verfahren, das in dem Patent '532 offenbart ist, umfasst zwei Arten von Videomodifikation. Zuerst wird in einem Bestreben, die Einzelbilder des Originalbildes mit dem neuen Klang auszurichten, die Videosequenz zeitlich verzerrt, so dass die Lippenformen zueinander passen. Daraufhin wird eine visuelle Verzerrung, d. h. Morphing des Bildes ausgeführt, um einen Übergang zwischen nichtkontinuierlichen Abschnitten des Bildes, die sich aus dem Überspringen von Einzelbildern ergeben können, herzustellen.
Diese beiden Verzerrungsschritte erfordern einen bedeutenden Aufwand an manueller Eingabe. Als Folge davon lassen sich lange Videosequenzen mit Sprachsynchronisation nicht leicht produzieren. Des Weiteren ist es nicht in allen Fällen möglich, eine Videosequenz in einer solchen Weise zeitlich zu verzerren, dass die neuen Lippenformen mit den Originalformen übereinstimmen. Zum Beispiel kann das Bild für einen Klang mit geschlossenen Lippen nicht in eines für einen Klang mit offenen Lippen verzerrt werden, da die Zähne und/oder die Zunge fehlen würden. Ein ähnliches Problem tritt bei Klängen auf, die mit unterschiedlich vorstehenden Lippen erzeugt werden. Daher sind die Arten von Veränderungen, die ausgeführt werden können, begrenzt. Zusätzlich erfordert die neue Tonspur eine zweite Videoaufzeichnung, so dass die beiden aufgezeichneten Sequenzen visuell ausgerichtet werden können. Daher kann das Verfahren nicht mit jeder beliebigen Äußerung als neuer Tonspur ausgeführt werden. Vielmehr können nur Tonspuren, die begleitende Videobilder aufweisen, verwendet werden.
Es sind andere Lösungsversuche auf dem Gebiet der Animation unternommen worden, so dass sich der Mund einer Figur exakt an gesprochene Worte anpasst. Jedoch sind die Bilder, die in diesen Lösungsversuchen verwendet werden, synthetisch, und ihre entsprechenden Synchronisationsverfahren sind zur Verwendung für Videobilder des Gesichts einer realen Person nicht geeignet.
Dementsprechend ist es wünschenswert, ein Verfahren zu schaffen, das ermöglicht, eine beliebige gegebene Lautäußerung durch die Tonspur einer zuvor aufgezeichneten Videosequenz zu ersetzen, ohne dass eine Videoaufzeichnung der neuen Laute, die geäußert werden, erforderlich ist. Es ist weiterhin wünschenswert, ein derartiges Verfahren zu schaffen, das auf einfache Weise für eine Automatisierung verwendet werden kann, um dadurch den erforderlichen Aufwand an manueller Eingabe zu verringern.

ZUSAMMENFASSUNG DER ERFINDUNG

Gemäß einem ersten Gesichtspunkt der vorliegenden Erfindung wird ein Verfahren zum Synchronisieren einer Videosequenz geschaffen, die eine begleitende Audiospur mit einer unterschiedlichen Audiospur aufweist, wobei das Verfahren die Schritte umfasst:
Analysieren der die Videosequenz begleitenden Audiospur mit Hilfe von automatischen Spracherkennungsverfahren, um individuelle Sprachkomponenten in der Audiospur zu identifizieren;
Analysieren einer Lautäußerung mit Hilfe von automatischen Spracherkennungsverfahren, um individuelle Sprachkomponenten in der Lautäußerung zu identifizieren; und
zeitliches Modifizieren mindestens entweder der Videosequenz oder der Lautäußerung, so dass identifizierte individuelle Sprachkomponenten in der Videosequenz zeitlich mit entsprechenden individuellen Sprachkomponenten in der Lautäußerung ausgerichtet werden.
Gemäß einem zweiten Gesichtspunkt der vorliegenden Erfindung wird ein System zur Modifizierung eines aufgezeichneten Videobildstroms geschaffen, um diesen mit einer Tonspur zu synchronisieren, die getrennt von dem aufgezeichneten Videobildstrom erzeugt wird, wobei das System umfasst:
Mittel zum automatischen Analysieren des aufgezeichneten Videobildstroms, um Bildsequenzen zu identifizieren, die individuellen Sprachkomponenten zugeordnet sind;
einen Speicher, der eine Datenbank speichert, die die identifizierten Bildsequenzen enthält;
Mittel zum automatischen Analysieren der Tonspur, um individuelle Sprachkomponenten zu identifizieren, die darin enthalten sind; und
Mittel zum Auswählen von Bildsequenzen, die in der Datenbank enthalten sind und individuellen Sprachmerkmalen entsprechen, die in der Tonspur identifiziert sind, und zum Zusammensetzen der ausgewählten Bildsequenzen zu einem Videobildstrom, der mit der Tonspur synchronisiert ist.
Gemäß einem dritten Aspekt der vorliegenden Erfindung wird ein System zum Modifizieren eines aufgezeichneten Videobildstroms geschaffen, um diesen mit einer Tonspur zu synchronisieren, die getrennt von dem aufgezeichneten Videobildstrom erzeugt wird, wobei das System umfasst:
Mittel zum Analysieren des aufgezeichneten Videobildstroms, um Bilder zu identifizieren, die individuellen Sprachkomponenten zugeordnet sind;
einen Speicher, der eine erste Datenbank speichert, die Unterbilder enthält, von denen jedes einen vorherbestimmten Abschnitt eines der identifizierten Bilder umfasst;
Mittel zum Analysieren der identifizierten Bilder, um Steuermerkmale innerhalb der Unterbildabschnitte der Bilder zu definieren;
Mittel zum Aufzeichnen der gespeicherten Unterbilder mit Daten, die sich auf die definierten Steuermerkmale beziehen;
einen Speicher, der eine zweite Datenbank, die Vollbilder aus dem Videobildstrom enthält, zusammen mit den definierten Steuermerkmalen speichert;
Mittel zum Analysieren der Tonspur, um individuelle Sprachkomponenten zu identifizieren, die darin enthalten sind;
Mittel zum Auswählen von Unterbildern, die in der ersten Datenbank enthalten sind und individuellen Sprachkomponenten entsprechen, die in der Tonspur identifiziert sind; und
Mittel zum Integrieren der ausgewählten Unterbilder in Vollbilder, die in der zweiten Datenbank gespeichert sind, in Übereinstimmung mit den definierten Steuermerkmalen, um einen Videostrom zu bilden, der mit der Tonspur synchronisiert ist.
Im Allgemeinen umfasst die vorliegende Erfindung daher die phonetische Analyse einer Audiospur, um die dazugehörigen Bilder zu klassifizieren, und das nachfolgende Abstimmen von Bildern aus der originalen Videosequenz mit den phonetischen Komponenten des neuen Tons. Dieses Verfahren ermöglicht, dass eine gegebene originale Videosequenz mit einer beliebigen Audiospur synchronisiert wird, ohne dass eine Videoaufzeichnung der neuen Tonspur oder die Erzeugung künstlicher Sprache oder Grafiken erforderlich ist. Des Weiteren kann das Abstimmen der Videosequenz auf die neuen Laute in einer hochautomatisierten Weise ausgeführt werden, wodurch der Umfang an manuellem Aufwand, der für Audiosynchronisation und dergleichen erforderlich ist, verringert wird.
Weitere Merkmale der Erfindung und die dadurch erzielten Vorteile werden im Folgenden ausführlich unter Bezugnahme auf spezifische Beispiele beschrieben, die in den beigefügten Zeichnungen veranschaulicht sind.

KURZE BESCHREIBUNG DER ZEICHNUNGEN

Fig. 1 ist ein Ablaufplan des Gesamtverfahrens der vorliegenden Erfindung;
Fig. 2 ist ein ausführlicherer Ablaufplan des Verfahrens zur Erzeugung einer aufgezeichneten Datenbank von tonbezogenen Bildsequenzen;
Fig. 3 ist eine schematische funktionelle Veranschaulichung des Verfahrens zur Erzeugung einer Visem-Datenbank aus einer Videoaufzeichnung;
Fig. 4 ist eine schematische funktionelle Veranschaulichung des Verfahrens zur Erzeugung eines neuen Videostroms, der mit einer neuen Audiospur synchronisiert ist;
Fig. 5 ist ein ausführlicherer Ablaufplan des Verfahrens zum Zusammensetzen einer neuen Videofolge aus der Datenbank und einer neuen Tonspur;
Fig. 6 ist ein Beispiel eines Videoeinzelbildes, bei dem Steuerpunkte auf den Lippen einer Sprecherin markiert worden sind;
Fig. 7 ist ein Beispiel des Videoeinzelbildes, in das ein neues Lippenbild eingefügt wurde;
Fig. 8 ist eine schematische, funktionelle Veranschaulichung eines alternativen Verfahrens zum Synchronisieren einer Videosequenz mit einer neuen Tonspur; und
Fig. 9 ist ein Ablaufplan des alternativen Verfahrens, das in Fig. 8 gezeigt ist.

AUSFÜHRLICHE BESCHREIBUNG

Um ein Verständnis der vorliegenden Erfindung zu ermöglichen, wird diese im Folgenden unter Bezugnahme auf spezifische Beispiele beschrieben, bei denen die Tonspur für eine Videosequenz einer Person, die einen Laut äußert, durch eine andere Tonspur ersetzt wird. Die Beispiele betreffen den Ersatz einer Gruppe gesprochener Wörter, z. B. eines Satzes, durch eine andere Gruppe gesprochener Wörter. Jedoch sind die praktischen Anwendungen der Erfindung nicht auf Wörter beschränkt. Vielmehr können ihre Prinzipien auch auf andere Laute, wie beispielsweise Gesang, angewendet werden. Daher wird im Kontext der vorliegenden Erfindung der Begriff "Äußerung" in generischem Sinn auf gesprochene Wörter, musikalische Noten und alle anderen Laute bezogen, die mündlich erzeugt werden und klassifiziert werden können.
Bei der Beschreibung der folgenden Beispiele der Erfindung werden für verschiedene Arten der Video- und Audioanalyse bestimmte spezifische Verfahrensweisen dargestellt. Es versteht sich jedoch, dass diese Verfahrensweisen exemplarisch sind und dass die Erfindung unter Verwendung anderer Verfahrensweisen ausgeführt werden kann, die äquivalente Ergebnisse bereitstellen. Des Weiteren versteht sich, dass die Prinzipien der Erfindung nicht auf die spezifischen veranschaulichenden Implementierungen beschränkt sind, die hierin beschrieben sind. Vielmehr gibt es eine Reihe von praktischen Anwendungen der Erfindung, wie ausführlicher am Ende der Beschreibung erörtert.
Ein Überblick über das Verfahren, das in der vorliegenden Erfindung verwendet wird, um eine originale Videoaufzeichnung mit einer neuen Tonspur zu synchronisieren, ist in dem Ablaufplan in Fig. 1 veranschaulicht. Unter Bezugnahme auf diesen wird in Schritt S2 eine Videoaufzeichnung einer realen Person, die spricht oder singt, analysiert, um charakteristische Laute in der Äußerung spezifischen Videobildsequenzen zuzuordnen. Diese Videobildsequenzen werden in Schritt S3 in einer Datenbank gespeichert, die gemäß den charakteristischen Lauten, die jeder Bildsequenz zugeordnet sind, indexiert ist. Danach wird in Schritt S4 eine neue Lautäußerung, wie beispielsweise die Stimme eines anderen Sprechers, analysiert, um die charakteristischen Laute darin zu identifizieren. In Schritt S5 wird die originale Videoaufzeichnung mit der neuen Tonspur synchronisiert, indem die charakteristischen Laute beider aufeinander abgestimmt werden. Bei einer Ausführungsform der Erfindung wird für jeden identifizierten Laut in der neuen Tonspur eine geeignete Bildsequenz aus der Datenbank abgerufen, und sämtliche der abgerufenen Bildsequenzen werden in Schritt S6A zu einer Folge zusammengesetzt. Die Folge von Bildern wird daraufhin in Schritt S7A zum Beispiel mit Hilfe eines Morphing-Verfahrens geglättet, um einen Videostrom der Person zu erzeugen, die die neue Äußerung spricht. Bei einer alternativen Ausführungsform der Erfindung, bei der die neue Tonspur der Originalaufzeichnung ähnlich ist, z. B. derselbe Satz gesprochen wird, wird in Schritt S6B die Synchronisation erreicht, indem je nachdem, wie es angemessen ist, das Originalvideomaterial oder das neue Audiomaterial zeitlich verzerrt wird, um die charakteristischen Laute der Originalaufzeichnung mit denen der neuen Tonspur auszurichten.
Die Erzeugung einer Datenbank von lautindexierten Bildern in Schritt S1 und S2 in Fig. 1 ist ausführlicher im Ablaufplan aus Fig. 2 veranschaulicht. Im Wesentlichen wird eine Videoaufzeichnung mit ihrer begleitenden Audiospur zuerst einem Spracherkennungsverfahren unterzogen. Der Zweck dieses Verfahrens besteht darin, erkennbare Komponenten oder Eigenschaften zu identifizieren, die die aufgezeichneten Laute ausmachen. Bei einer Ausführungsform umfassen diese Komponenten die individuellen Phoneme der Sprache, d. h. eine Gruppe der kleinsten Einheiten der Sprache. Insbesondere werden individuelle Doppellaute oder Dreifachlaute der Sprache verwendet, da sie einen ausreichenden Kontext umfassen, um in ihren visuellen und auditiven Gesichtspunkten ziemlich konstant zu sein. Verschiedene Wörter oder unterschiedliche Aussprachen desselben Wortes können erzeugt werden, indem diese phonetischen Einheiten unter Verwendung herkömmlicher Aussprachewörterbücher zu einer Folge zusammengesetzt werden. Alternativ können andere erkennbare Lautkomponenten verwendet werden, die zur Klassifizierung von Redeteilen verwendet werden können, z. B. akustische Eigenschaftsvektoren, die mit Hilfe von MFCC, RASTA-PLP und LPC Analyse erzeugt werden.
In der Technik sind verschiedene Arten von Spracherkennungsvorrichtungen bekannt, die zur Identifizierung der Komponentenlaute der aufgezeichneten Sprache verwendet werden können. Bei einer bevorzugten Ausführungsform der Erfindung wird ein verborgenes Markow-Modellsystem (HMM) als phonetische Spracherkennungseinrichtung verwendet. Eine Beschreibung der Verwendung eines HMM-Systems zu einem solchen Zweck ist in Rabiner, Laurence R.: "A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition", Proceedings of the IEEE, Bd. 77, Nr. 2, S. 257-286, Februar 1989 gegeben, dessen Offenbarung durch Bezugnahme hierin eingeschlossen ist.
Unter Bezugnahme auf Fig. 2 wird in Schritt S10 die Spracherkennungseinrichtung zuerst darauf trainiert, die Lautkomponenten zu erkennen, die zu Klassifizierungszwecken verwendet werden sollen. Zum Beispiel kann ein HMM-System darauf trainiert werden, Phoneme mit Hilfe einer Trainingsvorrichtung, wie beispielsweise der verborgenen Markow-Dienstprogrammsammiung von Entropic Research Lab zu erkennen. Wenn die Stimme derselben Person sowohl in der originalen Videosequenz als auch in der neuen Audiospur verwendet werden soll, kann das HMM-System auf die Stimme nur dieser Person trainiert werden. Alternativ kann ein von einem einzigen Sprecher abhängiges HMM-System für die originale Tonspur verwendet werden, und ein anderes von einem einzigen Sprecher abhängiges System kann verwendet werden, um die neue Lautäußerung zu analysieren, wenn ausreichende Trainingsdaten für jeden Sprecher zur Verfügung stehen. Vorzugsweise wird die Spracherkennungseinrichtung jedoch so trainiert, dass sie sprecherunabhängig ist, so dass die originale Tonspur durch eine beliebige gesprochene Äußerung ersetzt werden kann. Dieser Lösungsversuch ist besonders in solchen Situationen wünschenswert, in denen die originale Tonspur kurz ist und sehr wenige Trainingsdaten für den Sprecher zur Verfügung stehen.
Um ungünstige Ergebnisse aus den jeweiligen Eigenschaften verschiedener Mikrofone zu vermeiden, die in der originalen und der neuen Tonspur verwendet werden, wird vorzugsweise ein kanalinvariantes Extraktionssystem für akustische Merkmale verwendet, um die Eingabeinformationen für das HMM-System bereitzustellen. Ein Beispiel eines solchen Systems ist das RASTA-PLP-System, das in Hermansky et al., "Compensation for the Effect of the Communication Channel in Auditory", Proc. Europ. Conf. on Speech Comm. and Tech., 1991, S. 1367-1370 und in U.S.-Patent Nr. 5,450,522 beschrieben ist, deren Offenbarungen durch Bezugnahme hierin eingeschlossen sind. Andere Lösungsversuche für Kanalinvarianz können ebenfalls verwendet werden.
Nachdem die Spracherkennungseinrichtung so trainiert wurde, dass sie individuelle Phoneme in einer gesprochenen Äußerung erkennt, wird sie zur Analyse der Tonspur verwendet, die die betreffende Videoaufzeichnung begleitet. Das Verfahren zum Erzeugen der Datenbank entsprechender Bildsequenzen und Laute ist schematisch in Fig. 3 dargestellt. Unter Bezugnahme auf diese umfasst eine Videoaufzeichnung 10 eine Serie von Einzelbildern 12 und eine begleitende Audiospur 14. Die Videoaufzeichnung wird wiedergegeben, und die aufgezeichneten Laute werden in einer Spracherkennungseinrichtung 16 analysiert, die individuelle Phoneme in der aufgezeichneten Sprache identifiziert (Schritt S11 in Fig. 2). Für jedes Phonem, das in der aufgezeichneten Tonspur erkannt wird, werden Videobilddaten, die dem identifizierten Klang entsprechen, in einer Datenbank 18 aufgezeichnet (Schritt S12). Die aufgezeichneten Bilddaten werden in der Datenbank 18 aufgezeichnet, um das spezifische Phonem zu identifizieren, dem sie zugeordnet sind (Schritt S13). Die gespeicherten Videobilddaten könnten ein einzelnen Bild, z. B. ein Videoeinzelbild, für jedes Phonem umfassen. Für bessere Ergebnisse wird eine Sequenz von Bildern gespeichert, z. B. 3-4 Einzelbilder, die die gesamte Aussprache des Phonems umfassen.
Gemäß einem etablierten Standard zur Spracherkennung, der als TIMIT Phonemsatz bekannt ist, gibt es einundsechzig verschiedene Phonemkategorien, die die menschliche Sprache kennzeichnen. Im Wesentlichen stellt jedes Phonem einen anderen Laut dar, der von einer Person geäußert werden kann. Jedoch können unterschiedliche Phoneme dieselbe visuelle Erscheinung für einen Zuschauer aufweisen. Beispielsweise befinden sich die Lippen eines Sprechers zur Aussprache der Laute für die Buchstaben "b" und "p" in derselben Position. Ebenso bietet die Aussprache der Laute, die den Konsonanten "d" und "t" entsprechen, denselben visuellen Eindruck. In dem Kontext der vorliegenden Erfindung wird die visuelle Erscheinung eines gesprochenen Phonems als "Visem" identifiziert. Die einundsechzig Kategorien von auditiven Phonemen können einem Satz von zehn Visemen zugeordnet werden. Demgemäß braucht eine Kompaktversion der Datenbank nur zehn Einträge zu enthalten, die jeweils den zehn Visemen zugeordnet sind. Die komplette Datenbank enthält eine Videobildsequenz der Lippenposition des Sprechers, die jedem gesprochenen Laut, der aufgezeichnet wurde, entspricht.
Wenn die Datenbank 18 erstellt worden ist, kann sie verwendet werden, um einen Videostrom zusammenzusetzen, der zu einer neuen Äußerung synchronisiert wird. Dieses Verfahren wird in der schematischen Veranschaulichung in Fig. 4 und in dem Ablaufplan in Fig. 5 dargestellt. Unter Bezugnahme darauf wird der Spracherkennungseinrichtung 16 eine neue Tonspur bereitgestellt. In dem veranschaulichten Beispiel wird die Tonspur auf einem geeigneten Medium aufgezeichnet, wie beispielsweise auf einem Magnetband 20. In der Praxis braucht die neue Tonspur jedoch nicht zuvor aufgezeichnet zu werden. Zum Beispiel können Wörter, die von einem Sprecher geäußert werden, über ein Mikrofon direkt in die Spracherkennungseinrichtung 16 eingegeben werden, wenn sie gesprochen werden. Die Spracherkennungseinrichtung identifiziert in Schritt S20 jeden individuellen Laut in der neuen Äußerung, z. B. die aufeinanderfolgenden Phoneme. Jeder identifizierte Laut stellt einen Index bereit, der verwendet wird, um in Schritt S21 auf die Datenbank 18 zuzugreifen. Für jeden dieser Laute wird in Schritt S22 die entsprechende Videobildsequenz, z. B. das Visem, aus der Datenbank ausgewählt, und die ausgelesenen Viseme werden in Schritt S23 zu einer Folge 22 von Videobildsequenzen zusammengesetzt. In dem Beispiel aus Fig. 4 entsprechen vier ausgewählte Bildsequenzen 22 jeweils vier aufeinanderfolgenden Phonemen in der neuen Tonspur auf dem Magnetband 20.
Da benachbarte Bildsequenzen in der zusammengesetzten Folge 22 zu nicht aufeinanderfolgenden Abschnitten der originalen Videoaufzeichnung gehören können, kann es abrupte Veränderungen von einer Bildsequenz zur nächsten geben. Dementsprechend ist es wünschenswert, die sequenziellen Bilder nahtlos aneinander anzupassen. Zu diesem Zweck werden die Sequenzen von Bildern, die aus der Datenbank 18 ausgelesen sind, vorzugsweise in einer Bildmorphingvorrichtung 24 verarbeitet (Schritt S24). Diese Vorrichtung funktioniert im Wesentlichen so, dass sie im Verlauf einer vorherbestimmten Anzahl von Videoeinzelbildern ein Bild in das nächstfolgende Bild morpht. Als Folge davon gehen die Bilder nahtlos ineinander über, so dass sie der natürlichen Bewegung des Sprechers stärker ähneln. Die nahtlos eingepassten Bilder werden daraufhin in Schritt S25 mit der neuen Tonspur 20 kombiniert, um einen neuen Videostrom zu erzeugen, bei dem das Bild des Sprechers mit den Lauten in der neuen Tonspur synchronisiert wird.
Es gibt mehrere unterschiedliche Lösungswege, die verwendet werden können, um die Datenbank 18 zusammenzusetzen und nachfolgend die gespeicherten Bildinformationen auszulesen, um die Bildsequenzen 22 zu erstellen. Bei der relativ einfachen Ausführungsform, die oben beschrieben ist, kann eine Mindestanzahl von Visemen, etwa zehn, in der Datenbank gespeichert werden. Bei dieser Ausführungsform wird jedes identifizierte Phonem in der neuen Tonspur verwendet, um ein entsprechendes Visem aus der Datenbank auszuwählen und die Folge von Bildsequenzen 22 zu bilden. Diese spezielle Implementierung ist besonders nützlich in solchen Situationen, in denen eine begrenzte Datenmenge zur Verfügung steht, zum Beispiel, wenn der analysierte Abschnitt des Originalvideos relativ kurz ist.
Bei einer komplexeren Ausführungsform können die Informationen, die in der Datenbank 18 gespeichert sind, Bi-Viseme umfassen. Ein Bi-Visem ist das visuelle Bild, das dem Übergang von einem Phonem zu dem folgenden Phonem entspricht. Die Bi- Viseme sind in der Datenbank 18 mit Hilfe von Doppellauten, d. h. zeitlichen Phonempaaren, indexiert. Bei dieser Ausführungsform werden die Bilder aus der Datenbank 18 auf der Basis von Doppellauten ausgelesen, die in der neuen Tonspur identifiziert werden. Zum Beispiel besteht das gesprochene Wort "bar" aus einer Reihe von Phonemen, die den Lauten für "b", "ah" und "r" entsprechen, begleitet von einer Pause am Anfang und am Ende. Wenn dieses gesprochene Wort analysiert wird, erzeugt die Spracherkennungseinrichtung 16 ein Ausgabesignal für den Doppellaut "Pause-btt, d. h. eine Pause, die von dem Laut für den Konsonanten "b" gefolgt wird. Das Bi-Visem für diesen Doppellaut wird aus der Datenbank 18 ausgewählt. Die Spracherkennungseinrichtung 16 erzeugt daraufhin ein Ausgabesignal für den Doppellaut "b-ah", und das entsprechende Bi-Visem wird aus der Datenbank ausgelesen, um die nächste Bildsequenz in der Folge 22 zu bilden. Der nächste Doppellaut entspricht dem Laut "ah-r", und sein entsprechendes Bi-Visem wird aus der Datenbank ausgelesen, um die nächste Bildsequenz in der Folge 22 zu bilden. Schließlich wird das Bi-Visem für den Doppellaut "r-Pause", d. h. die Pause am Ende des Wortes, aus der Datenbank ausgewählt. Wenn ein Bi-Visem für einen bestimmten Doppellaut nicht in der Datenbank gespeichert ist, wird das entsprechende einzelne Visem ausgewählt. Dementsprechend wird in dem vorangehenden Beispiel, wenn kein gespeichertes Bi-Visem für den Laut "ah-r" vorhanden ist, das einzelne Visem für das Phonem "r" ausgewählt.
Bei einer anspruchsvolleren Implementierung dieser Ausführungsform können verschiedene alternative Bi-Viseme unter Verwendung dynamischer Programmierverfahren verwendet werden. Bei dieser Implementierung kann eine Energiefunktion definiert werden, die aus drei Ausdrücken besteht. Ein Ausdruck misst die Qualität der visuellen Abstimmung zwischen aufeinanderfolgenden Bi-Visemen in der neuen Äußerung. Diese Abstimmung kann zum Beispiel durch Vergleich der Grauskala-Werte entsprechender Pixel in den aufeinanderfolgenden Bi-Visemen ausgeführt werden. Der zweite Ausdruck in der Energiefunktion misst die Differenz zwischen der Länge des Bi- Visems, das in der Datenbank gespeichert ist, und dem entsprechenden Doppellaut in der neuen Äußerung. Der dritte Ausdruck in der Energiefunktion ist ein Strafwert, der in solchen Situationen zugeordnet wird, in denen ein einzelnes Visem anstelle eines Bi- Visems verwendet wird. Die Energiefunktion wird für jede der alternativen Kombinationen von Bi-Visemen berechnet, und diejenige, die die Mindestenergiefunktion aufweist, wird zur Verwendung in der Bildsequenz 22 ausgewählt.
Die Videodaten, die in der Datenbank 18 gespeichert sind, können vollständige Videoeinzelbilder aus der Originalaufzeichnung 10 enthalten, wovon jedes den gesamten Kopf des Sprechers umfassen kann. Wenn das gesprochene Material eine nennenswerte Länge aufweist, ist es möglich, dass der Kopf des Sprechers sich während der aufgezeichneten Sitzung bewegt. Für Bilder, die kein Portrait sind und einen größeren Abschnitt des Körpers des Sprechers umfassen, ist die Möglichkeit einer Bewegung noch größer. Aufgrund dieser Bewegungen in der Originalaufzeichnung können ruckartige Bewegungen des Kopfes oder Körpers des Sprechers entstehen, wenn die verschiedenen Einzelbilder wieder zusammengesetzt werden, um die neue Sequenz 22 zu erzeugen. Ebenso können, wenn der Sprecher einen übertriebenen Ausdruck zeigt, z. B. angehobene Augenbrauen, unnatürliche Bewegungen in der rekonstruierten Sequenz 22 erscheinen. Um die Möglichkeit solcher Bewegungen zu begrenzen, wird bevorzugt, anstelle der Speicherung und Verwendung vollständiger Videoeinzelbilder zur Erzeugung der neuen Sequenz 22 Unterbilder zu verwenden, die nur solche Abschnitte eines Videoeinzelbildes enthalten, die zum Erreichen einer Synchronisation mit der neuen Äußerung notwendig sind. Das Unterbild kann daher die Lippen des Sprechers und eventuell einen kleinen, den Mund umgebenden Bereich umfassen. Da der Kiefer der Person sich während des Sprechens typischerweise im Einklang mit der unteren Lippe bewegt, wird bevorzugt, den Kiefer ebenfalls in das Unterbild mit einzubeziehen.
Bei einer Implementierung, die Unterbilder verwendet, wird der synchronisierte Videostrom 26 erzeugt, indem jede ausgelesene Sequenz von Unterbildern in das Gesamtbild des Kopfes des Sprechers "eingefügt" oder harmonisch eingegliedert wird. Bei einer Ausführungsform können die aufeinanderfolgenden Unterbilder in ein Stillstandeinzelbild des Sprechers eingefügt werden. Für eine natürlicher erscheinende Darstellung werden die Unterbilder in eine laufende Darstellung des Sprechers eingegliedert.
Um die korrekte Anordnung der Unterbilder in dem Videoeinzelbild sicherzustellen, werden entsprechende Steuerpunkte in der Originalaufzeichnung und den gespeicherten Unterbildern identifiziert. Zum Beispiel kann ein einzelner Steuerpunkt in der Mitte des oberen Randes der Oberlippe des Sprechers angeordnet sein. Dieser Steuerpunkt wird in der Originalaufzeichnung und daraufhin in jedem der gespeicherten Unterbilder identifiziert. Wenn ein Unterbild in die Originalaufzeichnung eingefügt wird, wird der Steuerpunkt jedes Einzelbildes in der Unterbildsequenz mit dem des entsprechenden Einzelbildes der Originalaufzeichnung ausgerichtet, um sicherzustellen, dass das Unterbild des Mundes sich an der korrekten Stelle innerhalb des Videoeinzelbildes befindet.
Vorzugsweise wird eine Vielzahl von Steuerpunkten, die die Lippen des Sprechers konturieren, verwendet. Zu diesem Zweck wird vorzugsweise ein automatischer visueller Verfolgungsalgorithmus verwendet, um die Grenzen der Lippen des Sprechers zu identifizieren. Herkömmliche Konturverfolgungsalgorithmen können verwendet werden, um die äußere Grenze der Lippen des Sprechers zu definieren. Ein Beispiel eines geeigneten Konturverfolgungsalgorithmus ist in Kaas et al., "SNAKES: Active Contour Models", Proc. of the First Int. Conf. on Computer Vision, Landon 1987 beschrieben. Wenn die Auflösung des Videobildes gering ist, kann ein graustufenbasierter Algorithmus verwendet werden, wie beispielsweise der Eigen-Bilder- Lösungsversuch, der in Pentland et al., "View-Based and Modular Eigenspaces for Face Recognition", Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, Juni 1994, S. 84-91 beschrieben ist. Insbesondere ist der Verfolgungsalgorithmus einer, der Steuerpunkte sowohl auf den äußeren als auch auf den inneren Rändern der Lippen des Sprechers identifiziert. Ein Beispiel eines Videobildes eines Sprechers, bei dem die inneren und äußeren Lippensteuerpunkte identifiziert sind, ist in Fig. 6 veranschaulicht. Diese Steuerpunkte werden zusammen mit jedem Unterbild gespeichert, das in der Datenbank 18 aufgezeichnet ist.
Die Sequenzen 22 der Unterbilder werden mit Hilfe des Morphing-Verfahrens in den endgültigen Videostrom 26 eingefügt, der die aufgezeichneten Steuerpunkte verwendet. Auf einem groben Niveau werden die Steuerpunkte zuerst verwendet, um die Stelle der neuen Lippenbilder in dem Videoeinzelbild zu bestimmen, sowie zu bestimmen, ob diese einer Drehung und Skalierung unterzogen werden müssen. Nachdem die allgemeine Lage, Skalierung und Ausrichtung der Bilder bestimmt wurden, werden die Steuerpunkte dazu verwendet, das originale Videobild zu verzerren und die neuen Lippenbilder in das Einzelbild übergehen zu lassen. Dieses Verfahren kann unter Verwendung eines geeigneten herkömmlichen Morphingprogramms ausgeführt werden. Ein Beispiel eines Morphingprogranms, das in diesem Zusammenhang verwendet werden kann, ist die Public Domain Software "Morphine". Ein Beispiel eines Videoeinzelbildes, das dem originalen Bild aus Fig. 6 entspricht, jedoch ein neues gemorphtes Lippenunterbild aufweist, ist in Fig. 7 veranschaulicht.
Die Dauer eines Phonems ist relativ kurz und kann nur drei oder vier aufeinanderfolgende Einzelbilder in der Videosequenz umfassen. In einem solchen Fall ist es möglicherweise zum Erreichen einer nahtlosen Einpassung von Bildern nicht notwendig, ein Morphingverfahren zu verwenden, das sowohl das Überblenden als auch das Verzerren der Bilder umfasst. Vielmehr kann es ausreichend sein, die Bilder einfach im Verlauf einiger Einzelbilder überzublenden, um eine akzeptable Mischung des Unterbildes in die originale Videoaufzeichnung zu erhalten. Zum Beispiel wird das Unterbild, nachdem es in geeigneter Weise skaliert und gedreht ist, derart in die Originalaufzeichnung übergeblendet, dass die Position der Oberlippe des Sprechers sowohl in dem originalen als auch in dem neuen Bild dieselbe bleibt.
Bei den vorangehenden Beispielen der Erfindung besteht eine Datenbank aus Bildsequenzen, die identifizierten Lauten entsprechen, und ein neuer Videostrom wird aus den aufgezeichneten Bildern in Übereinstimmung mit der neuen Tonspur zusammengesetzt. Wenn jedoch die neue Tonspur im Wesentlichen gleich den originalen aufgezeichneten Lauten ist, ist die Rekonstruktion des Videostroms möglicherweise nicht notwendig. Zum Beispiel ist es bei der Produktion von Fernsehwerbung manchmal wünschenswert, dass ein Schauspieler eine Aussage erneut aufzeichnet, beispielsweise um eine unnötige Pause zu löschen oder eine andere Betonung zu geben. In einem solchen Fall sind die Wörter in der neuen Tonspur dieselben wie die der Originalaufzeichnung, jedoch kann die zeitliche Abstimmung verschieden sein. Bei dieser Art von Situation kann die vorliegende Erfindung verwendet werden, um das ursprünglich aufgezeichnete Video zu modifizieren und es unter Verwendung von Zeitverzerrungsverfahren mit der erneut aufgezeichneten Tonspur zu synchronisieren.
Diese Ausführungsform der Erfindung wird in der schematischen Veranschaulichung aus Fig. 8 und dem Ablaufplan aus Fig. 9 dargestellt. Unter Bezugnahme darauf wird die Originalaufzeichnung 10 in Schritt S31 analysiert, um individuelle Phoneme oder andere charakteristische Sprachkomponenten zu identifizieren. Die speziellen Einzelbilder, die den verschiedenen Komponenten entsprechen, werden in Schritt S32 aufgezeichnet. Die neue Lautaufzeichnung 20 wird in Schritt S33 ebenso analysiert. Sie kann aus denselben Lautkomponenten bestehen, jedoch kann sich die zeitliche Abstimmung zwischen ihnen von der Originalaufzeichnung unterscheiden. Wenn die entsprechenden Komponenten sowohl in der Originalaufzeichnung als auch in der neuen Tonspur identifiziert worden sind, erfährt die Aufzeichnung in Schritt S34 ein zeitliches Verzerrungsverfahren, um es mit der neuen Tonspur zu synchronisieren. In dem Beispiel aus Fig. 8 wird ein Einzelbild aus der Originalaufzeichnung entfernt, so dass die übrigen Einzelbilder in einer neuen Sequenz 27 der zeitlichen Abstimmung der neuen Tonspur 20 entsprechen.
Als Alternative zur Modifizierung der originalen Videoaufzeichnung kann die neue Tonspur zeitlich verzerrt werden, um sie mit dem Originalvideo zeitlich auszurichten. Ob das ursprünglich aufgezeichnete Video oder die neue Tonspur zeitlich verzerrt wird, um sie mit dem jeweils anderen auszurichten, ist eine Frage der Wahl. Allgemein gesagt, ist es jedoch wünschenswert, diejenige Aufzeichnung zeitlich zu verzerren, die die langsamere der beiden ist, um sie mit der schnelleren Aufzeichnung zu synchronisieren. Jedes geeignete Zeitskalenmodifikationsverfahren, wie beispielsweise synchrone Überlappung und Hinzufügung (SOLA) kann verwendet werden, um die Audio- oder Videospur zeitlich zu verzerren.
Wenn das Zeitverzerrungsverfahren abgeschlossen ist, wird die Videosequenz in Schritt 535 mit der neuen Tonspur 20 kombiniert, um den neuen Videostrom 28 zu bilden. Diese Ausführungsform der Erfindung ist besonders wünschenswert für die Fälle, in denen die Wörter in den beiden Tonspuren dieselben oder im Wesentlichen dieselben sind, da dies keine Lippenverfolgung, keine Steuerpunktbestimmung oder Visem- Ausrichtung erfordert. Beispiele für geeignete Anwendungen für diese Ausführungsform umfassen das erneute Synchronisieren von Filmtonspuren sowie Karaoke- Systeme, bei denen eine Person zu einer begleitenden Videodarstellung singt.
Die vorangehenden Gesichtspunkte der Erfindung werden vorzugsweise in einem Computersystem (nicht gezeigt) implementiert, das in geeigneter Weise programmiert ist, um die Funktionen von Spracherkennung und Bild-/Vlorphing auszuführen. Da diese Verfahren an sich herkömmlicherweise bekannt sind, sind sie hierin nicht ausführlich beschrieben worden. Die Datenbank kann in jedem geeigneten Speicher gespeichert werden, der zu dem Computersystem gehört, z. B. einer Magnetfestplatte. Die originale Videoaufzeichnung und die neue Tonspur können ebenfalls in dem Computersystem gespeichert werden. Der Ausgabevideostrom, der mit der neuen Tonspur synchronisiert wird, kann anfänglich in dem Speicher des Computers gespeichert werden und dann auf ein anderes Medium, das für die Wiedergabe geeignet ist, z. B. eine Videokassette, übertragen werden oder direkt vom Computer wiedergegeben werden.
Es ist für Durchschnittsfachleute ersichtlich, dass die vorliegende Erfindung in anderen spezifischen Formen ausgeführt werden kann, ohne vom Geist oder wesentlichen Eigenschaften der Erfindung abzuweichen. Insbesondere sind die praktischen Verwendungen, obwohl die Ausführungsformen der Erfindung unter Bezugnahme auf ihre Implementierung in der Audio-Synchronisation beschrieben worden sind, nicht auf diese Arten von Anwendungen beschränkt. Als ein Beispiel kann die Erfindung ebenfalls verwendet werden, um ein Bildschirmtelefon mit niedriger Bandbreite bereitzustellen. In einer solchen Situation braucht die Übertragungsvorrichtung nur den Audiokanal und eine Visemsequenz zu senden. Der Empfänger kann den Visemstrom zusammen mit zuvor gespeicherten Videodaten verwenden, um ein lippensynchronisiertes Bild des Anrufers zu rekonstruieren. Als ein anderes Beispiel kann die Erfindung verwendet werden, um neue Arten von Benutzerschnittstellen für Computer bereitzustellen, bei denen eine bekannte Persönlichkeit mit Anweisungen oder Informationsanfragen zu dem Computerbenutzer sprechen kann. Bei einer anderen Ausführungsform kann die Erfindung verwendet werden, um Avatars in Realitätssimulationsspielen oder dergleichen zu erzeugen, wobei ein Bild eines beliebigen gegebenen Gesichts mit der Stimme des Spielers sprechen kann.
Es ist Durchschnittsfachleuten ersichtlich, dass die vorliegende Erfindung in anderen spezifischen Formen ausgeführt werden kann, ohne vom Geist oder wesentlichen Eigenschaften der Erfindung abzuweichen. Die vorliegenden offenbarten Ausführungsformen werden daher in jeder Hinsicht als veranschaulichend und nicht als beschränkend angesehen. Der Bereich der Erfindung wird durch die angehängten Ansprüche angegeben, nicht durch die vorangehende Beschreibung, und sämtliche Veränderungen, die in die Bedeutung und den Bereich von Äquivalenten derselben fallen, sollen hierin eingeschlossen sein.

Claims

1. Verfahren zum Synchronisieren einer Videosequenz (12), die eine begleitende Audiospur (14) mit einer unterschiedlichen Audiospur (20) aufweist, wobei das Verfahren die Schritte umfasst:

Analysieren der die Videosequenz begleitenden Audiospur (14) mit Hilfe von automatischen Spracherkennungsverfahren (16), um individuelle Sprachkomponenten in der Audiospur zu identifizieren;

Analysieren einer Lautäußerung (20) mit Hilfe von automatischen Spracherkennungsverfahren (16), um individuelle Sprachkomponenten in der Lautäußerung zu identifizieren; und

vorübergehendes Modifizieren (S6A, S6B) mindestens entweder der Videosequenz oder der Lautäußerung, so dass identifizierte individuelle Sprachkomponenten in der Videosequenz vorübergehend mit entsprechenden individuellen Sprachkomponenten in der Lautäußerung ausgerichtet werden.

2. Verfahren nach Anspruch 1, wobei der Modifizierungsschritt das Verfahren der Neuordnung von Einzelbildern (S6A) der Videosequenz umfasst, um diese mit individuellen Sprachkomponenten in der Lautäußerung auszurichten.

3. Verfahren nach Anspruch 1, wobei der Modifizierungsschritt das Verfahren der Änderung der zeitlichen Abstimmung der Einzelbilder (S6B) der Videosequenz umfasst, um diese mit individuellen Sprachkomponenten in der Lautäußerung auszurichten.

4. Verfahren nach Anspruch 1, wobei der Modifizierungsschritt das Verfahren der zeitlichen Verzerrung der Sprachäußerung umfasst, so dass die Einzelbilder der Videosequenz mit individuellen Sprachmerkmalen in der Lautäußerung ausgerichtet sind.

S. Verfahren nach einem der Ansprüche 1 bis 4, wobei die individuellen Sprachkomponenten in der Audiospur und in der Lautäußerung Laute umfassen.

6. Verfahren nach Anspruch 5, wobei die individuellen Sprachkomponenten Doppellaute umfassen.

7. Verfahren nach Anspruch 5, wobei die individuellen Sprachkomponenten Dreifachlaute umfassen.

8. Verfahren nach einem der Ansprüche 1 bis 7, wobei die Lautäußerung der Audiospur entspricht und der Modifizierungsschritt den Schritt des vorübergehenden Verzerrens (S6B) der Videosequenz umfasst, um entsprechende individuelle Sprachkomponenten auszurichten.

9. Verfahren nach Anspruch 8, wobei die Videosequenz vorübergehend verzerrt wird, indem ein oder mehrere Videoeinzelbilder aus der Sequenz entfernt werden und die zu entfernenden Einzelbilder gemäß individuellen Sprachkomponenten ausgewählt werden, die den jeweiligen Einzelbildern der Sequenz zugeordnet sind.

10. Verfahren nach einem der Ansprüche 1 bis 9, wobei der Modifizierungsschritt die Schritte umfasst:

Speichern von Videobilddaten für individuelle Sprachkomponenten, die in der Tonspur (S3) identifiziert sind; und

Abrufen gespeicherter Videobilddaten (S6A) in einer Sequenz, die den identifizierten individuellen Sprachkomponenten in der Äußerung entspricht, um eine neue Videopräsentation zu erzeugen.

11. Verfahren nach Anspruch 10, das des Weiteren den Schritt umfasst, die abgerufenen Videobilddaten (S7A) nahtlos in die Sequenz einzupassen, die aufeinanderfolgenden individuellen Sprachkomponenten in der Äußerung entspricht.

12. Verfahren nach Anspruch 11, wobei der Schritt des nahtlosen Einpassens das Verfahren des Morphing zwischen aufeinanderfolgenden Sätzen abgerufener Videobilddaten umfasst.

13. Verfahren nach Anspruch 11 oder Anspruch 12, das des Weiteren die Schritte umfasst, Bilder in der Videosequenz zu analysieren, um Steuerinformationen darin zu definieren, die Steuerinformationen mit den gespeicherten Videobilddaten zu speichern und die Videobilddaten gemäß den gespeicherten Steuerinformationen nahtlos einzupassen.

14. Verfahren nach Anspruch 13, wobei die Steuerinformationen Punkte in den Videobildern umfassen, die sich auf Merkmale in den Bildern beziehen.

15. Verfahren nach einem der Ansprüche 10 bis 14, wobei jedes Element der gespeicherten Videobilddaten ein Unterbild ist, das einen Abschnitt eines gesamten Bildes in einem Videoeinzelbild umfasst.

16. Verfahren nach Anspruch 15, das des Weiteren den Schritt umfasst, Unterbilder in Voll-Videoeinzelbilder zu integrieren.

17. Verfahren nach einem der Ansprüche 10 bis 16, wobei die Videosequenz ein Bild des Kopfes einer Person umfasst und jedes Element der gespeicherten Videobilddaten ein Unterbild eines Bereichs umfasst, der den Mund der Person in dem Bild enthält.

18. Verfahren nach Anspruch 17, das des Weiteren den Schritt umfasst, Unterbilder des Mundes einer Person in ein Videoeinzelbild zu integrieren, das ein Bild des Kopfes einer Person umfasst.

19. System zur Modifizierung eines aufgezeichneten Videobildstroms (12), um diesen mit einer Tonspur (20) zu synchronisieren, die getrennt von dem aufgezeichneten Videobildstrom erzeugt wird, wobei das System umfasst.

Mittel zum automatischen Analysieren des aufgezeichneten Videobildstroms (S1, S2), um Bildsequenzen zu identifizieren, die individuellen Sprachkomponenten zugeordnet sind;

einen Speicher, der eine Datenbank (18) speichert, die die identifizierten Bildsequenzen enthält;

Mittel (16) zum automatischen Analysieren der Tonspur (20), um individuelle Sprachkomponenten zu identifizieren, die darin enthalten sind; und

Mittel zum Auswählen von Bildsequenzen, die in der Datenbank enthalten sind und individuellen Sprachmerkmalen entsprechen, die in der Tonspur identifiziert sind, und zum Zusammensetzen der ausgewählten Bildsequenzen zu einem Videobildstrom (22), der mit der Tonspur synchronisiert ist.

20. System nach Anspruch 19, wobei jedes der automatischen Analysiermittel ein Spracherkennungssystem umfasst.

21. System nach Anspruch 20, wobei das Spracherkennungssystem ein verborgenes Markow-Modellsystem ist.

22. System nach Anspruch 20, wobei das Spracherkennungssystem ein Neuronennetz ist.

23. System nach Anspruch 20, wobei das Spracherkennungssystem ein verborgenes Markow-Modellsystem und ein Neuronennetz umfasst.

24. System nach einem der Ansprüche 19 bis 23, wobei die individuellen Sprachkomponenten Sprachlaute umfassen.

25. System nach einem der Ansprüche 19 bis 24, das des Weiteren Mittel (24) umfasst, um die ausgewählten Bildsequenzen nahtlos aneinander anzupassen und so den synchronisierten Videobildstrom zu erzeugen.

26. System nach Anspruch 25, wobei das Anpassmittel ein Morphingsystem umfasst.

27. System nach einem der Ansprüche 19 bis 26, wobei das Mittel zum automatischen Analysieren des aufgezeichneten Videobildstroms Mittel zum Definieren von Steuerpunkten in den Bildern, die sich auf vorherbestimmte Merkmale beziehen, und Mittel zum Analysieren der Steuerpunkte umfasst, um die Sprachzusammensetzungen zu erkennen, die den Merkmalen zugeordnet sind.

28. System zum Modifizieren eines aufgezeichneten Videobildstroms (12), um diesen mit einer Tonspur (20) zu synchronisieren, die getrennt von dem aufgezeichneten Videobildstrom erzeugt wird, wobei das System umfasst:

Mittel zum Analysieren (S1, S2) des aufgezeichneten Videobildstroms, um Bilder zu identifizieren, die individuellen Sprachkomponenten zugeordnet sind;

einen Speicher, der eine erste Datenbank (18a) speichert, die Unterbilder enthält, von denen jedes einen vorherbestimmten Abschnitt eines der identifizierten Bilder umfasst;

Mittel zum Analysieren der identifizierten Bilder, um Steuermerkmale innerhalb der Unterbildabschnitte der Bilder zu definieren;

Mittel zum Aufzeichnen der gespeicherten Unterbilder mit Daten, die sich auf die definierten Steuermerkmale beziehen;