DE69716413T2 - Automatische synchronisierung von videobildsequenzen mit neuen tonspuren - Google Patents
Automatische synchronisierung von videobildsequenzen mit neuen tonspurenInfo
- Publication number
- DE69716413T2 DE69716413T2 DE69716413T DE69716413T DE69716413T2 DE 69716413 T2 DE69716413 T2 DE 69716413T2 DE 69716413 T DE69716413 T DE 69716413T DE 69716413 T DE69716413 T DE 69716413T DE 69716413 T2 DE69716413 T2 DE 69716413T2
- Authority
- DE
- Germany
- Prior art keywords
- video
- images
- sequence
- utterance
- video image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 claims description 65
- 230000008569 process Effects 0.000 claims description 15
- 230000001360 synchronised effect Effects 0.000 claims description 13
- 230000001755 vocal effect Effects 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims 2
- 230000006978 adaptation Effects 0.000 claims 1
- 150000001875 compounds Chemical class 0.000 claims 1
- 230000000007 visual effect Effects 0.000 description 8
- 238000013459 approach Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 210000003128 head Anatomy 0.000 description 5
- 239000000203 mixture Substances 0.000 description 4
- 238000001454 recorded image Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- BQJCRHHNABKAKU-KBQPJGBKSA-N morphine Chemical compound O([C@H]1[C@H](C=C[C@H]23)O)C4=C5[C@@]12CCN(C)[C@@H]3CC5=CC=C4O BQJCRHHNABKAKU-KBQPJGBKSA-N 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 241000270295 Serpentes Species 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 229960005181 morphine Drugs 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G03—PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
- G03B—APPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
- G03B31/00—Associated working of cameras or projectors with sound-recording or sound-reproducing means
- G03B31/02—Associated working of cameras or projectors with sound-recording or sound-reproducing means in which sound track is on a moving-picture film
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/031—Electronic editing of digitised analogue information signals, e.g. audio or video signals
- G11B27/032—Electronic editing of digitised analogue information signals, e.g. audio or video signals on tapes
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/031—Electronic editing of digitised analogue information signals, e.g. audio or video signals
- G11B27/034—Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/14—Picture signal circuitry for video frequency region
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
- G10L2021/105—Synthesis of the lips movements from speech, e.g. for talking heads
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Television Signal Processing For Recording (AREA)
- Electrically Operated Instructional Devices (AREA)
- Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
Description
- Die vorliegende Erfindung betrifft das Sychronisieren von Videobildsequenzen mit Sprachtonspuren und insbesondere ein System, das eine realistische Videosequenz eines realen Menschen, der einen beliebigen Satz spricht, bereitstellt.
- Es gibt verschiedene Situationen, in denen es wünschenswert ist, dass einer Videoaufzeichnung einer sprechenden Person Worte, die anders sind als die, die während der Originalaufzeichnung des Videobildes geäußert wurden, exakt zugeordnet werden. Eine derartige Anwendung ist das Gebiet der Audiosynchronisation, bei der die ursprünglich aufgezeichnete Tonspur durch eine andere Tonspur ersetzt wird. In einem einfachen Fall kann es nach der Aufzeichnung eines Bildes eines Schauspielers, der eine Äußerung spricht, wünschenswert sein, die Äußerung erneut aufzuzeichnen, beispielsweise, um die Betonung zu verändern oder einen anderen Akzent bereitzustellen. Anstatt die gesamte Videosequenz erneut aufzuzeichnen, ermöglicht das Verfahren der erneuten Synchronisation dem Schauspieler, die Äußerung mit den gewünschten Modifikationen zu wiederholen und die ursprünglich aufgezeichnete Äußerung durch die wiederholte zu ersetzen.
- Bei einer anspruchsvolleren Videoproduktion kann es wünschenswert sein, vorrätige Aufzeichnungen eines Schauspielers zu verwenden und die gesprochenen Worte des Schauspielers durch eine vollkommen andere Sprachtonspur zu ersetzen, vielleicht mit einer anderen Stimme. Beispielsweise kann die ursprüngliche Äußerung in einer anderen Sprache ausgedrückt werden, oder es können verschiedene Spezialeffekte erzeugt werden, wie beispielsweise ein Kind, das eine Rede mit der Originalstimme eines berühmten Staatsmannes hält.
- Bei dieser Art von Anwendungen muss das ursprünglich aufgezeichnetete Bild modifiziert werden, so dass die Lippenbewegungen des Sprechers mit der neuen Tonspur synchronisiert werden. In der Vergangenheit haben die Verfahren zur Erzielung einer derartigen Synchronisation eine umfangreiche manuelle Eingabe und/oder ein spezialisiertes Verarbeiten erfordert, das ihre Anwendbarkeit beschränkte. Ein Beispiel eines Lösungsversuchs des Stands der Technik, der auf einer Bildausrichtung basiert, ist in U.S.-Patent Nr. 4,827,532 beschrieben. Dieses Patent betrifft besonders den Ersatz einer Tonspur in einer Sprache durch eine neue Tonspur in einer zweiten Sprache, die andere Lippenbewegungen vom Sprecher fordert. Bei dem in dem Patent offenbarten Verfahren wird eine Videoaufzeichnung eines neuen Schauspielers hergestellt, der die Äußerungen in der neuen Sprache spricht. Es werden spezielle Markierungen verwendet, um die Konturen der Lippen des Schauspielers in dem neu aufgezeichneten Bild des Schauspielers, der die neue Sprache spricht, zu markieren, und das ursprüngliche Video muss manuell markiert werden. Wenn die entsprechenden Abschnitte des alten und des neuen Videobildes identifiziert worden sind, werden Pixel des originalen Filmeinzelbildes modifiziert, damit sie so aussehen, als ob der originale Schauspieler die Worte der neuen Tonspur sprechen würde.
- Ein ähnliches Verfahren ist in EP-A-0 674 315 und in einem entsprechenden Artikel von Chen et al. mit dem Titel "Lip Synchronization in Talking Head Video Utilizing Speech Information", Proceedings of the SPIE, Bd. 2501, S. 1690-1701, 1995 beschrieben. Bei diesem Verfahren speichert eine Tabelle Lippenpositionen, die Lautgruppen, d. h. Phonemen, entsprechen. Die Stimme eines Synchronisationssprechers wird analysiert, und jedes Phonem wird verwendet, um das Bild des Mundes einer synchronisierten Person den Einträgen in der Tabelle entsprechend zu modifizieren.
- Das Verfahren, das in dem Patent '532 offenbart ist, umfasst zwei Arten von Videomodifikation. Zuerst wird in einem Bestreben, die Einzelbilder des Originalbildes mit dem neuen Klang auszurichten, die Videosequenz zeitlich verzerrt, so dass die Lippenformen zueinander passen. Daraufhin wird eine visuelle Verzerrung, d. h. Morphing des Bildes ausgeführt, um einen Übergang zwischen nichtkontinuierlichen Abschnitten des Bildes, die sich aus dem Überspringen von Einzelbildern ergeben können, herzustellen.
- Diese beiden Verzerrungsschritte erfordern einen bedeutenden Aufwand an manueller Eingabe. Als Folge davon lassen sich lange Videosequenzen mit Sprachsynchronisation nicht leicht produzieren. Des Weiteren ist es nicht in allen Fällen möglich, eine Videosequenz in einer solchen Weise zeitlich zu verzerren, dass die neuen Lippenformen mit den Originalformen übereinstimmen. Zum Beispiel kann das Bild für einen Klang mit geschlossenen Lippen nicht in eines für einen Klang mit offenen Lippen verzerrt werden, da die Zähne und/oder die Zunge fehlen würden. Ein ähnliches Problem tritt bei Klängen auf, die mit unterschiedlich vorstehenden Lippen erzeugt werden. Daher sind die Arten von Veränderungen, die ausgeführt werden können, begrenzt. Zusätzlich erfordert die neue Tonspur eine zweite Videoaufzeichnung, so dass die beiden aufgezeichneten Sequenzen visuell ausgerichtet werden können. Daher kann das Verfahren nicht mit jeder beliebigen Äußerung als neuer Tonspur ausgeführt werden. Vielmehr können nur Tonspuren, die begleitende Videobilder aufweisen, verwendet werden.
- Es sind andere Lösungsversuche auf dem Gebiet der Animation unternommen worden, so dass sich der Mund einer Figur exakt an gesprochene Worte anpasst. Jedoch sind die Bilder, die in diesen Lösungsversuchen verwendet werden, synthetisch, und ihre entsprechenden Synchronisationsverfahren sind zur Verwendung für Videobilder des Gesichts einer realen Person nicht geeignet.
- Dementsprechend ist es wünschenswert, ein Verfahren zu schaffen, das ermöglicht, eine beliebige gegebene Lautäußerung durch die Tonspur einer zuvor aufgezeichneten Videosequenz zu ersetzen, ohne dass eine Videoaufzeichnung der neuen Laute, die geäußert werden, erforderlich ist. Es ist weiterhin wünschenswert, ein derartiges Verfahren zu schaffen, das auf einfache Weise für eine Automatisierung verwendet werden kann, um dadurch den erforderlichen Aufwand an manueller Eingabe zu verringern.
- Gemäß einem ersten Gesichtspunkt der vorliegenden Erfindung wird ein Verfahren zum Synchronisieren einer Videosequenz geschaffen, die eine begleitende Audiospur mit einer unterschiedlichen Audiospur aufweist, wobei das Verfahren die Schritte umfasst:
- Analysieren der die Videosequenz begleitenden Audiospur mit Hilfe von automatischen Spracherkennungsverfahren, um individuelle Sprachkomponenten in der Audiospur zu identifizieren;
- Analysieren einer Lautäußerung mit Hilfe von automatischen Spracherkennungsverfahren, um individuelle Sprachkomponenten in der Lautäußerung zu identifizieren; und
- zeitliches Modifizieren mindestens entweder der Videosequenz oder der Lautäußerung, so dass identifizierte individuelle Sprachkomponenten in der Videosequenz zeitlich mit entsprechenden individuellen Sprachkomponenten in der Lautäußerung ausgerichtet werden.
- Gemäß einem zweiten Gesichtspunkt der vorliegenden Erfindung wird ein System zur Modifizierung eines aufgezeichneten Videobildstroms geschaffen, um diesen mit einer Tonspur zu synchronisieren, die getrennt von dem aufgezeichneten Videobildstrom erzeugt wird, wobei das System umfasst:
- Mittel zum automatischen Analysieren des aufgezeichneten Videobildstroms, um Bildsequenzen zu identifizieren, die individuellen Sprachkomponenten zugeordnet sind;
- einen Speicher, der eine Datenbank speichert, die die identifizierten Bildsequenzen enthält;
- Mittel zum automatischen Analysieren der Tonspur, um individuelle Sprachkomponenten zu identifizieren, die darin enthalten sind; und
- Mittel zum Auswählen von Bildsequenzen, die in der Datenbank enthalten sind und individuellen Sprachmerkmalen entsprechen, die in der Tonspur identifiziert sind, und zum Zusammensetzen der ausgewählten Bildsequenzen zu einem Videobildstrom, der mit der Tonspur synchronisiert ist.
- Gemäß einem dritten Aspekt der vorliegenden Erfindung wird ein System zum Modifizieren eines aufgezeichneten Videobildstroms geschaffen, um diesen mit einer Tonspur zu synchronisieren, die getrennt von dem aufgezeichneten Videobildstrom erzeugt wird, wobei das System umfasst:
- Mittel zum Analysieren des aufgezeichneten Videobildstroms, um Bilder zu identifizieren, die individuellen Sprachkomponenten zugeordnet sind;
- einen Speicher, der eine erste Datenbank speichert, die Unterbilder enthält, von denen jedes einen vorherbestimmten Abschnitt eines der identifizierten Bilder umfasst;
- Mittel zum Analysieren der identifizierten Bilder, um Steuermerkmale innerhalb der Unterbildabschnitte der Bilder zu definieren;
- Mittel zum Aufzeichnen der gespeicherten Unterbilder mit Daten, die sich auf die definierten Steuermerkmale beziehen;
- einen Speicher, der eine zweite Datenbank, die Vollbilder aus dem Videobildstrom enthält, zusammen mit den definierten Steuermerkmalen speichert;
- Mittel zum Analysieren der Tonspur, um individuelle Sprachkomponenten zu identifizieren, die darin enthalten sind;
- Mittel zum Auswählen von Unterbildern, die in der ersten Datenbank enthalten sind und individuellen Sprachkomponenten entsprechen, die in der Tonspur identifiziert sind; und
- Mittel zum Integrieren der ausgewählten Unterbilder in Vollbilder, die in der zweiten Datenbank gespeichert sind, in Übereinstimmung mit den definierten Steuermerkmalen, um einen Videostrom zu bilden, der mit der Tonspur synchronisiert ist.
- Im Allgemeinen umfasst die vorliegende Erfindung daher die phonetische Analyse einer Audiospur, um die dazugehörigen Bilder zu klassifizieren, und das nachfolgende Abstimmen von Bildern aus der originalen Videosequenz mit den phonetischen Komponenten des neuen Tons. Dieses Verfahren ermöglicht, dass eine gegebene originale Videosequenz mit einer beliebigen Audiospur synchronisiert wird, ohne dass eine Videoaufzeichnung der neuen Tonspur oder die Erzeugung künstlicher Sprache oder Grafiken erforderlich ist. Des Weiteren kann das Abstimmen der Videosequenz auf die neuen Laute in einer hochautomatisierten Weise ausgeführt werden, wodurch der Umfang an manuellem Aufwand, der für Audiosynchronisation und dergleichen erforderlich ist, verringert wird.
- Weitere Merkmale der Erfindung und die dadurch erzielten Vorteile werden im Folgenden ausführlich unter Bezugnahme auf spezifische Beispiele beschrieben, die in den beigefügten Zeichnungen veranschaulicht sind.
- Fig. 1 ist ein Ablaufplan des Gesamtverfahrens der vorliegenden Erfindung;
- Fig. 2 ist ein ausführlicherer Ablaufplan des Verfahrens zur Erzeugung einer aufgezeichneten Datenbank von tonbezogenen Bildsequenzen;
- Fig. 3 ist eine schematische funktionelle Veranschaulichung des Verfahrens zur Erzeugung einer Visem-Datenbank aus einer Videoaufzeichnung;
- Fig. 4 ist eine schematische funktionelle Veranschaulichung des Verfahrens zur Erzeugung eines neuen Videostroms, der mit einer neuen Audiospur synchronisiert ist;
- Fig. 5 ist ein ausführlicherer Ablaufplan des Verfahrens zum Zusammensetzen einer neuen Videofolge aus der Datenbank und einer neuen Tonspur;
- Fig. 6 ist ein Beispiel eines Videoeinzelbildes, bei dem Steuerpunkte auf den Lippen einer Sprecherin markiert worden sind;
- Fig. 7 ist ein Beispiel des Videoeinzelbildes, in das ein neues Lippenbild eingefügt wurde;
- Fig. 8 ist eine schematische, funktionelle Veranschaulichung eines alternativen Verfahrens zum Synchronisieren einer Videosequenz mit einer neuen Tonspur; und
- Fig. 9 ist ein Ablaufplan des alternativen Verfahrens, das in Fig. 8 gezeigt ist.
- Um ein Verständnis der vorliegenden Erfindung zu ermöglichen, wird diese im Folgenden unter Bezugnahme auf spezifische Beispiele beschrieben, bei denen die Tonspur für eine Videosequenz einer Person, die einen Laut äußert, durch eine andere Tonspur ersetzt wird. Die Beispiele betreffen den Ersatz einer Gruppe gesprochener Wörter, z. B. eines Satzes, durch eine andere Gruppe gesprochener Wörter. Jedoch sind die praktischen Anwendungen der Erfindung nicht auf Wörter beschränkt. Vielmehr können ihre Prinzipien auch auf andere Laute, wie beispielsweise Gesang, angewendet werden. Daher wird im Kontext der vorliegenden Erfindung der Begriff "Äußerung" in generischem Sinn auf gesprochene Wörter, musikalische Noten und alle anderen Laute bezogen, die mündlich erzeugt werden und klassifiziert werden können.
- Bei der Beschreibung der folgenden Beispiele der Erfindung werden für verschiedene Arten der Video- und Audioanalyse bestimmte spezifische Verfahrensweisen dargestellt. Es versteht sich jedoch, dass diese Verfahrensweisen exemplarisch sind und dass die Erfindung unter Verwendung anderer Verfahrensweisen ausgeführt werden kann, die äquivalente Ergebnisse bereitstellen. Des Weiteren versteht sich, dass die Prinzipien der Erfindung nicht auf die spezifischen veranschaulichenden Implementierungen beschränkt sind, die hierin beschrieben sind. Vielmehr gibt es eine Reihe von praktischen Anwendungen der Erfindung, wie ausführlicher am Ende der Beschreibung erörtert.
- Ein Überblick über das Verfahren, das in der vorliegenden Erfindung verwendet wird, um eine originale Videoaufzeichnung mit einer neuen Tonspur zu synchronisieren, ist in dem Ablaufplan in Fig. 1 veranschaulicht. Unter Bezugnahme auf diesen wird in Schritt S2 eine Videoaufzeichnung einer realen Person, die spricht oder singt, analysiert, um charakteristische Laute in der Äußerung spezifischen Videobildsequenzen zuzuordnen. Diese Videobildsequenzen werden in Schritt S3 in einer Datenbank gespeichert, die gemäß den charakteristischen Lauten, die jeder Bildsequenz zugeordnet sind, indexiert ist. Danach wird in Schritt S4 eine neue Lautäußerung, wie beispielsweise die Stimme eines anderen Sprechers, analysiert, um die charakteristischen Laute darin zu identifizieren. In Schritt S5 wird die originale Videoaufzeichnung mit der neuen Tonspur synchronisiert, indem die charakteristischen Laute beider aufeinander abgestimmt werden. Bei einer Ausführungsform der Erfindung wird für jeden identifizierten Laut in der neuen Tonspur eine geeignete Bildsequenz aus der Datenbank abgerufen, und sämtliche der abgerufenen Bildsequenzen werden in Schritt S6A zu einer Folge zusammengesetzt. Die Folge von Bildern wird daraufhin in Schritt S7A zum Beispiel mit Hilfe eines Morphing-Verfahrens geglättet, um einen Videostrom der Person zu erzeugen, die die neue Äußerung spricht. Bei einer alternativen Ausführungsform der Erfindung, bei der die neue Tonspur der Originalaufzeichnung ähnlich ist, z. B. derselbe Satz gesprochen wird, wird in Schritt S6B die Synchronisation erreicht, indem je nachdem, wie es angemessen ist, das Originalvideomaterial oder das neue Audiomaterial zeitlich verzerrt wird, um die charakteristischen Laute der Originalaufzeichnung mit denen der neuen Tonspur auszurichten.
- Die Erzeugung einer Datenbank von lautindexierten Bildern in Schritt S1 und S2 in Fig. 1 ist ausführlicher im Ablaufplan aus Fig. 2 veranschaulicht. Im Wesentlichen wird eine Videoaufzeichnung mit ihrer begleitenden Audiospur zuerst einem Spracherkennungsverfahren unterzogen. Der Zweck dieses Verfahrens besteht darin, erkennbare Komponenten oder Eigenschaften zu identifizieren, die die aufgezeichneten Laute ausmachen. Bei einer Ausführungsform umfassen diese Komponenten die individuellen Phoneme der Sprache, d. h. eine Gruppe der kleinsten Einheiten der Sprache. Insbesondere werden individuelle Doppellaute oder Dreifachlaute der Sprache verwendet, da sie einen ausreichenden Kontext umfassen, um in ihren visuellen und auditiven Gesichtspunkten ziemlich konstant zu sein. Verschiedene Wörter oder unterschiedliche Aussprachen desselben Wortes können erzeugt werden, indem diese phonetischen Einheiten unter Verwendung herkömmlicher Aussprachewörterbücher zu einer Folge zusammengesetzt werden. Alternativ können andere erkennbare Lautkomponenten verwendet werden, die zur Klassifizierung von Redeteilen verwendet werden können, z. B. akustische Eigenschaftsvektoren, die mit Hilfe von MFCC, RASTA-PLP und LPC Analyse erzeugt werden.
- In der Technik sind verschiedene Arten von Spracherkennungsvorrichtungen bekannt, die zur Identifizierung der Komponentenlaute der aufgezeichneten Sprache verwendet werden können. Bei einer bevorzugten Ausführungsform der Erfindung wird ein verborgenes Markow-Modellsystem (HMM) als phonetische Spracherkennungseinrichtung verwendet. Eine Beschreibung der Verwendung eines HMM-Systems zu einem solchen Zweck ist in Rabiner, Laurence R.: "A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition", Proceedings of the IEEE, Bd. 77, Nr. 2, S. 257-286, Februar 1989 gegeben, dessen Offenbarung durch Bezugnahme hierin eingeschlossen ist.
- Unter Bezugnahme auf Fig. 2 wird in Schritt S10 die Spracherkennungseinrichtung zuerst darauf trainiert, die Lautkomponenten zu erkennen, die zu Klassifizierungszwecken verwendet werden sollen. Zum Beispiel kann ein HMM-System darauf trainiert werden, Phoneme mit Hilfe einer Trainingsvorrichtung, wie beispielsweise der verborgenen Markow-Dienstprogrammsammiung von Entropic Research Lab zu erkennen. Wenn die Stimme derselben Person sowohl in der originalen Videosequenz als auch in der neuen Audiospur verwendet werden soll, kann das HMM-System auf die Stimme nur dieser Person trainiert werden. Alternativ kann ein von einem einzigen Sprecher abhängiges HMM-System für die originale Tonspur verwendet werden, und ein anderes von einem einzigen Sprecher abhängiges System kann verwendet werden, um die neue Lautäußerung zu analysieren, wenn ausreichende Trainingsdaten für jeden Sprecher zur Verfügung stehen. Vorzugsweise wird die Spracherkennungseinrichtung jedoch so trainiert, dass sie sprecherunabhängig ist, so dass die originale Tonspur durch eine beliebige gesprochene Äußerung ersetzt werden kann. Dieser Lösungsversuch ist besonders in solchen Situationen wünschenswert, in denen die originale Tonspur kurz ist und sehr wenige Trainingsdaten für den Sprecher zur Verfügung stehen.
- Um ungünstige Ergebnisse aus den jeweiligen Eigenschaften verschiedener Mikrofone zu vermeiden, die in der originalen und der neuen Tonspur verwendet werden, wird vorzugsweise ein kanalinvariantes Extraktionssystem für akustische Merkmale verwendet, um die Eingabeinformationen für das HMM-System bereitzustellen. Ein Beispiel eines solchen Systems ist das RASTA-PLP-System, das in Hermansky et al., "Compensation for the Effect of the Communication Channel in Auditory", Proc. Europ. Conf. on Speech Comm. and Tech., 1991, S. 1367-1370 und in U.S.-Patent Nr. 5,450,522 beschrieben ist, deren Offenbarungen durch Bezugnahme hierin eingeschlossen sind. Andere Lösungsversuche für Kanalinvarianz können ebenfalls verwendet werden.
- Nachdem die Spracherkennungseinrichtung so trainiert wurde, dass sie individuelle Phoneme in einer gesprochenen Äußerung erkennt, wird sie zur Analyse der Tonspur verwendet, die die betreffende Videoaufzeichnung begleitet. Das Verfahren zum Erzeugen der Datenbank entsprechender Bildsequenzen und Laute ist schematisch in Fig. 3 dargestellt. Unter Bezugnahme auf diese umfasst eine Videoaufzeichnung 10 eine Serie von Einzelbildern 12 und eine begleitende Audiospur 14. Die Videoaufzeichnung wird wiedergegeben, und die aufgezeichneten Laute werden in einer Spracherkennungseinrichtung 16 analysiert, die individuelle Phoneme in der aufgezeichneten Sprache identifiziert (Schritt S11 in Fig. 2). Für jedes Phonem, das in der aufgezeichneten Tonspur erkannt wird, werden Videobilddaten, die dem identifizierten Klang entsprechen, in einer Datenbank 18 aufgezeichnet (Schritt S12). Die aufgezeichneten Bilddaten werden in der Datenbank 18 aufgezeichnet, um das spezifische Phonem zu identifizieren, dem sie zugeordnet sind (Schritt S13). Die gespeicherten Videobilddaten könnten ein einzelnen Bild, z. B. ein Videoeinzelbild, für jedes Phonem umfassen. Für bessere Ergebnisse wird eine Sequenz von Bildern gespeichert, z. B. 3-4 Einzelbilder, die die gesamte Aussprache des Phonems umfassen.
- Gemäß einem etablierten Standard zur Spracherkennung, der als TIMIT Phonemsatz bekannt ist, gibt es einundsechzig verschiedene Phonemkategorien, die die menschliche Sprache kennzeichnen. Im Wesentlichen stellt jedes Phonem einen anderen Laut dar, der von einer Person geäußert werden kann. Jedoch können unterschiedliche Phoneme dieselbe visuelle Erscheinung für einen Zuschauer aufweisen. Beispielsweise befinden sich die Lippen eines Sprechers zur Aussprache der Laute für die Buchstaben "b" und "p" in derselben Position. Ebenso bietet die Aussprache der Laute, die den Konsonanten "d" und "t" entsprechen, denselben visuellen Eindruck. In dem Kontext der vorliegenden Erfindung wird die visuelle Erscheinung eines gesprochenen Phonems als "Visem" identifiziert. Die einundsechzig Kategorien von auditiven Phonemen können einem Satz von zehn Visemen zugeordnet werden. Demgemäß braucht eine Kompaktversion der Datenbank nur zehn Einträge zu enthalten, die jeweils den zehn Visemen zugeordnet sind. Die komplette Datenbank enthält eine Videobildsequenz der Lippenposition des Sprechers, die jedem gesprochenen Laut, der aufgezeichnet wurde, entspricht.
- Wenn die Datenbank 18 erstellt worden ist, kann sie verwendet werden, um einen Videostrom zusammenzusetzen, der zu einer neuen Äußerung synchronisiert wird. Dieses Verfahren wird in der schematischen Veranschaulichung in Fig. 4 und in dem Ablaufplan in Fig. 5 dargestellt. Unter Bezugnahme darauf wird der Spracherkennungseinrichtung 16 eine neue Tonspur bereitgestellt. In dem veranschaulichten Beispiel wird die Tonspur auf einem geeigneten Medium aufgezeichnet, wie beispielsweise auf einem Magnetband 20. In der Praxis braucht die neue Tonspur jedoch nicht zuvor aufgezeichnet zu werden. Zum Beispiel können Wörter, die von einem Sprecher geäußert werden, über ein Mikrofon direkt in die Spracherkennungseinrichtung 16 eingegeben werden, wenn sie gesprochen werden. Die Spracherkennungseinrichtung identifiziert in Schritt S20 jeden individuellen Laut in der neuen Äußerung, z. B. die aufeinanderfolgenden Phoneme. Jeder identifizierte Laut stellt einen Index bereit, der verwendet wird, um in Schritt S21 auf die Datenbank 18 zuzugreifen. Für jeden dieser Laute wird in Schritt S22 die entsprechende Videobildsequenz, z. B. das Visem, aus der Datenbank ausgewählt, und die ausgelesenen Viseme werden in Schritt S23 zu einer Folge 22 von Videobildsequenzen zusammengesetzt. In dem Beispiel aus Fig. 4 entsprechen vier ausgewählte Bildsequenzen 22 jeweils vier aufeinanderfolgenden Phonemen in der neuen Tonspur auf dem Magnetband 20.
- Da benachbarte Bildsequenzen in der zusammengesetzten Folge 22 zu nicht aufeinanderfolgenden Abschnitten der originalen Videoaufzeichnung gehören können, kann es abrupte Veränderungen von einer Bildsequenz zur nächsten geben. Dementsprechend ist es wünschenswert, die sequenziellen Bilder nahtlos aneinander anzupassen. Zu diesem Zweck werden die Sequenzen von Bildern, die aus der Datenbank 18 ausgelesen sind, vorzugsweise in einer Bildmorphingvorrichtung 24 verarbeitet (Schritt S24). Diese Vorrichtung funktioniert im Wesentlichen so, dass sie im Verlauf einer vorherbestimmten Anzahl von Videoeinzelbildern ein Bild in das nächstfolgende Bild morpht. Als Folge davon gehen die Bilder nahtlos ineinander über, so dass sie der natürlichen Bewegung des Sprechers stärker ähneln. Die nahtlos eingepassten Bilder werden daraufhin in Schritt S25 mit der neuen Tonspur 20 kombiniert, um einen neuen Videostrom zu erzeugen, bei dem das Bild des Sprechers mit den Lauten in der neuen Tonspur synchronisiert wird.
- Es gibt mehrere unterschiedliche Lösungswege, die verwendet werden können, um die Datenbank 18 zusammenzusetzen und nachfolgend die gespeicherten Bildinformationen auszulesen, um die Bildsequenzen 22 zu erstellen. Bei der relativ einfachen Ausführungsform, die oben beschrieben ist, kann eine Mindestanzahl von Visemen, etwa zehn, in der Datenbank gespeichert werden. Bei dieser Ausführungsform wird jedes identifizierte Phonem in der neuen Tonspur verwendet, um ein entsprechendes Visem aus der Datenbank auszuwählen und die Folge von Bildsequenzen 22 zu bilden. Diese spezielle Implementierung ist besonders nützlich in solchen Situationen, in denen eine begrenzte Datenmenge zur Verfügung steht, zum Beispiel, wenn der analysierte Abschnitt des Originalvideos relativ kurz ist.
- Bei einer komplexeren Ausführungsform können die Informationen, die in der Datenbank 18 gespeichert sind, Bi-Viseme umfassen. Ein Bi-Visem ist das visuelle Bild, das dem Übergang von einem Phonem zu dem folgenden Phonem entspricht. Die Bi- Viseme sind in der Datenbank 18 mit Hilfe von Doppellauten, d. h. zeitlichen Phonempaaren, indexiert. Bei dieser Ausführungsform werden die Bilder aus der Datenbank 18 auf der Basis von Doppellauten ausgelesen, die in der neuen Tonspur identifiziert werden. Zum Beispiel besteht das gesprochene Wort "bar" aus einer Reihe von Phonemen, die den Lauten für "b", "ah" und "r" entsprechen, begleitet von einer Pause am Anfang und am Ende. Wenn dieses gesprochene Wort analysiert wird, erzeugt die Spracherkennungseinrichtung 16 ein Ausgabesignal für den Doppellaut "Pause-btt, d. h. eine Pause, die von dem Laut für den Konsonanten "b" gefolgt wird. Das Bi-Visem für diesen Doppellaut wird aus der Datenbank 18 ausgewählt. Die Spracherkennungseinrichtung 16 erzeugt daraufhin ein Ausgabesignal für den Doppellaut "b-ah", und das entsprechende Bi-Visem wird aus der Datenbank ausgelesen, um die nächste Bildsequenz in der Folge 22 zu bilden. Der nächste Doppellaut entspricht dem Laut "ah-r", und sein entsprechendes Bi-Visem wird aus der Datenbank ausgelesen, um die nächste Bildsequenz in der Folge 22 zu bilden. Schließlich wird das Bi-Visem für den Doppellaut "r-Pause", d. h. die Pause am Ende des Wortes, aus der Datenbank ausgewählt. Wenn ein Bi-Visem für einen bestimmten Doppellaut nicht in der Datenbank gespeichert ist, wird das entsprechende einzelne Visem ausgewählt. Dementsprechend wird in dem vorangehenden Beispiel, wenn kein gespeichertes Bi-Visem für den Laut "ah-r" vorhanden ist, das einzelne Visem für das Phonem "r" ausgewählt.
- Bei einer anspruchsvolleren Implementierung dieser Ausführungsform können verschiedene alternative Bi-Viseme unter Verwendung dynamischer Programmierverfahren verwendet werden. Bei dieser Implementierung kann eine Energiefunktion definiert werden, die aus drei Ausdrücken besteht. Ein Ausdruck misst die Qualität der visuellen Abstimmung zwischen aufeinanderfolgenden Bi-Visemen in der neuen Äußerung. Diese Abstimmung kann zum Beispiel durch Vergleich der Grauskala-Werte entsprechender Pixel in den aufeinanderfolgenden Bi-Visemen ausgeführt werden. Der zweite Ausdruck in der Energiefunktion misst die Differenz zwischen der Länge des Bi- Visems, das in der Datenbank gespeichert ist, und dem entsprechenden Doppellaut in der neuen Äußerung. Der dritte Ausdruck in der Energiefunktion ist ein Strafwert, der in solchen Situationen zugeordnet wird, in denen ein einzelnes Visem anstelle eines Bi- Visems verwendet wird. Die Energiefunktion wird für jede der alternativen Kombinationen von Bi-Visemen berechnet, und diejenige, die die Mindestenergiefunktion aufweist, wird zur Verwendung in der Bildsequenz 22 ausgewählt.
- Die Videodaten, die in der Datenbank 18 gespeichert sind, können vollständige Videoeinzelbilder aus der Originalaufzeichnung 10 enthalten, wovon jedes den gesamten Kopf des Sprechers umfassen kann. Wenn das gesprochene Material eine nennenswerte Länge aufweist, ist es möglich, dass der Kopf des Sprechers sich während der aufgezeichneten Sitzung bewegt. Für Bilder, die kein Portrait sind und einen größeren Abschnitt des Körpers des Sprechers umfassen, ist die Möglichkeit einer Bewegung noch größer. Aufgrund dieser Bewegungen in der Originalaufzeichnung können ruckartige Bewegungen des Kopfes oder Körpers des Sprechers entstehen, wenn die verschiedenen Einzelbilder wieder zusammengesetzt werden, um die neue Sequenz 22 zu erzeugen. Ebenso können, wenn der Sprecher einen übertriebenen Ausdruck zeigt, z. B. angehobene Augenbrauen, unnatürliche Bewegungen in der rekonstruierten Sequenz 22 erscheinen. Um die Möglichkeit solcher Bewegungen zu begrenzen, wird bevorzugt, anstelle der Speicherung und Verwendung vollständiger Videoeinzelbilder zur Erzeugung der neuen Sequenz 22 Unterbilder zu verwenden, die nur solche Abschnitte eines Videoeinzelbildes enthalten, die zum Erreichen einer Synchronisation mit der neuen Äußerung notwendig sind. Das Unterbild kann daher die Lippen des Sprechers und eventuell einen kleinen, den Mund umgebenden Bereich umfassen. Da der Kiefer der Person sich während des Sprechens typischerweise im Einklang mit der unteren Lippe bewegt, wird bevorzugt, den Kiefer ebenfalls in das Unterbild mit einzubeziehen.
- Bei einer Implementierung, die Unterbilder verwendet, wird der synchronisierte Videostrom 26 erzeugt, indem jede ausgelesene Sequenz von Unterbildern in das Gesamtbild des Kopfes des Sprechers "eingefügt" oder harmonisch eingegliedert wird. Bei einer Ausführungsform können die aufeinanderfolgenden Unterbilder in ein Stillstandeinzelbild des Sprechers eingefügt werden. Für eine natürlicher erscheinende Darstellung werden die Unterbilder in eine laufende Darstellung des Sprechers eingegliedert.
- Um die korrekte Anordnung der Unterbilder in dem Videoeinzelbild sicherzustellen, werden entsprechende Steuerpunkte in der Originalaufzeichnung und den gespeicherten Unterbildern identifiziert. Zum Beispiel kann ein einzelner Steuerpunkt in der Mitte des oberen Randes der Oberlippe des Sprechers angeordnet sein. Dieser Steuerpunkt wird in der Originalaufzeichnung und daraufhin in jedem der gespeicherten Unterbilder identifiziert. Wenn ein Unterbild in die Originalaufzeichnung eingefügt wird, wird der Steuerpunkt jedes Einzelbildes in der Unterbildsequenz mit dem des entsprechenden Einzelbildes der Originalaufzeichnung ausgerichtet, um sicherzustellen, dass das Unterbild des Mundes sich an der korrekten Stelle innerhalb des Videoeinzelbildes befindet.
- Vorzugsweise wird eine Vielzahl von Steuerpunkten, die die Lippen des Sprechers konturieren, verwendet. Zu diesem Zweck wird vorzugsweise ein automatischer visueller Verfolgungsalgorithmus verwendet, um die Grenzen der Lippen des Sprechers zu identifizieren. Herkömmliche Konturverfolgungsalgorithmen können verwendet werden, um die äußere Grenze der Lippen des Sprechers zu definieren. Ein Beispiel eines geeigneten Konturverfolgungsalgorithmus ist in Kaas et al., "SNAKES: Active Contour Models", Proc. of the First Int. Conf. on Computer Vision, Landon 1987 beschrieben. Wenn die Auflösung des Videobildes gering ist, kann ein graustufenbasierter Algorithmus verwendet werden, wie beispielsweise der Eigen-Bilder- Lösungsversuch, der in Pentland et al., "View-Based and Modular Eigenspaces for Face Recognition", Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, Juni 1994, S. 84-91 beschrieben ist. Insbesondere ist der Verfolgungsalgorithmus einer, der Steuerpunkte sowohl auf den äußeren als auch auf den inneren Rändern der Lippen des Sprechers identifiziert. Ein Beispiel eines Videobildes eines Sprechers, bei dem die inneren und äußeren Lippensteuerpunkte identifiziert sind, ist in Fig. 6 veranschaulicht. Diese Steuerpunkte werden zusammen mit jedem Unterbild gespeichert, das in der Datenbank 18 aufgezeichnet ist.
- Die Sequenzen 22 der Unterbilder werden mit Hilfe des Morphing-Verfahrens in den endgültigen Videostrom 26 eingefügt, der die aufgezeichneten Steuerpunkte verwendet. Auf einem groben Niveau werden die Steuerpunkte zuerst verwendet, um die Stelle der neuen Lippenbilder in dem Videoeinzelbild zu bestimmen, sowie zu bestimmen, ob diese einer Drehung und Skalierung unterzogen werden müssen. Nachdem die allgemeine Lage, Skalierung und Ausrichtung der Bilder bestimmt wurden, werden die Steuerpunkte dazu verwendet, das originale Videobild zu verzerren und die neuen Lippenbilder in das Einzelbild übergehen zu lassen. Dieses Verfahren kann unter Verwendung eines geeigneten herkömmlichen Morphingprogramms ausgeführt werden. Ein Beispiel eines Morphingprogranms, das in diesem Zusammenhang verwendet werden kann, ist die Public Domain Software "Morphine". Ein Beispiel eines Videoeinzelbildes, das dem originalen Bild aus Fig. 6 entspricht, jedoch ein neues gemorphtes Lippenunterbild aufweist, ist in Fig. 7 veranschaulicht.
- Die Dauer eines Phonems ist relativ kurz und kann nur drei oder vier aufeinanderfolgende Einzelbilder in der Videosequenz umfassen. In einem solchen Fall ist es möglicherweise zum Erreichen einer nahtlosen Einpassung von Bildern nicht notwendig, ein Morphingverfahren zu verwenden, das sowohl das Überblenden als auch das Verzerren der Bilder umfasst. Vielmehr kann es ausreichend sein, die Bilder einfach im Verlauf einiger Einzelbilder überzublenden, um eine akzeptable Mischung des Unterbildes in die originale Videoaufzeichnung zu erhalten. Zum Beispiel wird das Unterbild, nachdem es in geeigneter Weise skaliert und gedreht ist, derart in die Originalaufzeichnung übergeblendet, dass die Position der Oberlippe des Sprechers sowohl in dem originalen als auch in dem neuen Bild dieselbe bleibt.
- Bei den vorangehenden Beispielen der Erfindung besteht eine Datenbank aus Bildsequenzen, die identifizierten Lauten entsprechen, und ein neuer Videostrom wird aus den aufgezeichneten Bildern in Übereinstimmung mit der neuen Tonspur zusammengesetzt. Wenn jedoch die neue Tonspur im Wesentlichen gleich den originalen aufgezeichneten Lauten ist, ist die Rekonstruktion des Videostroms möglicherweise nicht notwendig. Zum Beispiel ist es bei der Produktion von Fernsehwerbung manchmal wünschenswert, dass ein Schauspieler eine Aussage erneut aufzeichnet, beispielsweise um eine unnötige Pause zu löschen oder eine andere Betonung zu geben. In einem solchen Fall sind die Wörter in der neuen Tonspur dieselben wie die der Originalaufzeichnung, jedoch kann die zeitliche Abstimmung verschieden sein. Bei dieser Art von Situation kann die vorliegende Erfindung verwendet werden, um das ursprünglich aufgezeichnete Video zu modifizieren und es unter Verwendung von Zeitverzerrungsverfahren mit der erneut aufgezeichneten Tonspur zu synchronisieren.
- Diese Ausführungsform der Erfindung wird in der schematischen Veranschaulichung aus Fig. 8 und dem Ablaufplan aus Fig. 9 dargestellt. Unter Bezugnahme darauf wird die Originalaufzeichnung 10 in Schritt S31 analysiert, um individuelle Phoneme oder andere charakteristische Sprachkomponenten zu identifizieren. Die speziellen Einzelbilder, die den verschiedenen Komponenten entsprechen, werden in Schritt S32 aufgezeichnet. Die neue Lautaufzeichnung 20 wird in Schritt S33 ebenso analysiert. Sie kann aus denselben Lautkomponenten bestehen, jedoch kann sich die zeitliche Abstimmung zwischen ihnen von der Originalaufzeichnung unterscheiden. Wenn die entsprechenden Komponenten sowohl in der Originalaufzeichnung als auch in der neuen Tonspur identifiziert worden sind, erfährt die Aufzeichnung in Schritt S34 ein zeitliches Verzerrungsverfahren, um es mit der neuen Tonspur zu synchronisieren. In dem Beispiel aus Fig. 8 wird ein Einzelbild aus der Originalaufzeichnung entfernt, so dass die übrigen Einzelbilder in einer neuen Sequenz 27 der zeitlichen Abstimmung der neuen Tonspur 20 entsprechen.
- Als Alternative zur Modifizierung der originalen Videoaufzeichnung kann die neue Tonspur zeitlich verzerrt werden, um sie mit dem Originalvideo zeitlich auszurichten. Ob das ursprünglich aufgezeichnete Video oder die neue Tonspur zeitlich verzerrt wird, um sie mit dem jeweils anderen auszurichten, ist eine Frage der Wahl. Allgemein gesagt, ist es jedoch wünschenswert, diejenige Aufzeichnung zeitlich zu verzerren, die die langsamere der beiden ist, um sie mit der schnelleren Aufzeichnung zu synchronisieren. Jedes geeignete Zeitskalenmodifikationsverfahren, wie beispielsweise synchrone Überlappung und Hinzufügung (SOLA) kann verwendet werden, um die Audio- oder Videospur zeitlich zu verzerren.
- Wenn das Zeitverzerrungsverfahren abgeschlossen ist, wird die Videosequenz in Schritt 535 mit der neuen Tonspur 20 kombiniert, um den neuen Videostrom 28 zu bilden. Diese Ausführungsform der Erfindung ist besonders wünschenswert für die Fälle, in denen die Wörter in den beiden Tonspuren dieselben oder im Wesentlichen dieselben sind, da dies keine Lippenverfolgung, keine Steuerpunktbestimmung oder Visem- Ausrichtung erfordert. Beispiele für geeignete Anwendungen für diese Ausführungsform umfassen das erneute Synchronisieren von Filmtonspuren sowie Karaoke- Systeme, bei denen eine Person zu einer begleitenden Videodarstellung singt.
- Die vorangehenden Gesichtspunkte der Erfindung werden vorzugsweise in einem Computersystem (nicht gezeigt) implementiert, das in geeigneter Weise programmiert ist, um die Funktionen von Spracherkennung und Bild-/Vlorphing auszuführen. Da diese Verfahren an sich herkömmlicherweise bekannt sind, sind sie hierin nicht ausführlich beschrieben worden. Die Datenbank kann in jedem geeigneten Speicher gespeichert werden, der zu dem Computersystem gehört, z. B. einer Magnetfestplatte. Die originale Videoaufzeichnung und die neue Tonspur können ebenfalls in dem Computersystem gespeichert werden. Der Ausgabevideostrom, der mit der neuen Tonspur synchronisiert wird, kann anfänglich in dem Speicher des Computers gespeichert werden und dann auf ein anderes Medium, das für die Wiedergabe geeignet ist, z. B. eine Videokassette, übertragen werden oder direkt vom Computer wiedergegeben werden.
- Es ist für Durchschnittsfachleute ersichtlich, dass die vorliegende Erfindung in anderen spezifischen Formen ausgeführt werden kann, ohne vom Geist oder wesentlichen Eigenschaften der Erfindung abzuweichen. Insbesondere sind die praktischen Verwendungen, obwohl die Ausführungsformen der Erfindung unter Bezugnahme auf ihre Implementierung in der Audio-Synchronisation beschrieben worden sind, nicht auf diese Arten von Anwendungen beschränkt. Als ein Beispiel kann die Erfindung ebenfalls verwendet werden, um ein Bildschirmtelefon mit niedriger Bandbreite bereitzustellen. In einer solchen Situation braucht die Übertragungsvorrichtung nur den Audiokanal und eine Visemsequenz zu senden. Der Empfänger kann den Visemstrom zusammen mit zuvor gespeicherten Videodaten verwenden, um ein lippensynchronisiertes Bild des Anrufers zu rekonstruieren. Als ein anderes Beispiel kann die Erfindung verwendet werden, um neue Arten von Benutzerschnittstellen für Computer bereitzustellen, bei denen eine bekannte Persönlichkeit mit Anweisungen oder Informationsanfragen zu dem Computerbenutzer sprechen kann. Bei einer anderen Ausführungsform kann die Erfindung verwendet werden, um Avatars in Realitätssimulationsspielen oder dergleichen zu erzeugen, wobei ein Bild eines beliebigen gegebenen Gesichts mit der Stimme des Spielers sprechen kann.
- Es ist Durchschnittsfachleuten ersichtlich, dass die vorliegende Erfindung in anderen spezifischen Formen ausgeführt werden kann, ohne vom Geist oder wesentlichen Eigenschaften der Erfindung abzuweichen. Die vorliegenden offenbarten Ausführungsformen werden daher in jeder Hinsicht als veranschaulichend und nicht als beschränkend angesehen. Der Bereich der Erfindung wird durch die angehängten Ansprüche angegeben, nicht durch die vorangehende Beschreibung, und sämtliche Veränderungen, die in die Bedeutung und den Bereich von Äquivalenten derselben fallen, sollen hierin eingeschlossen sein.
Claims (28)
1. Verfahren zum Synchronisieren einer Videosequenz (12), die eine begleitende
Audiospur (14) mit einer unterschiedlichen Audiospur (20) aufweist, wobei das
Verfahren die Schritte umfasst:
Analysieren der die Videosequenz begleitenden Audiospur (14) mit Hilfe von
automatischen Spracherkennungsverfahren (16), um individuelle
Sprachkomponenten in der Audiospur zu identifizieren;
Analysieren einer Lautäußerung (20) mit Hilfe von automatischen
Spracherkennungsverfahren (16), um individuelle Sprachkomponenten in der Lautäußerung
zu identifizieren; und
vorübergehendes Modifizieren (S6A, S6B) mindestens entweder der
Videosequenz oder der Lautäußerung, so dass identifizierte individuelle
Sprachkomponenten in der Videosequenz vorübergehend mit entsprechenden individuellen
Sprachkomponenten in der Lautäußerung ausgerichtet werden.
2. Verfahren nach Anspruch 1, wobei der Modifizierungsschritt das Verfahren der
Neuordnung von Einzelbildern (S6A) der Videosequenz umfasst, um diese mit
individuellen Sprachkomponenten in der Lautäußerung auszurichten.
3. Verfahren nach Anspruch 1, wobei der Modifizierungsschritt das Verfahren der
Änderung der zeitlichen Abstimmung der Einzelbilder (S6B) der Videosequenz
umfasst, um diese mit individuellen Sprachkomponenten in der Lautäußerung
auszurichten.
4. Verfahren nach Anspruch 1, wobei der Modifizierungsschritt das Verfahren der
zeitlichen Verzerrung der Sprachäußerung umfasst, so dass die Einzelbilder der
Videosequenz mit individuellen Sprachmerkmalen in der Lautäußerung
ausgerichtet sind.
S. Verfahren nach einem der Ansprüche 1 bis 4, wobei die individuellen
Sprachkomponenten in der Audiospur und in der Lautäußerung Laute umfassen.
6. Verfahren nach Anspruch 5, wobei die individuellen Sprachkomponenten
Doppellaute umfassen.
7. Verfahren nach Anspruch 5, wobei die individuellen Sprachkomponenten
Dreifachlaute umfassen.
8. Verfahren nach einem der Ansprüche 1 bis 7, wobei die Lautäußerung der
Audiospur entspricht und der Modifizierungsschritt den Schritt des
vorübergehenden Verzerrens (S6B) der Videosequenz umfasst, um entsprechende
individuelle Sprachkomponenten auszurichten.
9. Verfahren nach Anspruch 8, wobei die Videosequenz vorübergehend verzerrt
wird, indem ein oder mehrere Videoeinzelbilder aus der Sequenz entfernt
werden und die zu entfernenden Einzelbilder gemäß individuellen
Sprachkomponenten ausgewählt werden, die den jeweiligen Einzelbildern der Sequenz
zugeordnet sind.
10. Verfahren nach einem der Ansprüche 1 bis 9, wobei der Modifizierungsschritt
die Schritte umfasst:
Speichern von Videobilddaten für individuelle Sprachkomponenten, die in der
Tonspur (S3) identifiziert sind; und
Abrufen gespeicherter Videobilddaten (S6A) in einer Sequenz, die den
identifizierten individuellen Sprachkomponenten in der Äußerung entspricht, um eine
neue Videopräsentation zu erzeugen.
11. Verfahren nach Anspruch 10, das des Weiteren den Schritt umfasst, die
abgerufenen Videobilddaten (S7A) nahtlos in die Sequenz einzupassen, die
aufeinanderfolgenden individuellen Sprachkomponenten in der Äußerung entspricht.
12. Verfahren nach Anspruch 11, wobei der Schritt des nahtlosen Einpassens das
Verfahren des Morphing zwischen aufeinanderfolgenden Sätzen abgerufener
Videobilddaten umfasst.
13. Verfahren nach Anspruch 11 oder Anspruch 12, das des Weiteren die Schritte
umfasst, Bilder in der Videosequenz zu analysieren, um Steuerinformationen
darin zu definieren, die Steuerinformationen mit den gespeicherten
Videobilddaten zu speichern und die Videobilddaten gemäß den gespeicherten
Steuerinformationen nahtlos einzupassen.
14. Verfahren nach Anspruch 13, wobei die Steuerinformationen Punkte in den
Videobildern umfassen, die sich auf Merkmale in den Bildern beziehen.
15. Verfahren nach einem der Ansprüche 10 bis 14, wobei jedes Element der
gespeicherten Videobilddaten ein Unterbild ist, das einen Abschnitt eines
gesamten Bildes in einem Videoeinzelbild umfasst.
16. Verfahren nach Anspruch 15, das des Weiteren den Schritt umfasst, Unterbilder
in Voll-Videoeinzelbilder zu integrieren.
17. Verfahren nach einem der Ansprüche 10 bis 16, wobei die Videosequenz ein
Bild des Kopfes einer Person umfasst und jedes Element der gespeicherten
Videobilddaten ein Unterbild eines Bereichs umfasst, der den Mund der Person
in dem Bild enthält.
18. Verfahren nach Anspruch 17, das des Weiteren den Schritt umfasst, Unterbilder
des Mundes einer Person in ein Videoeinzelbild zu integrieren, das ein Bild des
Kopfes einer Person umfasst.
19. System zur Modifizierung eines aufgezeichneten Videobildstroms (12), um
diesen mit einer Tonspur (20) zu synchronisieren, die getrennt von dem
aufgezeichneten Videobildstrom erzeugt wird, wobei das System umfasst.
Mittel zum automatischen Analysieren des aufgezeichneten Videobildstroms
(S1, S2), um Bildsequenzen zu identifizieren, die individuellen
Sprachkomponenten zugeordnet sind;
einen Speicher, der eine Datenbank (18) speichert, die die identifizierten
Bildsequenzen enthält;
Mittel (16) zum automatischen Analysieren der Tonspur (20), um individuelle
Sprachkomponenten zu identifizieren, die darin enthalten sind; und
Mittel zum Auswählen von Bildsequenzen, die in der Datenbank enthalten sind
und individuellen Sprachmerkmalen entsprechen, die in der Tonspur identifiziert
sind, und zum Zusammensetzen der ausgewählten Bildsequenzen zu einem
Videobildstrom (22), der mit der Tonspur synchronisiert ist.
20. System nach Anspruch 19, wobei jedes der automatischen Analysiermittel ein
Spracherkennungssystem umfasst.
21. System nach Anspruch 20, wobei das Spracherkennungssystem ein verborgenes
Markow-Modellsystem ist.
22. System nach Anspruch 20, wobei das Spracherkennungssystem ein
Neuronennetz ist.
23. System nach Anspruch 20, wobei das Spracherkennungssystem ein verborgenes
Markow-Modellsystem und ein Neuronennetz umfasst.
24. System nach einem der Ansprüche 19 bis 23, wobei die individuellen
Sprachkomponenten Sprachlaute umfassen.
25. System nach einem der Ansprüche 19 bis 24, das des Weiteren Mittel (24)
umfasst, um die ausgewählten Bildsequenzen nahtlos aneinander anzupassen
und so den synchronisierten Videobildstrom zu erzeugen.
26. System nach Anspruch 25, wobei das Anpassmittel ein Morphingsystem
umfasst.
27. System nach einem der Ansprüche 19 bis 26, wobei das Mittel zum
automatischen Analysieren des aufgezeichneten Videobildstroms Mittel zum Definieren
von Steuerpunkten in den Bildern, die sich auf vorherbestimmte Merkmale
beziehen, und Mittel zum Analysieren der Steuerpunkte umfasst, um die
Sprachzusammensetzungen zu erkennen, die den Merkmalen zugeordnet sind.
28. System zum Modifizieren eines aufgezeichneten Videobildstroms (12), um
diesen mit einer Tonspur (20) zu synchronisieren, die getrennt von dem
aufgezeichneten Videobildstrom erzeugt wird, wobei das System umfasst:
Mittel zum Analysieren (S1, S2) des aufgezeichneten Videobildstroms, um
Bilder zu identifizieren, die individuellen Sprachkomponenten zugeordnet sind;
einen Speicher, der eine erste Datenbank (18a) speichert, die Unterbilder enthält,
von denen jedes einen vorherbestimmten Abschnitt eines der identifizierten
Bilder umfasst;
Mittel zum Analysieren der identifizierten Bilder, um Steuermerkmale innerhalb
der Unterbildabschnitte der Bilder zu definieren;
Mittel zum Aufzeichnen der gespeicherten Unterbilder mit Daten, die sich auf
die definierten Steuermerkmale beziehen;
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US08/620,949 US5880788A (en) | 1996-03-25 | 1996-03-25 | Automated synchronization of video image sequences to new soundtracks |
| PCT/US1997/004797 WO1997036297A1 (en) | 1996-03-25 | 1997-03-25 | Automated synchronization of video image sequences to new soundtracks |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| DE69716413D1 DE69716413D1 (de) | 2002-11-21 |
| DE69716413T2 true DE69716413T2 (de) | 2003-06-26 |
Family
ID=24488068
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| DE69716413T Expired - Lifetime DE69716413T2 (de) | 1996-03-25 | 1997-03-25 | Automatische synchronisierung von videobildsequenzen mit neuen tonspuren |
Country Status (7)
| Country | Link |
|---|---|
| US (1) | US5880788A (de) |
| EP (1) | EP0890171B1 (de) |
| JP (1) | JP2000508845A (de) |
| AU (1) | AU716673B2 (de) |
| CA (1) | CA2250462C (de) |
| DE (1) | DE69716413T2 (de) |
| WO (1) | WO1997036297A1 (de) |
Families Citing this family (143)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO1996027983A1 (en) * | 1995-03-07 | 1996-09-12 | Interval Research Corporation | System and method for selective recording of information |
| JP4482161B2 (ja) * | 1996-04-29 | 2010-06-16 | ピーヴィーアイ ヴァーチャル メディア サービスイズ,エルエルシー | 映像への電子的な指標の挿入が強化されたオーディオ |
| US6181383B1 (en) * | 1996-05-29 | 2001-01-30 | Sarnoff Corporation | Method and apparatus for preserving synchronization of audio and video presentation when splicing transport streams |
| US6263507B1 (en) * | 1996-12-05 | 2001-07-17 | Interval Research Corporation | Browser for use in navigating a body of information, with particular application to browsing information represented by audiovisual data |
| US5893062A (en) | 1996-12-05 | 1999-04-06 | Interval Research Corporation | Variable rate video playback with synchronized audio |
| US7366670B1 (en) * | 1997-08-05 | 2008-04-29 | At&T Corp. | Method and system for aligning natural and synthetic video to speech synthesis |
| JP4078691B2 (ja) * | 1997-09-19 | 2008-04-23 | ソニー株式会社 | 記録再生制御システム、記録再生制御方法および記録再生制御装置 |
| US6307576B1 (en) * | 1997-10-02 | 2001-10-23 | Maury Rosenfeld | Method for automatically animating lip synchronization and facial expression of animated characters |
| US7392190B1 (en) | 1997-11-07 | 2008-06-24 | At&T Corp. | Coarticulation method for audio-visual text-to-speech synthesis |
| US6112177A (en) * | 1997-11-07 | 2000-08-29 | At&T Corp. | Coarticulation method for audio-visual text-to-speech synthesis |
| US7117155B2 (en) * | 1999-09-07 | 2006-10-03 | At&T Corp. | Coarticulation method for audio-visual text-to-speech synthesis |
| JP3194428B2 (ja) * | 1997-11-17 | 2001-07-30 | 日本電気株式会社 | 部品選択装置及び部品選択方法 |
| US6380950B1 (en) * | 1998-01-20 | 2002-04-30 | Globalstreams, Inc. | Low bandwidth television |
| JPH11219446A (ja) * | 1998-02-03 | 1999-08-10 | Matsushita Electric Ind Co Ltd | 映像音響再生システム |
| WO1999046734A1 (en) * | 1998-03-11 | 1999-09-16 | Entropic, Inc. | Face synthesis system and methodology |
| US6496607B1 (en) * | 1998-06-26 | 2002-12-17 | Sarnoff Corporation | Method and apparatus for region-based allocation of processing resources and control of input image formation |
| US6622171B2 (en) * | 1998-09-15 | 2003-09-16 | Microsoft Corporation | Multimedia timeline modification in networked client/server systems |
| JP2003503925A (ja) * | 1999-06-24 | 2003-01-28 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 情報ストリームのポスト同期 |
| US6369822B1 (en) * | 1999-08-12 | 2002-04-09 | Creative Technology Ltd. | Audio-driven visual representations |
| US6366885B1 (en) * | 1999-08-27 | 2002-04-02 | International Business Machines Corporation | Speech driven lip synthesis using viseme based hidden markov models |
| US7630897B2 (en) * | 1999-09-07 | 2009-12-08 | At&T Intellectual Property Ii, L.P. | Coarticulation method for audio-visual text-to-speech synthesis |
| US6598074B1 (en) * | 1999-09-23 | 2003-07-22 | Rocket Network, Inc. | System and method for enabling multimedia production collaboration over a network |
| US7155735B1 (en) | 1999-10-08 | 2006-12-26 | Vulcan Patents Llc | System and method for the broadcast dissemination of time-ordered data |
| US6856329B1 (en) * | 1999-11-12 | 2005-02-15 | Creative Technology Ltd. | Automated acquisition of video textures acquired from a digital camera for mapping to audio-driven deformable objects |
| DE19956572B4 (de) * | 1999-11-24 | 2006-05-11 | STÜTZ, Andreas | Verfahren zur Telekommunikation und Kommunikationsterminal |
| US6766299B1 (en) * | 1999-12-20 | 2004-07-20 | Thrillionaire Productions, Inc. | Speech-controlled animation system |
| IL133797A (en) * | 1999-12-29 | 2004-07-25 | Speechview Ltd | Apparatus and method for visible indication of speech |
| US6757682B1 (en) | 2000-01-28 | 2004-06-29 | Interval Research Corporation | Alerting users to items of current interest |
| GB0008537D0 (en) * | 2000-04-06 | 2000-05-24 | Ananova Ltd | Character animation |
| US7302490B1 (en) | 2000-05-03 | 2007-11-27 | Microsoft Corporation | Media file format to support switching between multiple timeline-altered media streams |
| US7149686B1 (en) * | 2000-06-23 | 2006-12-12 | International Business Machines Corporation | System and method for eliminating synchronization errors in electronic audiovisual transmissions and presentations |
| US6535269B2 (en) * | 2000-06-30 | 2003-03-18 | Gary Sherman | Video karaoke system and method of use |
| US6665450B1 (en) * | 2000-09-08 | 2003-12-16 | Avid Technology, Inc. | Interpolation of a sequence of images using motion analysis |
| AU2001292963A1 (en) * | 2000-09-21 | 2002-04-02 | The Regents Of The University Of California | Visual display methods for use in computer-animated speech production models |
| US6778252B2 (en) * | 2000-12-22 | 2004-08-17 | Film Language | Film language |
| US6970185B2 (en) * | 2001-01-31 | 2005-11-29 | International Business Machines Corporation | Method and apparatus for enhancing digital images with textual explanations |
| US7053927B2 (en) * | 2001-03-02 | 2006-05-30 | Eastman Kodak Company | System for optimizing the display and rendering of digital images for digital mastering |
| US7545957B2 (en) * | 2001-04-20 | 2009-06-09 | Avid Technology, Inc. | Analyzing motion of characteristics in images |
| US7043058B2 (en) * | 2001-04-20 | 2006-05-09 | Avid Technology, Inc. | Correcting motion vector maps for image processing |
| US7076429B2 (en) * | 2001-04-27 | 2006-07-11 | International Business Machines Corporation | Method and apparatus for presenting images representative of an utterance with corresponding decoded speech |
| US8897596B1 (en) | 2001-05-04 | 2014-11-25 | Legend3D, Inc. | System and method for rapid image sequence depth enhancement with translucent elements |
| US9286941B2 (en) | 2001-05-04 | 2016-03-15 | Legend3D, Inc. | Image sequence enhancement and motion picture project management system |
| US8401336B2 (en) | 2001-05-04 | 2013-03-19 | Legend3D, Inc. | System and method for rapid image sequence depth enhancement with augmented computer-generated elements |
| US7012650B2 (en) * | 2001-06-14 | 2006-03-14 | Sony Corporation | Start/stop audio encoder apparatus and method for synchronizing digital audio and video signals |
| US6639649B2 (en) * | 2001-08-06 | 2003-10-28 | Eastman Kodak Company | Synchronization of music and images in a camera with audio capabilities |
| US7343082B2 (en) | 2001-09-12 | 2008-03-11 | Ryshco Media Inc. | Universal guide track |
| AU2002336354A1 (en) * | 2001-09-15 | 2003-04-01 | Michael Neuman | Dynamic variation of output media signal in response to input media signal |
| US20030058932A1 (en) * | 2001-09-24 | 2003-03-27 | Koninklijke Philips Electronics N.V. | Viseme based video coding |
| US7315820B1 (en) * | 2001-11-30 | 2008-01-01 | Total Synch, Llc | Text-derived speech animation tool |
| US7194676B2 (en) | 2002-03-01 | 2007-03-20 | Avid Technology, Inc. | Performance retiming effects on synchronized data in an editing system |
| US7668901B2 (en) * | 2002-04-15 | 2010-02-23 | Avid Technology, Inc. | Methods and system using a local proxy server to process media data for local area users |
| US7209882B1 (en) | 2002-05-10 | 2007-04-24 | At&T Corp. | System and method for triphone-based unit selection for visual speech synthesis |
| EP1365359A1 (de) * | 2002-05-24 | 2003-11-26 | BRITISH TELECOMMUNICATIONS public limited company | Bildverarbeitungsverfahren und -system |
| US7212248B2 (en) * | 2002-09-09 | 2007-05-01 | The Directv Group, Inc. | Method and apparatus for lipsync measurement and correction |
| EP1559265A4 (de) * | 2002-11-07 | 2010-09-15 | Thomson Licensing | System und verfahren zur bestimmung der lippensynchronisation zwischen audio und video in einer digitalisierten umgebung durch verwendung einer pufferkalkulation |
| US7716312B2 (en) | 2002-11-13 | 2010-05-11 | Avid Technology, Inc. | Method and system for transferring large data files over parallel connections |
| US7827034B1 (en) | 2002-11-27 | 2010-11-02 | Totalsynch, Llc | Text-derived speech animation tool |
| US7133535B2 (en) * | 2002-12-21 | 2006-11-07 | Microsoft Corp. | System and method for real time lip synchronization |
| US7142250B1 (en) * | 2003-04-05 | 2006-11-28 | Apple Computer, Inc. | Method and apparatus for synchronizing audio and video streams |
| US7499104B2 (en) * | 2003-05-16 | 2009-03-03 | Pixel Instruments Corporation | Method and apparatus for determining relative timing of image and associated information |
| US20070153125A1 (en) * | 2003-05-16 | 2007-07-05 | Pixel Instruments, Corp. | Method, system, and program product for measuring audio video synchronization |
| WO2005022322A2 (en) * | 2003-08-25 | 2005-03-10 | Blue Street Studios, Inc. | Video game system and method |
| US7990384B2 (en) * | 2003-09-15 | 2011-08-02 | At&T Intellectual Property Ii, L.P. | Audio-visual selection process for the synthesis of photo-realistic talking-head animations |
| JP3848319B2 (ja) * | 2003-11-11 | 2006-11-22 | キヤノン株式会社 | 情報処理方法及び情報処理装置 |
| US7643090B2 (en) * | 2003-12-30 | 2010-01-05 | The Nielsen Company (Us), Llc. | Methods and apparatus to distinguish a signal originating from a local device from a broadcast signal |
| US20050234961A1 (en) * | 2004-04-16 | 2005-10-20 | Pinnacle Systems, Inc. | Systems and Methods for providing a proxy for a shared file system |
| US20060031885A1 (en) * | 2004-04-30 | 2006-02-09 | Vulcan Inc. | Management and non-linear presentation of music-related broadcasted or streamed multimedia content |
| US20060031879A1 (en) * | 2004-04-30 | 2006-02-09 | Vulcan Inc. | Management and non-linear presentation of news-related broadcasted or streamed multimedia content |
| US20060031916A1 (en) * | 2004-04-30 | 2006-02-09 | Vulcan Inc. | Management and non-linear presentation of broadcasted or streamed multimedia content |
| US8443279B1 (en) * | 2004-10-13 | 2013-05-14 | Stryker Corporation | Voice-responsive annotation of video generated by an endoscopic camera |
| US7388586B2 (en) * | 2005-03-31 | 2008-06-17 | Intel Corporation | Method and apparatus for animation of a human speaker |
| GB2438691A (en) * | 2005-04-13 | 2007-12-05 | Pixel Instr Corp | Method, system, and program product for measuring audio video synchronization independent of speaker characteristics |
| AU2005330569A1 (en) * | 2005-04-13 | 2006-12-07 | Pixel Instruments, Corp. | Method, system, and program product for measuring audio video synchronization independent of speaker characteristics |
| US7970613B2 (en) | 2005-11-12 | 2011-06-28 | Sony Computer Entertainment Inc. | Method and system for Gaussian probability data bit reduction and computation |
| US20070139189A1 (en) * | 2005-12-05 | 2007-06-21 | Helmig Kevin S | Multi-platform monitoring system and method |
| US8010358B2 (en) * | 2006-02-21 | 2011-08-30 | Sony Computer Entertainment Inc. | Voice recognition with parallel gender and age normalization |
| US7778831B2 (en) * | 2006-02-21 | 2010-08-17 | Sony Computer Entertainment Inc. | Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch |
| US7535472B2 (en) * | 2006-04-05 | 2009-05-19 | Seoul National University Industry Foundation | Method for generating intuitive quasi-eigen faces |
| US8462163B2 (en) * | 2006-08-25 | 2013-06-11 | Cyber Clone Co., Ltd. | Computer system and motion control method |
| US7948558B2 (en) * | 2006-09-29 | 2011-05-24 | The Directv Group, Inc. | Audio video timing measurement and synchronization |
| US7669132B2 (en) * | 2006-10-30 | 2010-02-23 | Hewlett-Packard Development Company, L.P. | Matching a slideshow to an audio track |
| US20080111887A1 (en) * | 2006-11-13 | 2008-05-15 | Pixel Instruments, Corp. | Method, system, and program product for measuring audio video synchronization independent of speaker characteristics |
| US8179475B2 (en) * | 2007-03-09 | 2012-05-15 | Legend3D, Inc. | Apparatus and method for synchronizing a secondary audio track to the audio track of a video source |
| US8577126B2 (en) * | 2007-04-11 | 2013-11-05 | Irobot Corporation | System and method for cooperative remote vehicle behavior |
| US20090180668A1 (en) * | 2007-04-11 | 2009-07-16 | Irobot Corporation | System and method for cooperative remote vehicle behavior |
| US20080263433A1 (en) * | 2007-04-14 | 2008-10-23 | Aaron Eppolito | Multiple version merge for media production |
| US8316302B2 (en) * | 2007-05-11 | 2012-11-20 | General Instrument Corporation | Method and apparatus for annotating video content with metadata generated using speech recognition technology |
| US8678896B2 (en) | 2007-06-14 | 2014-03-25 | Harmonix Music Systems, Inc. | Systems and methods for asynchronous band interaction in a rhythm action game |
| EP2206539A1 (de) | 2007-06-14 | 2010-07-14 | Harmonix Music Systems, Inc. | System und Verfahren zur Simulierung eines Rock Band-Erlebnisses |
| SG150415A1 (en) * | 2007-09-05 | 2009-03-30 | Creative Tech Ltd | A method for incorporating a soundtrack into an edited video-with-audio recording and an audio tag |
| US8663013B2 (en) * | 2008-07-08 | 2014-03-04 | Harmonix Music Systems, Inc. | Systems and methods for simulating a rock band experience |
| US9324173B2 (en) * | 2008-07-17 | 2016-04-26 | International Business Machines Corporation | System and method for enabling multiple-state avatars |
| US8957914B2 (en) | 2008-07-25 | 2015-02-17 | International Business Machines Corporation | Method for extending a virtual environment through registration |
| US10166470B2 (en) | 2008-08-01 | 2019-01-01 | International Business Machines Corporation | Method for providing a virtual world layer |
| US8447065B2 (en) | 2008-09-16 | 2013-05-21 | Cyberlink Corp. | Method of facial image reproduction and related device |
| CN102245274B (zh) * | 2008-12-09 | 2013-12-18 | 皇家飞利浦电子股份有限公司 | 用于生成数据以控制用于呈现至少一个信号的系统的方法和系统 |
| US8442833B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Speech processing with source location estimation using signals from two or more microphones |
| US8442829B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Automatic computation streaming partition for voice recognition on multiple processors with limited memory |
| US8788256B2 (en) * | 2009-02-17 | 2014-07-22 | Sony Computer Entertainment Inc. | Multiple language voice recognition |
| US8465366B2 (en) | 2009-05-29 | 2013-06-18 | Harmonix Music Systems, Inc. | Biasing a musical performance input to a part |
| US8449360B2 (en) | 2009-05-29 | 2013-05-28 | Harmonix Music Systems, Inc. | Displaying song lyrics and vocal cues |
| US8334888B2 (en) * | 2009-08-27 | 2012-12-18 | Apple Inc. | Dynamically generated ring tones |
| EP2494432B1 (de) * | 2009-10-27 | 2019-05-29 | Harmonix Music Systems, Inc. | Auf gestik basierende benutzerschnittstelle |
| US9981193B2 (en) | 2009-10-27 | 2018-05-29 | Harmonix Music Systems, Inc. | Movement based recognition and evaluation |
| US8550908B2 (en) | 2010-03-16 | 2013-10-08 | Harmonix Music Systems, Inc. | Simulating musical instruments |
| US20110306397A1 (en) | 2010-06-11 | 2011-12-15 | Harmonix Music Systems, Inc. | Audio and animation blending |
| US8562403B2 (en) | 2010-06-11 | 2013-10-22 | Harmonix Music Systems, Inc. | Prompting a player of a dance game |
| US9358456B1 (en) | 2010-06-11 | 2016-06-07 | Harmonix Music Systems, Inc. | Dance competition game |
| US20110311144A1 (en) * | 2010-06-17 | 2011-12-22 | Microsoft Corporation | Rgb/depth camera for improving speech recognition |
| US9024166B2 (en) | 2010-09-09 | 2015-05-05 | Harmonix Music Systems, Inc. | Preventing subtractive track separation |
| US8751228B2 (en) * | 2010-11-04 | 2014-06-10 | Microsoft Corporation | Minimum converted trajectory error (MCTE) audio-to-video engine |
| US8600732B2 (en) * | 2010-11-08 | 2013-12-03 | Sling Media Pvt Ltd | Translating programming content to match received voice command language |
| US8730232B2 (en) | 2011-02-01 | 2014-05-20 | Legend3D, Inc. | Director-style based 2D to 3D movie conversion system and method |
| US9241147B2 (en) | 2013-05-01 | 2016-01-19 | Legend3D, Inc. | External depth map transformation method for conversion of two-dimensional images to stereoscopic images |
| US9288476B2 (en) | 2011-02-17 | 2016-03-15 | Legend3D, Inc. | System and method for real-time depth modification of stereo images of a virtual reality environment |
| US9282321B2 (en) | 2011-02-17 | 2016-03-08 | Legend3D, Inc. | 3D model multi-reviewer system |
| US9407904B2 (en) | 2013-05-01 | 2016-08-02 | Legend3D, Inc. | Method for creating 3D virtual reality from 2D images |
| TW201301148A (zh) * | 2011-06-21 | 2013-01-01 | Hon Hai Prec Ind Co Ltd | 網頁瀏覽控制系統及方法 |
| AU2012100262B4 (en) * | 2011-12-15 | 2012-05-24 | Nguyen, Phan Thi My Ngoc Ms | Speech visualisation tool |
| US8655152B2 (en) | 2012-01-31 | 2014-02-18 | Golden Monkey Entertainment | Method and system of presenting foreign films in a native language |
| US9153235B2 (en) | 2012-04-09 | 2015-10-06 | Sony Computer Entertainment Inc. | Text dependent speaker recognition with long-term feature based on functional data analysis |
| US20130300939A1 (en) * | 2012-05-11 | 2013-11-14 | Cisco Technology, Inc. | System and method for joint speaker and scene recognition in a video/audio processing environment |
| WO2014018652A2 (en) | 2012-07-24 | 2014-01-30 | Adam Polak | Media synchronization |
| US9007365B2 (en) | 2012-11-27 | 2015-04-14 | Legend3D, Inc. | Line depth augmentation system and method for conversion of 2D images to 3D images |
| US9547937B2 (en) | 2012-11-30 | 2017-01-17 | Legend3D, Inc. | Three-dimensional annotation system and method |
| US9007404B2 (en) | 2013-03-15 | 2015-04-14 | Legend3D, Inc. | Tilt-based look around effect image enhancement method |
| US9438878B2 (en) | 2013-05-01 | 2016-09-06 | Legend3D, Inc. | Method of converting 2D video to 3D video using 3D object models |
| US20160042766A1 (en) * | 2014-08-06 | 2016-02-11 | Echostar Technologies L.L.C. | Custom video content |
| US9609307B1 (en) | 2015-09-17 | 2017-03-28 | Legend3D, Inc. | Method of converting 2D video to 3D video using machine learning |
| US10460732B2 (en) * | 2016-03-31 | 2019-10-29 | Tata Consultancy Services Limited | System and method to insert visual subtitles in videos |
| US11409791B2 (en) | 2016-06-10 | 2022-08-09 | Disney Enterprises, Inc. | Joint heterogeneous language-vision embeddings for video tagging and search |
| US10770092B1 (en) | 2017-09-22 | 2020-09-08 | Amazon Technologies, Inc. | Viseme data generation |
| WO2019195839A1 (en) * | 2018-04-06 | 2019-10-10 | Deluxe One Llc | Alignment of alternate dialogue audio track to frames in a multimedia production using background audio matching |
| EP3815050B1 (de) | 2018-05-24 | 2024-01-24 | Warner Bros. Entertainment Inc. | Anpassung der mundform und -bewegung in einem digitalen video an alternatives audio |
| US10558761B2 (en) * | 2018-07-05 | 2020-02-11 | Disney Enterprises, Inc. | Alignment of video and textual sequences for metadata analysis |
| US11423920B2 (en) * | 2018-09-28 | 2022-08-23 | Rovi Guides, Inc. | Methods and systems for suppressing vocal tracks |
| AU2020211809A1 (en) * | 2019-01-25 | 2021-07-29 | Soul Machines Limited | Real-time generation of speech animation |
| CN110534085B (zh) * | 2019-08-29 | 2022-02-25 | 北京百度网讯科技有限公司 | 用于生成信息的方法和装置 |
| US11119727B1 (en) * | 2020-06-25 | 2021-09-14 | Adobe Inc. | Digital tutorial generation system |
| CN114760534B (zh) * | 2022-03-28 | 2024-03-01 | 北京捷通华声科技股份有限公司 | 视频生成方法、装置、电子设备及可读存储介质 |
| CN115174826A (zh) * | 2022-07-07 | 2022-10-11 | 云知声智能科技股份有限公司 | 一种音视频合成方法及装置 |
| WO2024234089A1 (en) * | 2023-05-12 | 2024-11-21 | Monsters Aliens Robots Zombies Inc. | Improved generative machine learning architecture for audio track replacement |
| US12192599B2 (en) | 2023-06-12 | 2025-01-07 | International Business Machines Corporation | Asynchronous content analysis for synchronizing audio and video streams |
Family Cites Families (16)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4260229A (en) * | 1978-01-23 | 1981-04-07 | Bloomstein Richard W | Creating visual images of lip movements |
| FR2571196B1 (fr) * | 1984-10-02 | 1987-01-23 | Guinet Yves | Procede de television pour programmes multilingues |
| US4600281A (en) * | 1985-03-29 | 1986-07-15 | Bloomstein Richard W | Altering facial displays in cinematic works |
| GB8528143D0 (en) * | 1985-11-14 | 1985-12-18 | British Telecomm | Image encoding & synthesis |
| US5040081A (en) * | 1986-09-23 | 1991-08-13 | Mccutchen David | Audiovisual synchronization signal generator using audio signature comparison |
| US4913539A (en) * | 1988-04-04 | 1990-04-03 | New York Institute Of Technology | Apparatus and method for lip-synching animation |
| US5025394A (en) * | 1988-09-09 | 1991-06-18 | New York Institute Of Technology | Method and apparatus for generating animated images |
| JP2518683B2 (ja) * | 1989-03-08 | 1996-07-24 | 国際電信電話株式会社 | 画像合成方法及びその装置 |
| US5430835A (en) * | 1991-02-15 | 1995-07-04 | Sierra On-Line, Inc. | Method and means for computer sychronization of actions and sounds |
| JP3298076B2 (ja) * | 1992-10-20 | 2002-07-02 | ソニー株式会社 | 画像作成装置 |
| US5608839A (en) * | 1994-03-18 | 1997-03-04 | Lucent Technologies Inc. | Sound-synchronized video system |
| CA2144795A1 (en) * | 1994-03-18 | 1995-09-19 | Homer H. Chen | Audio visual dubbing system and method |
| US6330023B1 (en) * | 1994-03-18 | 2001-12-11 | American Telephone And Telegraph Corporation | Video signal processing systems and methods utilizing automated speech analysis |
| US5623173A (en) * | 1994-03-18 | 1997-04-22 | Lucent Technologies Inc. | Bus structure for power system |
| US5572261A (en) * | 1995-06-07 | 1996-11-05 | Cooper; J. Carl | Automatic audio to video timing measurement device and method |
| JP4078677B2 (ja) * | 1995-10-08 | 2008-04-23 | イーサム リサーチ デヴェロップメント カンパニー オブ ザ ヘブライ ユニヴァーシティ オブ エルサレム | 映画のコンピュータ化された自動オーディオビジュアルダビングのための方法 |
-
1996
- 1996-03-25 US US08/620,949 patent/US5880788A/en not_active Expired - Lifetime
-
1997
- 1997-03-25 WO PCT/US1997/004797 patent/WO1997036297A1/en not_active Ceased
- 1997-03-25 EP EP97916971A patent/EP0890171B1/de not_active Expired - Lifetime
- 1997-03-25 JP JP9534555A patent/JP2000508845A/ja active Pending
- 1997-03-25 CA CA002250462A patent/CA2250462C/en not_active Expired - Lifetime
- 1997-03-25 AU AU25446/97A patent/AU716673B2/en not_active Ceased
- 1997-03-25 DE DE69716413T patent/DE69716413T2/de not_active Expired - Lifetime
Also Published As
| Publication number | Publication date |
|---|---|
| EP0890171B1 (de) | 2002-10-16 |
| DE69716413D1 (de) | 2002-11-21 |
| AU2544697A (en) | 1997-10-17 |
| CA2250462A1 (en) | 1997-10-02 |
| EP0890171A1 (de) | 1999-01-13 |
| WO1997036297A1 (en) | 1997-10-02 |
| AU716673B2 (en) | 2000-03-02 |
| US5880788A (en) | 1999-03-09 |
| JP2000508845A (ja) | 2000-07-11 |
| CA2250462C (en) | 2001-10-02 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE69716413T2 (de) | Automatische synchronisierung von videobildsequenzen mit neuen tonspuren | |
| Hill et al. | Animating speech: an automated approach using speech synthesised by rules | |
| DE60101540T2 (de) | Verfahren zur Animation eines künstlichen Modells eines menschlichen Gesichts unter Verwendung akustischer Signale | |
| DE69719270T2 (de) | Sprachsynthese unter Verwendung von Hilfsinformationen | |
| DE69632901T2 (de) | Vorrichtung und Verfahren zur Sprachsynthese | |
| DE69924765T2 (de) | Vorrichtung zur Erzeugung von Daten zur Wiederfindung von Videodaten und Vorrichtung zur Wiederfindung von Videodaten | |
| DE4436692C2 (de) | Trainingssystem für ein Spracherkennungssystem | |
| DE69311303T2 (de) | Sprachtrainingshilfe für kinder. | |
| DE19753453B4 (de) | System zum Synchronisieren eines Films mit einem Text/Sprache-Umsetzer | |
| DE102019001775A1 (de) | Nutzung von Maschinenlernmodellen zur Bestimmung von Mundbewegungen entsprechend Live-Sprache | |
| JP2518683B2 (ja) | 画像合成方法及びその装置 | |
| Heckmann et al. | DCT-based video features for audio-visual speech recognition. | |
| US7109993B2 (en) | Method and system for the automatic computerized audio visual dubbing of movies | |
| EP1058235B1 (de) | Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese | |
| DE112019001058T5 (de) | Stimmeneffekte basierend auf gesichtsausdrücken | |
| DE69425874T2 (de) | Verfahren und Anordnung zur automatischen Extraktion prosodischer Information | |
| DE10022586A1 (de) | Verfahren zum Erzeugen einer Sprachdatenbank für einen Zielwortschatz zum Trainieren eines Spracherkennungssystems | |
| Barra Chicote et al. | Spanish expressive voices: Corpus for emotion research in spanish | |
| EP1670165B1 (de) | Verfahren und modellbasiertes Audio-und Videosystem zur Darstellung einer virtuellen Figur | |
| DE102007039603A1 (de) | Verfahren zum Synchronisieren von medialen Datenströmen | |
| DE69816078T2 (de) | Verbesserungen im bezug auf visuelle sprachsynthese | |
| Mattheyses et al. | Multimodal unit selection for 2D audiovisual text-to-speech synthesis | |
| Theobald et al. | Visual speech synthesis using statistical models of shape and appearance. | |
| Galanes et al. | Generation of lip-synched synthetic faces from phonetically clustered face movement data | |
| Beskow et al. | Preliminary cross-cultural evaluation of expressiveness in synthetic faces |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 8364 | No opposition during term of opposition |