[go: up one dir, main page]

DE69716413T2 - Automatische synchronisierung von videobildsequenzen mit neuen tonspuren - Google Patents

Automatische synchronisierung von videobildsequenzen mit neuen tonspuren

Info

Publication number
DE69716413T2
DE69716413T2 DE69716413T DE69716413T DE69716413T2 DE 69716413 T2 DE69716413 T2 DE 69716413T2 DE 69716413 T DE69716413 T DE 69716413T DE 69716413 T DE69716413 T DE 69716413T DE 69716413 T2 DE69716413 T2 DE 69716413T2
Authority
DE
Germany
Prior art keywords
video
images
sequence
utterance
video image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69716413T
Other languages
English (en)
Other versions
DE69716413D1 (de
Inventor
Christoph Bregler
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Interval Research Corp
Palo Alto Research Center Inc
Original Assignee
Interval Research Corp
Palo Alto Research Center Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Interval Research Corp, Palo Alto Research Center Inc filed Critical Interval Research Corp
Publication of DE69716413D1 publication Critical patent/DE69716413D1/de
Application granted granted Critical
Publication of DE69716413T2 publication Critical patent/DE69716413T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G03PHOTOGRAPHY; CINEMATOGRAPHY; ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ELECTROGRAPHY; HOLOGRAPHY
    • G03BAPPARATUS OR ARRANGEMENTS FOR TAKING PHOTOGRAPHS OR FOR PROJECTING OR VIEWING THEM; APPARATUS OR ARRANGEMENTS EMPLOYING ANALOGOUS TECHNIQUES USING WAVES OTHER THAN OPTICAL WAVES; ACCESSORIES THEREFOR
    • G03B31/00Associated working of cameras or projectors with sound-recording or sound-reproducing means
    • G03B31/02Associated working of cameras or projectors with sound-recording or sound-reproducing means in which sound track is on a moving-picture film
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/032Electronic editing of digitised analogue information signals, e.g. audio or video signals on tapes
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Television Signal Processing For Recording (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)

Description

    GEBIET DER ERFINDUNG
  • Die vorliegende Erfindung betrifft das Sychronisieren von Videobildsequenzen mit Sprachtonspuren und insbesondere ein System, das eine realistische Videosequenz eines realen Menschen, der einen beliebigen Satz spricht, bereitstellt.
  • STAND DER TECHNIK
  • Es gibt verschiedene Situationen, in denen es wünschenswert ist, dass einer Videoaufzeichnung einer sprechenden Person Worte, die anders sind als die, die während der Originalaufzeichnung des Videobildes geäußert wurden, exakt zugeordnet werden. Eine derartige Anwendung ist das Gebiet der Audiosynchronisation, bei der die ursprünglich aufgezeichnete Tonspur durch eine andere Tonspur ersetzt wird. In einem einfachen Fall kann es nach der Aufzeichnung eines Bildes eines Schauspielers, der eine Äußerung spricht, wünschenswert sein, die Äußerung erneut aufzuzeichnen, beispielsweise, um die Betonung zu verändern oder einen anderen Akzent bereitzustellen. Anstatt die gesamte Videosequenz erneut aufzuzeichnen, ermöglicht das Verfahren der erneuten Synchronisation dem Schauspieler, die Äußerung mit den gewünschten Modifikationen zu wiederholen und die ursprünglich aufgezeichnete Äußerung durch die wiederholte zu ersetzen.
  • Bei einer anspruchsvolleren Videoproduktion kann es wünschenswert sein, vorrätige Aufzeichnungen eines Schauspielers zu verwenden und die gesprochenen Worte des Schauspielers durch eine vollkommen andere Sprachtonspur zu ersetzen, vielleicht mit einer anderen Stimme. Beispielsweise kann die ursprüngliche Äußerung in einer anderen Sprache ausgedrückt werden, oder es können verschiedene Spezialeffekte erzeugt werden, wie beispielsweise ein Kind, das eine Rede mit der Originalstimme eines berühmten Staatsmannes hält.
  • Bei dieser Art von Anwendungen muss das ursprünglich aufgezeichnetete Bild modifiziert werden, so dass die Lippenbewegungen des Sprechers mit der neuen Tonspur synchronisiert werden. In der Vergangenheit haben die Verfahren zur Erzielung einer derartigen Synchronisation eine umfangreiche manuelle Eingabe und/oder ein spezialisiertes Verarbeiten erfordert, das ihre Anwendbarkeit beschränkte. Ein Beispiel eines Lösungsversuchs des Stands der Technik, der auf einer Bildausrichtung basiert, ist in U.S.-Patent Nr. 4,827,532 beschrieben. Dieses Patent betrifft besonders den Ersatz einer Tonspur in einer Sprache durch eine neue Tonspur in einer zweiten Sprache, die andere Lippenbewegungen vom Sprecher fordert. Bei dem in dem Patent offenbarten Verfahren wird eine Videoaufzeichnung eines neuen Schauspielers hergestellt, der die Äußerungen in der neuen Sprache spricht. Es werden spezielle Markierungen verwendet, um die Konturen der Lippen des Schauspielers in dem neu aufgezeichneten Bild des Schauspielers, der die neue Sprache spricht, zu markieren, und das ursprüngliche Video muss manuell markiert werden. Wenn die entsprechenden Abschnitte des alten und des neuen Videobildes identifiziert worden sind, werden Pixel des originalen Filmeinzelbildes modifiziert, damit sie so aussehen, als ob der originale Schauspieler die Worte der neuen Tonspur sprechen würde.
  • Ein ähnliches Verfahren ist in EP-A-0 674 315 und in einem entsprechenden Artikel von Chen et al. mit dem Titel "Lip Synchronization in Talking Head Video Utilizing Speech Information", Proceedings of the SPIE, Bd. 2501, S. 1690-1701, 1995 beschrieben. Bei diesem Verfahren speichert eine Tabelle Lippenpositionen, die Lautgruppen, d. h. Phonemen, entsprechen. Die Stimme eines Synchronisationssprechers wird analysiert, und jedes Phonem wird verwendet, um das Bild des Mundes einer synchronisierten Person den Einträgen in der Tabelle entsprechend zu modifizieren.
  • Das Verfahren, das in dem Patent '532 offenbart ist, umfasst zwei Arten von Videomodifikation. Zuerst wird in einem Bestreben, die Einzelbilder des Originalbildes mit dem neuen Klang auszurichten, die Videosequenz zeitlich verzerrt, so dass die Lippenformen zueinander passen. Daraufhin wird eine visuelle Verzerrung, d. h. Morphing des Bildes ausgeführt, um einen Übergang zwischen nichtkontinuierlichen Abschnitten des Bildes, die sich aus dem Überspringen von Einzelbildern ergeben können, herzustellen.
  • Diese beiden Verzerrungsschritte erfordern einen bedeutenden Aufwand an manueller Eingabe. Als Folge davon lassen sich lange Videosequenzen mit Sprachsynchronisation nicht leicht produzieren. Des Weiteren ist es nicht in allen Fällen möglich, eine Videosequenz in einer solchen Weise zeitlich zu verzerren, dass die neuen Lippenformen mit den Originalformen übereinstimmen. Zum Beispiel kann das Bild für einen Klang mit geschlossenen Lippen nicht in eines für einen Klang mit offenen Lippen verzerrt werden, da die Zähne und/oder die Zunge fehlen würden. Ein ähnliches Problem tritt bei Klängen auf, die mit unterschiedlich vorstehenden Lippen erzeugt werden. Daher sind die Arten von Veränderungen, die ausgeführt werden können, begrenzt. Zusätzlich erfordert die neue Tonspur eine zweite Videoaufzeichnung, so dass die beiden aufgezeichneten Sequenzen visuell ausgerichtet werden können. Daher kann das Verfahren nicht mit jeder beliebigen Äußerung als neuer Tonspur ausgeführt werden. Vielmehr können nur Tonspuren, die begleitende Videobilder aufweisen, verwendet werden.
  • Es sind andere Lösungsversuche auf dem Gebiet der Animation unternommen worden, so dass sich der Mund einer Figur exakt an gesprochene Worte anpasst. Jedoch sind die Bilder, die in diesen Lösungsversuchen verwendet werden, synthetisch, und ihre entsprechenden Synchronisationsverfahren sind zur Verwendung für Videobilder des Gesichts einer realen Person nicht geeignet.
  • Dementsprechend ist es wünschenswert, ein Verfahren zu schaffen, das ermöglicht, eine beliebige gegebene Lautäußerung durch die Tonspur einer zuvor aufgezeichneten Videosequenz zu ersetzen, ohne dass eine Videoaufzeichnung der neuen Laute, die geäußert werden, erforderlich ist. Es ist weiterhin wünschenswert, ein derartiges Verfahren zu schaffen, das auf einfache Weise für eine Automatisierung verwendet werden kann, um dadurch den erforderlichen Aufwand an manueller Eingabe zu verringern.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Gemäß einem ersten Gesichtspunkt der vorliegenden Erfindung wird ein Verfahren zum Synchronisieren einer Videosequenz geschaffen, die eine begleitende Audiospur mit einer unterschiedlichen Audiospur aufweist, wobei das Verfahren die Schritte umfasst:
  • Analysieren der die Videosequenz begleitenden Audiospur mit Hilfe von automatischen Spracherkennungsverfahren, um individuelle Sprachkomponenten in der Audiospur zu identifizieren;
  • Analysieren einer Lautäußerung mit Hilfe von automatischen Spracherkennungsverfahren, um individuelle Sprachkomponenten in der Lautäußerung zu identifizieren; und
  • zeitliches Modifizieren mindestens entweder der Videosequenz oder der Lautäußerung, so dass identifizierte individuelle Sprachkomponenten in der Videosequenz zeitlich mit entsprechenden individuellen Sprachkomponenten in der Lautäußerung ausgerichtet werden.
  • Gemäß einem zweiten Gesichtspunkt der vorliegenden Erfindung wird ein System zur Modifizierung eines aufgezeichneten Videobildstroms geschaffen, um diesen mit einer Tonspur zu synchronisieren, die getrennt von dem aufgezeichneten Videobildstrom erzeugt wird, wobei das System umfasst:
  • Mittel zum automatischen Analysieren des aufgezeichneten Videobildstroms, um Bildsequenzen zu identifizieren, die individuellen Sprachkomponenten zugeordnet sind;
  • einen Speicher, der eine Datenbank speichert, die die identifizierten Bildsequenzen enthält;
  • Mittel zum automatischen Analysieren der Tonspur, um individuelle Sprachkomponenten zu identifizieren, die darin enthalten sind; und
  • Mittel zum Auswählen von Bildsequenzen, die in der Datenbank enthalten sind und individuellen Sprachmerkmalen entsprechen, die in der Tonspur identifiziert sind, und zum Zusammensetzen der ausgewählten Bildsequenzen zu einem Videobildstrom, der mit der Tonspur synchronisiert ist.
  • Gemäß einem dritten Aspekt der vorliegenden Erfindung wird ein System zum Modifizieren eines aufgezeichneten Videobildstroms geschaffen, um diesen mit einer Tonspur zu synchronisieren, die getrennt von dem aufgezeichneten Videobildstrom erzeugt wird, wobei das System umfasst:
  • Mittel zum Analysieren des aufgezeichneten Videobildstroms, um Bilder zu identifizieren, die individuellen Sprachkomponenten zugeordnet sind;
  • einen Speicher, der eine erste Datenbank speichert, die Unterbilder enthält, von denen jedes einen vorherbestimmten Abschnitt eines der identifizierten Bilder umfasst;
  • Mittel zum Analysieren der identifizierten Bilder, um Steuermerkmale innerhalb der Unterbildabschnitte der Bilder zu definieren;
  • Mittel zum Aufzeichnen der gespeicherten Unterbilder mit Daten, die sich auf die definierten Steuermerkmale beziehen;
  • einen Speicher, der eine zweite Datenbank, die Vollbilder aus dem Videobildstrom enthält, zusammen mit den definierten Steuermerkmalen speichert;
  • Mittel zum Analysieren der Tonspur, um individuelle Sprachkomponenten zu identifizieren, die darin enthalten sind;
  • Mittel zum Auswählen von Unterbildern, die in der ersten Datenbank enthalten sind und individuellen Sprachkomponenten entsprechen, die in der Tonspur identifiziert sind; und
  • Mittel zum Integrieren der ausgewählten Unterbilder in Vollbilder, die in der zweiten Datenbank gespeichert sind, in Übereinstimmung mit den definierten Steuermerkmalen, um einen Videostrom zu bilden, der mit der Tonspur synchronisiert ist.
  • Im Allgemeinen umfasst die vorliegende Erfindung daher die phonetische Analyse einer Audiospur, um die dazugehörigen Bilder zu klassifizieren, und das nachfolgende Abstimmen von Bildern aus der originalen Videosequenz mit den phonetischen Komponenten des neuen Tons. Dieses Verfahren ermöglicht, dass eine gegebene originale Videosequenz mit einer beliebigen Audiospur synchronisiert wird, ohne dass eine Videoaufzeichnung der neuen Tonspur oder die Erzeugung künstlicher Sprache oder Grafiken erforderlich ist. Des Weiteren kann das Abstimmen der Videosequenz auf die neuen Laute in einer hochautomatisierten Weise ausgeführt werden, wodurch der Umfang an manuellem Aufwand, der für Audiosynchronisation und dergleichen erforderlich ist, verringert wird.
  • Weitere Merkmale der Erfindung und die dadurch erzielten Vorteile werden im Folgenden ausführlich unter Bezugnahme auf spezifische Beispiele beschrieben, die in den beigefügten Zeichnungen veranschaulicht sind.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • Fig. 1 ist ein Ablaufplan des Gesamtverfahrens der vorliegenden Erfindung;
  • Fig. 2 ist ein ausführlicherer Ablaufplan des Verfahrens zur Erzeugung einer aufgezeichneten Datenbank von tonbezogenen Bildsequenzen;
  • Fig. 3 ist eine schematische funktionelle Veranschaulichung des Verfahrens zur Erzeugung einer Visem-Datenbank aus einer Videoaufzeichnung;
  • Fig. 4 ist eine schematische funktionelle Veranschaulichung des Verfahrens zur Erzeugung eines neuen Videostroms, der mit einer neuen Audiospur synchronisiert ist;
  • Fig. 5 ist ein ausführlicherer Ablaufplan des Verfahrens zum Zusammensetzen einer neuen Videofolge aus der Datenbank und einer neuen Tonspur;
  • Fig. 6 ist ein Beispiel eines Videoeinzelbildes, bei dem Steuerpunkte auf den Lippen einer Sprecherin markiert worden sind;
  • Fig. 7 ist ein Beispiel des Videoeinzelbildes, in das ein neues Lippenbild eingefügt wurde;
  • Fig. 8 ist eine schematische, funktionelle Veranschaulichung eines alternativen Verfahrens zum Synchronisieren einer Videosequenz mit einer neuen Tonspur; und
  • Fig. 9 ist ein Ablaufplan des alternativen Verfahrens, das in Fig. 8 gezeigt ist.
  • AUSFÜHRLICHE BESCHREIBUNG
  • Um ein Verständnis der vorliegenden Erfindung zu ermöglichen, wird diese im Folgenden unter Bezugnahme auf spezifische Beispiele beschrieben, bei denen die Tonspur für eine Videosequenz einer Person, die einen Laut äußert, durch eine andere Tonspur ersetzt wird. Die Beispiele betreffen den Ersatz einer Gruppe gesprochener Wörter, z. B. eines Satzes, durch eine andere Gruppe gesprochener Wörter. Jedoch sind die praktischen Anwendungen der Erfindung nicht auf Wörter beschränkt. Vielmehr können ihre Prinzipien auch auf andere Laute, wie beispielsweise Gesang, angewendet werden. Daher wird im Kontext der vorliegenden Erfindung der Begriff "Äußerung" in generischem Sinn auf gesprochene Wörter, musikalische Noten und alle anderen Laute bezogen, die mündlich erzeugt werden und klassifiziert werden können.
  • Bei der Beschreibung der folgenden Beispiele der Erfindung werden für verschiedene Arten der Video- und Audioanalyse bestimmte spezifische Verfahrensweisen dargestellt. Es versteht sich jedoch, dass diese Verfahrensweisen exemplarisch sind und dass die Erfindung unter Verwendung anderer Verfahrensweisen ausgeführt werden kann, die äquivalente Ergebnisse bereitstellen. Des Weiteren versteht sich, dass die Prinzipien der Erfindung nicht auf die spezifischen veranschaulichenden Implementierungen beschränkt sind, die hierin beschrieben sind. Vielmehr gibt es eine Reihe von praktischen Anwendungen der Erfindung, wie ausführlicher am Ende der Beschreibung erörtert.
  • Ein Überblick über das Verfahren, das in der vorliegenden Erfindung verwendet wird, um eine originale Videoaufzeichnung mit einer neuen Tonspur zu synchronisieren, ist in dem Ablaufplan in Fig. 1 veranschaulicht. Unter Bezugnahme auf diesen wird in Schritt S2 eine Videoaufzeichnung einer realen Person, die spricht oder singt, analysiert, um charakteristische Laute in der Äußerung spezifischen Videobildsequenzen zuzuordnen. Diese Videobildsequenzen werden in Schritt S3 in einer Datenbank gespeichert, die gemäß den charakteristischen Lauten, die jeder Bildsequenz zugeordnet sind, indexiert ist. Danach wird in Schritt S4 eine neue Lautäußerung, wie beispielsweise die Stimme eines anderen Sprechers, analysiert, um die charakteristischen Laute darin zu identifizieren. In Schritt S5 wird die originale Videoaufzeichnung mit der neuen Tonspur synchronisiert, indem die charakteristischen Laute beider aufeinander abgestimmt werden. Bei einer Ausführungsform der Erfindung wird für jeden identifizierten Laut in der neuen Tonspur eine geeignete Bildsequenz aus der Datenbank abgerufen, und sämtliche der abgerufenen Bildsequenzen werden in Schritt S6A zu einer Folge zusammengesetzt. Die Folge von Bildern wird daraufhin in Schritt S7A zum Beispiel mit Hilfe eines Morphing-Verfahrens geglättet, um einen Videostrom der Person zu erzeugen, die die neue Äußerung spricht. Bei einer alternativen Ausführungsform der Erfindung, bei der die neue Tonspur der Originalaufzeichnung ähnlich ist, z. B. derselbe Satz gesprochen wird, wird in Schritt S6B die Synchronisation erreicht, indem je nachdem, wie es angemessen ist, das Originalvideomaterial oder das neue Audiomaterial zeitlich verzerrt wird, um die charakteristischen Laute der Originalaufzeichnung mit denen der neuen Tonspur auszurichten.
  • Die Erzeugung einer Datenbank von lautindexierten Bildern in Schritt S1 und S2 in Fig. 1 ist ausführlicher im Ablaufplan aus Fig. 2 veranschaulicht. Im Wesentlichen wird eine Videoaufzeichnung mit ihrer begleitenden Audiospur zuerst einem Spracherkennungsverfahren unterzogen. Der Zweck dieses Verfahrens besteht darin, erkennbare Komponenten oder Eigenschaften zu identifizieren, die die aufgezeichneten Laute ausmachen. Bei einer Ausführungsform umfassen diese Komponenten die individuellen Phoneme der Sprache, d. h. eine Gruppe der kleinsten Einheiten der Sprache. Insbesondere werden individuelle Doppellaute oder Dreifachlaute der Sprache verwendet, da sie einen ausreichenden Kontext umfassen, um in ihren visuellen und auditiven Gesichtspunkten ziemlich konstant zu sein. Verschiedene Wörter oder unterschiedliche Aussprachen desselben Wortes können erzeugt werden, indem diese phonetischen Einheiten unter Verwendung herkömmlicher Aussprachewörterbücher zu einer Folge zusammengesetzt werden. Alternativ können andere erkennbare Lautkomponenten verwendet werden, die zur Klassifizierung von Redeteilen verwendet werden können, z. B. akustische Eigenschaftsvektoren, die mit Hilfe von MFCC, RASTA-PLP und LPC Analyse erzeugt werden.
  • In der Technik sind verschiedene Arten von Spracherkennungsvorrichtungen bekannt, die zur Identifizierung der Komponentenlaute der aufgezeichneten Sprache verwendet werden können. Bei einer bevorzugten Ausführungsform der Erfindung wird ein verborgenes Markow-Modellsystem (HMM) als phonetische Spracherkennungseinrichtung verwendet. Eine Beschreibung der Verwendung eines HMM-Systems zu einem solchen Zweck ist in Rabiner, Laurence R.: "A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition", Proceedings of the IEEE, Bd. 77, Nr. 2, S. 257-286, Februar 1989 gegeben, dessen Offenbarung durch Bezugnahme hierin eingeschlossen ist.
  • Unter Bezugnahme auf Fig. 2 wird in Schritt S10 die Spracherkennungseinrichtung zuerst darauf trainiert, die Lautkomponenten zu erkennen, die zu Klassifizierungszwecken verwendet werden sollen. Zum Beispiel kann ein HMM-System darauf trainiert werden, Phoneme mit Hilfe einer Trainingsvorrichtung, wie beispielsweise der verborgenen Markow-Dienstprogrammsammiung von Entropic Research Lab zu erkennen. Wenn die Stimme derselben Person sowohl in der originalen Videosequenz als auch in der neuen Audiospur verwendet werden soll, kann das HMM-System auf die Stimme nur dieser Person trainiert werden. Alternativ kann ein von einem einzigen Sprecher abhängiges HMM-System für die originale Tonspur verwendet werden, und ein anderes von einem einzigen Sprecher abhängiges System kann verwendet werden, um die neue Lautäußerung zu analysieren, wenn ausreichende Trainingsdaten für jeden Sprecher zur Verfügung stehen. Vorzugsweise wird die Spracherkennungseinrichtung jedoch so trainiert, dass sie sprecherunabhängig ist, so dass die originale Tonspur durch eine beliebige gesprochene Äußerung ersetzt werden kann. Dieser Lösungsversuch ist besonders in solchen Situationen wünschenswert, in denen die originale Tonspur kurz ist und sehr wenige Trainingsdaten für den Sprecher zur Verfügung stehen.
  • Um ungünstige Ergebnisse aus den jeweiligen Eigenschaften verschiedener Mikrofone zu vermeiden, die in der originalen und der neuen Tonspur verwendet werden, wird vorzugsweise ein kanalinvariantes Extraktionssystem für akustische Merkmale verwendet, um die Eingabeinformationen für das HMM-System bereitzustellen. Ein Beispiel eines solchen Systems ist das RASTA-PLP-System, das in Hermansky et al., "Compensation for the Effect of the Communication Channel in Auditory", Proc. Europ. Conf. on Speech Comm. and Tech., 1991, S. 1367-1370 und in U.S.-Patent Nr. 5,450,522 beschrieben ist, deren Offenbarungen durch Bezugnahme hierin eingeschlossen sind. Andere Lösungsversuche für Kanalinvarianz können ebenfalls verwendet werden.
  • Nachdem die Spracherkennungseinrichtung so trainiert wurde, dass sie individuelle Phoneme in einer gesprochenen Äußerung erkennt, wird sie zur Analyse der Tonspur verwendet, die die betreffende Videoaufzeichnung begleitet. Das Verfahren zum Erzeugen der Datenbank entsprechender Bildsequenzen und Laute ist schematisch in Fig. 3 dargestellt. Unter Bezugnahme auf diese umfasst eine Videoaufzeichnung 10 eine Serie von Einzelbildern 12 und eine begleitende Audiospur 14. Die Videoaufzeichnung wird wiedergegeben, und die aufgezeichneten Laute werden in einer Spracherkennungseinrichtung 16 analysiert, die individuelle Phoneme in der aufgezeichneten Sprache identifiziert (Schritt S11 in Fig. 2). Für jedes Phonem, das in der aufgezeichneten Tonspur erkannt wird, werden Videobilddaten, die dem identifizierten Klang entsprechen, in einer Datenbank 18 aufgezeichnet (Schritt S12). Die aufgezeichneten Bilddaten werden in der Datenbank 18 aufgezeichnet, um das spezifische Phonem zu identifizieren, dem sie zugeordnet sind (Schritt S13). Die gespeicherten Videobilddaten könnten ein einzelnen Bild, z. B. ein Videoeinzelbild, für jedes Phonem umfassen. Für bessere Ergebnisse wird eine Sequenz von Bildern gespeichert, z. B. 3-4 Einzelbilder, die die gesamte Aussprache des Phonems umfassen.
  • Gemäß einem etablierten Standard zur Spracherkennung, der als TIMIT Phonemsatz bekannt ist, gibt es einundsechzig verschiedene Phonemkategorien, die die menschliche Sprache kennzeichnen. Im Wesentlichen stellt jedes Phonem einen anderen Laut dar, der von einer Person geäußert werden kann. Jedoch können unterschiedliche Phoneme dieselbe visuelle Erscheinung für einen Zuschauer aufweisen. Beispielsweise befinden sich die Lippen eines Sprechers zur Aussprache der Laute für die Buchstaben "b" und "p" in derselben Position. Ebenso bietet die Aussprache der Laute, die den Konsonanten "d" und "t" entsprechen, denselben visuellen Eindruck. In dem Kontext der vorliegenden Erfindung wird die visuelle Erscheinung eines gesprochenen Phonems als "Visem" identifiziert. Die einundsechzig Kategorien von auditiven Phonemen können einem Satz von zehn Visemen zugeordnet werden. Demgemäß braucht eine Kompaktversion der Datenbank nur zehn Einträge zu enthalten, die jeweils den zehn Visemen zugeordnet sind. Die komplette Datenbank enthält eine Videobildsequenz der Lippenposition des Sprechers, die jedem gesprochenen Laut, der aufgezeichnet wurde, entspricht.
  • Wenn die Datenbank 18 erstellt worden ist, kann sie verwendet werden, um einen Videostrom zusammenzusetzen, der zu einer neuen Äußerung synchronisiert wird. Dieses Verfahren wird in der schematischen Veranschaulichung in Fig. 4 und in dem Ablaufplan in Fig. 5 dargestellt. Unter Bezugnahme darauf wird der Spracherkennungseinrichtung 16 eine neue Tonspur bereitgestellt. In dem veranschaulichten Beispiel wird die Tonspur auf einem geeigneten Medium aufgezeichnet, wie beispielsweise auf einem Magnetband 20. In der Praxis braucht die neue Tonspur jedoch nicht zuvor aufgezeichnet zu werden. Zum Beispiel können Wörter, die von einem Sprecher geäußert werden, über ein Mikrofon direkt in die Spracherkennungseinrichtung 16 eingegeben werden, wenn sie gesprochen werden. Die Spracherkennungseinrichtung identifiziert in Schritt S20 jeden individuellen Laut in der neuen Äußerung, z. B. die aufeinanderfolgenden Phoneme. Jeder identifizierte Laut stellt einen Index bereit, der verwendet wird, um in Schritt S21 auf die Datenbank 18 zuzugreifen. Für jeden dieser Laute wird in Schritt S22 die entsprechende Videobildsequenz, z. B. das Visem, aus der Datenbank ausgewählt, und die ausgelesenen Viseme werden in Schritt S23 zu einer Folge 22 von Videobildsequenzen zusammengesetzt. In dem Beispiel aus Fig. 4 entsprechen vier ausgewählte Bildsequenzen 22 jeweils vier aufeinanderfolgenden Phonemen in der neuen Tonspur auf dem Magnetband 20.
  • Da benachbarte Bildsequenzen in der zusammengesetzten Folge 22 zu nicht aufeinanderfolgenden Abschnitten der originalen Videoaufzeichnung gehören können, kann es abrupte Veränderungen von einer Bildsequenz zur nächsten geben. Dementsprechend ist es wünschenswert, die sequenziellen Bilder nahtlos aneinander anzupassen. Zu diesem Zweck werden die Sequenzen von Bildern, die aus der Datenbank 18 ausgelesen sind, vorzugsweise in einer Bildmorphingvorrichtung 24 verarbeitet (Schritt S24). Diese Vorrichtung funktioniert im Wesentlichen so, dass sie im Verlauf einer vorherbestimmten Anzahl von Videoeinzelbildern ein Bild in das nächstfolgende Bild morpht. Als Folge davon gehen die Bilder nahtlos ineinander über, so dass sie der natürlichen Bewegung des Sprechers stärker ähneln. Die nahtlos eingepassten Bilder werden daraufhin in Schritt S25 mit der neuen Tonspur 20 kombiniert, um einen neuen Videostrom zu erzeugen, bei dem das Bild des Sprechers mit den Lauten in der neuen Tonspur synchronisiert wird.
  • Es gibt mehrere unterschiedliche Lösungswege, die verwendet werden können, um die Datenbank 18 zusammenzusetzen und nachfolgend die gespeicherten Bildinformationen auszulesen, um die Bildsequenzen 22 zu erstellen. Bei der relativ einfachen Ausführungsform, die oben beschrieben ist, kann eine Mindestanzahl von Visemen, etwa zehn, in der Datenbank gespeichert werden. Bei dieser Ausführungsform wird jedes identifizierte Phonem in der neuen Tonspur verwendet, um ein entsprechendes Visem aus der Datenbank auszuwählen und die Folge von Bildsequenzen 22 zu bilden. Diese spezielle Implementierung ist besonders nützlich in solchen Situationen, in denen eine begrenzte Datenmenge zur Verfügung steht, zum Beispiel, wenn der analysierte Abschnitt des Originalvideos relativ kurz ist.
  • Bei einer komplexeren Ausführungsform können die Informationen, die in der Datenbank 18 gespeichert sind, Bi-Viseme umfassen. Ein Bi-Visem ist das visuelle Bild, das dem Übergang von einem Phonem zu dem folgenden Phonem entspricht. Die Bi- Viseme sind in der Datenbank 18 mit Hilfe von Doppellauten, d. h. zeitlichen Phonempaaren, indexiert. Bei dieser Ausführungsform werden die Bilder aus der Datenbank 18 auf der Basis von Doppellauten ausgelesen, die in der neuen Tonspur identifiziert werden. Zum Beispiel besteht das gesprochene Wort "bar" aus einer Reihe von Phonemen, die den Lauten für "b", "ah" und "r" entsprechen, begleitet von einer Pause am Anfang und am Ende. Wenn dieses gesprochene Wort analysiert wird, erzeugt die Spracherkennungseinrichtung 16 ein Ausgabesignal für den Doppellaut "Pause-btt, d. h. eine Pause, die von dem Laut für den Konsonanten "b" gefolgt wird. Das Bi-Visem für diesen Doppellaut wird aus der Datenbank 18 ausgewählt. Die Spracherkennungseinrichtung 16 erzeugt daraufhin ein Ausgabesignal für den Doppellaut "b-ah", und das entsprechende Bi-Visem wird aus der Datenbank ausgelesen, um die nächste Bildsequenz in der Folge 22 zu bilden. Der nächste Doppellaut entspricht dem Laut "ah-r", und sein entsprechendes Bi-Visem wird aus der Datenbank ausgelesen, um die nächste Bildsequenz in der Folge 22 zu bilden. Schließlich wird das Bi-Visem für den Doppellaut "r-Pause", d. h. die Pause am Ende des Wortes, aus der Datenbank ausgewählt. Wenn ein Bi-Visem für einen bestimmten Doppellaut nicht in der Datenbank gespeichert ist, wird das entsprechende einzelne Visem ausgewählt. Dementsprechend wird in dem vorangehenden Beispiel, wenn kein gespeichertes Bi-Visem für den Laut "ah-r" vorhanden ist, das einzelne Visem für das Phonem "r" ausgewählt.
  • Bei einer anspruchsvolleren Implementierung dieser Ausführungsform können verschiedene alternative Bi-Viseme unter Verwendung dynamischer Programmierverfahren verwendet werden. Bei dieser Implementierung kann eine Energiefunktion definiert werden, die aus drei Ausdrücken besteht. Ein Ausdruck misst die Qualität der visuellen Abstimmung zwischen aufeinanderfolgenden Bi-Visemen in der neuen Äußerung. Diese Abstimmung kann zum Beispiel durch Vergleich der Grauskala-Werte entsprechender Pixel in den aufeinanderfolgenden Bi-Visemen ausgeführt werden. Der zweite Ausdruck in der Energiefunktion misst die Differenz zwischen der Länge des Bi- Visems, das in der Datenbank gespeichert ist, und dem entsprechenden Doppellaut in der neuen Äußerung. Der dritte Ausdruck in der Energiefunktion ist ein Strafwert, der in solchen Situationen zugeordnet wird, in denen ein einzelnes Visem anstelle eines Bi- Visems verwendet wird. Die Energiefunktion wird für jede der alternativen Kombinationen von Bi-Visemen berechnet, und diejenige, die die Mindestenergiefunktion aufweist, wird zur Verwendung in der Bildsequenz 22 ausgewählt.
  • Die Videodaten, die in der Datenbank 18 gespeichert sind, können vollständige Videoeinzelbilder aus der Originalaufzeichnung 10 enthalten, wovon jedes den gesamten Kopf des Sprechers umfassen kann. Wenn das gesprochene Material eine nennenswerte Länge aufweist, ist es möglich, dass der Kopf des Sprechers sich während der aufgezeichneten Sitzung bewegt. Für Bilder, die kein Portrait sind und einen größeren Abschnitt des Körpers des Sprechers umfassen, ist die Möglichkeit einer Bewegung noch größer. Aufgrund dieser Bewegungen in der Originalaufzeichnung können ruckartige Bewegungen des Kopfes oder Körpers des Sprechers entstehen, wenn die verschiedenen Einzelbilder wieder zusammengesetzt werden, um die neue Sequenz 22 zu erzeugen. Ebenso können, wenn der Sprecher einen übertriebenen Ausdruck zeigt, z. B. angehobene Augenbrauen, unnatürliche Bewegungen in der rekonstruierten Sequenz 22 erscheinen. Um die Möglichkeit solcher Bewegungen zu begrenzen, wird bevorzugt, anstelle der Speicherung und Verwendung vollständiger Videoeinzelbilder zur Erzeugung der neuen Sequenz 22 Unterbilder zu verwenden, die nur solche Abschnitte eines Videoeinzelbildes enthalten, die zum Erreichen einer Synchronisation mit der neuen Äußerung notwendig sind. Das Unterbild kann daher die Lippen des Sprechers und eventuell einen kleinen, den Mund umgebenden Bereich umfassen. Da der Kiefer der Person sich während des Sprechens typischerweise im Einklang mit der unteren Lippe bewegt, wird bevorzugt, den Kiefer ebenfalls in das Unterbild mit einzubeziehen.
  • Bei einer Implementierung, die Unterbilder verwendet, wird der synchronisierte Videostrom 26 erzeugt, indem jede ausgelesene Sequenz von Unterbildern in das Gesamtbild des Kopfes des Sprechers "eingefügt" oder harmonisch eingegliedert wird. Bei einer Ausführungsform können die aufeinanderfolgenden Unterbilder in ein Stillstandeinzelbild des Sprechers eingefügt werden. Für eine natürlicher erscheinende Darstellung werden die Unterbilder in eine laufende Darstellung des Sprechers eingegliedert.
  • Um die korrekte Anordnung der Unterbilder in dem Videoeinzelbild sicherzustellen, werden entsprechende Steuerpunkte in der Originalaufzeichnung und den gespeicherten Unterbildern identifiziert. Zum Beispiel kann ein einzelner Steuerpunkt in der Mitte des oberen Randes der Oberlippe des Sprechers angeordnet sein. Dieser Steuerpunkt wird in der Originalaufzeichnung und daraufhin in jedem der gespeicherten Unterbilder identifiziert. Wenn ein Unterbild in die Originalaufzeichnung eingefügt wird, wird der Steuerpunkt jedes Einzelbildes in der Unterbildsequenz mit dem des entsprechenden Einzelbildes der Originalaufzeichnung ausgerichtet, um sicherzustellen, dass das Unterbild des Mundes sich an der korrekten Stelle innerhalb des Videoeinzelbildes befindet.
  • Vorzugsweise wird eine Vielzahl von Steuerpunkten, die die Lippen des Sprechers konturieren, verwendet. Zu diesem Zweck wird vorzugsweise ein automatischer visueller Verfolgungsalgorithmus verwendet, um die Grenzen der Lippen des Sprechers zu identifizieren. Herkömmliche Konturverfolgungsalgorithmen können verwendet werden, um die äußere Grenze der Lippen des Sprechers zu definieren. Ein Beispiel eines geeigneten Konturverfolgungsalgorithmus ist in Kaas et al., "SNAKES: Active Contour Models", Proc. of the First Int. Conf. on Computer Vision, Landon 1987 beschrieben. Wenn die Auflösung des Videobildes gering ist, kann ein graustufenbasierter Algorithmus verwendet werden, wie beispielsweise der Eigen-Bilder- Lösungsversuch, der in Pentland et al., "View-Based and Modular Eigenspaces for Face Recognition", Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, Juni 1994, S. 84-91 beschrieben ist. Insbesondere ist der Verfolgungsalgorithmus einer, der Steuerpunkte sowohl auf den äußeren als auch auf den inneren Rändern der Lippen des Sprechers identifiziert. Ein Beispiel eines Videobildes eines Sprechers, bei dem die inneren und äußeren Lippensteuerpunkte identifiziert sind, ist in Fig. 6 veranschaulicht. Diese Steuerpunkte werden zusammen mit jedem Unterbild gespeichert, das in der Datenbank 18 aufgezeichnet ist.
  • Die Sequenzen 22 der Unterbilder werden mit Hilfe des Morphing-Verfahrens in den endgültigen Videostrom 26 eingefügt, der die aufgezeichneten Steuerpunkte verwendet. Auf einem groben Niveau werden die Steuerpunkte zuerst verwendet, um die Stelle der neuen Lippenbilder in dem Videoeinzelbild zu bestimmen, sowie zu bestimmen, ob diese einer Drehung und Skalierung unterzogen werden müssen. Nachdem die allgemeine Lage, Skalierung und Ausrichtung der Bilder bestimmt wurden, werden die Steuerpunkte dazu verwendet, das originale Videobild zu verzerren und die neuen Lippenbilder in das Einzelbild übergehen zu lassen. Dieses Verfahren kann unter Verwendung eines geeigneten herkömmlichen Morphingprogramms ausgeführt werden. Ein Beispiel eines Morphingprogranms, das in diesem Zusammenhang verwendet werden kann, ist die Public Domain Software "Morphine". Ein Beispiel eines Videoeinzelbildes, das dem originalen Bild aus Fig. 6 entspricht, jedoch ein neues gemorphtes Lippenunterbild aufweist, ist in Fig. 7 veranschaulicht.
  • Die Dauer eines Phonems ist relativ kurz und kann nur drei oder vier aufeinanderfolgende Einzelbilder in der Videosequenz umfassen. In einem solchen Fall ist es möglicherweise zum Erreichen einer nahtlosen Einpassung von Bildern nicht notwendig, ein Morphingverfahren zu verwenden, das sowohl das Überblenden als auch das Verzerren der Bilder umfasst. Vielmehr kann es ausreichend sein, die Bilder einfach im Verlauf einiger Einzelbilder überzublenden, um eine akzeptable Mischung des Unterbildes in die originale Videoaufzeichnung zu erhalten. Zum Beispiel wird das Unterbild, nachdem es in geeigneter Weise skaliert und gedreht ist, derart in die Originalaufzeichnung übergeblendet, dass die Position der Oberlippe des Sprechers sowohl in dem originalen als auch in dem neuen Bild dieselbe bleibt.
  • Bei den vorangehenden Beispielen der Erfindung besteht eine Datenbank aus Bildsequenzen, die identifizierten Lauten entsprechen, und ein neuer Videostrom wird aus den aufgezeichneten Bildern in Übereinstimmung mit der neuen Tonspur zusammengesetzt. Wenn jedoch die neue Tonspur im Wesentlichen gleich den originalen aufgezeichneten Lauten ist, ist die Rekonstruktion des Videostroms möglicherweise nicht notwendig. Zum Beispiel ist es bei der Produktion von Fernsehwerbung manchmal wünschenswert, dass ein Schauspieler eine Aussage erneut aufzeichnet, beispielsweise um eine unnötige Pause zu löschen oder eine andere Betonung zu geben. In einem solchen Fall sind die Wörter in der neuen Tonspur dieselben wie die der Originalaufzeichnung, jedoch kann die zeitliche Abstimmung verschieden sein. Bei dieser Art von Situation kann die vorliegende Erfindung verwendet werden, um das ursprünglich aufgezeichnete Video zu modifizieren und es unter Verwendung von Zeitverzerrungsverfahren mit der erneut aufgezeichneten Tonspur zu synchronisieren.
  • Diese Ausführungsform der Erfindung wird in der schematischen Veranschaulichung aus Fig. 8 und dem Ablaufplan aus Fig. 9 dargestellt. Unter Bezugnahme darauf wird die Originalaufzeichnung 10 in Schritt S31 analysiert, um individuelle Phoneme oder andere charakteristische Sprachkomponenten zu identifizieren. Die speziellen Einzelbilder, die den verschiedenen Komponenten entsprechen, werden in Schritt S32 aufgezeichnet. Die neue Lautaufzeichnung 20 wird in Schritt S33 ebenso analysiert. Sie kann aus denselben Lautkomponenten bestehen, jedoch kann sich die zeitliche Abstimmung zwischen ihnen von der Originalaufzeichnung unterscheiden. Wenn die entsprechenden Komponenten sowohl in der Originalaufzeichnung als auch in der neuen Tonspur identifiziert worden sind, erfährt die Aufzeichnung in Schritt S34 ein zeitliches Verzerrungsverfahren, um es mit der neuen Tonspur zu synchronisieren. In dem Beispiel aus Fig. 8 wird ein Einzelbild aus der Originalaufzeichnung entfernt, so dass die übrigen Einzelbilder in einer neuen Sequenz 27 der zeitlichen Abstimmung der neuen Tonspur 20 entsprechen.
  • Als Alternative zur Modifizierung der originalen Videoaufzeichnung kann die neue Tonspur zeitlich verzerrt werden, um sie mit dem Originalvideo zeitlich auszurichten. Ob das ursprünglich aufgezeichnete Video oder die neue Tonspur zeitlich verzerrt wird, um sie mit dem jeweils anderen auszurichten, ist eine Frage der Wahl. Allgemein gesagt, ist es jedoch wünschenswert, diejenige Aufzeichnung zeitlich zu verzerren, die die langsamere der beiden ist, um sie mit der schnelleren Aufzeichnung zu synchronisieren. Jedes geeignete Zeitskalenmodifikationsverfahren, wie beispielsweise synchrone Überlappung und Hinzufügung (SOLA) kann verwendet werden, um die Audio- oder Videospur zeitlich zu verzerren.
  • Wenn das Zeitverzerrungsverfahren abgeschlossen ist, wird die Videosequenz in Schritt 535 mit der neuen Tonspur 20 kombiniert, um den neuen Videostrom 28 zu bilden. Diese Ausführungsform der Erfindung ist besonders wünschenswert für die Fälle, in denen die Wörter in den beiden Tonspuren dieselben oder im Wesentlichen dieselben sind, da dies keine Lippenverfolgung, keine Steuerpunktbestimmung oder Visem- Ausrichtung erfordert. Beispiele für geeignete Anwendungen für diese Ausführungsform umfassen das erneute Synchronisieren von Filmtonspuren sowie Karaoke- Systeme, bei denen eine Person zu einer begleitenden Videodarstellung singt.
  • Die vorangehenden Gesichtspunkte der Erfindung werden vorzugsweise in einem Computersystem (nicht gezeigt) implementiert, das in geeigneter Weise programmiert ist, um die Funktionen von Spracherkennung und Bild-/Vlorphing auszuführen. Da diese Verfahren an sich herkömmlicherweise bekannt sind, sind sie hierin nicht ausführlich beschrieben worden. Die Datenbank kann in jedem geeigneten Speicher gespeichert werden, der zu dem Computersystem gehört, z. B. einer Magnetfestplatte. Die originale Videoaufzeichnung und die neue Tonspur können ebenfalls in dem Computersystem gespeichert werden. Der Ausgabevideostrom, der mit der neuen Tonspur synchronisiert wird, kann anfänglich in dem Speicher des Computers gespeichert werden und dann auf ein anderes Medium, das für die Wiedergabe geeignet ist, z. B. eine Videokassette, übertragen werden oder direkt vom Computer wiedergegeben werden.
  • Es ist für Durchschnittsfachleute ersichtlich, dass die vorliegende Erfindung in anderen spezifischen Formen ausgeführt werden kann, ohne vom Geist oder wesentlichen Eigenschaften der Erfindung abzuweichen. Insbesondere sind die praktischen Verwendungen, obwohl die Ausführungsformen der Erfindung unter Bezugnahme auf ihre Implementierung in der Audio-Synchronisation beschrieben worden sind, nicht auf diese Arten von Anwendungen beschränkt. Als ein Beispiel kann die Erfindung ebenfalls verwendet werden, um ein Bildschirmtelefon mit niedriger Bandbreite bereitzustellen. In einer solchen Situation braucht die Übertragungsvorrichtung nur den Audiokanal und eine Visemsequenz zu senden. Der Empfänger kann den Visemstrom zusammen mit zuvor gespeicherten Videodaten verwenden, um ein lippensynchronisiertes Bild des Anrufers zu rekonstruieren. Als ein anderes Beispiel kann die Erfindung verwendet werden, um neue Arten von Benutzerschnittstellen für Computer bereitzustellen, bei denen eine bekannte Persönlichkeit mit Anweisungen oder Informationsanfragen zu dem Computerbenutzer sprechen kann. Bei einer anderen Ausführungsform kann die Erfindung verwendet werden, um Avatars in Realitätssimulationsspielen oder dergleichen zu erzeugen, wobei ein Bild eines beliebigen gegebenen Gesichts mit der Stimme des Spielers sprechen kann.
  • Es ist Durchschnittsfachleuten ersichtlich, dass die vorliegende Erfindung in anderen spezifischen Formen ausgeführt werden kann, ohne vom Geist oder wesentlichen Eigenschaften der Erfindung abzuweichen. Die vorliegenden offenbarten Ausführungsformen werden daher in jeder Hinsicht als veranschaulichend und nicht als beschränkend angesehen. Der Bereich der Erfindung wird durch die angehängten Ansprüche angegeben, nicht durch die vorangehende Beschreibung, und sämtliche Veränderungen, die in die Bedeutung und den Bereich von Äquivalenten derselben fallen, sollen hierin eingeschlossen sein.

Claims (28)

1. Verfahren zum Synchronisieren einer Videosequenz (12), die eine begleitende Audiospur (14) mit einer unterschiedlichen Audiospur (20) aufweist, wobei das Verfahren die Schritte umfasst:
Analysieren der die Videosequenz begleitenden Audiospur (14) mit Hilfe von automatischen Spracherkennungsverfahren (16), um individuelle Sprachkomponenten in der Audiospur zu identifizieren;
Analysieren einer Lautäußerung (20) mit Hilfe von automatischen Spracherkennungsverfahren (16), um individuelle Sprachkomponenten in der Lautäußerung zu identifizieren; und
vorübergehendes Modifizieren (S6A, S6B) mindestens entweder der Videosequenz oder der Lautäußerung, so dass identifizierte individuelle Sprachkomponenten in der Videosequenz vorübergehend mit entsprechenden individuellen Sprachkomponenten in der Lautäußerung ausgerichtet werden.
2. Verfahren nach Anspruch 1, wobei der Modifizierungsschritt das Verfahren der Neuordnung von Einzelbildern (S6A) der Videosequenz umfasst, um diese mit individuellen Sprachkomponenten in der Lautäußerung auszurichten.
3. Verfahren nach Anspruch 1, wobei der Modifizierungsschritt das Verfahren der Änderung der zeitlichen Abstimmung der Einzelbilder (S6B) der Videosequenz umfasst, um diese mit individuellen Sprachkomponenten in der Lautäußerung auszurichten.
4. Verfahren nach Anspruch 1, wobei der Modifizierungsschritt das Verfahren der zeitlichen Verzerrung der Sprachäußerung umfasst, so dass die Einzelbilder der Videosequenz mit individuellen Sprachmerkmalen in der Lautäußerung ausgerichtet sind.
S. Verfahren nach einem der Ansprüche 1 bis 4, wobei die individuellen Sprachkomponenten in der Audiospur und in der Lautäußerung Laute umfassen.
6. Verfahren nach Anspruch 5, wobei die individuellen Sprachkomponenten Doppellaute umfassen.
7. Verfahren nach Anspruch 5, wobei die individuellen Sprachkomponenten Dreifachlaute umfassen.
8. Verfahren nach einem der Ansprüche 1 bis 7, wobei die Lautäußerung der Audiospur entspricht und der Modifizierungsschritt den Schritt des vorübergehenden Verzerrens (S6B) der Videosequenz umfasst, um entsprechende individuelle Sprachkomponenten auszurichten.
9. Verfahren nach Anspruch 8, wobei die Videosequenz vorübergehend verzerrt wird, indem ein oder mehrere Videoeinzelbilder aus der Sequenz entfernt werden und die zu entfernenden Einzelbilder gemäß individuellen Sprachkomponenten ausgewählt werden, die den jeweiligen Einzelbildern der Sequenz zugeordnet sind.
10. Verfahren nach einem der Ansprüche 1 bis 9, wobei der Modifizierungsschritt die Schritte umfasst:
Speichern von Videobilddaten für individuelle Sprachkomponenten, die in der Tonspur (S3) identifiziert sind; und
Abrufen gespeicherter Videobilddaten (S6A) in einer Sequenz, die den identifizierten individuellen Sprachkomponenten in der Äußerung entspricht, um eine neue Videopräsentation zu erzeugen.
11. Verfahren nach Anspruch 10, das des Weiteren den Schritt umfasst, die abgerufenen Videobilddaten (S7A) nahtlos in die Sequenz einzupassen, die aufeinanderfolgenden individuellen Sprachkomponenten in der Äußerung entspricht.
12. Verfahren nach Anspruch 11, wobei der Schritt des nahtlosen Einpassens das Verfahren des Morphing zwischen aufeinanderfolgenden Sätzen abgerufener Videobilddaten umfasst.
13. Verfahren nach Anspruch 11 oder Anspruch 12, das des Weiteren die Schritte umfasst, Bilder in der Videosequenz zu analysieren, um Steuerinformationen darin zu definieren, die Steuerinformationen mit den gespeicherten Videobilddaten zu speichern und die Videobilddaten gemäß den gespeicherten Steuerinformationen nahtlos einzupassen.
14. Verfahren nach Anspruch 13, wobei die Steuerinformationen Punkte in den Videobildern umfassen, die sich auf Merkmale in den Bildern beziehen.
15. Verfahren nach einem der Ansprüche 10 bis 14, wobei jedes Element der gespeicherten Videobilddaten ein Unterbild ist, das einen Abschnitt eines gesamten Bildes in einem Videoeinzelbild umfasst.
16. Verfahren nach Anspruch 15, das des Weiteren den Schritt umfasst, Unterbilder in Voll-Videoeinzelbilder zu integrieren.
17. Verfahren nach einem der Ansprüche 10 bis 16, wobei die Videosequenz ein Bild des Kopfes einer Person umfasst und jedes Element der gespeicherten Videobilddaten ein Unterbild eines Bereichs umfasst, der den Mund der Person in dem Bild enthält.
18. Verfahren nach Anspruch 17, das des Weiteren den Schritt umfasst, Unterbilder des Mundes einer Person in ein Videoeinzelbild zu integrieren, das ein Bild des Kopfes einer Person umfasst.
19. System zur Modifizierung eines aufgezeichneten Videobildstroms (12), um diesen mit einer Tonspur (20) zu synchronisieren, die getrennt von dem aufgezeichneten Videobildstrom erzeugt wird, wobei das System umfasst.
Mittel zum automatischen Analysieren des aufgezeichneten Videobildstroms (S1, S2), um Bildsequenzen zu identifizieren, die individuellen Sprachkomponenten zugeordnet sind;
einen Speicher, der eine Datenbank (18) speichert, die die identifizierten Bildsequenzen enthält;
Mittel (16) zum automatischen Analysieren der Tonspur (20), um individuelle Sprachkomponenten zu identifizieren, die darin enthalten sind; und
Mittel zum Auswählen von Bildsequenzen, die in der Datenbank enthalten sind und individuellen Sprachmerkmalen entsprechen, die in der Tonspur identifiziert sind, und zum Zusammensetzen der ausgewählten Bildsequenzen zu einem Videobildstrom (22), der mit der Tonspur synchronisiert ist.
20. System nach Anspruch 19, wobei jedes der automatischen Analysiermittel ein Spracherkennungssystem umfasst.
21. System nach Anspruch 20, wobei das Spracherkennungssystem ein verborgenes Markow-Modellsystem ist.
22. System nach Anspruch 20, wobei das Spracherkennungssystem ein Neuronennetz ist.
23. System nach Anspruch 20, wobei das Spracherkennungssystem ein verborgenes Markow-Modellsystem und ein Neuronennetz umfasst.
24. System nach einem der Ansprüche 19 bis 23, wobei die individuellen Sprachkomponenten Sprachlaute umfassen.
25. System nach einem der Ansprüche 19 bis 24, das des Weiteren Mittel (24) umfasst, um die ausgewählten Bildsequenzen nahtlos aneinander anzupassen und so den synchronisierten Videobildstrom zu erzeugen.
26. System nach Anspruch 25, wobei das Anpassmittel ein Morphingsystem umfasst.
27. System nach einem der Ansprüche 19 bis 26, wobei das Mittel zum automatischen Analysieren des aufgezeichneten Videobildstroms Mittel zum Definieren von Steuerpunkten in den Bildern, die sich auf vorherbestimmte Merkmale beziehen, und Mittel zum Analysieren der Steuerpunkte umfasst, um die Sprachzusammensetzungen zu erkennen, die den Merkmalen zugeordnet sind.
28. System zum Modifizieren eines aufgezeichneten Videobildstroms (12), um diesen mit einer Tonspur (20) zu synchronisieren, die getrennt von dem aufgezeichneten Videobildstrom erzeugt wird, wobei das System umfasst:
Mittel zum Analysieren (S1, S2) des aufgezeichneten Videobildstroms, um Bilder zu identifizieren, die individuellen Sprachkomponenten zugeordnet sind;
einen Speicher, der eine erste Datenbank (18a) speichert, die Unterbilder enthält, von denen jedes einen vorherbestimmten Abschnitt eines der identifizierten Bilder umfasst;
Mittel zum Analysieren der identifizierten Bilder, um Steuermerkmale innerhalb der Unterbildabschnitte der Bilder zu definieren;
Mittel zum Aufzeichnen der gespeicherten Unterbilder mit Daten, die sich auf die definierten Steuermerkmale beziehen;
DE69716413T 1996-03-25 1997-03-25 Automatische synchronisierung von videobildsequenzen mit neuen tonspuren Expired - Lifetime DE69716413T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/620,949 US5880788A (en) 1996-03-25 1996-03-25 Automated synchronization of video image sequences to new soundtracks
PCT/US1997/004797 WO1997036297A1 (en) 1996-03-25 1997-03-25 Automated synchronization of video image sequences to new soundtracks

Publications (2)

Publication Number Publication Date
DE69716413D1 DE69716413D1 (de) 2002-11-21
DE69716413T2 true DE69716413T2 (de) 2003-06-26

Family

ID=24488068

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69716413T Expired - Lifetime DE69716413T2 (de) 1996-03-25 1997-03-25 Automatische synchronisierung von videobildsequenzen mit neuen tonspuren

Country Status (7)

Country Link
US (1) US5880788A (de)
EP (1) EP0890171B1 (de)
JP (1) JP2000508845A (de)
AU (1) AU716673B2 (de)
CA (1) CA2250462C (de)
DE (1) DE69716413T2 (de)
WO (1) WO1997036297A1 (de)

Families Citing this family (143)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1996027983A1 (en) * 1995-03-07 1996-09-12 Interval Research Corporation System and method for selective recording of information
JP4482161B2 (ja) * 1996-04-29 2010-06-16 ピーヴィーアイ ヴァーチャル メディア サービスイズ,エルエルシー 映像への電子的な指標の挿入が強化されたオーディオ
US6181383B1 (en) * 1996-05-29 2001-01-30 Sarnoff Corporation Method and apparatus for preserving synchronization of audio and video presentation when splicing transport streams
US6263507B1 (en) * 1996-12-05 2001-07-17 Interval Research Corporation Browser for use in navigating a body of information, with particular application to browsing information represented by audiovisual data
US5893062A (en) 1996-12-05 1999-04-06 Interval Research Corporation Variable rate video playback with synchronized audio
US7366670B1 (en) * 1997-08-05 2008-04-29 At&T Corp. Method and system for aligning natural and synthetic video to speech synthesis
JP4078691B2 (ja) * 1997-09-19 2008-04-23 ソニー株式会社 記録再生制御システム、記録再生制御方法および記録再生制御装置
US6307576B1 (en) * 1997-10-02 2001-10-23 Maury Rosenfeld Method for automatically animating lip synchronization and facial expression of animated characters
US7392190B1 (en) 1997-11-07 2008-06-24 At&T Corp. Coarticulation method for audio-visual text-to-speech synthesis
US6112177A (en) * 1997-11-07 2000-08-29 At&T Corp. Coarticulation method for audio-visual text-to-speech synthesis
US7117155B2 (en) * 1999-09-07 2006-10-03 At&T Corp. Coarticulation method for audio-visual text-to-speech synthesis
JP3194428B2 (ja) * 1997-11-17 2001-07-30 日本電気株式会社 部品選択装置及び部品選択方法
US6380950B1 (en) * 1998-01-20 2002-04-30 Globalstreams, Inc. Low bandwidth television
JPH11219446A (ja) * 1998-02-03 1999-08-10 Matsushita Electric Ind Co Ltd 映像音響再生システム
WO1999046734A1 (en) * 1998-03-11 1999-09-16 Entropic, Inc. Face synthesis system and methodology
US6496607B1 (en) * 1998-06-26 2002-12-17 Sarnoff Corporation Method and apparatus for region-based allocation of processing resources and control of input image formation
US6622171B2 (en) * 1998-09-15 2003-09-16 Microsoft Corporation Multimedia timeline modification in networked client/server systems
JP2003503925A (ja) * 1999-06-24 2003-01-28 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 情報ストリームのポスト同期
US6369822B1 (en) * 1999-08-12 2002-04-09 Creative Technology Ltd. Audio-driven visual representations
US6366885B1 (en) * 1999-08-27 2002-04-02 International Business Machines Corporation Speech driven lip synthesis using viseme based hidden markov models
US7630897B2 (en) * 1999-09-07 2009-12-08 At&T Intellectual Property Ii, L.P. Coarticulation method for audio-visual text-to-speech synthesis
US6598074B1 (en) * 1999-09-23 2003-07-22 Rocket Network, Inc. System and method for enabling multimedia production collaboration over a network
US7155735B1 (en) 1999-10-08 2006-12-26 Vulcan Patents Llc System and method for the broadcast dissemination of time-ordered data
US6856329B1 (en) * 1999-11-12 2005-02-15 Creative Technology Ltd. Automated acquisition of video textures acquired from a digital camera for mapping to audio-driven deformable objects
DE19956572B4 (de) * 1999-11-24 2006-05-11 STÜTZ, Andreas Verfahren zur Telekommunikation und Kommunikationsterminal
US6766299B1 (en) * 1999-12-20 2004-07-20 Thrillionaire Productions, Inc. Speech-controlled animation system
IL133797A (en) * 1999-12-29 2004-07-25 Speechview Ltd Apparatus and method for visible indication of speech
US6757682B1 (en) 2000-01-28 2004-06-29 Interval Research Corporation Alerting users to items of current interest
GB0008537D0 (en) * 2000-04-06 2000-05-24 Ananova Ltd Character animation
US7302490B1 (en) 2000-05-03 2007-11-27 Microsoft Corporation Media file format to support switching between multiple timeline-altered media streams
US7149686B1 (en) * 2000-06-23 2006-12-12 International Business Machines Corporation System and method for eliminating synchronization errors in electronic audiovisual transmissions and presentations
US6535269B2 (en) * 2000-06-30 2003-03-18 Gary Sherman Video karaoke system and method of use
US6665450B1 (en) * 2000-09-08 2003-12-16 Avid Technology, Inc. Interpolation of a sequence of images using motion analysis
AU2001292963A1 (en) * 2000-09-21 2002-04-02 The Regents Of The University Of California Visual display methods for use in computer-animated speech production models
US6778252B2 (en) * 2000-12-22 2004-08-17 Film Language Film language
US6970185B2 (en) * 2001-01-31 2005-11-29 International Business Machines Corporation Method and apparatus for enhancing digital images with textual explanations
US7053927B2 (en) * 2001-03-02 2006-05-30 Eastman Kodak Company System for optimizing the display and rendering of digital images for digital mastering
US7545957B2 (en) * 2001-04-20 2009-06-09 Avid Technology, Inc. Analyzing motion of characteristics in images
US7043058B2 (en) * 2001-04-20 2006-05-09 Avid Technology, Inc. Correcting motion vector maps for image processing
US7076429B2 (en) * 2001-04-27 2006-07-11 International Business Machines Corporation Method and apparatus for presenting images representative of an utterance with corresponding decoded speech
US8897596B1 (en) 2001-05-04 2014-11-25 Legend3D, Inc. System and method for rapid image sequence depth enhancement with translucent elements
US9286941B2 (en) 2001-05-04 2016-03-15 Legend3D, Inc. Image sequence enhancement and motion picture project management system
US8401336B2 (en) 2001-05-04 2013-03-19 Legend3D, Inc. System and method for rapid image sequence depth enhancement with augmented computer-generated elements
US7012650B2 (en) * 2001-06-14 2006-03-14 Sony Corporation Start/stop audio encoder apparatus and method for synchronizing digital audio and video signals
US6639649B2 (en) * 2001-08-06 2003-10-28 Eastman Kodak Company Synchronization of music and images in a camera with audio capabilities
US7343082B2 (en) 2001-09-12 2008-03-11 Ryshco Media Inc. Universal guide track
AU2002336354A1 (en) * 2001-09-15 2003-04-01 Michael Neuman Dynamic variation of output media signal in response to input media signal
US20030058932A1 (en) * 2001-09-24 2003-03-27 Koninklijke Philips Electronics N.V. Viseme based video coding
US7315820B1 (en) * 2001-11-30 2008-01-01 Total Synch, Llc Text-derived speech animation tool
US7194676B2 (en) 2002-03-01 2007-03-20 Avid Technology, Inc. Performance retiming effects on synchronized data in an editing system
US7668901B2 (en) * 2002-04-15 2010-02-23 Avid Technology, Inc. Methods and system using a local proxy server to process media data for local area users
US7209882B1 (en) 2002-05-10 2007-04-24 At&T Corp. System and method for triphone-based unit selection for visual speech synthesis
EP1365359A1 (de) * 2002-05-24 2003-11-26 BRITISH TELECOMMUNICATIONS public limited company Bildverarbeitungsverfahren und -system
US7212248B2 (en) * 2002-09-09 2007-05-01 The Directv Group, Inc. Method and apparatus for lipsync measurement and correction
EP1559265A4 (de) * 2002-11-07 2010-09-15 Thomson Licensing System und verfahren zur bestimmung der lippensynchronisation zwischen audio und video in einer digitalisierten umgebung durch verwendung einer pufferkalkulation
US7716312B2 (en) 2002-11-13 2010-05-11 Avid Technology, Inc. Method and system for transferring large data files over parallel connections
US7827034B1 (en) 2002-11-27 2010-11-02 Totalsynch, Llc Text-derived speech animation tool
US7133535B2 (en) * 2002-12-21 2006-11-07 Microsoft Corp. System and method for real time lip synchronization
US7142250B1 (en) * 2003-04-05 2006-11-28 Apple Computer, Inc. Method and apparatus for synchronizing audio and video streams
US7499104B2 (en) * 2003-05-16 2009-03-03 Pixel Instruments Corporation Method and apparatus for determining relative timing of image and associated information
US20070153125A1 (en) * 2003-05-16 2007-07-05 Pixel Instruments, Corp. Method, system, and program product for measuring audio video synchronization
WO2005022322A2 (en) * 2003-08-25 2005-03-10 Blue Street Studios, Inc. Video game system and method
US7990384B2 (en) * 2003-09-15 2011-08-02 At&T Intellectual Property Ii, L.P. Audio-visual selection process for the synthesis of photo-realistic talking-head animations
JP3848319B2 (ja) * 2003-11-11 2006-11-22 キヤノン株式会社 情報処理方法及び情報処理装置
US7643090B2 (en) * 2003-12-30 2010-01-05 The Nielsen Company (Us), Llc. Methods and apparatus to distinguish a signal originating from a local device from a broadcast signal
US20050234961A1 (en) * 2004-04-16 2005-10-20 Pinnacle Systems, Inc. Systems and Methods for providing a proxy for a shared file system
US20060031885A1 (en) * 2004-04-30 2006-02-09 Vulcan Inc. Management and non-linear presentation of music-related broadcasted or streamed multimedia content
US20060031879A1 (en) * 2004-04-30 2006-02-09 Vulcan Inc. Management and non-linear presentation of news-related broadcasted or streamed multimedia content
US20060031916A1 (en) * 2004-04-30 2006-02-09 Vulcan Inc. Management and non-linear presentation of broadcasted or streamed multimedia content
US8443279B1 (en) * 2004-10-13 2013-05-14 Stryker Corporation Voice-responsive annotation of video generated by an endoscopic camera
US7388586B2 (en) * 2005-03-31 2008-06-17 Intel Corporation Method and apparatus for animation of a human speaker
GB2438691A (en) * 2005-04-13 2007-12-05 Pixel Instr Corp Method, system, and program product for measuring audio video synchronization independent of speaker characteristics
AU2005330569A1 (en) * 2005-04-13 2006-12-07 Pixel Instruments, Corp. Method, system, and program product for measuring audio video synchronization independent of speaker characteristics
US7970613B2 (en) 2005-11-12 2011-06-28 Sony Computer Entertainment Inc. Method and system for Gaussian probability data bit reduction and computation
US20070139189A1 (en) * 2005-12-05 2007-06-21 Helmig Kevin S Multi-platform monitoring system and method
US8010358B2 (en) * 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
US7778831B2 (en) * 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
US7535472B2 (en) * 2006-04-05 2009-05-19 Seoul National University Industry Foundation Method for generating intuitive quasi-eigen faces
US8462163B2 (en) * 2006-08-25 2013-06-11 Cyber Clone Co., Ltd. Computer system and motion control method
US7948558B2 (en) * 2006-09-29 2011-05-24 The Directv Group, Inc. Audio video timing measurement and synchronization
US7669132B2 (en) * 2006-10-30 2010-02-23 Hewlett-Packard Development Company, L.P. Matching a slideshow to an audio track
US20080111887A1 (en) * 2006-11-13 2008-05-15 Pixel Instruments, Corp. Method, system, and program product for measuring audio video synchronization independent of speaker characteristics
US8179475B2 (en) * 2007-03-09 2012-05-15 Legend3D, Inc. Apparatus and method for synchronizing a secondary audio track to the audio track of a video source
US8577126B2 (en) * 2007-04-11 2013-11-05 Irobot Corporation System and method for cooperative remote vehicle behavior
US20090180668A1 (en) * 2007-04-11 2009-07-16 Irobot Corporation System and method for cooperative remote vehicle behavior
US20080263433A1 (en) * 2007-04-14 2008-10-23 Aaron Eppolito Multiple version merge for media production
US8316302B2 (en) * 2007-05-11 2012-11-20 General Instrument Corporation Method and apparatus for annotating video content with metadata generated using speech recognition technology
US8678896B2 (en) 2007-06-14 2014-03-25 Harmonix Music Systems, Inc. Systems and methods for asynchronous band interaction in a rhythm action game
EP2206539A1 (de) 2007-06-14 2010-07-14 Harmonix Music Systems, Inc. System und Verfahren zur Simulierung eines Rock Band-Erlebnisses
SG150415A1 (en) * 2007-09-05 2009-03-30 Creative Tech Ltd A method for incorporating a soundtrack into an edited video-with-audio recording and an audio tag
US8663013B2 (en) * 2008-07-08 2014-03-04 Harmonix Music Systems, Inc. Systems and methods for simulating a rock band experience
US9324173B2 (en) * 2008-07-17 2016-04-26 International Business Machines Corporation System and method for enabling multiple-state avatars
US8957914B2 (en) 2008-07-25 2015-02-17 International Business Machines Corporation Method for extending a virtual environment through registration
US10166470B2 (en) 2008-08-01 2019-01-01 International Business Machines Corporation Method for providing a virtual world layer
US8447065B2 (en) 2008-09-16 2013-05-21 Cyberlink Corp. Method of facial image reproduction and related device
CN102245274B (zh) * 2008-12-09 2013-12-18 皇家飞利浦电子股份有限公司 用于生成数据以控制用于呈现至少一个信号的系统的方法和系统
US8442833B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US8442829B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US8788256B2 (en) * 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US8465366B2 (en) 2009-05-29 2013-06-18 Harmonix Music Systems, Inc. Biasing a musical performance input to a part
US8449360B2 (en) 2009-05-29 2013-05-28 Harmonix Music Systems, Inc. Displaying song lyrics and vocal cues
US8334888B2 (en) * 2009-08-27 2012-12-18 Apple Inc. Dynamically generated ring tones
EP2494432B1 (de) * 2009-10-27 2019-05-29 Harmonix Music Systems, Inc. Auf gestik basierende benutzerschnittstelle
US9981193B2 (en) 2009-10-27 2018-05-29 Harmonix Music Systems, Inc. Movement based recognition and evaluation
US8550908B2 (en) 2010-03-16 2013-10-08 Harmonix Music Systems, Inc. Simulating musical instruments
US20110306397A1 (en) 2010-06-11 2011-12-15 Harmonix Music Systems, Inc. Audio and animation blending
US8562403B2 (en) 2010-06-11 2013-10-22 Harmonix Music Systems, Inc. Prompting a player of a dance game
US9358456B1 (en) 2010-06-11 2016-06-07 Harmonix Music Systems, Inc. Dance competition game
US20110311144A1 (en) * 2010-06-17 2011-12-22 Microsoft Corporation Rgb/depth camera for improving speech recognition
US9024166B2 (en) 2010-09-09 2015-05-05 Harmonix Music Systems, Inc. Preventing subtractive track separation
US8751228B2 (en) * 2010-11-04 2014-06-10 Microsoft Corporation Minimum converted trajectory error (MCTE) audio-to-video engine
US8600732B2 (en) * 2010-11-08 2013-12-03 Sling Media Pvt Ltd Translating programming content to match received voice command language
US8730232B2 (en) 2011-02-01 2014-05-20 Legend3D, Inc. Director-style based 2D to 3D movie conversion system and method
US9241147B2 (en) 2013-05-01 2016-01-19 Legend3D, Inc. External depth map transformation method for conversion of two-dimensional images to stereoscopic images
US9288476B2 (en) 2011-02-17 2016-03-15 Legend3D, Inc. System and method for real-time depth modification of stereo images of a virtual reality environment
US9282321B2 (en) 2011-02-17 2016-03-08 Legend3D, Inc. 3D model multi-reviewer system
US9407904B2 (en) 2013-05-01 2016-08-02 Legend3D, Inc. Method for creating 3D virtual reality from 2D images
TW201301148A (zh) * 2011-06-21 2013-01-01 Hon Hai Prec Ind Co Ltd 網頁瀏覽控制系統及方法
AU2012100262B4 (en) * 2011-12-15 2012-05-24 Nguyen, Phan Thi My Ngoc Ms Speech visualisation tool
US8655152B2 (en) 2012-01-31 2014-02-18 Golden Monkey Entertainment Method and system of presenting foreign films in a native language
US9153235B2 (en) 2012-04-09 2015-10-06 Sony Computer Entertainment Inc. Text dependent speaker recognition with long-term feature based on functional data analysis
US20130300939A1 (en) * 2012-05-11 2013-11-14 Cisco Technology, Inc. System and method for joint speaker and scene recognition in a video/audio processing environment
WO2014018652A2 (en) 2012-07-24 2014-01-30 Adam Polak Media synchronization
US9007365B2 (en) 2012-11-27 2015-04-14 Legend3D, Inc. Line depth augmentation system and method for conversion of 2D images to 3D images
US9547937B2 (en) 2012-11-30 2017-01-17 Legend3D, Inc. Three-dimensional annotation system and method
US9007404B2 (en) 2013-03-15 2015-04-14 Legend3D, Inc. Tilt-based look around effect image enhancement method
US9438878B2 (en) 2013-05-01 2016-09-06 Legend3D, Inc. Method of converting 2D video to 3D video using 3D object models
US20160042766A1 (en) * 2014-08-06 2016-02-11 Echostar Technologies L.L.C. Custom video content
US9609307B1 (en) 2015-09-17 2017-03-28 Legend3D, Inc. Method of converting 2D video to 3D video using machine learning
US10460732B2 (en) * 2016-03-31 2019-10-29 Tata Consultancy Services Limited System and method to insert visual subtitles in videos
US11409791B2 (en) 2016-06-10 2022-08-09 Disney Enterprises, Inc. Joint heterogeneous language-vision embeddings for video tagging and search
US10770092B1 (en) 2017-09-22 2020-09-08 Amazon Technologies, Inc. Viseme data generation
WO2019195839A1 (en) * 2018-04-06 2019-10-10 Deluxe One Llc Alignment of alternate dialogue audio track to frames in a multimedia production using background audio matching
EP3815050B1 (de) 2018-05-24 2024-01-24 Warner Bros. Entertainment Inc. Anpassung der mundform und -bewegung in einem digitalen video an alternatives audio
US10558761B2 (en) * 2018-07-05 2020-02-11 Disney Enterprises, Inc. Alignment of video and textual sequences for metadata analysis
US11423920B2 (en) * 2018-09-28 2022-08-23 Rovi Guides, Inc. Methods and systems for suppressing vocal tracks
AU2020211809A1 (en) * 2019-01-25 2021-07-29 Soul Machines Limited Real-time generation of speech animation
CN110534085B (zh) * 2019-08-29 2022-02-25 北京百度网讯科技有限公司 用于生成信息的方法和装置
US11119727B1 (en) * 2020-06-25 2021-09-14 Adobe Inc. Digital tutorial generation system
CN114760534B (zh) * 2022-03-28 2024-03-01 北京捷通华声科技股份有限公司 视频生成方法、装置、电子设备及可读存储介质
CN115174826A (zh) * 2022-07-07 2022-10-11 云知声智能科技股份有限公司 一种音视频合成方法及装置
WO2024234089A1 (en) * 2023-05-12 2024-11-21 Monsters Aliens Robots Zombies Inc. Improved generative machine learning architecture for audio track replacement
US12192599B2 (en) 2023-06-12 2025-01-07 International Business Machines Corporation Asynchronous content analysis for synchronizing audio and video streams

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4260229A (en) * 1978-01-23 1981-04-07 Bloomstein Richard W Creating visual images of lip movements
FR2571196B1 (fr) * 1984-10-02 1987-01-23 Guinet Yves Procede de television pour programmes multilingues
US4600281A (en) * 1985-03-29 1986-07-15 Bloomstein Richard W Altering facial displays in cinematic works
GB8528143D0 (en) * 1985-11-14 1985-12-18 British Telecomm Image encoding & synthesis
US5040081A (en) * 1986-09-23 1991-08-13 Mccutchen David Audiovisual synchronization signal generator using audio signature comparison
US4913539A (en) * 1988-04-04 1990-04-03 New York Institute Of Technology Apparatus and method for lip-synching animation
US5025394A (en) * 1988-09-09 1991-06-18 New York Institute Of Technology Method and apparatus for generating animated images
JP2518683B2 (ja) * 1989-03-08 1996-07-24 国際電信電話株式会社 画像合成方法及びその装置
US5430835A (en) * 1991-02-15 1995-07-04 Sierra On-Line, Inc. Method and means for computer sychronization of actions and sounds
JP3298076B2 (ja) * 1992-10-20 2002-07-02 ソニー株式会社 画像作成装置
US5608839A (en) * 1994-03-18 1997-03-04 Lucent Technologies Inc. Sound-synchronized video system
CA2144795A1 (en) * 1994-03-18 1995-09-19 Homer H. Chen Audio visual dubbing system and method
US6330023B1 (en) * 1994-03-18 2001-12-11 American Telephone And Telegraph Corporation Video signal processing systems and methods utilizing automated speech analysis
US5623173A (en) * 1994-03-18 1997-04-22 Lucent Technologies Inc. Bus structure for power system
US5572261A (en) * 1995-06-07 1996-11-05 Cooper; J. Carl Automatic audio to video timing measurement device and method
JP4078677B2 (ja) * 1995-10-08 2008-04-23 イーサム リサーチ デヴェロップメント カンパニー オブ ザ ヘブライ ユニヴァーシティ オブ エルサレム 映画のコンピュータ化された自動オーディオビジュアルダビングのための方法

Also Published As

Publication number Publication date
EP0890171B1 (de) 2002-10-16
DE69716413D1 (de) 2002-11-21
AU2544697A (en) 1997-10-17
CA2250462A1 (en) 1997-10-02
EP0890171A1 (de) 1999-01-13
WO1997036297A1 (en) 1997-10-02
AU716673B2 (en) 2000-03-02
US5880788A (en) 1999-03-09
JP2000508845A (ja) 2000-07-11
CA2250462C (en) 2001-10-02

Similar Documents

Publication Publication Date Title
DE69716413T2 (de) Automatische synchronisierung von videobildsequenzen mit neuen tonspuren
Hill et al. Animating speech: an automated approach using speech synthesised by rules
DE60101540T2 (de) Verfahren zur Animation eines künstlichen Modells eines menschlichen Gesichts unter Verwendung akustischer Signale
DE69719270T2 (de) Sprachsynthese unter Verwendung von Hilfsinformationen
DE69632901T2 (de) Vorrichtung und Verfahren zur Sprachsynthese
DE69924765T2 (de) Vorrichtung zur Erzeugung von Daten zur Wiederfindung von Videodaten und Vorrichtung zur Wiederfindung von Videodaten
DE4436692C2 (de) Trainingssystem für ein Spracherkennungssystem
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
DE19753453B4 (de) System zum Synchronisieren eines Films mit einem Text/Sprache-Umsetzer
DE102019001775A1 (de) Nutzung von Maschinenlernmodellen zur Bestimmung von Mundbewegungen entsprechend Live-Sprache
JP2518683B2 (ja) 画像合成方法及びその装置
Heckmann et al. DCT-based video features for audio-visual speech recognition.
US7109993B2 (en) Method and system for the automatic computerized audio visual dubbing of movies
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
DE112019001058T5 (de) Stimmeneffekte basierend auf gesichtsausdrücken
DE69425874T2 (de) Verfahren und Anordnung zur automatischen Extraktion prosodischer Information
DE10022586A1 (de) Verfahren zum Erzeugen einer Sprachdatenbank für einen Zielwortschatz zum Trainieren eines Spracherkennungssystems
Barra Chicote et al. Spanish expressive voices: Corpus for emotion research in spanish
EP1670165B1 (de) Verfahren und modellbasiertes Audio-und Videosystem zur Darstellung einer virtuellen Figur
DE102007039603A1 (de) Verfahren zum Synchronisieren von medialen Datenströmen
DE69816078T2 (de) Verbesserungen im bezug auf visuelle sprachsynthese
Mattheyses et al. Multimodal unit selection for 2D audiovisual text-to-speech synthesis
Theobald et al. Visual speech synthesis using statistical models of shape and appearance.
Galanes et al. Generation of lip-synched synthetic faces from phonetically clustered face movement data
Beskow et al. Preliminary cross-cultural evaluation of expressiveness in synthetic faces

Legal Events

Date Code Title Description
8364 No opposition during term of opposition