[go: up one dir, main page]

FR2796486A1 - Chosen word replacement speech editing technique having audio signal statistical word model memory with trial input compared and where match found innocuous word replaced. - Google Patents

Chosen word replacement speech editing technique having audio signal statistical word model memory with trial input compared and where match found innocuous word replaced. Download PDF

Info

Publication number
FR2796486A1
FR2796486A1 FR0009167A FR0009167A FR2796486A1 FR 2796486 A1 FR2796486 A1 FR 2796486A1 FR 0009167 A FR0009167 A FR 0009167A FR 0009167 A FR0009167 A FR 0009167A FR 2796486 A1 FR2796486 A1 FR 2796486A1
Authority
FR
France
Prior art keywords
lexical
signal
speech signal
word
term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR0009167A
Other languages
French (fr)
Other versions
FR2796486B1 (en
Inventor
Abraham Ittycheriah
Jeffrey Scott Sorensen
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of FR2796486A1 publication Critical patent/FR2796486A1/en
Application granted granted Critical
Publication of FR2796486B1 publication Critical patent/FR2796486B1/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/043Time compression or expansion by changing speed
    • G10L21/045Time compression or expansion by changing speed using thinning out or insertion of a waveform
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Abstract

The speech processing technique recognises incoming words (12) using a trial section input (18). Where a match is found, words are edited (24) and replaced by innocuous words.

Description

PROCEDES <B>ET DISPOSITIFS POUR SUBSTITUER</B> UNE <B>VOIX</B> SYNTHETISEE DYNAMIQUEMENT <B>A DES VOCABULAIRES IDENTIFIES</B> <B>AUTOMATIQUEMENT</B> Champ de l'Invention La présente invention concerne de façon générale le traitement des signaux audio et, de façon plus particulière, des procédés et un dispositif pour effectuer une reconnaissance dynamique et une édition de parties d'un signal audio, contenant un ou plusieurs mots associés à un ou plusieurs vocabulaires sélectionnés, par utilisation des techniques de reconnaissance vocale et d'édition audio, respectivement.  <B> METHODS AND DEVICES FOR SUBSTITUTING </ B> A <B> VOICE </ B> SYNTHESIZED DYNAMICALLY <B> TO IDENTIFIED VOCABULARS </ B> <B> AUTOMATICALLY </ B> Field of the Invention The present invention relates generally to the processing of audio signals and, more particularly, to methods and apparatus for performing dynamic recognition and editing of portions of an audio signal, containing one or more words associated with one or more selected vocabularies, using speech recognition and audio editing techniques, respectively.

Arrière-plan de l'Invention Du fait de la réglementation officielle concernant les ondes hertziennes, les radiodiffuseurs doivent fréquemment préprojeter ou préfiltrer les films et d'autres produits de distraction pour savoir si la teneur est acceptable, par exemple si l'on y trouve des blasphèmes, de l'argot, des insinuations ou insultes raciales ou autres, un langage de caractère sexuel ou violent, etc. Fréquemment, les radio-diffuseurs "occultent par un bîpe" un tel terme lexical, c'est à dire transmettre un son bruyant simultanément au, ou à la place du mot ou des mots inacceptable (s) , si bien que le mot ou les mots ne sont pas entendus par un auditeur. Lorsqu'il s'agit de transmission en direct, on utilise fréquemment des délais pour permettre au radiodiffuseur d'occulter le matériau inacceptable avant de le transmettre. Une autre approche consiste à assourdir complètement le son. D'autres techniques comprennent des pistes sonores alternatives d'enregistrement instantané utilisant la voie d'origine des acteurs, ou même utilisant de nouveaux acteurs pour pratiquer un doublage vocal. BACKGROUND OF THE INVENTION As a result of the official regulation on radio waves, broadcasters must frequently pre-screen or pre-filter films and other entertainment products to find out if the content is acceptable, for example if it is found there. blasphemy, slang, racial or other insinuations or insults, sexual or violent language, etc. Frequently, broadcasters "hide with a bpe" such a lexical term, ie transmit a noisy sound simultaneously to, or instead of the word or words unacceptable (s), so that the word or words words are not heard by an auditor. In the case of live transmission, delays are frequently used to allow the broadcaster to conceal the unacceptable material before transmitting it. Another approach is to completely mute the sound. Other techniques include alternative instantaneous sound tracks using the actors' original track, or even using new actors to practice vocal dubbing.

Cependant aucune de ces approches classiques n'est de nature automatique ou bien fonctionne sans surveillance. C'est à dire que, dans les cas où l'on occulte ou lorsque l'on assourdit, un radiodiffuseur doit activement participer au processus de filtrage durant les transmissions ou les émissions en direct, en surveillant le matériau à transmettre puis en prenant une certaine disposition pour lancer l'occultation ou l'assourdissement lorsqu'il entend un terme lexical inacceptable. De façon désavantageuse, l'approche demande d'avoir une supervision humaine immédiate et une réponse manuelle lorsqu'un tel matériau est détecté. Si la personne est momentanément distraite ou simplement ne fait pas suffisamment attention, le matériau inacceptable, qui autrement aurait été "occulté", peut être vraiment transmis. En outre, la création d'une piste sonore alternative avec des doublages vocaux doit également être surveillée et n'est pas non plus automatique. Egalement, aucune de ces approches classiques n'est en mesure de fonctionner de façon satisfaite en temps réel. Les délais utilisés lorsque l'on a des émissions en direct sont de l'ordre de plusieurs secondes ou plus. However none of these conventional approaches is automatic in nature or works unattended. That is, in cases where there is a hiding or a deafening, a broadcaster must actively participate in the filtering process during transmissions or live broadcasts, monitoring the material to be transmitted and then taking a certain disposition to launch the occultation or the deafening when it hears an unacceptable lexical term. Disadvantageously, the approach requires immediate human supervision and manual response when such material is detected. If the person is momentarily distracted or simply not paying enough attention, the unacceptable material, which otherwise would have been "obscured", can be truly transmitted. In addition, the creation of an alternative sound track with voice dubs also needs to be monitored and is not automatic either. Also, none of these conventional approaches are able to function satisfactorily in real time. The delays used when you have live broadcasts are of the order of several seconds or more.

Des efforts ont été tentés pour développer des produits qui visent à permettre à des parents de contrôler automatiquement le terme lexical qu'ils considèrent être inaproprié pour leurs enfants. Un logiciel de blocage destiné à internet et ce que l'on appelle les "V-chip" constituent des exemples de tels produits. Cependant, ces produits sont tous à base de texte et, par conséquent, ne fournissent pas, parmi d'autres choses, une détection et/ou une édition automatique d'un terme lexical inacceptable d'après les signaux vocaux. Efforts have been made to develop products that allow parents to automatically control the lexical term they consider inappropriate for their children. Blocking software for the internet and so-called "V-chip" are examples of such products. However, these products are all text-based and, therefore, do not provide, among other things, automatic detection and / or editing of an unacceptable lexical term based on the speech signals.

Par conséquent, il serait souhaitable de disposer de procédés et dispositifs permettant une détection et une édition automatiques et non surveillée d'un terme lexical inacceptable, contenu dans un signal vocal d'entrée tel que, par exemple, un signal vocal lié à une transmission d'émission. Therefore, it would be desirable to have methods and devices for unattended and automatic detection and editing of an unacceptable lexical term contained in an input speech signal such as, for example, a speech signal related to a transmission. resignation.

Résumé de l'Invention La présente invention fournit des procédés et dispositifs permettant la détection et l'édition automatiques et non surveillées d'un terme lexical sélectionné contenu dans un signal vocal d'entrée. Le terme lexical peut être un terme lexical inacceptable tel que, par exemple, des blasphèmes, de l'argot, des injures, des insinuations ou insultes raciales ou autres, un langage de caractère sexuel ou violent, etc. Le terme lexical inacceptable peut être défini par des standards de termes lexicaux, qui émanent des autorités officielles. Selon un aspect large de l'invention, un procédé de traitement dynamique d'un signal vocal comprend premièrement la détection automatique du fait qu'une partie du signal vocal comprend un terme lexical associé à un ou plusieurs vocabulaires de termes lexicaux. La partie du signal vocal est ensuite éditée automatiquement lorsqu'un tel terme lexical est détecté, d'une manière telle que le terme lexical détecté ne soit pas perceptible de façon audible. Une détection automatique peut être effectuée en utilisant des techniques de reconnaissance vocale et, de préférence, en utilisant les techniques de retouche de mots bien connues. I1 doit être évident que le terme "signal vocal" ou "signal audio", tel qu'utilisé, ici est destiné à comprendre de façon génèrale une ou plusieurs formes d'un terme lexical audio, par exemple, mais sans se limiter à des paroles prononcées, associées à un discours individuels, des dialogues, de la musique, de la vidéo, etc. Summary of the Invention The present invention provides methods and devices for automatic and unattended detection and editing of a selected lexical term contained in an input speech signal. The term lexical may be an unacceptable lexical term such as, for example, blasphemy, slang, insults, racial or other insinuations or insults, sexual or violent language, etc. The unacceptable lexical term can be defined by standards of lexical terms, which emanate from the official authorities. According to a broad aspect of the invention, a method of dynamically processing a voice signal firstly comprises the automatic detection that part of the speech signal comprises a lexical term associated with one or more vocabularies of lexical terms. The portion of the speech signal is then automatically edited when such a lexical term is detected, such that the detected lexical term is not audibly perceptible. Automatic detection can be accomplished using speech recognition techniques and preferably using well-known word editing techniques. It should be obvious that the term "voice signal" or "audio signal" as used herein is intended to generally include one or more forms of an audio lexical term, for example, but not limited to spoken words, associated with individual speeches, dialogues, music, video, etc.

Selon un premier mode de réalisation l'étape d'édition automatique comprend le remplacement automatique de la partie du signal vocal contenant le terme lexical, par une partie de signal vocal modifiée, ayant au moins un paramètre vocal (par exemple associé à une excitation de la zone vocale, un filtre de zone vocale, etc.) qui soit une modification d'au moins un paramètre vocal dans la partie du signal vocal contenant le terme lexical. Selon un deuxième mode de réalisation de l'invention, l'étape d'édition automatique inclus l'assourdissement automatique de la partie du signal vocal contenant le terme lexical. Selon un troisième mode de réalisation de l'invention, l'étape d'édition automatique comprend le remplacement automatique de la partie de signal vocal contenant le terme lexical par un signal acoustique (par exemple, un bîpe). According to a first embodiment, the automatic editing step comprises the automatic replacement of the portion of the speech signal containing the lexical term, with a part of the modified speech signal, having at least one voice parameter (for example associated with an excitation of the voice zone, a voice zone filter, etc.) which is a modification of at least one voice parameter in the part of the speech signal containing the lexical term. According to a second embodiment of the invention, the automatic editing step includes automatic muting of the part of the speech signal containing the lexical term. According to a third embodiment of the invention, the automatic editing step comprises the automatic replacement of the voice signal part containing the lexical term by an acoustic signal (for example, a bpe).

I1 est à noter que les procédés et l'appareil de détection et d'édition automatiques de l'invention peuvent, de préférence, être utilisés par des radiodiffuseurs, en liaison avec un signal d'émission en direct, par exemple des signaux d'émission de télévision et de radio. De telles caractéristiques, de détection et d'édition automatiques, peuvent être mises en oeuvre pour empêcher qu'un terme lexical inacceptable ne soit entendu par le public de l'émission, d'après les standards de termes lexicaux imposés officiellement. Cependant, l'homme de l'art ordinaire envisagera des applications nombreuses et variées pour de tels enseignements inventifs. Par exemple, l'invention peut être mise en oeuvre en- liaison avec un boîtier à brancher. Dans ce mode de réalisation, un parent ou un autre utilisateur peut utiliser l'invention pour aider à contrôler le matériau à base vocale qu'il considère comme inaproprié pour leurs enfants. D'autres objets, caractéristiques et avantages de la présente invention, vont apparaître à la lecture de la description dètaillée ci-après de modes de réalisation illustratifs de celle-ci, en liaison avec les dessins annexés. It should be noted that the automatic detection and editing methods and apparatus of the invention may preferably be used by broadcasters in connection with a live broadcast signal, for example, broadcast signals. television and radio show. Such features, automatic detection and editing, can be implemented to prevent an unacceptable lexical term from being heard by the audience of the program, according to the standards of lexical terms officially imposed. However, one of ordinary skill in the art will consider many and varied applications for such inventive teachings. For example, the invention may be implemented in connection with a box to be connected. In this embodiment, a parent or other user may use the invention to help control the voice-based material that he considers inappropriate for their children. Other objects, features and advantages of the present invention will become apparent upon reading the following detailed description of illustrative embodiments thereof, in conjunction with the accompanying drawings.

<B>Brève Description des Dessins</B> la figure 1 est un schéma par blocs d'un système de reconnaissance et d'édition dynamiques de termes lexicaux, selon un mode de réalisation illustratif de la présente invention; la figure 2 est un schéma par blocs d'un système de reconnaissance vocale à retouche de mots selon un mode de réalisation illustratif de la présente invention; la figure 3 est un schéma par blocs d'un système d'édition audio de termes lexicaux selon un mode de réalisation illustratif de la présente invention; la figure 4 illustre l'enchaînement des étapes d'un procédé de reconnaissance et d'édition dynamiques de termes lexicaux selon un mode de réalisation illustratif de la présente invention; et Les figures 5A et 5B sont des schémas par blocs respectifs de systèmes d'édition audio de termes lexicaux, selon deux autres modes de réalisation illustratifs de la présente invention. Description Détaillée des modes de Réalisation Préférés. BRIEF DESCRIPTION OF THE DRAWINGS FIG. 1 is a block diagram of a dynamic lexical word recognition and editing system, in accordance with an illustrative embodiment of the present invention; Fig. 2 is a block diagram of a word-correcting speech recognition system according to an illustrative embodiment of the present invention; Fig. 3 is a block diagram of an audio editing system of lexical terms according to an illustrative embodiment of the present invention; FIG. 4 illustrates the sequence of steps of a method of dynamic recognition and edition of lexical terms according to an illustrative embodiment of the present invention; and Figs. 5A and 5B are respective block diagrams of lexical word audio editing systems, according to two other illustrative embodiments of the present invention. Detailed Description of the Preferred Realization Modes.

La présente invention va être explicitée ci-après dans le contexte illustratif d'une mise en oeuvre avec un signal de transmission d'émission. Cependant, il est évident que la présente invention n'est pas limitée à une telle application particulière, ni à un tel mode de réalisation structurel. Plutôt que cela, l'invention est applicable de façon plus génèrale à toute situation dans laquelle il apparaît souhaitable de détecter et d'éditer automatiquement un signal vocal qui comprend un terme lexical qui coïncide sensiblement avec un terme lexical se trouvant dans un ou plusieurs vocabulaires cibles mémorisés antérieurement, d'une manière telle que le terme lexical détecté ne soit pas perceptible de façon audible pour un auditeur potentiel. The present invention will be explained below in the illustrative context of an implementation with a transmission transmission signal. However, it is obvious that the present invention is not limited to such a particular application, nor to such a structural embodiment. Rather than this, the invention is more generally applicable to any situation in which it appears desirable to automatically detect and edit a voice signal which comprises a lexical term which substantially coincides with a lexical term found in one or more vocabularies. previously stored targets, such that the detected lexical term is not audibly perceptible to a potential listener.

En se référant initialement à la figure 1, il est représenté un schéma par blocs d'un système de reconnaissance et d'édition dynamiques de termes lexicaux selon un mode de réalisation illustratif de la présente invention. Le système illustratif 10 reçoit un signal d'entrée 12 à transmettre. I1 est évident que le signal peut provenir d'un studio d'émission, par exemple d'une station de radio ou de télévision. Le radiodiffuseur souhaite éditer automatiquement le signal, afin de supprimer le terme lexical inacceptable pouvant être inclus dans le signal, ceci avant sa transmission, sa publication ou autre. Le système 10 comprend trois composantes de traitement de signal distinctes : (i) un système audio et vidéo intermédiaire incluant un circuit tampon audio 14 et un circuit tampon vidéo 16; (ii) un système de reconnaissance vocale de retouche de mots incluant une mémoire de données d'apprentissage 18, une mémoire de modèles de mots statistiques 20 et un processeur de retouche de mots 22; (iii) un système d'édition audio de termes lexicaux incluant un processeur d'édition audio 24. Après avoir effectué une détection et une édition automatique selon l'invention, ainsi que ceci va être explicité en détail cidessous, le système 10 envoie un signal édité 26 qui est à présent avantageusement exempt de tout terme lexical audio inacceptable. Referring initially to Figure 1, there is shown a block diagram of a dynamic lexical recognition and editing system according to an illustrative embodiment of the present invention. The illustrative system 10 receives an input signal 12 to be transmitted. It is obvious that the signal can come from a broadcast studio, for example from a radio or television station. The broadcaster wishes to edit the signal automatically, in order to remove the unacceptable lexical term that may be included in the signal, before it is transmitted, published or otherwise. The system 10 comprises three distinct signal processing components: (i) an intermediate audio and video system including an audio buffer circuit 14 and a video buffer circuit 16; (ii) a word retouch speech recognition system including a training data memory 18, a statistical word template memory 20 and a word retouch processor 22; (iii) a system for audio editing of lexical terms including an audio editing processor 24. After performing detection and automatic editing according to the invention, as will be explained in detail below, the system 10 sends a edited signal 26 which is now advantageously free of any unacceptable audio lexical term.

Il est à noter que le terme "processeur", tel qu'utilisé ici, est destiné à inclure tout dispositif de traitement tel que, par exemple, un dispositif comprenant une CPU (Unité de Traitement Centrale). Par exemple, le processeur peut être un processeur de signal numérique, comme ceci est connu dans l'art. Egalement, le terme "processeur" peut se référer à un ou plusieurs processeurs individuels. Le terme "mémoire", tel qu'utilisé ici, est destiné à inclure une mémoire associée à un processeur ou une CPU, telle que, par exemple, une RAM, une ROM, un dispositif à mémoire fixe (par exemple un disque dur), un dispositif à mémoire amovible (par exemple, une disquette) etc. De manière correspondante, un logiciel pour ordinateur, incluant des instructions ou du code pour exécuter les méthodologies de l'invention, tel que décrit ici, peut être stocké dans un ou plusieurs des dispositifs mémoire associés (par exemple, une ROM, une mémoire fixe ou amovible) et, lorsqu'il est prêt à être utilisé, être chargé en partie ou en totalité (par exemple, dans la RAM) et exécuté par une CPU. En tout cas, il devrait être évident que les éléments illustrés sur les figures peuvent être mis en oeuvre sous diverses formes de matériels, logiciel ou des combinaisons de ceux-ci, par exemple un ou plusieurs processeurs de signaux numériques avec des mémoires associées, un ou des circuits intégrés spécifiques à une application (ASIC), une circuiterie fonctionnelle, un ou plusieurs ordinateurs numériques d'usage général et programmés de manière appropriée, ayant une mémoire associée, etc. Etant donné les enseignements de l'invention indiquée ici, l'homme de l'art ordinaire sera en mesure d'envisager d'autres mises en oeuvre des éléments de l'invention. It should be noted that the term "processor" as used herein is intended to include any processing device such as, for example, a device comprising a CPU (Central Processing Unit). For example, the processor may be a digital signal processor, as is known in the art. Also, the term "processor" can refer to one or more individual processors. The term "memory", as used herein, is intended to include a memory associated with a processor or a CPU, such as, for example, a RAM, a ROM, a fixed memory device (for example a hard disk) , a removable memory device (for example, a floppy disk), etc. Correspondingly, computer software, including instructions or code for executing the methodologies of the invention, as described herein, may be stored in one or more of the associated memory devices (for example, a ROM, a fixed memory or removable) and, when ready to use, be partially or fully loaded (for example, into RAM) and executed by a CPU. In any case, it should be obvious that the elements illustrated in the figures can be implemented in various forms of hardware, software or combinations thereof, for example one or more digital signal processors with associated memories, a or application-specific integrated circuits (ASICs), functional circuitry, one or more general-purpose digital computers appropriately programmed, having associated memory, etc. Given the teachings of the invention set forth herein, those of ordinary skill in the art will be able to consider other implementations of the elements of the invention.

Le système intermédiaire audio et vidéo, qui comprend un circuit tampon audio 14 et un circuit tampon vidéo 16, est de préférence un tampon mémoire numérique qui stocke le signal entrant, devant être transmis, lors des processus subséquents de détection et d'édition selon l'invention. En plus, ainsi que ceci va être expliqué, le contenu du tampon peut faire l'objet d'un accès, sur instruction venant du processeur de retouche de mots 22, pour être utilisé dans l'exécution des fonctions d'édition audio. Etant donné que le fonctionnement de l'invention se fait de préférence en temps réel, la taille totale du tampon n'a pas à être grande. Par exemple, le sous-système de mise en tampon peut avoir une capacité mémoire totale d'environ une seconde de stockage de signal audio et vidéo. Pour un tampon audio de qualité des disques compacts (CD) de cette durée, il faut avoir environ 86 kilooctets de mémoire. De même, une seconde de vidéo selon la qualité peut être stockée dans plusieurs Megaoctets de mémoire. The audio and video intermediate system, which includes an audio buffer circuit 14 and a video buffer circuit 16, is preferably a digital memory buffer which stores the incoming signal to be transmitted in subsequent detection and editing processes according to the present invention. 'invention. In addition, as will be explained, the contents of the buffer may be accessed, on instruction from the word retouching processor 22, for use in performing the audio editing functions. Since the operation of the invention is preferably in real time, the total size of the buffer need not be large. For example, the buffering subsystem may have a total memory capacity of about one second of audio and video signal storage. For a quality audio CD (CD) of this duration, you need about 86 kilobytes of memory. Similarly, one second of quality video can be stored in several megabytes of memory.

Il est évident que, pour les modes de réalisation illustratifs de l'invention, aucune édition vidéo n'est effectuée. Au lieu de cela, le signal vidéo est stocké dans le tampon vidéo 16 afin de conserver la synchronisation avec le signal vidéo qui est subséquemment analysé et, éventuellement, édité. I1 est à noter que, bien que ceci ne soit pas représenté sur la FIG. 1, des procédés classiques de séparation des signaux audio et vidéo d'origine pour un stockage et une recombinaison du signal audio (éventuellement édité) et du signal vidéo originel peuvent être utilisés. En outre, pour des signaux d'émission par radio, par exemple, le tampon vidéo est inutile, étant donné qu'il n'y a pas de signal vidéo associé. It is obvious that for the illustrative embodiments of the invention, no video editing is performed. Instead, the video signal is stored in the video buffer 16 to maintain synchronization with the video signal which is subsequently analyzed and possibly edited. It should be noted that although this is not shown in FIG. 1, conventional methods of separating the original audio and video signals for storage and recombination of the audio signal (possibly edited) and the original video signal can be used. In addition, for radio transmission signals, for example, the video buffer is unnecessary, since there is no associated video signal.

Il est également évident que, bien qu'un système de mise en tampon soit utilisé dans les modes de réalisation illustratifs, ceci n'est pas obligatoirement nécessaire. C'est-à-dire que le système de retouche de mots et le système d'édition audio peuvent assurer leurs fonctions directement sur les signaux vocaux reçus depuis leurs sources. Cependant, selon le type d'opération d'édition audio utilisé, il peut s'avérer préférable de mettre en tampon les signaux pour satisfaire au temps de traitement. It is also evident that although a buffering system is used in the illustrative embodiments, this is not necessarily necessary. That is, the word editing system and the audio editing system can perform their functions directly on the voice signals received from their sources. However, depending on the type of audio editing operation used, it may be preferable to buffer the signals to satisfy the processing time.

Le système de reconnaissance vocale de retouche de mots qui comprend une mémoire de données d'apprentissage 18, une mémoire de modèles de mot statistiques 20 et un processeur de retouche de mots 22, est un système de reconnaissance vocale qui est de préférence entraîné pour marquer les débuts et les fins d'un vocabulaire prédéfini. Il est à noter qu'il y a de nombreux exemples d'identificateurs vocaux classiques, connus à l'homme de l'art, qui utilisent ce mode de reconnaissance, appelé la retouche de mots. Par exemple un tel système, tel que décrit dans J.G. Wilpon et al., "Automatic Recognition of Keywords in Constrained Speech Using Hidden Markov Models," IEEE Trans. Acoust. Speech Signal Processing, vol. 11, pages 1870-1878, Novembre 1990, peut être utilisé. La FIG. 2 illustre un système de reconnaissance vocale à retouche de mots illustratif, destiné à être utilisé selon la présente invention. The word retentive speech recognition system which includes a training data memory 18, a statistical word template memory 20 and a word retouch processor 22, is a voice recognition system which is preferably trained to mark. the beginnings and ends of a predefined vocabulary. It should be noted that there are numerous examples of conventional voice identifiers, known to those skilled in the art, that use this recognition mode, called word editing. For example, such a system, as described in J. G. Wilpon et al., "Automatic Recognition of Keywords in Constrained Speech Using Hidden Markov Models," IEEE Trans. Acoust. Speech Signal Processing, Vol. 11, pages 1870-1878, November 1990, can be used. FIG. 2 illustrates an illustrative word-processing voice recognition system for use in accordance with the present invention.

En se référant à présent à la Fig. 2 le processeur de retouche de mots 22 est décrit plus en détail comme comprenant un sous-système d'extraction de caractéristiques 28 et un sous-système de reconnaissance de motif 30. Ainsi que ceci est connu dans l'art, le sous-système d'extraction de caractéristiques 28 échantillonne le signal vocal et subdivise le signal en des trames, ayant une durée par exemple d'environ 10 millisecondes, de manière que chaque trame puisse être traitée de façon discrète par le reste du système. Le sous-système d'extraction de caractéristiques procède ensuite à l'extraction des caractéristiques spectrales depuis le signal, pour chaque trame. Les caractéristiques spectrales se présentent sous la forme de vecteurs de caractéristiques (signaux), qui sont ensuite passés sur le sous-système de reconnaissance de motif 30. Ainsi que ceci est connu, le sous-système de reconnaissance de motif 30 utilise des modèles de mots statistiques (venant d'une mémoire de modèles 20) pour calculer les valeurs de probabilité associées au signal vocal d'entrée. Le sous-système de reconnaissance vocale comprend de préférence plusieurs modèles de mots qui sont passés à l'entraînement en utilisant un grand nombre de prononciations représentatives du vocabulaire cible. Le vocabulaire cible utilisé pour l'entraînement peut être stocké dans une mémoire de données d'apprentissage 18. I1 est à noter que le vocabulaire cible est le groupe de mots ou de phrases que l'on doit éviter d'être perceptibles de façon audible à un auditeur d'une émission. Par exemple, il peut comprendre des mots ou des phrases qui sont considérés comme inacceptables. On peut également sélectionner plus qu'un seul vocabulaire cible. Les vocabulaires cibles peuvent être générés à l'avance par les radios-diffuseurs, en fonction des standards officiels ou d'autres standards. Egalement, dans une application utilisant un boîtier branché, un parent ou un autre utilisateur peut générer un ou plusieurs vocabulaires personnalisés qui doivent être utilisés avec le système 10. Egalement, les vocabulaires cibles peuvent être sélectionnés selon des drapeaux susceptibles d'être fixés par l'utilisateur, tel que cela est décrit dans la demande de brevet US, identifiée sous le numéro de série No. 09/190.974, enregistrée le 12 Novembre 1998, et intitulée "Disabling and Enabling of Subvocabularies in Speech Recognition Systèmes". De préférence, le vocabulaire peut être défini de façon phonétique, c'est-à-dire que le vocabulaire est représenté par un alphabet phonétique, les données d'apprentissage étant utilisées dans le but d'apprendre les phones. Referring now to FIG. 2 the word retouching processor 22 is described in more detail as comprising a feature extraction subsystem 28 and a pattern recognition subsystem 30. As is known in the art, the subsystem feature extraction 28 samples the voice signal and subdivides the signal into frames, having a duration for example of about 10 milliseconds, so that each frame can be treated discretely by the rest of the system. The feature extraction subsystem then proceeds to extract the spectral characteristics from the signal for each frame. The spectral characteristics are in the form of feature vectors (signals), which are then passed over the pattern recognition subsystem 30. As is known, the pattern recognition subsystem 30 uses statistical words (from a model memory 20) for calculating the probability values associated with the input speech signal. The voice recognition subsystem preferably comprises a plurality of word patterns that are passed to training using a large number of pronunciations representative of the target vocabulary. The target vocabulary used for the training can be stored in a learning data memory 18. It should be noted that the target vocabulary is the group of words or sentences that must be avoided from being audibly perceptible to an auditor of a show. For example, it may include words or phrases that are considered unacceptable. You can also select more than one target vocabulary. Target vocabularies can be generated in advance by broadcasters, based on official standards or other standards. Also, in an application using a plugged-in box, a parent or other user can generate one or more custom vocabularies to be used with the system 10. Also, the target vocabularies can be selected according to flags that can be set by the user. The user, as described in the US patent application, identified under Serial No. 09 / 190,974, registered November 12, 1998, and entitled "Disabling and Enabling of Subvocabularies in Speech Recognition Systems". Preferably, the vocabulary can be defined phonetically, i.e., the vocabulary is represented by a phonetic alphabet, the training data being used for the purpose of learning the phones.

De manière correspondante, la partie du signal audio " transmettre, obtenue depuis le tampon audio 14, est divisée en segments temporels ou trames et traitée par le sous-système d'extraction de caractéristiques 28. Les vecteurs de caractéristiques concernant une trame sont ensuite dotés d'une valeur quantitative par le sous-système de reconnaissance de motif 30, en utilisant les modèles statistiques pour générer des valeurs de probabilité en vue d'observer les mots dans le vocabulaire cible. Lorsque la valeur de probabilité d'un mot dépasse une valeur seuil spécifiée, ceci indique que le mot fait partie du vocabulaire cible. Les trames associées au mot cible sont étiquetées et sont fournies au système d'édition audio de termes lexicaux par le sous-système de reconnaissance de motif 30. Ainsi, le système d'édition audio de termes lexicaux est informé des positions de début et de fin du mot cible, dans le signal audio. Dans d'autres modes de réalisation, ainsi que ceci va être expliqué, le sous-système de reconnaissance de motif peut envoyer un signal de validation/invalidation au système d'édition audio de termes lexicaux, afin d'influer sur le processus d'édition. Il est à noter que l'édition automatique du terme lexical par le processeur d'édition audio 24 peut être effectuée de nombreuses manières différentes. Dans un mode de réalisation illustratif, ainsi que ceci va être explicité, un algorithme de transformation prédéfini est utilisé pour convertir des mots inacceptables en une locution à sonorité similaire mais moins offensante. Cette approche utilise une synthèse vocale de nature paramétrique ou adaptative. Dans un autre mode de réalisation illustratif, ainsi que ceci va être explicité, l'élément audio associé au terme lexical inacceptable est assourdi pendant la durée du ou des mots, dans le tampon audio. Selon un autre mode de réalisation illustratif, ainsi que ceci va être explicité, le terme lexical inacceptable est remplacé ou occulté par un bîpe, avec un son ou un autre effet sonore approprié, pour ce que durent) le ou les mots dans le tampon audio. Correspondingly, the portion of the audio signal "transmit, obtained from the audio buffer 14, is divided into time segments or frames and processed by the feature extraction subsystem 28. The feature vectors relating to a frame are then provided with of a quantitative value by the pattern recognition subsystem 30, using the statistical models to generate probability values for observing the words in the target vocabulary When the probability value of a word exceeds one specified threshold value, this indicates that the word is part of the target vocabulary, the frames associated with the target word are labeled and are provided to the lexical word audio editing system by the pattern recognition subsystem 30. Thus the system Lexical word audio editing is informed of the start and end positions of the target word, in the audio signal. As will be explained, the pattern recognition subsystem may send a validation / invalidation signal to the audio editing system of lexical terms, in order to influence the editing process. It should be noted that the automatic edition of the lexical term by the audio editing processor 24 can be performed in many different ways. In an illustrative embodiment, as will be explained, a predefined transformation algorithm is used to convert unacceptable words to a similar but less offensive tone phrase. This approach uses a vocal synthesis of parametric or adaptive nature. In another illustrative embodiment, as will be explained, the audio element associated with the unacceptable lexical term is muted for the duration of the one or more words in the audio buffer. According to another illustrative embodiment, as will be explained, the unacceptable lexical term is replaced or obscured by a beep, with a sound or other appropriate sound effect, for the duration of the word (s) in the audio buffer. .

En se référant à présent à la FIG. 3, il est représenté un schéma par blocs d'un système d'édition audio de termes lexicaux selon un premier mode de réalisation illustratif de la présente invention. En particulier, la FIG. 3 décrit une mise en oeuvre du processeur d'édition audio 24, dans laquelle le langage offensant, ayant été détecté par le retoucheur de mot 22, est traité et est de préférence utilisé pour construire un ou des mots de substitution euphémistiques appropriés. Le ou les mots de substitution sont ensuite insérés dans le signal audio d'origine, à la place de la partie du signal contenant le terme lexical cible inacceptable, pour former un signal vocal édité devant être transmis. Avantageusement, ainsi que ceci va être explicité, en utilisant la technique de la synthèse vocale paramétrique ou adaptative et de la transformation de caractère vocal, les mots originels sont de préférence décomposés en une représentation paramétrique d'excitation de zone vocale et de filtre de zone vocale. Ensuite, en procédant à des ajustements appropriés dans la représentation paramétrique, un mot ou une phrase de substitution est formé(e) et va remplacer le mot ou la phrase cible. I1 est à noter que les techniques de synthèse vocale adaptative sont connues dans l'art. Par exemple, des techniques de synthèse vocale adaptative sont décrites dans N. Iwahashi et al., "Speech Spectrum Transformation by Speaker Interpolation," IEEE International Conference on Acoustics, Speech and Signal Processing pages I-461 I-464, 1994; H. Valbret et al., "Voice Transformation Using PSOLA Technique," IEEE International Conference on ACOUSt1CS, Speech and Signal Processing pages I-445 - I-448, 1992; et I1-Hyun Nam, "Voice Personality Transformation," Ph. D. Thesis, Rensselaer Polytechnic Institute, 1991. Referring now to FIG. 3, there is shown a block diagram of an audio editing system of lexical terms according to a first illustrative embodiment of the present invention. In particular, FIG. 3 discloses an implementation of the audio editing processor 24, wherein the offending language, having been detected by the word retoucher 22, is processed and is preferably used to construct one or more appropriate euphemistic substitution words. The substitution word (s) are then inserted into the original audio signal, instead of the portion of the signal containing the unacceptable target lexical term, to form an edited voice signal to be transmitted. Advantageously, as will be explained, using the technique of parametric or adaptive speech synthesis and vocal character transformation, the original words are preferably decomposed into a parametric representation of voice zone excitation and zone filter. voice. Then, by making appropriate adjustments in the parametric representation, a substitute word or phrase is formed and will replace the target word or phrase. It should be noted that adaptive speech synthesis techniques are known in the art. For example, adaptive speech synthesis techniques are described in N. Iwahashi et al., Speech Spectrum Transformation by Speaker Interpolation, IEEE International Conference on Acoustics, Speech and Signal Processing, pages I-461, I-464, 1994; H. Valbret et al., "Voice Transformation Using PSOLA Technique," IEEE International Conference on ACOUSt1CS, Speech and Signal Processing, pages I-445-I-448, 1992; and I1-Hyun Nam, "Voice Personality Transformation," Ph.D. Thesis, Rensselaer Polytechnic Institute, 1991.

Comme illustré sur la FIG. 3, le signal vocal d'entrée 32 est fourni au processeur d'édition audio 24 à partir du tampon audio 14 (FIG. 1). Le signal vocal est ensuite analysé au bloc d'analyse spectrale 34. L'analyse spectrale fournit les paramètres de zone vocale (filtre de zone vocale) 36 et les paramètres d'excitation 38. Les techniques d'analyse spectrale devant générer les paramètres de filtre et d'excitation de zone vocale sont bien connues dans l'art, par exemple comme décrit dans l'article de N. Iwahashi et al., déjà cité plus haut. As illustrated in FIG. 3, the input speech signal 32 is supplied to the audio editing processor 24 from the audio buffer 14 (FIG 1). The speech signal is then analyzed at the spectral analysis block 34. The spectral analysis provides the voice zone parameters (voice zone filter) 36 and the excitation parameters 38. The spectral analysis techniques to generate the parameters of Voice zone filter and excitation are well known in the art, for example as described in the article by N. Iwahashi et al., already cited above.

Les paramètres de zone vocale 36 et les paramètres d'excitation 38 sont ensuite fournis à un bloc de modification de zone vocale 40 et à un bloc de modification d'excitation 42, respectivement. Les blocs de modification de paramètre 40 et 42 modifient les paramètres associés à la partie du signal d'entrée qui contient le mot ou les phrases cible (c'est-à-dire le terme lexical inacceptable), selon une base de données de règles de modification 44. Un but de la modification de paramètre consiste à modifier une ou plusieurs composantes spectrales du mot cible pour former un mot de substitution, qui est ensuite inséré dans l'allocution à la place du mot cible. Il est à noter que les paramètres d'excitation de la partie de l'allocution n'ont pas à être modifiés dans chaque cas pour former un mot de substitution. Par exemple dans les cas où la différence principale entre le mot cible et le mot de substitution réside en un changement de voyelle, les paramètres d'excitation peuvent rester inchangés. The voice zone parameters 36 and the excitation parameters 38 are then supplied to a voice zone modification block 40 and an excitation modification block 42, respectively. The parameter modification blocks 40 and 42 modify the parameters associated with the portion of the input signal that contains the target word or sentences (ie the unacceptable lexical term), according to a rules database. A purpose of the parameter change is to modify one or more spectral components of the target word to form a substitution word, which is then inserted into the speech in place of the target word. It should be noted that the excitation parameters of the part of the speech do not have to be modified in each case to form a word of substitution. For example, in cases where the main difference between the target word and the substitution word resides in a vowel change, the excitation parameters can remain unchanged.

La base de données de règles de modification 44 contient un jeu de règles préalablement mémorisées, gouvernant la modification des mots cible par des mots de substitution. La base de données 44 peut être dérivée automatiquement d'une grande base de données contenant des données d'apprentissage 46, comprenant des exemples de mots cible et leurs mots de substitution (finaux) correspondants. Un algorithme pour machine d'apprentissage est utilisé pour former la base de données de règles de modification 44 à partir des données d'apprentissage 46. I1 est à noter qu'un algorithme pour machine d'apprentissage est un algorithme qui est capable de créer un mappage ou correspondance généralisé(e) entre des exemples, tels que des réseaux neuraux. Un algorithme, qui généralise quand il y a plusieurs exemples, est décrit dans la thèse de II-Hyun Nam citée cidessus. The modification rule database 44 contains a set of rules previously stored, governing the modification of the target words by substitution words. The database 44 may be automatically derived from a large database containing learning data 46, including examples of target words and their corresponding (final) substitution words. A training machine algorithm is used to form the change rule database 44 from the training data 46. It should be noted that an algorithm for a training machine is an algorithm that is capable of creating generalized mapping or matching between examples, such as neural networks. An algorithm, which generalizes when there are several examples, is described in the II-Hyun Nam thesis cited above.

La sortie 50 du processeur de retouche de mots 22 est fournie au bloc de base de données de règles de modification 44. I1 est à noter que la sortie du processeur de retouche de mots est, de préférence, une trame étiquetée contenant le mot ou la phrase identifiée par l'identificateur de motif 30 (FIG. 2), tel que faisant partie du vocabulaire cible. La base de données de modification fournit ensuite les règles de modification appropriées au bloc de modification de zone vocale 40 et, si nécessaire, au bloc de modification d'excitation 42, qui, à son tour, modifie les paramètres spectraux appropriés, afin de former le mot ou la phrase de substitution. Le mot ou la phrase de substitution est ensuite inséré (e) dans la partie appropriée de la parole à la place du mot ou de la phrase cible. La parole modifiée est ensuite fournie à un bloc de synthèse vocale 52 qui, comme ceci est bien connu, génère un signal vocal synthétisé. La sortie du synthétiseur 52 est constituée du signal vocal édité. Avantageusement, le signal vocal contient à présent des mots de substitution (par exemple un terme lexical qui ne soit pas inacceptable), au lieu des mots cibles (par exemple un terme lexical inacceptable). The output 50 of the word retouch processor 22 is supplied to the edit rule database block 44. It should be noted that the output of the word retouching processor is preferably a tagged frame containing the word or the sentence identified by the pattern identifier 30 (FIG.2), as part of the target vocabulary. The modification database then provides the appropriate modification rules to the voice zone modification block 40 and, if necessary, to the excitation modification block 42, which in turn modifies the appropriate spectral parameters to form the substitution word or phrase. The substitute word or phrase is then inserted into the appropriate part of the speech in place of the target word or phrase. The modified speech is then fed to a speech synthesis block 52 which, as is well known, generates a synthesized speech signal. The output of the synthesizer 52 consists of the edited voice signal. Advantageously, the voice signal now contains substitution words (for example a lexical term that is not unacceptable), instead of the target words (for example an unacceptable lexical term).

Il est à noter que les blocs fonctionnels que l'on a en FIG. 3 peuvent fonctionner en mode de flux continu ou sur un tampon d'énonciation entier, selon le besoin d'avoir des opérations en temps réel. Il est également à noter que le système de règles de modification décrit ci-dessus peut, par exemple, être mis en oeuvre par utilisation de réseaux neuraux qui sont traités dans la thèse de IIHyun Nam citée cidessus. It should be noted that the functional blocks that are in FIG. 3 can operate in streaming mode or on an entire say buffer, depending on the need for real-time operations. It should also be noted that the modification rule system described above may, for example, be implemented using neural networks which are discussed in the aforementioned IIHyun Nam thesis.

En se référant à présent à la FIG. 4, il est représenté un schéma d'enchaînement d'étapes d'un procédé de reconnaissance et d'édition dynamiques de termes lexicaux selon un mode de réalisation illustratif de la présente invention. En particulier, le procédé illustratif comprend une synthèse vocale paramétrique, tel qu'explicitée ci-dessus, faisant partie de l'opération d'édition audio. A l'étape 60, un signal devant être transmis est reçu et son signal audio et son signal vidéo correspondants (ou des parties de ceux-ci, selon la taille de la mémoire) sont mis en tampon. Ensuite, à l'étape 62, le signal audio est subdivisé en trames. Des vecteurs de caractéristiques sont ensuite extraits des trames et décodés, par exemple comme décrit ci-dessus. Si un ou plusieurs mots cible sont détectés dans une trame, la trame est alors étiqueté (étape 64). Referring now to FIG. 4, there is shown a sequence flow diagram of a method for dynamically recognizing and editing lexical terms according to an illustrative embodiment of the present invention. In particular, the illustrative method comprises parametric speech synthesis, as explained above, as part of the audio editing operation. In step 60, a signal to be transmitted is received and its corresponding audio signal and video signal (or parts thereof, depending on the size of the memory) are buffered. Then, in step 62, the audio signal is subdivided into frames. Characteristic vectors are then extracted from the frames and decoded, for example as described above. If one or more target words are detected in a frame, the frame is then tagged (step 64).

A l'étape 66, le signal audio ou vocal d'entrée est également analysé spectralement, par exemple comme décrit ci-dessus, pour décomposer le signal en des représentations paramétriques. Comme mentionné ci-dessus, de telles représentations paramétriques peuvent comprendre des paramètres de zone vocale et des paramètres d'excitation. Les paramètres spectraux des mots cibles détectés que l'on trouve dans les trames étiquetées sont ensuite modifiés selon des règles de modification préétablies, afin de former des mots de substitution devant remplacer les mots cible (étape 68). L'énonciation modifiée est ensuite passée par une synthèse vocale, à l'étape 70, le terme lexical de substitution issu de la synthèse remplaçant le tertre lexical cible originel. Le signal audio édité (signal vocal synthétisé) est ensuite combiné avec le signal vidéo originel pour transmission, à l'étape 72. In step 66, the input audio or speech signal is also spectrally analyzed, for example as described above, to decompose the signal into parametric representations. As mentioned above, such parametric representations may include voice zone parameters and excitation parameters. The spectral parameters of the detected target words found in the tagged frames are then modified according to pre-established modification rules, to form substitution words to replace the target words (step 68). The modified utterance is then passed through a vocal synthesis, in step 70, the lexical term of substitution resulting from the synthesis replacing the original target lexical mound. The edited audio signal (synthesized speech signal) is then combined with the original video signal for transmission in step 72.

En se référant à présent aux FIGS. 5A et 5B, des variantes de réalisation respectives du processeur d'édition audio 24 sont représentées. Sur la FIG. 5A, l'opération d'édition audio produit l'assourdissement du signal vocal de sortie pendant ce que durent) le ou les mots dont le processeur de retouche de mots 22 a déterminé qu'il faisai(en)t partie du vocabulaire cible. Dans ce mode de réalisation, plutôt que le sous-système de reconnaissance de motif 30 fournissant les trames étiquetées au processeur d'édition audio 24,un signal de validation/invalidation est fournit au processeur 24 par le sous-système 30. Le processeur d'édition audio dans ce cas est un tampon de sortie audio 80. Le signal de validation/invalidation est généré par le sous-système de reconnaissance de motif 30 et sert à invalider le tampon de sortie audio 80 pendant la durée du mot ou des mots détectés. De manière correspondante, la partie du signal audio contenant le matériau inacceptable est assourdie pour l'émission. Referring now to FIGS. 5A and 5B, respective embodiments of the audio editing processor 24 are shown. In FIG. 5A, the audio editing operation produces the muffling of the output speech signal while the word (s) whose word processing processor (22) has determined that it is part of the target vocabulary). In this embodiment, rather than the pattern recognition subsystem 30 providing the tagged frames to audio editing processor 24, a enable / disable signal is provided to processor 24 by subsystem 30. audio editing in this case is an audio output buffer 80. The enable / disable signal is generated by the pattern recognition subsystem 30 and serves to disable the audio output buffer 80 for the duration of the word or words detected. Correspondingly, the portion of the audio signal containing the unacceptable material is muted for transmission.

La FIG.FIG.

5B représente un autre mode de réalisation illustratif du processeur d'édition audio 24. Ceci est similaire au mode de réalisation de la FIG.5B is another illustrative embodiment of the audio editing processor 24. This is similar to the embodiment of FIG.

5A, dans lequel le sous-système de reconnaissance de motif 30 génère un signal de validation/invalidation devant mettre en service et hors service la sortie du tampon audio de sortie 80. Cependant, le mode de réalisation de la FIG.5A, wherein the pattern recognition subsystem 30 generates a enable / disable signal to turn on and off the output of the output audio buffer 80. However, the embodiment of FIG.

5B comprend également un générateur de sons 82 qui est validé par le sous-système 30 lorsque le tampon audio 80 est invalidé et vice versa. Dans ce cas, plutôt que d'assourdir la sortie lorsqu'un mot ou des mots cible sont détectés, un son ou un autre effet sonore approprié, généré par le générateur de sons 82, est inséré dans le signal audio, pendant ce que durent) le ou les mots détectés. <U>Textes des f</U> iclures <U>FIGURE 1</U> 12 SIGNAL À TRANSMETTRE 14 TAMPON AUDIO 16 TAMPON VIDÉO 18 MÉMOIRE DE DONNÉES D'APPRENTISSAGE 20 MÉMOIRE DE MODÈLES DE MOTS STATISTIQUES 24 PROCESSEUR D'ÉDITION AUDIO 22 PROCESSEUR DE RETOUCHE DE MOTS 26 SIGNAL ÉDITÉ <U>FIGURE 2</U> SPEECH SIGNAL : SIGNAL VOCAL 22 PROCESSEUR DE RETOUCHE DE MOTS 28 EXTRACTION DE CARACTERISTIQUE 30 IDENTIFICATION DE MOTIF 18 MEMOIRE <B>DE</B> DONNËES D'APPRENTISSAGE 20 MEMOIRE DE MODELES DE MOTS STATISTIQUES LABELED FRAMES : TRAMES ETIQUETTEES <U>FIGURE 3</U> 32 SIGNAL VOCAL D'ENTREE 34 ANALYSE SPECTRALE VOCALE 36 PARAMETRES DE ZONE VOCALE 38 PARAMETRES D'EXCITATION 40 MODIFICATION DE ZONE VOCALE 42 MODIFICATION DE L'EXCITATION 52 SYNTHESE VOCALE 26 SIGNAL VOCAL DE SORTIE 50 SORTIE D'IDENTIFICATEUR (CIBLE) 44 BASE DE DONNEES DES REGLES DE MODIFICATION 46 DONNEES D'APPRENTISSAGE 48 ALGORITHME D'APPRENTISSAGE MACHINE CIBLE 1 : FINAL 1 CIBLE N : FINAL N <U>FIGURE 4</U> 60 TAMPON AUDIO ET SIGNAUX VIDEO RECUS FAISANT PARTIE DU SIGNAL A TRANSMETTRE 62 SUBDIVISION DU SIGNAL D'ENTREE AUDIO EN TRAMES, EXTRACTION DES VECTEURS CARACTÉRISTIQUES ET DECODAGE DE CHAQUE TRAME 64 SI UN OU PLUSIEURS MOTS CIBLES SONT DETECTES DANS LA TRAME, ALORS ETIQUETTER LA TRAME 66 ANALYSER SPECTRALEMENT LE SIGNAL VOCAL D'ENTREE CORRESPONDANT AUX TRAMES ETIQUETTEES 68 MODIFIER LES PARAMETRES SPECTRAUX DES MOTS CIBLES, D'APRES DES REGLES DE MODIFICATION PRÉETABLIES, AFIN DE FORMER DES MOTS DE SUBSTITUTION, DEVANT REMPLACER LES MOTS CIBLES 70 SYNTHETISER UN SIGNAL VOCAL PAR DES MOTS DE SUBSTITUTION, REMETTRE EN PLACE POUR PRODUIRE UN SIGNAL AUDIO EDITE 72 COMBINER LE SIGNAL AUDIO EDITÉ AVEC LE SIGNAL VIDEO ORIGINEL POUR LA TRANSMISSION <U>FIGURE 5A</U> INPUT SPEECH SIGNAL : SIGNAL VOCAL D'ENTREE OUTPUT SPEECH SIGNAL : SIGNAL VOCAL DE SORTIE ENABLE/DISABLE SIGNAL : VALIDATION/INVALIDATION DU SIGNAL <U>FIGURE 5B</U> INPUT SPEECH SIGNAL : SIGNAL VOCAL D'ENTREE OUTPUT SPEECH SIGNAL : SIGNAL VOCAL DE SORTIE ENABLE/DISABLE SIGNAL : VALIDATION/INVALIDATION DU SIGNAL 82 GENERATEUR DE SONS5B also includes a sound generator 82 which is validated by the subsystem 30 when the audio buffer 80 is disabled and vice versa. In this case, rather than mute the output when a target word or words are detected, a sound or other appropriate sound effect, generated by the tone generator 82, is inserted into the audio signal, during which time ) the detected word (s). <U> Text </ U> <U> FIGURE 1 </ U> 12 SIGNAL TO TRANSMIT 14 AUDIO BUFFER 16 VIDEO BUFFER 18 LEARNING DATA MEMORY 20 MEMORY OF STATISTICAL WORDS MODELS 24 AUDIO EDITING PROCESSOR 22 WORD RETOUCHING PROCESSOR 26 EDITED SIGNAL <U> FIGURE 2 </ U> SPEECH SIGNAL: VOICE SIGNAL 22 WORD RETRIEVAL PROCESSOR 28 CHARACTERISTIC EXTRACTION 30 IDENTIFICATION OF PATTERN 18 MEMORY <B> OF </ B> DATA OF LEARNING 20 MEMORY OF STATISTICAL WORDS TEMPLATES LABELED FRAMES: LABELED FRAMES <U> FIGURE 3 </ U> 32 VOCAL INPUT SIGNAL 34 SPEECH SPECTRAL ANALYSIS 36 VOCAL AREA PARAMETERS 38 EXCITATION PARAMETERS 40 VOCAL ZONE MODIFICATION 42 CHANGES TO EXCITATION 52 VOICE SYNTHESIS 26 OUTPUT VOCAL SIGNAL 50 IDENTIFIER OUTPUT (TARGET) 44 DATABASE MODIFICATION RULES 46 LEARNING DATA 48 LEARNING ALGORITHM TARGET MACHINE 1: FINAL 1 TARGET N: FINAL N <U > FIGURE 4 </ U> 60 TAM AUDIO PON AND RECEIVED VIDEO SIGNALS AS PART OF THE SIGNAL TO TRANSMIT 62 AUDIO INPUT SIGNAL FRAMING SUBDIVISION, EXTRACTION OF FEATURE VECTORS AND DECODING EACH FRAME 64 IF ONE OR MORE TARGET WORDS ARE DETECTTED IN THE FRAME, THEN TAG THE FRAME 66 SPECTRALLY ANALYZE THE ENTRY VOCAL SIGNAL CORRESPONDING TO THE LABELED FRAMES 68 MODIFY THE SPECTRAL PARAMETERS OF THE TARGET WORDS, IN ACCORDANCE WITH THE PRE-ESTABLISHED CHANGE RULES, IN ORDER TO FORM SUBSTITUTE WORDS, TO REPLACE THE TARGET WORDS 70 SYNTHESIZE A VOICE SIGNAL BY SUBSTITUTION WORDS, REPLACE TO PRODUCE AN AUDIO EDITE SIGNAL 72 COMBINE THE AUDIO SIGNED EDIT WITH THE ORIGINAL VIDEO SIGNAL FOR TRANSMISSION <U> FIGURE 5A </ U> INPUT SPEECH SIGNAL: VOICE SIGNAL OUTPUT SPEECH SIGNAL: SIGNAL ENABLE / DISABLE OUTPUT VOCAL SIGNAL: VALIDATION / INVALIDATION OF SIGNAL <U> FIGURE 5B </ U> INPUT SPEECH SIGNAL: VOCAL INPUT SIGNAL OUT PUT SPEECH SIGNAL: VOICE SIGNAL OUTPUT ENABLE / DISABLE SIGNAL: VALIDATION / INVALIDATION OF SIGNAL 82 SOUND GENERATOR

Claims (22)

REVENDICATIONS 1. Un procédé de traitement dynamique d'un signal vocal, le procédé comprenant les étapes consistant à détecter automatiquement si une partie du signal vocal comprend un terme lexical associé à un ou plusieurs vocabulaires de termes lexicaux; et éditer automatiquement la partie du signal vocal lorsque le terme lexical est détecté, d'une manière telle que le terme lexical détecté ne soit pas perceptible de façon audible.A method of dynamically processing a speech signal, the method comprising the steps of automatically detecting whether a portion of the speech signal comprises a lexical term associated with one or more vocabularies of lexical terms; and automatically editing the portion of the speech signal when the lexical term is detected, such that the detected lexical term is not audibly perceptible. 2. Le procédé selon la revendication 1, dans lequel l'étape d'édition automatique comprend la substitution automatique de la partie du signal vocal contenant le terme lexical par une partie paramétrable de signal vocal modifiée.2. The method according to claim 1, wherein the automatic editing step comprises automatically substituting the portion of the speech signal containing the lexical term with a modifiable modified voice signal portion. 3. Le procédé selon la revendication 1, dans lequel l'étape d'édition automatique comprend l'assourdissement automatique de la partie du signal vocal contenant le terme lexical.The method of claim 1, wherein the automatic editing step comprises automatically muting the portion of the speech signal containing the lexical term. 4. Le procédé selon la revendication 1, dans lequel l'étape d'édition automatique comprend le remplacement automatique de la partie du signal vocal contenant le terme lexical, par un signal acoustique.4. The method of claim 1, wherein the automatic editing step comprises automatically replacing the portion of the speech signal containing the lexical term with an acoustic signal. 5. Un procédé de traitement dynamique d'un signal vocal, le procédé comprenant les étapes consistant à détecter automatiquement si une partie du signal vocal comprend un terme lexical associé à un ou plusieurs vocabulaires de termes lexicaux; et substituer automatiquement la partie du signal vocal, lorsque le terme lexical est détecté, par une partie de signal vocal modifiée ayant au moins un paramètre vocal qui soit une modification du au moins un paramètre vocal se trouvant dans la partie du signal vocal contenant le terme lexical.A method of dynamically processing a speech signal, the method comprising the steps of automatically detecting whether a portion of the speech signal comprises a lexical term associated with one or more vocabularies of lexical terms; and automatically substituting the portion of the speech signal, when the lexical term is detected, with a modified voice signal portion having at least one voice parameter that is a modification of the at least one speech parameter in the portion of the speech signal containing the term lexical. 6. Le procédé selon la revendication 1 ou 5, dans lequel l'étape de détection automatique comprend le décodage du signal vocal par utilisation d'un système de reconnaissance vocale, selon un ou plusieurs vocabulaires de termes lexicaux.The method of claim 1 or 5, wherein the step of automatically detecting includes decoding the speech signal using a voice recognition system, according to one or more vocabularies of lexical terms. 7. Le procédé selon la revendication 6, dans lequel le système de reconnaissance vocale est un système de retouche de mots.The method of claim 6, wherein the voice recognition system is a word retouching system. 8. Le procédé selon la revendication 5, dans lequel l'étape de substitution automatique comprend l'analyse de la partie du signal vocal contenant le terme lexical pour produire le au moins un paramètre vocal; et l'ajustement du au moins un paramètre vocal en vue de générer la partie de signal vocal modifiée en vue d'une substitution.The method of claim 5, wherein the automatic substitution step comprises analyzing the portion of the speech signal containing the lexical term to produce the at least one voice parameter; and adjusting the at least one voice parameter to generate the modified voice signal portion for substitution. 9. Le procédé selon la revendication 1 ou 5, dans lequel le signal vocal est une partie d'un signal de transmission.The method of claim 1 or 5, wherein the voice signal is a part of a transmission signal. 10. Le procédé selon la revendication 9, dans lequel le signal de transmission est une partie d'une transmission en direct.The method of claim 9, wherein the transmission signal is a part of a live transmission. 11. Le procédé selon la revendication 1 ou 5, dans lequel les uns ou plusieurs vocabulaires de termes lexicaux contiennent, respectivement, un ou plusieurs mots inacceptables.11. The method of claim 1 or 5, wherein one or more vocabularies of lexical terms contain, respectively, one or more unacceptable words. 12. Le procédé selon la revendication 11, dans lequel les un ou plusieurs vocabulaires de termes lexicaux sont formés selon des standards officiels ou gouvernementaux.The method of claim 11, wherein the one or more vocabularies of lexical terms are formed according to official or governmental standards. 13. Appareil de traitement dynamique d'un signal vocal, comprenant au moins un processeur fonctionnant pour détecter automatiquement le fait qu'une partie du signal vocal comprend un terme lexical associé au un ou plusieurs vocabulaires de termes lexicaux, et pour éditer automatiquement la partie du signal vocal lorsque le terme lexical est détecté, d'une manière telle que le terme lexical détecté ne soit pas perceptible de façon audible.Apparatus for dynamically processing a speech signal, comprising at least one processor operable to automatically detect that a portion of the speech signal comprises a lexical term associated with one or more vocabularies of lexical terms, and to automatically edit the portion voice signal when the lexical term is detected, such that the detected lexical term is not audibly perceptible. 14. L'appareil selon la revendication<B>13,</B> dans lequel l'opération de détection automatique comprend le décodage du signal vocal par utilisation d'un système de reconnaissance vocale, selon les un ou plusieurs vocabulaires de termes lexicaux.The apparatus of claim 13, wherein the automatic detection operation comprises decoding the speech signal using a voice recognition system, according to one or more vocabularies of lexical terms. . 15. L'appareil selon la revendication 14, dans lequel le système de reconnaissance vocale est un système de retouche de mots.The apparatus of claim 14, wherein the voice recognition system is a word retouching system. 16. L'appareil selon la revendication 13, dans lequel l'opération d'édition automatique comprend la substitution automatique de la partie du signal vocal contenant le terme lexical par une partie de signal vocal modifiée au niveau de paramètres.The apparatus of claim 13, wherein the automatic editing operation comprises automatically substituting the portion of the speech signal containing the lexical term with a modified voice signal portion at the parameter level. 17. L'appareil selon la revendication 13, dans lequel l'opération d'édition automatique comprend l'assourdissement automatique de la partie du signal vocal contenant le terme lexical.The apparatus of claim 13, wherein the automatic editing operation comprises automatically muting the portion of the speech signal containing the lexical term. 18. L'appareil selon la revendication 13, dans lequel l'opération d'édition automatique comprend le remplacement automatique de la partie du signal vocal contenant le terme lexical par un signal acoustique.The apparatus of claim 13, wherein the automatic editing operation comprises automatically replacing the portion of the speech signal containing the lexical term with an acoustic signal. 19. L'appareil selon la revendication 13, dans lequel le signal vocal fait partie d'un signal de transmission.The apparatus of claim 13, wherein the voice signal is part of a transmission signal. 20. L'appareil selon la revendication 19 dans lequel le signal de transmission fait partie d'une transmission en direct.The apparatus of claim 19 wherein the transmission signal is part of a live transmission. 21. L'appareil selon la revendication 13, dans lequel un ou plusieurs vocabulaires de termes lexicaux contiennent, respectivement, un ou plusieurs mots inacceptables.The apparatus of claim 13, wherein one or more vocabularies of lexical terms contain, respectively, one or more unacceptable words. 22. L'appareil selon la revendication 21, dans lequel un ou plusieurs vocabulaires de termes lexicaux sont formés selon les standards officiels ou gouvernementaux.22. The apparatus of claim 21, wherein one or more vocabularies of lexical terms are formed according to official or governmental standards.
FR0009167A 1999-07-16 2000-07-13 METHODS AND DEVICES FOR SUBSTITUTING A DYNAMICALLY SYNTHETIZED VOICE FOR AUTOMATICALLY IDENTIFIED VOCABULARS Expired - Fee Related FR2796486B1 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US35460199A 1999-07-16 1999-07-16

Publications (2)

Publication Number Publication Date
FR2796486A1 true FR2796486A1 (en) 2001-01-19
FR2796486B1 FR2796486B1 (en) 2001-09-21

Family

ID=23394092

Family Applications (1)

Application Number Title Priority Date Filing Date
FR0009167A Expired - Fee Related FR2796486B1 (en) 1999-07-16 2000-07-13 METHODS AND DEVICES FOR SUBSTITUTING A DYNAMICALLY SYNTHETIZED VOICE FOR AUTOMATICALLY IDENTIFIED VOCABULARS

Country Status (1)

Country Link
FR (1) FR2796486B1 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19540859A1 (en) * 1995-11-03 1997-05-28 Thomson Brandt Gmbh Removing unwanted speech components from mixed sound signal
JP2000148179A (en) * 1998-11-12 2000-05-26 Internatl Business Mach Corp <Ibm> Method for designating sub-vocabulary and program memory system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19540859A1 (en) * 1995-11-03 1997-05-28 Thomson Brandt Gmbh Removing unwanted speech components from mixed sound signal
JP2000148179A (en) * 1998-11-12 2000-05-26 Internatl Business Mach Corp <Ibm> Method for designating sub-vocabulary and program memory system

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHEN S S ET AL: "RECENT IMPROVEMENTS TO IBM'S SPEECH RECOGNITION SYSTEM FOR AUTOMATIC TRANSCRIPTION OF BROADCAST NEWS", PHOENIX, AZ, MARCH 15 - 19, 1999,NEW YORK, NY: IEEE,US, 15 March 1999 (1999-03-15), pages 37 - 40, XP000898259, ISBN: 0-7803-5042-1 *
DATABASE WPI Section PQ Week 200036, Derwent World Patents Index; Class P86, AN 2000-418924, XP002153331 *
SAVIC M ET AL: "VOICE PERSONALITY TRANSFORMATION", DIGITAL SIGNAL PROCESSING,US,ACADEMIC PRESS, ORLANDO,FL, vol. 1, no. 2, 1 April 1991 (1991-04-01), pages 107 - 110, XP000393609, ISSN: 1051-2004 *
VALBRET H ET AL: "VOICE TRANFORMATION USING PSOLA TECHNIQUE", PROCEEDINGS OF THE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP),US,NEW YORK, IEEE, vol. CONF. 17, 23 March 1992 (1992-03-23), pages 145 - 148, XP000341104, ISBN: 0-7803-0532-9 *

Also Published As

Publication number Publication date
FR2796486B1 (en) 2001-09-21

Similar Documents

Publication Publication Date Title
CN102132341B (en) Robust media fingerprints
EP1362343B1 (en) Method, module, device and server for voice recognition
Jiang et al. Deep bottleneck features for spoken language identification
WO2004006222A2 (en) Method and apparatus for classifying sound signals
WO2018146305A1 (en) Method and apparatus for dynamic modifying of the timbre of the voice by frequency shift of the formants of a spectral envelope
FR2943875A1 (en) METHOD AND DEVICE FOR CLASSIFYING BACKGROUND NOISE CONTAINED IN AN AUDIO SIGNAL.
FR2554623A1 (en) SPEAKER-INDEPENDENT SPEECH ANALYSIS PROCESS
Draghici et al. A study on spoken language identification using deep neural networks
CN112530400A (en) Method, system, device and medium for generating voice based on text of deep learning
EP2215626A1 (en) Automatic simultaneous interpretation system
CN110992984B (en) Audio processing method and device and storage medium
CN111061909B (en) Accompaniment classification method and accompaniment classification device
CN118918913A (en) Scene-aware audio-visual speech enhancement method, apparatus, medium and program product
CN115472174A (en) Sound noise reduction method and device, electronic equipment and storage medium
EP1131813A1 (en) Speech recognition method in a noisy acoustic signal and implementing system
Amjad et al. Data augmentation and deep neural networks for the classification of Pakistani racial speakers recognition
Dahy et al. A speech separation system in video sequence using dilated inception network and U-Net
FR2796486A1 (en) Chosen word replacement speech editing technique having audio signal statistical word model memory with trial input compared and where match found innocuous word replaced.
Weber et al. Constructing a dataset of speech recordings with lombard effect
Benatan et al. Cross-covariance-based features for speech classification in film audio
Bae et al. A neural text-to-speech model utilizing broadcast data mixed with background music
WO2012049176A1 (en) Method and device for forming a digital audio mixed signal, method and device for separating signals, and corresponding signal
Simou et al. Towards blind quality assessment of concert audio recordings using deep neural networks
Smietanka et al. Augmented transformer for speech detection in adverse acoustical conditions
JP6169526B2 (en) Specific voice suppression device, specific voice suppression method and program

Legal Events

Date Code Title Description
ST Notification of lapse