FR2823361A1 - Procede et dispositif d'extraction acoustique d'un signal vocal - Google Patents
Procede et dispositif d'extraction acoustique d'un signal vocal Download PDFInfo
- Publication number
- FR2823361A1 FR2823361A1 FR0104622A FR0104622A FR2823361A1 FR 2823361 A1 FR2823361 A1 FR 2823361A1 FR 0104622 A FR0104622 A FR 0104622A FR 0104622 A FR0104622 A FR 0104622A FR 2823361 A1 FR2823361 A1 FR 2823361A1
- Authority
- FR
- France
- Prior art keywords
- parameters
- representative
- resonance
- acoustic
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000005284 excitation Effects 0.000 claims abstract description 58
- 230000001755 vocal effect Effects 0.000 claims abstract description 12
- 239000013598 vector Substances 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 4
- 230000005428 wave function Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 230000000875 corresponding effect Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000015654 memory Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 241001123248 Arma Species 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 241000772415 Neovison vison Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 210000003928 nasal cavity Anatomy 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Abstract
L'invention concerne un procédé d'extraction de paramètres acoustiques représentatifs d'un signal vocal, comprenant :- une étape de séparation d'une part des informations représentatives d'une excitation glottale (b0 , e1 , e2 ,... eN ) et d'autre part des informations représentatives d'une résonance buccale (a1 , a2 ,.. aP ) associées à chaque échantillon (s) vocal du signal vocal; et- une étape d'estimation (606) en boucle fermée des paramètres d'un filtre associé à la résonance buccale. L'invention concerne également des dispositifs (102) et un produit programme d'ordinateur correspondants.
Description
<Desc/Clms Page number 1>
Procédé et dispositif d'extraction acoustique d'un signal vocal. La présente invention se rapporte au domaine des interfaces vocales.
Plus précisément, l'invention concerne l'extraction de paramètres acoustiques représentatifs d'un signal vocal, notamment pour des applications d'interface vocale, de reconnaissance vocale et/ou codage de la parole.
On connaît, dans l'état de la technique, différents types de méthodes permettant d'obtenir une modélisation utilisée pour la reconnaissance vocale.
Aujourd'hui, les méthodes les plus utilisées intégrant un résonateur sont d'une part la méthode PLP (de l'anglais"Perceptive Linear Prediction"ou prédiction perceptive linéaire) pour la reconnaissance non bruitée et d'autre part la méthode dite RASTA-PLP, pour la reconnaissance bruitée, ou au travers de lignes téléphoniques qui distordent le signal. Ces techniques sont notamment décrites dans l'article"Spectral Signal Processing for ASR"écrit par M. Hunt et paru dans le recueil"Proceedings 1999 IEEE Automatic Speech Recognition and Understanding Workshop, Colorado, USA, December 12-15"ainsi que dans l'article" Perceptual linear predictive (PLP) analysis of speech"écrit par H. Hermansky et paru dans le numéro d'avril 1990 de la revue Journal of Acoustical Society of America.
Ces techniques permettent d'obtenir une modélisation par coefficients mettant en oeuvre, au cours du traitement acoustique, une séparation de l'excitation glottale (correspondant à des coefficients modélisant la source vocale ou excitation glottale) et des résonances du conduit buccal (ou formants) (correspondant à des paramètres d'un filtre symbolisant le conduit buccal). Cette séparation directe, quelle que soit la technique utilisée pour l'obtenir (par exemple selon une méthode basée sur la covariance ou la méthode des moindres carrés), repose sur des hypothèses concernant l'excitation et la source qui s'avèrent souvent abusives.
Une des simplifications habituelles sur la structure de l'excitation glottale consiste à considérer cette dernière comme étant nulle ou non corrélée avec la résonance, ce qui entraîne un couplage entre la hauteur des sons voisés et la mesure des formants. Ainsi, l'hypothèse de découplage entre l'entrée et la sortie du conduit vocal n'est pas bonne, même si dans la pratique cette simplification conduit souvent à des résultats relativement corrects.
<Desc/Clms Page number 2>
De plus, dans les techniques habituelles, on utilise des résonateurs modélisant la résonance buccale. Lorsqu'une erreur est commise sur l'excitation glottale, le résonateur est lui aussi erroné.
Un inconvénient de ces techniques de l'art antérieur est donc que le résultat de la détermination de la résonance buccale n'est pas optimal, ce qui limite la qualité et l'efficacité de la reconnaissance vocale.
L'invention selon ses différents aspects a notamment pour objectif de pallier cet inconvénient de l'art antérieur.
Plus précisément, un objectif de l'invention est de fournir un procédé et un dispositif d'extraction acoustique d'un signal vocal qui prennent en compte les principaux paramètres acoustiques (notamment excitation glottale et résonance buccale) sans hypothèse abusive, alors que selon l'état de l'art, la résonance buccale est généralement obtenue en supposant l'excitation glottale non corrélée au signal, ce qui ne correspond à aucune réalité.
Un autre objectif de l'invention est de conserver une mise en oeuvre relativement simple.
Ces objectifs sont atteints, selon l'invention à l'aide d'un procédé d'extraction de paramètres acoustiques représentatifs d'un signal vocal, comprenant une étape de séparation d'une part des informations représentatives d'une excitation glottale et d'autre part des informations représentatives d'une résonance buccale associées à chaque échantillon vocal du signal vocal remarquable en ce qu'il comprend une étape d'estimation en boucle des paramètres d'un filtre associé à la résonance buccale.
Ainsi, l'invention repose sur une approche tout à fait nouvelle et inventive de l'extraction acoustique d'un signal vocal, qui permet d'obtenir une bonne estimation de la résonance buccale sans hypothèse abusive concernant par exemple l'excitation glottale.
A partir d'une première détermination de la résonance buccale, obtenue en conservant dans un premier temps l'hypothèse de non couplage entre excitation et signal, la boucle fermée permet notamment d'affiner l'estimation de l'excitation glottale, en levant cette hypothèse. Ainsi, grâce à cette boucle fermée, on obtient une seconde estimation de la résonance buccale qui permet elle-même d'affiner une seconde estimation de l'excitation glottale et ainsi de suite.
Par ailleurs, la boucle fermée est relativement simple à mettre en oeuvre et ne nécessite pas de calculs complexes.
<Desc/Clms Page number 3>
On note que la boucle fermée signifie ici que l'un des paramètres (résonance buccale et/ou excitation glottale) au moins peut être estimé plusieurs fois, le procédé étant mis en oeuvre dans un dispositif ou module comprenant effectivement un bouclage d'une sortie vers une entrée et/ou une cascade de modules élémentaires, la sortie de chaque module élémentaire (qui n'est pas le dernier module) étant reliée à l'entrée du module suivant.
Selon un mode de réalisation particulier, le procédé est remarquable en ce qu'il comporte en outre une étape d'estimation d'une fonction d'onde représentative de l'excitation glottale à partir des paramètres de filtre précédemment estimés.
De cette manière, l'invention permet d'estimer efficacement l'excitation glottale.
L'invention permet en outre de repérer sans ambiguïté les pics dans l'excitation glottale et donc d'identifier les sons voisés ainsi que la période correspondant aux formants présents dans le signal. Ainsi, les applications utilisant le procédé d'extraction acoustique (comme par exemple les applications de type reconnaissance du locuteur et/ou repérage de l'intonation ou de la prosodie d'une phrase) peuvent utiliser des données fiables d'excitation glottale et éventuellement de résonance buccale et sont donc plus efficaces.
En outre, l'invention permet avantageusement (notamment dans des applications de type reconnaissance vocale au sens strict) une bonne insensibilité au timbre du locuteur (par exemple grave ou aigu), ce qui permet une indépendance du locuteur et empêche ou réduit les perturbations dans le cas où plusieurs locuteurs utilisent un même dispositif et/ou procédé.
Selon un mode de réalisation particulier, le procédé est remarquable en ce qu'il comprend en outre une étape de reconnaissance du locuteur tenant compte de la fonction d'onde représentative de l'excitation glottale.
Ainsi, une application de type reconnaissance du locuteur peut être mise en oeuvre, le procédé d'extraction acoustique étant efficace quel que soit le timbre du locuteur. En effet, la forme plus précise de l'excitation glottale rend plus facile et plus fiable la détermination de la fréquence fondamentale ("pitch" en anglais) du locuteur (grâce notamment à des caractéristiques du signal plus claires).
Selon un mode particulier de réalisation, le procédé est remarquable en ce que l'étape d'estimation en boucle fermée est itérative, les paramètres de filtre étant mis à jour à chaque itération.
<Desc/Clms Page number 4>
Ainsi, l'invention permet d'obtenir rapidement des paramètres acoustiques qui sont ensuite plus finement estimés après quelques itérations (typiquement trois ou quatre).
Selon un mode particulier de réalisation, le procédé est remarquable en ce que l'étape d'estimation en boucle fermée comprend une étape d'estimation de la variation des paramètres, au moyen d'une fonction tenant compte des paramètres et une étape d'interrupton de l'étape d'estimation en boucle fermée lorsque le résultat de la fonction est inférieur à un seuil de fiabilité prédéterminé.
Ainsi, l'invention permet d'optimiser le nombre d'itérations. En général, lorsque le son n'est pas voisé, l'excitation glottale est similaire à un bruit blanc et une seule itération suffit alors que lorsque le son est voisé, quelques itérations permettent d'obtenir une bonne estimation.
On économise donc des ressources en limitant le nombre d'itérations dès qu'un seuil de fiabilité a été atteint.
L'invention détecte de façon avantageuse des sons voisés utilisables par exemple dans des procédés et/ou dispositifs de reconnaissance du locuteur.
En outre, l'invention permet une reconnaissance vocale ne requérant pas une phase d'apprentissage lourde et complexe.
Selon un mode particulier de réalisation, le procédé est remarquable en ce que l'étape d'estimation en boucle fermée est interrompue lorsque le nombre d'itérations effectuées atteint un nombre maximal d'itérations prédéterminé.
Cela permet de limiter le temps de calcul et les ressources nécessaires à une estimation
Selon un mode particulier de réalisation, le procédé est remarquable en ce qu'il est mis en oeuvre dans le cadre d'un procédé de reconnaissance vocale et/ou de reconnaissance de locuteur.
Selon un mode particulier de réalisation, le procédé est remarquable en ce qu'il est mis en oeuvre dans le cadre d'un procédé de reconnaissance vocale et/ou de reconnaissance de locuteur.
En d'autres termes, les procédés mettant en oeuvre le procédé d'extraction de l'invention peuvent être multiples : - procédé de reconnaissance vocale basée notamment sur une bonne estimation des paramètres acoustiques ; et - procédé de reconnaissance de locuteur basée sur une estimation fiable de l'excitation glottale entraînant une estimation correcte des formants.
<Desc/Clms Page number 5>
L'invention concerne également dans les mêmes buts que précédemment un dispositif d'extraction de paramètres acoustiques représentatifs d'un signal comprenant les moyens suivants : - module d'extraction acoustique fournissant un vecteur acoustique représentatif du signal vocal ; et - séparateur d'informations représentatives d'une excitation glottale et d'informations représentatives d'une résonance buccale associée audit vecteur ; remarquable en ce qu'il comprend en outre un estimateur en boucle fermée des paramètres d'un filtre associé à la résonance buccale.
Ainsi, ce dispositif avec estimateur en boucle fermée permet une grande économie de ressources (surface de circuits si l'implantation est purement matérielle et de mémoire programme dans le cas d'une réalisation logicielle).
De même, l'invention concerne un dispositif d'extraction de paramètres acoustiques représentatifs d'un signal comprenant les moyens suivants : - module d'extraction acoustique fournissant un vecteur acoustique représentatif du signal vocal ; et - séparateur d'informations représentatives d'une excitation glottale et d'informations représentatives d'une résonance buccale associée au vecteur ; remarquable en ce qu'il comprend en outre : - au moins un estimateur des paramètres d'un filtre associé à la résonance buccale ; les estimateurs étant cascadés de sorte que les paramètres estimés par chacun des estimateurs hormis le dernier estimateur sont pris en compte par au moins un estimateur suivant.
Ainsi, le dispositif comprenant des estimateurs en cascade permet d'extraire des paramètres acoustiques avec un grand débit, des blocs d'informations indépendantes pouvant être traitées dans des estimateurs distincts simultanément.
De même, l'invention concerne un produit programme d'ordinateur de gestion de reconnaissance vocale comprenant des instructions de code de programme enregistré sur un support utilisable dans un ordinateur comprenant : - des moyens de programmation lisibles par ordinateur pour effectuer une étape de prise en compte d'un vecteur acoustique représentatif d'un signal vocal ;
<Desc/Clms Page number 6>
- des moyens de programmation lisibles par ordinateur pour effectuer une étape de séparation de paramètres représentatifs d'une excitation glottale et de paramètres représentatifs d'une résonance buccale associée au vecteur ; et - des moyens de programmation lisibles par un microprocesseur pour effectuer une étape d'estimation en boucle fermée des paramètres d'un filtre associé à la résonance buccale.
Les caractéristiques particulières et les avantages des dispositifs et du programme d'ordinateur enregistré sur un support utilisable dans un ordinateur étant similaires à ceux du procédé d'extraction acoustique, ils ne sont pas rappelés ici.
D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante d'un mode de réalisation préférentiel, donné à titre de simple exemple illustratif et non limitatif, et des dessins annexés, parmi lesquels : - la figure 1 présente un synoptique général d'un système comprenant un boîtier à commande vocale, dans lequel la technique de l'invention peut être mise en oeuvre ; - la figure 2 présente un synoptique du boîtier de reconnaissance vocale du système de la figure 1 ; - la figure 3 décrit un schéma électronique d'un boîtier de reconnaissance vocale mettant en oeuvre le synoptique de la figure 2 ; - la figure 4 représente une modélisation d'un signal vocal par le DAP des figures 2 et 3 ; - la figure 5 représente un exemple de signal vocal échantillonné conformément à l'invention ; - la figure 6 représente un organigramme de reconnaissance vocale tel que mis en oeuvre par le DAP des figures 2 et 3 ; - la figure 7 illustre un signal vocal avec mise en évidence des pics selon l'état de l'art ; et - la figure 8 illustre un signal vocal avec mise en évidence des pics conformément à l'invention.
Le principe général de l'invention repose sur l'extraction acoustique d'un signal vocal mettant en oeuvre une séparation d'une excitation glottale et d'une résonance buccale associées à un échantillon vocal. Alors que classiquement, selon l'état de l'art, on s'affranchit de la détermination de l'excitation glottale, le procédé comprend une étape d'estimation en boucle
<Desc/Clms Page number 7>
fermée des paramètres d'un filtre associé à ladite résonance buccale, ce qui permet d'en déduire l'excitation glottale.
En initialisant l'excitation glottale par exemple à une valeur nulle, puis en itérant une fois l'étape d'estimation de la résonance buccale, on obtient une première estimation de l'excitation glottale.
En prenant en compte cette première estimation de l'excitation glottale, on obtient au cours d'une seconde itération, une meilleure estimation de la résonance buccale. En réitérant plusieurs fois les estimations (typiquement trois ou quatre fois), on obtient des valeurs estimées de l'excitation glottale et de la résonance buccale se rapprochant de plus en plus des valeurs optimales.
En effet, la boucle fermée permet d'obtenir une bonne estimation non seulement de la résonance buccale utilisée habituellement pour des applications de type reconnaissance vocale mais aussi une bonne estimation de l'excitation glottale. Ainsi, avec un procédé d'extraction acoustique de mise en oeuvre relativement simple, non seulement on obtient de meilleurs résultats dans l'obtention des paramètres de la résonance buccale lorsqu'il est appliqué à un procédé de reconnaissance vocale mais encore on élargit le champ d'application du procédé d'extraction à de nombreuses autres applications telles que, par exemple, des applications liées : - à la reconnaissance du locuteur (qui est caractéristique à la fois de l'excitation glottale et de la résonance buccale) ; - au repérage de l'intonation (qui est caractéristique de la fréquence fondamentale et donc de l'excitation glottale) ; et/ou - au repérage de la prosodie d'une phrase (qui est caractéristique de la variation de l'intonation au cours du temps et donc de l'excitation glottale), ces applications nécessitant une estimation relativement fine des paramètres de résonance buccale et/ou d'excitation glottale.
La mise en oeuvre de ces applications est facilitée, notamment parce que l'invention permet de repérer facilement la périodicité du signal en évitant un lissage des fréquences (alors que si on ne met pas en oeuvre l'invention, on peut facilement estimer la fréquence fondamentale à deux ou trois fois sa valeur réelle).
On présente, en relation avec la figure 1, un synoptique général d'un système comprenant un boîtier à commande vocale 102 mettant en oeuvre la technique de l'invention.
On note que ce système comprend notamment :
<Desc/Clms Page number 8>
- une source vocale 100 pouvant notamment être constituée d'un microphone destiné à capter un signal vocal produit par un locuteur ; - un boîtier de reconnaissance vocale 102 ; - un boîtier de commande 105 destiné à piloter un appareil 107 ; - un appareil commandé 107, par exemple de type téléviseur ou magnétoscope.
La source 100 est reliée au boîtier de reconnaissance vocale 102, via une ! vison 101 qui lui permet de transmettre une onde source analogique représentative d'un signal vocal vers le boîtier 102.
Le boîtier 102 peut récupérer des informations 104 de contexte (telles que par exemple, le type d'appareil 107 pouvant être contrôlé par te boîtier de commande 105 ou la liste des codes de commandes) via une liaison 104 et émettre vers le boîtier de commande 105 des commandes via une liaison 103.
Le boîtier de commande 105 émet des commandes via une liaison 106 par exemple infra-rouge vers l'appareil 107.
Selon le mode de réalisation considéré la source 100, le boîtier de reconnaissance vocale 102 et le boîtier de commande 105 font partie d'un même dispositif et ainsi les liaisons 101,103 et 104 sont des liaisons internes au dispositif. Par contre, la liaison 106 est typiquement une liaison sans fil.
Selon une première variante de réalisation de l'invention décrite à la figure 1, les éléments 100,102 et 105 sont en partie ou complètement séparés et ne font pas partie d'un même dispositif. Dans ce cas, les liaisons 101,103 et 104 sont des liaisons externes filaires ou non.
Selon une deuxième variante, la source 100, les boîtiers 102 et 105 ainsi que l'appareil 107 font partie d'un même dispositif et sont reliés entre eux par des bus internes (liaisons 101,103, 104 et 106). Cette variante est particulièrement intéressante quand le dispositif est, par exemple, un téléphone ou terminal de télécommunication portable.
La figure 2 présente un synoptique d'un boîtier à commande vocale telle boîtier 102 illustré en regard de la figure 2.
On note que le boîtier 102 reçoit de l'extérieur l'onde source analogique101 qui est traitée par un Décodeur Acoustico-Phonétique 200 ou DAP (appelé"front-end"en anglais). Le DAP 200 échantillonne à intervalles réguliers (typiquement toutes les 10ms) l'onde source 101 pour produire des vecteurs réels ou appartenant à des livres de code (ou"codes books"en
<Desc/Clms Page number 9>
anglais), représentant typiquement des résonances buccales qui sont émises via une liaison 201 vers un moteur de reconnaissance 203.
A l'aide d'un dictionnaire 202, le moteur de reconnaissance 203 analyse les vecteurs réels qu'il reçoit en utilisant notamment des modèles de Markov cachés ou HMM (de l'anglais Hidden Markov Models) et des modèles de langage (qui représentent la probabilité pour qu'un mot suive un autre mot). Des moteurs de reconnaissance sont notamment décrits en détail dans le livre "Statistical Methods for Speech Recognition" écrit par Frederick Jelinek, et paru aux éditions MIT Press en 1997.
Le moteur de reconnaissance 203 fournit des mots qu'il a identifiés à partir des vecteurs reçus à un moyen de traduction de ces mots en commandes pouvant être comprises par l'appareil 107. Ce moyen utilise un procédé de traduction à intelligence artificielle qui lui-même prend en compte un contexte 104 fourni par le boîtier de commande 105 avant d'émettre une ou plusieurs commandes 103 vers le boîtier de commande 105.
La figure 3 illustre schématiquement un module ou dispositif de reconnaissance vocale 102 tel qu'illustré en regard de la figure 1, et mettant en oeuvre le synoptique de la figure 2.
Le boîtier 102 comprend reliés entre eux par un bus d'adresses et de données : - une interface vocale 301 ; - un convertisseur Analogique-Numérique 302 - un processeur 304 ; - une mémoire non volatile 305 ; - une mémoire vive 306 ; et - une interface d'entrées/sorties 307.
Chacun des éléments illustrés en figure 3 est bien connu de l'homme du métier. Ces éléments communs ne sont pas décrits ici.
On observe en outre que le mot" registre" utilisé dans toute la description désigne dans chacune des mémoires mentionnées, aussi bien une zone de mémoire de faible capacité (quelques données binaires) qu'une zone mémoire de grande capacité (permettant de stocker un programme entier ou l'intégralité d'une séquence de données de transactions).
La mémoire non volatile 305 (ou ROM) conserve dans des registres qui par commodité possèdent les mêmes noms que les données qu'ils conservent :
<Desc/Clms Page number 10>
- le programme de fonctionnement du processeur 304 dans un registre"prog"308 ; - une valeur réelle strictement positive e dans un registre 309 ; - une valeur P, représentant un ordre de modèle dans un registre 310 ; - une valeur N, représentant un nombre d'échantillons dans un registre 311 ; et - une valeur Maxiteration représentant un nombre maximal d'itérations à effectuer dans un registre 312.
La mémoire vive 306 conserve des données, des variables et des résultats intermédiaires de traitement et comprend notamment : - un registre 313 dans lequel sont conservées des valeurs de bo, et e1, e2,.. eN représentatives de l'excitation glottale du signal reçu ; - un vecteur a1, a2,... ap représentant un résonateur dans un registre 314 ; - un vecteur S1,S2,...SN représentant un signal vocal dans un registre 315 ; et - un vecteur s' ?, S2,... SN représentant un signal vocal estimé dans un registre 316 ; et - un compteur alteration dans un registre 317.
La figure 4 illustre une modélisation d'un signal vocal traité par un DAP 200 tel qu'illustré en regard de la figure 2 et la figure 3.
Typiquement, un producteur vocal 401 produit à partir d'une excitation glottale e et d'un résonateur buccal un signal analogique s qui est reçu par le DAP 200.
Ce signal analogique s après échantillonnage et conversion analogique/numérique devient une suite de vecteurs constitués chacun de N
valeurs ou échantillons numériques 402, s (n) représentant le dème échantillon (KM) Selon le modèle illustré conforme à l'invention, à partir d'une excitation glottale estimant l'excitation e, constituée de N valeurs e (n), et d'un résonateur estimé le modèle 403 produit un vecteur s'404 constitué de N valeurs s'(n) 404 (1#n#N) et qui est une estimation du vecteur s reçu.
valeurs ou échantillons numériques 402, s (n) représentant le dème échantillon (KM) Selon le modèle illustré conforme à l'invention, à partir d'une excitation glottale estimant l'excitation e, constituée de N valeurs e (n), et d'un résonateur estimé le modèle 403 produit un vecteur s'404 constitué de N valeurs s'(n) 404 (1#n#N) et qui est une estimation du vecteur s reçu.
Le mode d'obtention de calcul de s'(n) et donc d'une valeur d'erreur entre le signal reçu et le signal calculé selon le modèle va être décrit selon les fondements exposés ci-après.
<Desc/Clms Page number 11>
Un modèle de type ARMA est choisi. Un filtre ARMA est un filtre dont le comportement est décrit par la première équation récurrente décrite ci-après.
Selon cette première équation, le signal s (n) est égal à la somme de deux termes l'un représentant le résonateur et l'autre une excitation buccale :
Dans cette équation, les valeurs de P et de R représentent des ordres de filtre dans les modèles utilisés.
Classiquement, en reconnaissance vocale, on suppose que le conduit vocal est un tube de section variable, mais on ne prévoit pas de bifurcation comme ce serait nécessaire, par exemple pour modéliser la cavité nasale. D'autre part, on suppose que l'excitation est soit un peigne de Dirac pour les sons voisés, soit un bruit blanc pour les sons non-voisés.
Il s'agit ici d'une approximation qui constitue une hypothèse simplificatrice abusive. L'invention vise notamment à lever la partie de cette hypothèse qui concerne la forme de l'excitation.
On peut avec une hypothèse simplificatrice justifiée sur l'excitation buccale obtenir l'équation suivante en prenant une valeur nulle pour R.
Une relation directe entre la fonction d'autocorrélation et les coefficients est obtenue en multipliant les deux membres de la première équation par s (n-k) et en faisant la somme :
soit sous forme matricielle :
où
soit sous forme matricielle :
où
<Desc/Clms Page number 12>
(autocorrélation du signal de sortie pour 1 < / P) et
(intercorrelation du signal d'entrée pour 1#l#P)
Dans notre cas, le signal d'entrée e (n) source, à l'entrée du conduit buccal, est inconnu. Par contre, nous sommes en possession du signal de
sortie s (n), qui est la production sonore suite de e (n) une fois convolué avec le conduit buccal. Au cours d'une première étape, nous procédons de façon classique en supposant que le signal de sortie est un signal non-voisé, produit par un bruit blanc centré d'écart type o. Dans ces conditions, les équations se simplifient et deviennent :
Ce système se résout alors, par exemple, par l'algorithme de Durbin (dont on trouvera une description dans les articles suivants écrits par J. Durbin, "Efficient Estimation of Parameters in Moving-Average Models", Biometrica, vol 46, parts 1 & 2,1959, pp 306-316 et"The Fitting of Time-Series", Rev. Inst.
Intern. Statist., vol 28, no. 3,1960, pp. 233-243)
Selon l'invention, il est alors possible de recalculer l'erreur de sortie (pour chaque valeur de n comprise entre 1 et N) par l'équation :
Selon l'invention, il est alors possible de recalculer l'erreur de sortie (pour chaque valeur de n comprise entre 1 et N) par l'équation :
Le modèle 403 décrit en regard de la figure 4 effectue le calcul de s'en) pour chaque valeur de n selon la relation suivante :
L'opérateur 405 effectue alors la soustraction s-s' (ou plus précisément s (n)-s' pour toutes les valeurs de n allant de 1 à N) pour obtenir l'erreur de sortie 406.
Cette erreur 406 permet alors de substituer le signal d'entrée e (n) par le signal d'erreur, erreur (n) dans l'équation 3. Ensuite, les différentes
<Desc/Clms Page number 13>
intercorrélations res (i) sont calculées selon la relation définie par l'équation 5 dans le module 407.
Puis, le module de calcul 410 détermine les différentes valeurs de ai (paramètres du résonateur buccal) pour toutes les valeurs de i comprises entre 1 et P par utilisation d'un algorithme de résolution du système d'équations par triangularisation de l'équation 3 dans laquelle on a injecté les dernières valeurs calculées de res (i) pour i allant de 1 à P.
Ensuite, le modèle 403, l'opérateur 405, les modules 407 et 410 calculent à nouveau respectivement s', s-s',/es ( et ai par itérations successives, jusqu'à atteindre une erreur résiduelle considérée comme étant suffisamment faible, ou bien un nombre d'itérations maximum prédéfinies. Le module de calcul 410 fournit alors les valeurs de ai pour i allant de 1 à P (ou une fonction des valeurs ai telles que les cepstres) au moteur de reconnaissance 203.
En variante, le DAP 200 fournit à un module extérieur d'autres valeurs telles que par exemple les valeurs d'excitations glottales calculées par le modèle 403.
La figure 5 illustre une fenêtre d'échantillonnage d'un signal vocal.
Cet échantillonnage est effectué à l'entrée du DAP 200 tel qu'illustré en regard des figures 2 et 3.
On constate qu'un signal vocal analogique 500 en entrée du DAP 200 est échantillonné dans une fenêtre de longueur (ou durée) L prenant en compte N échantillons régulièrement espacés dans le temps.
Pour chaque échantillon indicé de 1 à N suivant l'axe des abscisses 502 représentant le temps t, le DAP enregistre sous forme numérique la valeur de l'intensité du signal reçu 500 représenté par l'axe des ordonnées 501.
Selon la figure 6 représentant un algorithme de reconnaissance tel qu'implanté dans un DAP 200 tel qu'illustré en regard des figures 2 et 3, un signal analogique de parole 402 est converti en une suite d'échantillons numériques au cours d'une opération 600.
Puis au cours d'une opération 601 de fenêtrage, le DAP 200 prend en compte N échantillons au sein d'une fenêtre 503 illustrée en regard de la figure 5.
Ensuite, au cours d'une opération 602, le DAP 200 initialise le compteur d'itération à zéro et calcule une première fois les valeurs des paramètres de résonance buccale ai correspondant aux N échantillons pris en compte comme indiqué en regard de la figure 4.
<Desc/Clms Page number 14>
Puis, au cours d'une opération 603, le DAP 200 effectue un calcul d'erreur basé sur la variation des cepstres qui est une fonction des dernières valeurs ai obtenues.
Les ceptres sont obtenus à partir des coefficients a, calculés comme décrit plus haut de la manière suivante :
Dans ces égalités, p est comme précédemment l'ordre du filtre tout pôle, et n le nombre de coefficients cepstraux que l'on souhaite retenir. (le nombre n est habituellement compris entre 8 et 12).
Le calcul de l'erreur se fait alors de la manière suivante :
Si, à l'itération précédente, les ceptres avaient pour valeurs c : alors l'erreur relative est calculée de la manière suivante :'
Si, à l'itération précédente, les ceptres avaient pour valeurs c : alors l'erreur relative est calculée de la manière suivante :'
Si cette erreur est inférieure à un seuil fixé à l'avance, par exemple 2% de variation relative, le cycle des itérations est stoppé. Dans le cas contraire, il se poursuit.
Une alternative pour calculer l'erreur sans passer par le calcul des ceptres est décrit dans le document écrit par F. Itakura, intitulé"minimum prediction residual principle applied to speech recognition" (ou en français "Principe résiduel de prédiction minimum appliqué à la reconnaissance de langage") et publié dans la revue IEEE Transaction on Acoustical Speech and Signal Processing en février 1975.
Dans ce cas, si les coefficients du filtre tout pôle à l'itération précédente prennent les valeurs a'et à l'itération actuelle les valeurs a, alors on calcule la valeur d suivante : (a't Ra') dI(S,S') = log avec R la matrice des coefficients rss de (at Ra) l'équation 6 précédemment décrite.
Si la valeur absolue de ce résultat est inférieure à une valeur fixée à l'avance, alors le processus d'itérations est, comme ci-dessus, stoppé.
<Desc/Clms Page number 15>
Ensuite au cours d'un test 604, le DAP détermine si l'erreur est inférieure à la valeur minimale prédéterminée qui correspond à une variation faible des cepstres.
Dans la négative, au cours d'un test 605, le DAP détermine si le nombre d'itérations est supérieur à une valeur maximale Maxlteration prédéfinie.
Dans la négative, au cours d'une opération 606, le DAP résout un système linéaire correspondant au modèle 403 décrit en regard de la figure 4, calcule les valeurs de ai et incrémente le compteur d'itérations.
Ensuite, l'opération 603 est réitérée.
Lorsque l'un des tests 604 ou 605 est positif, la détermination itérative des paramètres acoustiques cesse et au cours d'une opération 607, le DAP effectue un calcul cepstral, les cepstres étant obtenus en fonction des coefficients ai de résonance buccale. (On note que pour des applications de type reconnaissance vocale, on s'intéresse notamment à la forme de la résonance buccale dans le spectre).
Les figures 7 et 8 illustrent une excitation glottale calculée sur le mot " quatre" selon l'état de l'art (figure 7) et selon l'invention (figure 8).
Ces deux figures montrent l'évolution de l'excitation glottale calculée en fonction du temps (en ms selon l'axe 702 des abscisses) et d'une intensité (exprimée dans la même unité selon l'axe 701 des ordonnées). Les résultats obtenus peuvent ainsi être directement comparés.
On constate que sur la figure 7, l'excitation glottale 700 calculée à partir des techniques habituelles de l'état de l'art possède des pics 703,704 de faible intensité.
Ainsi, l'estimation de l'excitation glottale n'est pas correcte puisque le son analysé est voisé, ce qui signifie que l'excitation réelle ayant produit le son analysé possède des pics importants.
En outre, deux pics successifs ne sont pas facilement identifiables. Il est ainsi difficile de retrouver une période dans le signal.
En revanche, on constate que selon la figure 8, l'excitation glottale 700 calculée par un dispositif mettant en oeuvre l'invention possède des pics 803,804 de forte intensité.
Ainsi, l'estimation de l'excitation glottale est bien meilleure que lorsque des techniques de l'état de l'art sont utilisées sans mise en oeuvre de l'invention.
<Desc/Clms Page number 16>
En outre, deux pics successifs sont très facilement identifiables. On peut donc aisément mesurer une période 805 entre deux pics successifs 803 et 804. Ceci est intéressant puisqu'on en déduit sans ambiguïté que : - le signal est non voisé si aucun pic n'apparaît clairement ; et - le signal est voisé si des pics apparaissent clairement.
De plus, si le signal est voisé, on peut obtenir la fréquence des formants (par simple inversion des périodes présentes dans le signal) et leur intensité.
Bien entendu, l'invention n'est pas limitée aux exemples de réalisation mentionnés ci-dessus.
En particulier, l'homme du métier pourra apporter toute variante dans l'architecture du dispositif de reconnaissance vocale. L'homme du métier pourra notamment considérer que le boîtier de reconnaissance vocale, le boîtier de commande et l'appareil font partie d'un même dispositif ou sont séparés.
En outre, la mise en oeuvre de l'invention n'est pas limitée aux appareils tels que les téléviseurs, magnétoscopes ou terminaux de télécommunication ou aux télécommandes mais concerne tout type de dispositif et/ou module utilisant ou pouvant utiliser un procédé d'extraction acoustique des paramètres du signal vocal.
On note que l'application de détermination des paramètres acoustiques ne se limite pas aux applications de type reconnaissance vocale mais s'étend à toute autre application utilisant une estimation d'excitation glottale et/ou de résonance buccale d'un signal vocal, et notamment les applications de type reconnaissance de locuteur et/ou repérage de l'intonation ou de la prosodie d'une phrase.
En outre, la mise en oeuvre du procédé d'extraction acoustique ne se limite pas aux cas des extracteurs acoustiques selon un mode de réalisation de type"LPC"décrit précédemment mais s'étend à tout type de réalisation intégrant un résonateur (tel que"PLP"par exemple qui comprend, en sus du "LPC", des filtres passe-bas et de perception sur le signal avant extraction acoustique).
On notera que l'invention ne se limite pas non plus à une implantation purement matérielle mais qu'elle peut aussi être mise en oeuvre sous la forme d'une séquence d'instructions d'un programme informatique ou toute forme mixant une partie matérielle et une partie logicielle. Dans le cas où l'invention est implantée partiellement ou totalement sous forme logicielle, la séquence d'instructions correspondante pourra être stockée dans un moyen de
<Desc/Clms Page number 17>
Claims (10)
1. Procédé d'extraction de paramètres acoustiques représentatifs d'un signal vocal, comprenant une étape de séparation d'une part des informations représentatives d'une excitation glottale (bo, e1, e2,.. eN) et d'autre part des informations représentatives d'une résonance buccale (a1, a2,.. ap) associées à chaque échantillon (s) vocal dudit signal vocal, caractérisé en ce qu'il comprend une étape d'estimation (606) en boucle fermée des paramètres d'un filtre associé à ladite résonance buccale.
2. Procédé selon la revendication 1 caractérisé en ce qu'il comporte en outre une étape (607) d'estimation d'une fonction d'onde représentative de ladite excitation glottale à partir desdits paramètres de filtre précédemment estimés.
3. Procédé selon la revendication 2 caractérisé en ce qu'il comprend en outre une étape de reconnaissance du locuteur tenant compte de ladite fonction d'onde représentative de ladite excitation glottale (bo, e1, e2,.. eN).
4. Procédé selon l'une quelconque des revendications 1 à 3 caractérisé en ce que ladite étape d'estimation en boucle fermée est itérative, lesdits paramètres de filtre étant mis à jour à chaque itération.
5. Procédé selon la revendication 4, caractérisé en ce que ladite étape d'estimation en boucle fermée comprend une étape d'estimation de la variation desdits paramètres, au moyen d'une fonction (Erreur) tenant compte desdits paramètres et une étape (604) d'interruption de ladite étape d'estimation en boucle fermée lorsque le résultat de ladite fonction est inférieur à un seuil de fiabilité (e) prédéterminé.
6. Procédé selon l'une quelconque des revendications 4 à 5, caractérisé en ce que ladite étape d'estimation en boucle fermée est interrompue lorsque le nombre d'itérations (Iteration) effectuées atteint un nombre maximal (Maxiteration) d'itérations prédéterminé.
7. Procédé selon l'une quelconque des revendications 1 à 6 caractérisé en ce qu'il est mis en oeuvre dans le cadre d'un procédé de reconnaissance vocale et/ou de reconnaissance de locuteur.
8. Dispositif (102) d'extraction de paramètres acoustiques représentatifs d'un signal comprenant les moyens suivants : - module d'extraction acoustique fournissant un vecteur acoustique représentatif du signal vocal ; et
<Desc/Clms Page number 19>
- séparateur d'informations représentatives d'une excitation glottale et d'informations représentatives d'une résonance buccale associée audit vecteur ; caractérisé en ce qu'il comprend en outre un estimateur en boucle fermée des paramètres d'un filtre associé à ladite résonance buccale.
9. Dispositif d'extraction de paramètres acoustiques représentatifs d'un signal comprenant les moyens suivants : - module d'extraction acoustique fournissant un vecteur acoustique représentatif du signal vocal ; et - séparateur d'informations représentatives d'une excitation glottale et d'informations représentatives d'une résonance buccale associée audit vecteur ; caractérisé en ce qu'il comprend en outre : - au moins un estimateur des paramètres d'un filtre associé à ladite résonance buccale ; les estimateurs étant cascadés de sorte que lesdits paramètres estimés par chacun desdits estimateurs hormis le dernier estimateur sont pris en compte par au moins un estimateur suivant.
10. Produit programme d'ordinateur de gestion de reconnaissance vocale comprenant des instructions de code de programme enregistré sur un support utilisable dans un ordinateur comprenant : - des moyens de programmation lisibles par ordinateur pour effectuer une étape de prise en compte d'un vecteur acoustique représentatif d'un signal vocal ; - des moyens de programmation lisibles par ordinateur pour effectuer une étape de séparation d'informations représentatives d'une excitation glottale et d'informations représentatives d'une résonance buccale associée audit vecteur ; et - des moyens de programmation lisibles par un microprocesseur pour effectuer une étape d'estimation en boucle fermée des paramètres d'un filtre associé à ladite résonance buccale.
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| FR0104622A FR2823361A1 (fr) | 2001-04-05 | 2001-04-05 | Procede et dispositif d'extraction acoustique d'un signal vocal |
| PCT/FR2002/001166 WO2002082424A1 (fr) | 2001-04-05 | 2002-04-04 | Procede et dispositif d'extraction de parametres acoustiques d'un signal vocal |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| FR0104622A FR2823361A1 (fr) | 2001-04-05 | 2001-04-05 | Procede et dispositif d'extraction acoustique d'un signal vocal |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| FR2823361A1 true FR2823361A1 (fr) | 2002-10-11 |
Family
ID=8861968
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| FR0104622A Pending FR2823361A1 (fr) | 2001-04-05 | 2001-04-05 | Procede et dispositif d'extraction acoustique d'un signal vocal |
Country Status (2)
| Country | Link |
|---|---|
| FR (1) | FR2823361A1 (fr) |
| WO (1) | WO2002082424A1 (fr) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP1513136A1 (fr) * | 2003-09-03 | 2005-03-09 | Samsung Electronics Co., Ltd. | Dispositif audio/video et méthode pour fournir des services personnalisés à l'aide de reconnaissance de la voix et du locuteur |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5091948A (en) * | 1989-03-16 | 1992-02-25 | Nec Corporation | Speaker recognition with glottal pulse-shapes |
| US5577160A (en) * | 1992-06-24 | 1996-11-19 | Sumitomo Electric Industries, Inc. | Speech analysis apparatus for extracting glottal source parameters and formant parameters |
| US6047254A (en) * | 1996-05-15 | 2000-04-04 | Advanced Micro Devices, Inc. | System and method for determining a first formant analysis filter and prefiltering a speech signal for improved pitch estimation |
-
2001
- 2001-04-05 FR FR0104622A patent/FR2823361A1/fr active Pending
-
2002
- 2002-04-04 WO PCT/FR2002/001166 patent/WO2002082424A1/fr not_active Ceased
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5091948A (en) * | 1989-03-16 | 1992-02-25 | Nec Corporation | Speaker recognition with glottal pulse-shapes |
| US5577160A (en) * | 1992-06-24 | 1996-11-19 | Sumitomo Electric Industries, Inc. | Speech analysis apparatus for extracting glottal source parameters and formant parameters |
| US6047254A (en) * | 1996-05-15 | 2000-04-04 | Advanced Micro Devices, Inc. | System and method for determining a first formant analysis filter and prefiltering a speech signal for improved pitch estimation |
Non-Patent Citations (2)
| Title |
|---|
| M. HUNT: "Spectral Signal Processing for ASR", PROCEEDINGS 1999 IEEE AUTOMATIC SPEECH RECOGNITION AND UNDERSTANDING WORKSHOP, 12 December 1999 (1999-12-12) - 15 December 1999 (1999-12-15), Colorado, USA, XP002181776 * |
| TZENG F F: "AN ANALYSIS-BY-SYNTHESIS LINEAR PREDICTIVE MODEL FOR NARROWBAND SPEECH CODING*", SPEECH PROCESSING 1. ALBUQUERQUE, APRIL 3 - 6, 1990, INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH & SIGNAL PROCESSING. ICASSP, NEW YORK, IEEE, US, vol. 1 CONF. 15, 3 April 1990 (1990-04-03), pages 209 - 212, XP000146441 * |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP1513136A1 (fr) * | 2003-09-03 | 2005-03-09 | Samsung Electronics Co., Ltd. | Dispositif audio/video et méthode pour fournir des services personnalisés à l'aide de reconnaissance de la voix et du locuteur |
Also Published As
| Publication number | Publication date |
|---|---|
| WO2002082424A1 (fr) | 2002-10-17 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP1154405B1 (fr) | Procédé et dispositif de reconnaissance vocale dans des environnements a niveau de bruit fluctuant | |
| EP1362343B1 (fr) | Procede, module, dispositif et serveur de reconnaissance vocale | |
| EP2419900B1 (fr) | Procede et dispositif d'evaluation objective de la qualite vocale d'un signal de parole prenant en compte la classification du bruit de fond contenu dans le signal | |
| US9058384B2 (en) | System and method for identification of highly-variable vocalizations | |
| EP0867856A1 (fr) | "Méthode et dispositif de detection d'activité vocale" | |
| FR2522179A1 (fr) | Procede et appareil de reconnaissance de paroles permettant de reconnaitre des phonemes particuliers du signal vocal quelle que soit la personne qui parle | |
| EP0932964A1 (fr) | Procede et dispositif d'egalisation aveugle des effets d'un canal de transmission sur un signal de parole numerique | |
| FR2943875A1 (fr) | Procede et dispositif de classification du bruit de fond contenu dans un signal audio. | |
| WO2003048711A2 (fr) | System de detection de parole dans un signal audio en environnement bruite | |
| WO2005106852A1 (fr) | Procede et systeme ameliores de conversion d'un signal vocal | |
| Chougule et al. | Robust spectral features for automatic speaker recognition in mismatch condition | |
| EP3627510B1 (fr) | Filtrage d'un signal sonore acquis par un systeme de reconnaissance vocale | |
| WO2005106853A1 (fr) | Procede et systeme de conversion rapides d'un signal vocal | |
| EP1152399A1 (fr) | Traitement en sous bandes de signal de parole par réseaux de neurones | |
| FR2786308A1 (fr) | Procede de reconnaissance vocale dans un signal acoustique bruite et systeme mettant en oeuvre ce procede | |
| Loweimi et al. | Robust Source-Filter Separation of Speech Signal in the Phase Domain. | |
| Wang et al. | ExKaldi-RT: A real-time automatic speech recognition extension toolkit of Kaldi | |
| FR2823361A1 (fr) | Procede et dispositif d'extraction acoustique d'un signal vocal | |
| EP0840290B1 (fr) | Procédé de reconnaissance de parole à apprentissage | |
| EP1895433A1 (fr) | Procédé d'estimation de phase pour la modélisation sinusoidale d'un signal numérique | |
| Aliouat et al. | A new deep learning forward BSS (D-FBSS) algorithm for acoustic noise reduction and speech enhancement | |
| EP1846918B1 (fr) | Procede d'estimation d'une fonction de conversion de voix | |
| JP2004309959A (ja) | 音声認識装置および音声認識方法 | |
| WO2001091106A1 (fr) | Fenetres d'analyse adaptatives pour la reconnaissance de la parole | |
| Sapkota et al. | Spoken Language Identification Using Convolutional Neural Network In Nepalese Context |