[go: up one dir, main page]

FR2864319A1 - Procede et dispositif de detection de parole dans un signal audio - Google Patents

Procede et dispositif de detection de parole dans un signal audio Download PDF

Info

Publication number
FR2864319A1
FR2864319A1 FR0500557A FR0500557A FR2864319A1 FR 2864319 A1 FR2864319 A1 FR 2864319A1 FR 0500557 A FR0500557 A FR 0500557A FR 0500557 A FR0500557 A FR 0500557A FR 2864319 A1 FR2864319 A1 FR 2864319A1
Authority
FR
France
Prior art keywords
frame
speech
frames
class
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
FR0500557A
Other languages
English (en)
Inventor
Delphine Charlet
Laurent Mauuary
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Priority to FR0500557A priority Critical patent/FR2864319A1/fr
Publication of FR2864319A1 publication Critical patent/FR2864319A1/fr
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

Pour la détection de parole dans un signal audio, on analyse le niveau énergétique de chaque trame du signal audio pour détecter la parole dans le signal, et l'on valide la détection de parole en analysant, pour chaque trame de signal audio (S), un paramètre représentatif de l'appartenance de la trame à une première classe de trames prédéterminées correspondant à des trames de parole, par rapport à une deuxième classe de trames correspondant à des trames de bruit, de manière à en déduire la nature de la trame de signal audio.L'invention trouve application dans les systèmes de reconnaissance vocale (10).

Description

Procédé et dispositif de détection de parole dans un signal audio
La présente invention a trait aux systèmes de reconnaissance de parole dans un signal audio, en particulier en environnement bruité.
Plus particulièrement, l'invention concerne un procédé et un système de détection de parole dans un signal audio.
La détection de l'activité vocale est une composante majeure du traitement de la parole dans un système de télécommunication. Elle constitue une phase préalable ou simultanée à la reconnaissance de la 1.0 parole qui peut dès lors s'effectuer sur des mots isolés.
Dans un environnement bruité, la détection de parole est souvent mise en défaut, les erreurs de détection de parole pouvant entraîner une forte dégradation des performances du système de reconnaissance de parole.
Afin de pallier cet inconvénient, il a été proposé de réaliser une détection de parole dans un environnement bruité en analysant l'énergie d'une trame de signal audio, en supposant que la distribution de l'énergie dans la parole et dans le bruit suit une distribution gaussienne. Cette technique est essentiellement basée sur un calcul de rapport de vraisemblance pour le signal étudié, dans chacune des hypothèses bruit et parole. On pourra à cet égard se référer au document Solutions for Robust Speech/Non-speech Detection in Wireless Environment , Karray L., Mokbel C. et Monné J. ; Interactive Wireless Technology for Telecommunication Application, IVTTA 98 proceedings, 1998 IEEE 4h workshop. Toutefois, l'hypothèse sur laquelle se base cette technique, qui suppose que la distribution de l'énergie dans la parole et dans le bruit suit une distribution gaussienne, est assez peu réaliste et conduit à une très faible amélioration de la détection de parole par rapport à une détection fondée uniquement sur une estimation de l'énergie dans le bruit.
Selon une autre technique, il a été proposé de modéliser la parole non plus à partir d'un paramètre énergétique seul, mais en utilisant un ensemble de paramètres. On pourra par exemple se référer au brevet américain US 5, 732, 392 qui décrit une technique de détection de parole en élaborant, à partir d'une trame de signal, un vecteur de paramètres spectraux qui est utilisé pour classer la trame soit dans une catégorie parole , soit dans une catégorie bruit , par comparaison avec un dictionnaire de quantification. Cette technique, qui utilise une modélisation de la catégorie parole en utilisant un dictionnaire de quantification est nettement plus riche que la modélisation unimodale précédemment évoquée. Elle présente cependant un inconvénient majeur, dans la mesure où le bruit n'est plus modélisé, d'où la difficulté de définir un seuil sur la distorsion de quantification pour la parole, cette distorsion pouvant être très différente, selon que l'on se trouve en milieu bruité ou non.
Le but de l'invention est donc de pallier les inconvénients de l'état de la technique et de fournir un procédé et un système de détection de parole présentant des performances accrues.
L'invention a donc pour objet un procédé de détection de parole dans un signal audio selon lequel on analyse le niveau énergétique de chaque trame du signal audio pour détecter la parole dans le signal, et l'on valide la détection de parole en analysant pour chaque trame un paramètre statistique représentatif de l'appartenance de la trame à une première classe de trames prédéterminées correspondant à des trames de parole, par rapport à une deuxième classe de trames correspondant à des trames de bruit, de manière à en déduire la nature de la trame du signal audio.
Selon une autre caractéristique de l'invention, les mélanges de gaussiennes des première et deuxième classes de trames sont extraites d'un système de reconnaissance vocale utilisant un modèle de Markov caché (HMM).
Par exemple, la trame de signal audio est représentée par un vecteur de coefficients cepstraux.
Selon un mode de réalisation, ledit paramètre représentatif de l'appartenance de la trame à la première classe de trame est élaboré à partir de la vraisemblance de la trame dans chacune des classes. Par exemple, on calcule le paramètre en calculant le rapport de la vraisemblance de la trame dans la première classe sur la vraisemblance de la trame dans la deuxième classe.
Selon un autre mode de réalisation, on détermine :10 l'appartenance de la trame à l'une des première et deuxième classes à partir d'une sommation de la vraisemblance calculée pour chacune des gaussiennes de chaque classe.
On peut également déterminer l'appartenance de la trame à l'une des première et deuxième classes à partir d'une méthode de :l5 détermination du plus proche voisin dans chacune des classes.
Dans un mode de mise en oeuvre de l'invention, la détection de la parole est effectuée au moyen d'un automate à états finis dont les états comprennent au moins un état correspondant à un bruit ou un silence, un état correspondant à une présomption de parole et un état correspondant à de la parole, les transitions entre les états étant gouvernés par le résultat d'évaluations de critères énergétique de la trame et par le résultat de l'étape d'analyse dudit paramètre.
Selon l'invention, il est également proposé un dispositif de détection de parole dans un signal audio comprenant des moyens d'analyse du niveau énergétique de la trame de signal audio pour la détection de la parole dans le signal et des moyens de calcul d'un paramètre représentatif de l'appartenance de chaque trame de signal audio à une première classe de trames prédéterminées correspondant à des trames de paroles, par rapport à une deuxième classe de trames correspondant à des trames de bruit, les moyens de calcul étant en outre adaptés pour analyser ledit paramètre pour en déduire la nature de la trame de signal audio et valider la détection de parole effectuée par les moyens d'analyse.
Il comporte en outre un automate à états finis dont les états comprennent au moins un état correspondant à un bruit ou un silence, un état correspondant à une présomption de parole et un état correspondant à de la parole, les transitions entre les états étant gouvernés par le résultat d'évaluations de critères énergétique de la trame validé par le résultat de l'analyse du paramètre de la trame.
D'autres buts, caractéristiques et avantages de l'invention apparaîtront à la lecture de la description suivante, donnée uniquement à titre d'exemple non limitatif, et faite en référence aux dessins annexés, sur lesquels: la figure 1 représente la structure générale d'un système de reconnaissance vocale incorporant un dispositif de détection de parole conforme à l'invention; - la figure 2 représente une machine à état entrant dans la constitution du dispositif de détection de parole conforme à l'invention; et - la figure 3 est une courbe illustrant les performances du 20É dispositif de détection conforme à l'invention.
Sur la figure 1, on a représenté la structure générale d'un système de reconnaissance de parole, désigné par la référence numérique générale 10. Le système de reconnaissance représenté comprend un module de détection de parole 12 et un module de reconnaissance vocale 14. La fonction du module de détection de parole 12 est de détecter dans un signal audio incident S les périodes de parole afin d'éviter au module de reconnaissance vocale 14 de chercher à reconnaître de la parole sur des périodes du signal d'entrée S correspondant à des phases de silence ou à des phases de bruit. Sa présence permet alors à la fois d'améliorer les performances et de réduire la coût du système de reconnaissance vocale.
Cette détermination est précédée par l'analyse du signal audio S par un module d'analyse 16, de façon à en extraire des coefficients pertinents pour le module de détection 12 et pour le module de reconnaissance 14.
Selon un mode de réalisation, les coefficients extraits sont des coefficients cepstraux, encore appelés coefficients MFCC ( ME1 Frequency Cepstrum Coefficients ). Par exemple, le module d'analyse 16 comporte un banc de huit filtres délivrant huit coefficients cepstraux, lesquels sont complétés par un paramètre d'énergie, et calcule les dérivés temporelles d'ordre 1 et 2 des neuf coefficients ainsi élaborés pour délivrer, en sortie du module d'analyse 16, des vecteurs de 27 coefficients.
En amont, le système de reconnaissance de parole 10 est en outre pourvu d'un étage de détection 18 destiné à subdiviser le signal S incident en un ensemble de trames audio. Par exemple, ce module de détection 18 comporte une fenêtre de Hanning assurant le découpage du signal S en trame de 32 ms avec un recouvrement de 16 ms. Ainsi, selon cet exemple, le module d'analyse 16 élabore, pour chaque trame, un vecteur de 27 coefficients, lequel est utilisé par le module de détection de parole 12 et par le module de reconnaissance 14 pour, d'une part, la reconnaissance de mots isolés et de parole continue et, d'autre part, fournir le résultat. R de la reconnaissance par l'intermédiaire d'un module de décision 20.
Les modules de reconnaissance vocale 14 et de décision 20 du système de reconnaissance de parole sont constitués par des modules de type classique, à la portée d'un homme du métier. Ils ne seront donc pas décrits en détail par la suite.
En ce qui concerne le module de détection de parole 12, celui-ci comporte essentiellement, selon un exemple de mise en oeuvre de l'invention, un automate à états finis. Un tel automate peut, par exemple, être constitué par un automate à deux états, dans le cas le plus simple, lorsqu'il s'agit simplement de détecter une activité vocale, ou à trois ou quatre états, voire à cinq états.
La décision quant à l'appartenance ou non de la trame à de la parole est prise au niveau de chacune des trames du signal d'entrée, dont la cadence peut être de 16 ms, comme indiqué dans l'exemple évoqué précédemment. De manière générale, l'utilisation d'un automate ayant un grand nombre d'états finis permet une modélisation plus fine de la décision à prendre, par la prise en compte des considérations structurelles de la parole.
On a représenté sur la figure 2 un exemple d'automate à cinq états finis pouvant être utilisé pour la réalisation du module de détection de parole 12. Un tel automate peut être réalisé conformément à l'enseignement du document intitulé Amélioration des performances de serveurs vocaux interactifs de L. Mauuary, thèse de doctorat, Université de Rennes 1, 1994. Bien entendu, d'autres automates de détection peuvent également être utilisés dans le cadre de la présente invention.
Les cinq états de l'automate sont définis comme suit: - état 1: bruit ou silence ; - état 2: présomption de parole ; - état 3: parole ; état 4: plosive non voisée ou silence ; et - état 5: reprise possible de parole .
Conformément à une caractéristique de l'invention, les transitions entre les états sont gouvernées par le résultat d'évaluations effectuées sur des critères énergétiques, de durée de parole et de silence et par le résultat de l'analyse d'un paramètre associé à chaque trame incidente représentative de l'appartenance de la trame à une première classe de trames déterminées correspondant à des trames de 30;É1- parole, par rapport à une deuxième classe de trames correspondant à des trames de bruit.
L'élaboration d'un tel paramètre est essentiellement basée sur le calcul de vraisemblance statistique de la trame courante dans chacune des classes de trames dites Bruit et Parole . Plus particulièrement, dans un exemple de mise en oeuvre, l'appartenance de la trame courante à la classe Bruit ou à la classe Parole est déterminée sur la base du calcul du rapport des vraisemblances calculées, d'une part, dans la classe de trames Parole, et, d'autre part, dans la classe de trames Bruit.
On notera que les classes de trames Bruit et Parole sont représentées par un mélange ou mixture de gaussiennes, c'est-à-dire un ensemble de densités de prolbabilités gaussiennes pondérées correspondant chacune à une densité de probabilité d'appartenance à la classe Bruit ou Parole, sur la base d'un paramètre caractéristique.
Une telle modélisation par mélange de gaussiennes est une modélisation répandue, à la portée d'un homme du métier. Elle ne sera donc pas décrite en détail par la suite.
On notera néanmoins que différentes techniques peuvent être utilisées pour la création de la mixture de gaussiennes caractérisant les classes Bruit et Parole. Ces techniques sont basées sur l'utilisation d'un modèle de Markov caché, HMM ( Hidden Markov model ). Ce modèle est constitué d'un ensemble d'états, de transition entre ces états et de densités de probabilité gaussiennes d'émission dans l'espace acoustique lié aux transitions. Chaque fonction de densité de probabilité possède trois paramètres, à savoir un vecteur des moyennes, une matrice de covariance et une probabilité à priori. Un tel modèle est largement utilisé dans tout système de reconnaissance de parole et ne sera donc pas davantage détaillé.
Pour l'élaboration de ces gaussiennes de référence, selon une première technique, un ensemble de trames d'apprentissage sont élaborées à partir de sons prononcés par des locuteurs. Afin de pouvoir apprendre de façon fiable des gaussiennes de parole qui représentent bien toutes les composantes de la parole possibles indépendamment du locuteur, on utilise un grand nombre de trames d'exemple, typiquement de l'ordre de plusieurs centaines de milliers de trames. Il en est de même pour les trames de Bruit. On étiquette alors manuellement les trames appartenant aux classes Bruit et Parole et l'on apprend alors, à partir de ces trames, les paramètres des mixtures de gaussiennes Bruit ou Parole, à partir du modèle HMM. Comme on le conçoit, une telle technique, qui nécessite d'écouter un grand nombre de trames, est relativement fastidieuse à mettre en oeuvre.
De préférence, le système de reconnaissance de parole est utilisé pour étiqueter automatiquement les trames en classe Bruit ou Parole. Dans ce cas, il est nécessaire d'utiliser des trames dont on connaît la séquence de mots prononcés. Ainsi, en alignant la séquence de mots prononcés avec sa référence dans la modélisation HMM, on obtient les frontières des phonèmes et donc la classification des trames 1.5 en classe Bruit ou Parole. Le modèle HMM se charge alors, comme précédemment, de récupérer les paramètres des mixtures de gaussienne, bruit ou parole.
Enfin, selon un troisième exemple, on utilise, pour la génération de la mixture de gaussiennes, les gaussiennes des modèles de phonèmes et des modèles de silence et de bruit dont dispose déjà le modèle HMM. On utilise ainsi toutes les gaussiennes des modèles de phonèmes de la modélisation HMM ainsi que toutes les gaussiennes des modèles de silence et de bruit de la modélisation HMM.
A partir des mixtures de gaussiennes préalablement élaborées ou récupérées, on calcule tout d'abord, pour chaque trame courante représentée par son vecteur de coefficients cepstraux tel qu'élaboré par le module analyse 16, la vraisemblance lpa,oie (X) de la trame X dans la classe Parole.
Ce calcul est effectué au moyen de la relation: lparoie (X) = Oi=i,..,N, ro,e7igi (X) (1) dans laquelle: Nparole est le nombre de gaussiennes de la classe Parole, 7ti désigne la probabilité à priori associée à la gaussienne de parole g, de paramètres pour laquelle on calcule la vraisemblance de la trame X; et Oi=1 Npaa,e peut être considéré, par exemple, comme l'opérateur maxi_1 Nparole ou comme l'opérateur E i=1,..9Nparole En ce qui concerne la gaussienne de parole, celle-ci est donnée par la relation: gl(X)= 1 exp- 1(X--,uj)'E-1(X- l) (2) (27te. Ej 2 1 Dans chacun des cas, on obtient une vraisemblance particulière, c'est-à-dire: l''" parole(X) = mwCi=1,...Nparole7igi(X)
IF
parole(X)=l.
arole(X) = Ei 7r =1,..,NparaiPigi(X) De même, on calcule la vraisemblance lbraif(X) de la trame X dans la classe bruit, selon la relation: 20, lbrui, (X) = 0 i=],.., Nn, a ki gi (x) (3) dans laquelle: Nbrai, est le nombre de gaussiennes de la classe bruit; Tri la probabilité a priori associée à la gaussienne de bruit gi de paramètres pour laquelle on calcule la vraisemblance de la trame X; ei=l Npa peut être considéré comme l'opérateur maxi=l,..,Npa.a,P ou comme l'opérateur Ei=1,..,Nparole En ce qui concerne la gaussienne de bruit, celle-ci est donnée -30 par la relation: l.5 Si(x)= 1 exp-2(X-)'E.'(X-Pl) (4) Dans chacun des cas, on obtiient une vraisemblance particulière, c'est-à-dire: brmuit (X) =maxi=l,..,N ig!(X) 6 ui brui! (X) = Ei=1,..,Na,i Rigi (X) On calcule alors le rapport de vraisemblance pour la trame 10 courante à partir de la relation: llr(X) = lparole(X) lbruit (X) avec les deux cas particuliers suivants Imax X llrux (X) _ parole max(X) bruit l llr(X) = parole(X) bruit (X) Dans le premier cas particulier de llrmax(X), ce rapport correspond au rapport de vraisemblance entre la vraisemblance maximale parmi les gaussiennes de la classe Parole et la vraisemblance maximale parmi les gaussiennes de la classe Bruit. Selon une interprétation géométrique, ceci peut s'interpréter comme une méthode de recherche du plus proche voisin parmi les représentants de la classe Parole et de recherche du plus proche voisin parmi les représentants de la classe Bruit. Le critère d'appartenance de la trame courante X à la classe Parole devient alors une fonction (par exemple, différence ou rapport) de la distance au plus proche voisin de chacune des classes. El
(27r)%. (5) 15.
On peut également, à partir de la modélisation en gaussiennes, obtenir une modélisation simplifiée, de type quantification vectorielle , qui utilise un dictionnaire de quantification dérivé des paramètres des gaussiennes. Il s'agit alors de rechercher le plus proche voisin dans chacune des classes, comme étant celui donnant lieu à une distorsion de quantification minimale. On peut alors en déduire une valeur reflétant l'appartenance de la trame à la classe Parole par rapport à la classe Bruit en prenant, par exemple, le rapport des distorsions minimales pour chacune de ces deux classes.
Comme indiqué précédemment, le rapport de vraisemblance ainsi élaboré est utilisé pour gouverner les transitions de l'automate, conjointement avec une analyse du niveau énergétique de la trame.
On va maintenant décrire, en référence à la figure 2, le fonctionnement de l'automate.
Les conditions gouvernant les transitions entre les états sont, pour cet automate, les suivantes: Condition Cl: cette première condition est basée sur un critère énergétique, lui-même basé sur l'utilisation des statistiques du bruit. On fait l'hypothèse classique selon laquelle le logarithme de l'énergie du bruit E(n) suit une loi normale de paramètres ( , E2).
Dans cet exemple, le logarithme de l'énergie du bruit E(n) d'une trame n est le logarithme de l'énergie à court terme du bruit, c'est-à-dire le logarithme de la somme des carrés des échantillons de la trame n. Les statistiques du logarithme de l'énergie du bruit sont 25. estimés lorsque l'automate est dans un état 1 bruit ou silence .
La moyenne et l'écart type sont respectivement estimés par les équations (6) et (7) suivantes: (n) = (n -1)+(1 2.)(E(n) (n -1)), (6) â(n) = 6(n -1) + (1 )t)(IE(n) (n -1)I cs(n -1)), (7) dans lesquelles n représente l'indice de la trame, E est un facteur d'oubli (typiquement égal à 0,995), et E(n) est le logarithme de l'énergie pour la trame courante.
On considère le logarithme de l'énergie de chaque trame et l'on cherche à vérifier l'hypothèse selon. laquelle l'automate est dans l'état bruit ou silence , ce qui correspond à une absence de parole. La décision sera alors prise en fonction de l'écart du logarithme de l'énergie E(n) de la trame considérée n, par rapport à la moyenne estimée du bruit, c'est-à-dire selon la valeur du rapport critique r(E(n)) défini comme suit: r(E(n)) = E(n) (n) (8) Le rapport critique est alors comparé à un seuil de détection prédéfini, selon la relation suivante (condition Cl) : r(.E(n))>SeuilE (9) Typiquement, des valeurs de seuil comprises entre 1,5 et 3,5 peuvent être utilisées.
Cette première condition, fondée sur l'utilisation d'une information énergétique E(n) du signal d'entrée est appelée critère SB dans la suite de la description. Cependant, on notera que d'autres critères utilisant une information d'énergie du signal d'entrée, peuvent également être utilisés dans le cadre de la présente invention.
- Condition C2: cette condition est basée sur le rapport de vraisemblance calculé pour la trame courante.
Comme indiqué précédemment, cette condition est basée sur un calcul de rapport de vraisemblance, selon la relation 5 précédemment mentionnées. Par exemple, on considère le rapport de vraisemblance llr"ax(X) et l'on compare ce rapport à un seuil, selon la relation (10) suivante llrmaX (X)> S e u i l r 13 (10) En d'autres termes, cet automate utilise essentiellement deux conditions pour gouverner les transitions entre les états et détecte la parole s'il y a eu suffisamment de trames énergétiques consécutives et que si, parmi ces trames, un nombre suffisant de trames ont été classées comme appartenant à la classe de trames Parole en utilisant les mixtures de gaussiennes.
- Condition C3: cette condition est basée sur un contrôle de durée de parole.
Cette condition est basée sur l'utilisation d'un compteur DP incrémenté à chaque décision de l'automate tendant à rester dans l'état parole . La condition C2 est vérifiée lorsque le compteur DP atteint une valeur de seuil parole minimum prédéterminée. En d'autres termes, selon cette condition, l'automate vérifie qu'il est resté dans l'état parole au-delà d'un nombre minimum.
- Condition C4: cette condition est basée sur une classification de la trame dans la classe de trames Parole.
Pour valider cette condition, l'automate vérifie que des trames 20. consécutives incidentes ont été classées dans la première classe de trames de parole un nombre de fois supérieur à une valeur de seuil.
Cette condition utilise un compteur DPGMM et une valeur de seuil parole minimum GMM .
- Condition C 5: cette condition est basée sur un contrôle de durée de silence.
Cette condition est vérifiée si la durée de silence DS représentée par un compteur est supérieure à une valeur de seuil silence fin .
L'état initial de l'automate est l'état 1 bruit ou silence .
L'automate reste dans cet état tant qu'aucune trame énergétique n'est reçue (condition non_C1 ), c'est-à-dire une trame dont l'énergie est supérieure à un seuil de détection prédéterminé.. A chaque réception 14G d'une trame insuffisamment énergétique, l'action Al est effectuée, c'està-dire que le compteur DS est incrémenté.
Lors de la réception de la première trame dont l'énergie est supérieure au seuil de détection (condition Cl ), l'automate passe dans l'état 2 présomption de parole . Ce faisant, le compteur DP est positionné à 1 (action A2) et le compteur DPGM:M est positionné à 0 (action A3). Dans l'état 2, la réception d'une trame non énergétique (condition non_C1 ) provoque le retour à l'état 1 bruit ou silence et l'affectation à la valeur DS de la somme des compteurs DS et DP (action A4).
On notera que dans l'état présomption de parole , l'automate calcule pour chaque trame son rapport de vraisemblance par mixture de gaussiennes. L'automate reste dans l'état présomption de parole tant que la condition Cl est remplie et que les conditions C3 et C4 ne sont pas remplies.
Si les conditions C3 et C4 sont remplies, l'automate passe dans l'état parole , c'est-à-dire lorsque l'automate est resté dans l'état 2 pour un nombre minimum parole minimum prédéterminé de trames, et qu'un nombre suffisant de trames ont été placées comme paroles en - utilisant les mixtures de gaussiennes. I1 reste alors dans l'état 3 parole , tant que les trames sont énergétiques (condition Cl). A chaque réception d'une trame, le compteur DP est incrémenté (action A5).
En revanche, il passe à ]'état 4 plosive non voisée ou silence dès que la trame courante est non énergétique (condition non_C1 ). Dans ce cas, le compteur DS est positionné à 1 (action A7). Dans cet état 4, la réception d'un nombre de trames successives non énergétiques (condition non._C1 ) dont la durée cumulée est supérieure à silence fin (condition C5) confirme un état de silence et provoque le retour de l'automate dans l'état 1 bruit ou silence . Les compteurs DS et DP sont alors remis à O. La variable silence fin sert par conséquent à confirmer un état de silence dû à la fin de la parole. Par exemple, dans le cas de la parole continue, silence fin peut atteindre une seconde.
Au contraire, si dans l'état 4 plosive non voisée ou silence , la trame courante est énergétique (condition Cl), l'automate passe dans l'état 5 reprise possible de parole , il reste dans cet état 5 tant que la condition Cl est remplie et que la condition C3 n'est pas remplie. Dans cet état 5, la réception d'une trame non énergétique (condition non_Cl ) le fait retourner dans l'état 1 bruit ou silence ou dans l'état 4 plosive non voisée ou silence selon que la durée de silence DS est supérieure (C5) ou non ( non_C5 ) à un nombre prédéterminé de trames (silence fin). La durée de silence représente le temps passé à l'état 4 plosive non voisée ou silence et dans l'état reprise possible de parole . Enfin, si la condition Cl 15. & C3 (& désigne le et logique) est vérifiée, c'est-à-dire si l'automate est resté durant un nombre minimum (parole minimum) de trames énergétiques dans l'état 5 ( reprise possible de parole ), il retourne alors dans l'état 3 ( parole).
On a représenté sur la figure 3 des courbes montrant la variation de taux d'erreurs définitives en fonction de taux d'erreurs rejetables, d'une part en utilisant un algorithme basé sur des critères énergétiques seuls (courbes Ti et T2) et, d'autre part, en utilisant des critères énergétiques combinés à une classification en utilisant une modélisation par mixture de gaussiennes (courbes T' l et T'2).
Par erreurs définitives , on entend des erreurs qui entraînent systématiquement des erreurs du module de reconnaissance vocale 14. Il s'agit essentiellement de fragmentations, pour lesquelles un mot est découpé en plusieurs détections, d'omissions, pour lesquelles un mot n'est pas détecté, ou de regroupements, pour lesquels plusieurs mots sont regroupés en une seule détection.
Par erreurs rejetables , on entend les erreurs qui peuvent éventuellement être rejetées par le module de reconnaissance vocale 14. Il s'agit essentiellement d'insertions, pour lesquelles des bruits sont détectés comme étant de la parole.
Pour chacun des algorithmes considérés, on a représenté la variation du taux d'erreurs définitives en fonction du taux d'erreurs rejetables, d'une part dans des conditions fortement bruitées, c'est-à-dire pour un rapport Signal/Bruit inférieur à 20 dB (courbes T2 et T'2) et, d'autre part, dans des conditions faiblement bruitées, c'est-à-dire pour un rapport Signal/Bruit supérieur à 20 dB (dans des conditions faiblement bruitées), c'est-à-dire pour un rapport Signal/Bruit supérieur à 20 dB (courbes Tl et T' 1). On constate une très nette amélioration des performances de détection de
parole en utilisant la classification des trames à partir du calcul du rapport de vraisemblance des mixtures de gaussiennes.combinées à un critère énergétique, par rapport à une détection utilisant uniquement un critère énergétique, que ce soit dans des conditions fortement bruitées ou faiblement bruitées. On constate en particulier une chute du taux d'erreurs tant définitives que rejetables.
- 17 -

Claims (12)

REVENDICATIONS
1. Procédé de détection de parole dans un signal audio, caractérisé en ce que l'on analyse le niveau énergétique de chaque trame du signal audio pour détecter la parole dans le signal, et l'on valide la détection de parole en analysant pour chaque trame un paramètre statistique représentatif de l'appartenance de la trame à une première classe de trames prédéterminées correspondant à des trames de parole, par rapport à une deuxième classe de trames correspondant à des trames de bruit, de manière à en déduire la nature de la trame du signal audio.
2. Procédé selon la revendication 1, caractérisé en ce que les classes de trames sont représentées chacune par un mélange de gaussiennes représentant des densités de probabilité de chaque classe.
3. Procédé selon l'une des revendications 1 et 2, caractérisé en ce que les mélanges de gaussiennes des première et deuxième classes de trames sont extraites d'un système de reconnaissance vocale (14) utilisant un modèle de Markov caché (HMM).
4. Procédé selon l'une quelconque des revendications 1 à 3, caractérisé en ce que la trame de signal audio est représentée par un vecteur de coefficients cepstraux.
5. Procédé selon l'une quelconque des revendications 1 à 4, caractérisé en ce que ledit paramètre représentatif de l'appartenance de la trame à la première classe de trame est élaboré à partir de la vraisemblance de la trame dans chacune des classes.
6. Procédé selon la revendication 5, caractérisé en ce que le paramètre est constitué par le rapport de la vraisemblance de la trame dans la première classe sur la vraisemblance de la trame dans la deuxième classe.
7. Procédé selon l'une quelconque des revendications 1 à 5, 30. caractérisé en ce que l'on détermine l'appartenance de la trame à l'une des première et deuxième classes à partir d'une sommation de la vraisemblance calculée pour chacune des gaussiennes de chaque classe.
8. Procédé selon l'une quelconque des revendications 1 à 5, caractérisé en ce que l'on détermine l'appartenance de la trame à l'une des première et deuxième classes à partir d'une méthode de détermination du plus proche voisin dans chacune des classes.
9. Procédé selon l'une quelconque des revendications 1 à 8, caractérisé en ce que la détection de la parole est effectuée au moyen d'un automate (12) à états finis dont les états comprennent au moins 1.0 un état correspondant à un bruit ou un silence, un état correspondant à une présomption de parole et un état correspondant à de la parole, les transitions entre les états étant gouvernés par le résultat d'évaluations de critères énergétique de la trame et par le résultat de l'étape d'analyse dudit paramètre.
10. Dispositif de détection de parole dans un signal audio, caractérisé en ce qu'il comporte des moyens d'analyse du niveau énergétique de la trame de signal audio pour la détection de la parole dans le signal et des moyens (12) de calcul d'un paramètre représentatif de l'appartenance de chaque trame de signal audio à une première classe de trames prédéterminées correspondant à des trames de paroles, par rapport à une deuxième classe de trames correspondant à des trames de bruit, les moyens de calcul étant en outre adaptés pour analyser ledit paramètre pour en déduire la nature de la trame de signal audio et valider la détection de parole effectuée par les moyens d'analyse.
11. Dispositif selon la revendication 10, caractérisé en ce que les moyens de calcul (12) comportent des moyens de calcul de vraisemblance de la trame dans chacune des classes de trame.
12. Dispositif selon l'une. des revendications 10 et 11, 30. caractérisé en ce qu'il comporte en outre un automate (12) à états finis dont les états comprennent au moins un état correspondant à un bruit ou un silence, un état correspondant à une présomption de parole et un état correspondant à de la parole, les transitions entre les états étant gouvernés par le résultat d'évaluations de critères énergétique de la trame validé par le résultat de l'analyse du paramètre de la trame.
FR0500557A 2005-01-19 2005-01-19 Procede et dispositif de detection de parole dans un signal audio Withdrawn FR2864319A1 (fr)

Priority Applications (1)

Application Number Priority Date Filing Date Title
FR0500557A FR2864319A1 (fr) 2005-01-19 2005-01-19 Procede et dispositif de detection de parole dans un signal audio

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR0500557A FR2864319A1 (fr) 2005-01-19 2005-01-19 Procede et dispositif de detection de parole dans un signal audio

Publications (1)

Publication Number Publication Date
FR2864319A1 true FR2864319A1 (fr) 2005-06-24

Family

ID=34630697

Family Applications (1)

Application Number Title Priority Date Filing Date
FR0500557A Withdrawn FR2864319A1 (fr) 2005-01-19 2005-01-19 Procede et dispositif de detection de parole dans un signal audio

Country Status (1)

Country Link
FR (1) FR2864319A1 (fr)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1083541A2 (fr) * 1993-05-19 2001-03-14 Matsushita Electric Industrial Co., Ltd. Méthode et appareil pour la détection de la parole
US20020165713A1 (en) * 2000-12-04 2002-11-07 Global Ip Sound Ab Detection of sound activity
WO2003048711A2 (fr) * 2001-12-05 2003-06-12 France Telecom System de detection de parole dans un signal audio en environnement bruite

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1083541A2 (fr) * 1993-05-19 2001-03-14 Matsushita Electric Industrial Co., Ltd. Méthode et appareil pour la détection de la parole
US20020165713A1 (en) * 2000-12-04 2002-11-07 Global Ip Sound Ab Detection of sound activity
WO2003048711A2 (fr) * 2001-12-05 2003-06-12 France Telecom System de detection de parole dans un signal audio en environnement bruite

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KARRAY L ET AL: "Towards improving speech detection robustness for speech recognition in adverse conditions", SPEECH COMMUNICATION, ELSEVIER, vol. 40, no. 3, May 2003 (2003-05-01), NETHERLANDS, pages 261 - 276, XP002267781, ISSN: 0167-6393 *
MARTIN A ET AL: "Robust speech/non-speech detection using LDA applied to MFCC", 2001 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING. PROCEEDINGS. (ICASSP). SALT LAKE CITY, UT, MAY 7 - 11, 2001, IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (ICASSP), NEW YORK, NY: IEEE, US, vol. 1 OF 6, 7 May 2001 (2001-05-07), pages 237 - 240vol1, XP002245514, ISBN: 0-7803-7041-4 *
SECK M ET AL: "Experiments on speech tracking in audio documents using Gaussian mixture modeling", 2001 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING. PROCEEDINGS (CAT. NO.01CH37221), 7 May 2001 (2001-05-07), SALT LAKE CITY, UT, USA, pages 601 - 604 vol.1, XP002267782, ISBN: 0-7803-7041-4 *

Similar Documents

Publication Publication Date Title
EP1154405B1 (fr) Procédé et dispositif de reconnaissance vocale dans des environnements a niveau de bruit fluctuant
EP0867856B1 (fr) "Méthode et dispositif de detection d'activité vocale"
EP2415047B1 (fr) Classification du bruit de fond contenu dans un signal sonore
EP2419900B1 (fr) Procede et dispositif d'evaluation objective de la qualite vocale d'un signal de parole prenant en compte la classification du bruit de fond contenu dans le signal
US8831947B2 (en) Method and apparatus for large vocabulary continuous speech recognition using a hybrid phoneme-word lattice
WO2003048711A2 (fr) System de detection de parole dans un signal audio en environnement bruite
FR2743238A1 (fr) Dispositif de telecommunication reagissant a des ordres vocaux et procede d'utilisation de celui-ci
FR2944903A1 (fr) Systeme et methode pour detecter des evenements audio anormaux
EP1159737B9 (fr) Reconnaissance du locuteur
CN111640456B (zh) 叠音检测方法、装置和设备
WO2002065454A1 (fr) Procede, module, dispositif et serveur de reconnaissance vocale
EP1131813B1 (fr) Procede de reconnaissance vocale dans un signal acoustique bruite et systeme mettant en oeuvre ce procede
EP0234993B1 (fr) Procédé et dispositif de reconnaissance automatique de cibles à partir d'échos "Doppler"
US20060173678A1 (en) Method and apparatus for predicting word accuracy in automatic speech recognition systems
Hwang et al. End-to-end speech endpoint detection utilizing acoustic and language modeling knowledge for online low-latency speech recognition
WO2023057384A1 (fr) Procédé d'analyse d'un signal sonore bruité pour la reconnaissance de mots clé de commande et d'un locuteur du signal sonore bruité analysé
FR2864319A1 (fr) Procede et dispositif de detection de parole dans un signal audio
FR2856506A1 (fr) Procede et dispositif de detection de parole dans un signal audio
EP1665231B1 (fr) Procede pour le dopage non supervise et le rejet des mots hors vocabulaire en reconnaissance vocale
FR2944909A1 (fr) Dispositif de detection d'evenements dans un flux audio
Genoud et al. Simultaneous speech and speaker recognition using hybrid architecture
WO2007088299A1 (fr) Mesure de confiance associee a une hypothese de reconnaissance vocale automatique
WO2002082424A1 (fr) Procede et dispositif d'extraction de parametres acoustiques d'un signal vocal
WO2008029270A2 (fr) Traitement d'un signal vocal, en vue d'une comparaison a une reference
FR2604816A1 (fr) Procede de comparaison de formes dans un systeme de reconnaissance de formes

Legal Events

Date Code Title Description
ST Notification of lapse

Effective date: 20091130