DE69321656T2 - Verfahren zur Spracherkennung - Google Patents
Verfahren zur SpracherkennungInfo
- Publication number
- DE69321656T2 DE69321656T2 DE69321656T DE69321656T DE69321656T2 DE 69321656 T2 DE69321656 T2 DE 69321656T2 DE 69321656 T DE69321656 T DE 69321656T DE 69321656 T DE69321656 T DE 69321656T DE 69321656 T2 DE69321656 T2 DE 69321656T2
- Authority
- DE
- Germany
- Prior art keywords
- speech
- time
- cepstrum
- vector
- time sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 42
- 238000001228 spectrum Methods 0.000 claims description 68
- 239000013598 vector Substances 0.000 claims description 62
- 230000000873 masking effect Effects 0.000 claims description 36
- 238000009499 grossing Methods 0.000 claims description 23
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 238000013179 statistical model Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims 1
- 230000003595 spectral effect Effects 0.000 description 16
- 238000009826 distribution Methods 0.000 description 10
- 238000012360 testing method Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000013139 quantization Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 230000033001 locomotion Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Complex Calculations (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Description
- Die vorliegende Erfindung bezieht sich auf ein Spracherkennungsverfahren. Genauer, die vorliegende Erfindung bezieht sich auf ein Spracherkennungsverfahren, bei dem eine automatische Spracherkennung durch eine Maschine, wie ein elektronischer Computer bewirkt wird, in dem Abstand oder Wahrscheinlichkeit zwischen einer Zeitsequenz eines Eingangssprachspektrums und einer Zeitsequenz eines Modellsprachspektrums oder seines statistischen Modelles benutzt wird.
- Grundsätzlich wird bei einer automatischen Spracherkennung durch einen elektronischen Computer oder ähnlichem die Sprache in einer Spektrumszeitsequenz umgewandelt und erkannt. Cepstrum wird oft als Merkmalsparameter benutzt, der das Spektrum darstellt. Das Cepstrum ist als eine inverse Fouriertransformierte des logarithmischen Spektrums definiert. Im folgenden wird das logarithmische Spektrum einfach als Spektrum bezeichnet.
- Kürzlich ist berichtet worden, daß die Zuverlässigkeit der Spracherkennung verbessert werden kann, wenn Änderung des Spektrums in der Zeit oder auf der Frequenzachse als Merkmal zusammen mit dem Spektrum benutzt wird. Vorgeschlagen sind "delta cepstrum", das die Zeitänderung des Spektrums benutzt [Sadaoki Furui: "Speaker-Independent Isolated Word Recognition Using Dynamic Features of Speech Spectrum", IEEE Trans., ASSP-34, Nr. 1, S. 52-59 (1986-2)]; "spektrale Neigung", die die Frequenzänderung des Spektrums benutzt [D. H. Klatt: "Prediction of Perceived Phonetic Distance from Critical-Band Spectra: A First Step", Proc. ICASSP82 (International Conference on Acoustics Speech and Signal Processing), S. 12778-1281 (Mai 1982), Brian A. Hanson und Hisashi Wakita: "Spectral Slope Distance Measures with Linear Prediction Analysis for Word Recognition in Noise", IEEE Trans. ASSP-35, Nr. 7, S. 968-973 (Juli 1987)]; und "spektrale Bewegungsfunktion", die die Bewegung des Formans erfaßt [Kiyoaki Aikawa und Sadaoki Furui: "Spectral Movement Function and its Application to Speech Recognition", Proc. ICASSP88, S. 223-226 (April 1988)].
- "Delta Cepstrum" basiert auf der Zeitableitung der logarithmischen Spektralzeitsequenz und wird durch ein Zeitfilter berechnet, das nicht von der Frequenz abhängt. "Spektrale Neigung" beruht auf der Frequenzableitung des logarithmischen Spektrums und wird durch ein Frequenzfilter berechnet, das nicht von der Zeit abhängt. "Spektrale Bewegungsfunktion" basiert auf der Zeitfrequenzableitung des logarithmischen Spektrums und wird durch Durchführen sowohl des Zeitfilters als auch des Frequenzfilters berechnet. Hier ist das Frequenzfilter konstant unabhängig von der Zeit, und das Zeitfilter ist konstant für jede Frequenz. Das Zeitfilter adressiert Fluktuation des Spektrums auf der Zeitachse, während das Frequenzfilter Fluktuation des Spektrums auf der Frequenzachse adressiert.
- Weiterhin offenbart das US-Patent 5,097,510 ein System zum Verringern von Rauschen von einem Sprachsignal, das durch Rauschen verunreinigt ist. Das System verwendet eine künstliche Intelligenz, die auf die Einstellung hin eines Filteruntersystemes durch Unterscheiden zwischen Rauschen und Sprache in dem Spektrum des eingehenden Signals der Sprache plus Rauschen entscheiden kann. Das System tut dies, indem das Muster einer Leistungs- oder Hüllenfunktion des Frequenzspektrums des eingehenden Signals getestet wird. Das System bestimmt, daß die schnell ändernden Abschnitt der Hülle Sprache bezeichnen, während der Rest so bestimmt wird, daß er die Frequenzverteilung der Rauschleistung ist. Die Bestimmung wird durchgeführt, während entweder das ganze Spektrum geprüft wird oder Frequenzbänder davon, unabhängig davon, wo das Maximum des Spektrums liegt.
- Das US-Patent 5,067,158 offenbart ein Verfahren zum Codieren von Sprache, bei dem insbesondere der LPC-Rest des Sprachsignales unter Benutzung minimaler Phasenspektralrekonstruktionstechniken codiert wird, in dem das LPC-Restsignal auf eine Weise ungefähr eines minimalen Phasensignales transformiert wird und dann spektrale Rekonstruktionstechniken zum Darstellen des LPC-Restsignales durch entweder seine fouriertransformierte Größe oder Phase angewendet werden. Die nicht iterative Spektralrekonstruktionstechnik beruht auf dem Cepstralkoeffizienten, durch den die Größe und die Phase eines minimalen Phasensignales aufeinander bezogen sind.
- Aus der EP 0 290 190 A kann ein Musteranpaßsystem entnommen werden, das bei einer Spracherkennungsausrüstung benutzt wird, insbesondere für zwei Achsenmusteranpassung auf der Frequenz- und Zeitachse unter Benutzung eines linearen Vorhersagekoeffizienten oder ähnliches.
- Es wird jedoch angenommen, daß der Merkmalsextraktionsmechanismus des menschlichen Hörsystems sich von jedem dieser Filter unterscheidet. Das menschliche Hörsystem weist einen Maskierungseffekt auf. In einem zweidimensionalen Spektrum auf einer Zeitfrequenzebene wird ein Sprachsignal einer bestimmten Frequenz an einem bestimmten Zeitpunkt durch ein Sprachsignal maskiert, das nahe in der Zeit und in der Frequenz ist. Mit anderen Worten, es wird unterdrückt. Bezüglich des Maskierungseffektes, wenn die Sprache an einem bestimmten Zeitpunkt eine Sprache maskiert, die in der Zeit folgt, wird dieser Effekt als Vorwärtsmaskierung bezeichnet. Wir können annehmen, daß die Vorwärtsmaskierung zum Speichern der Spektralform eines vorangehenden Zeitpunktes dient, und daher können wir annehmen, daß ein dynamisches Merkmal, das nicht in der vorangehenden Sprache enthalten ist, durch diesen Effekt extrahiert wird. Gemäß einer hörpsychologischen Studie wird das Frequenzmuster der Vorwärtsmaskierung glatter, wenn das Zeitinterval zwischen dem Maskierungsgeräusch und dem maskierten Geräusch (Maskierung-Signal-Zeitintervall) länger wird [Elichi Miyasaka, "Spatio-Temporal Characteristics of Masking of Brief Test-Tone Pulses by a Tone-Burst with Abrupt Switching Transients", J. Acoust. Soc. Jpn, Bd. 39, Nr. 9, S. 614-623, 1983 (auf japanisch)]. Diese maskierte Sprache ist die effektive Sprache, die in dem menschlichen Hörsystem empfunden wird. Dieser Signalverarbeitungsmechanismus kann nicht durch ein festes Frequenzfilter, das nicht von der Zeit abhängt, realisiert wer den. Damit dieser Signalverarbeitungsmechanismus eingesetzt wird, ist es notwendig, einen Satz von Frequenzfiltern zu benutzen, deren Eigenschaften sich zeitabhängig ändern. Der Satz von Frequenzfiltern, deren Eigenschaften als Spektrumglättungsfilter sich in Abhängigkeit von dem Zeitinterval von dem Empfangen der Sprache, die als Maskierung dient, und die sich auf die Frequenz beziehende Tätigkeit, hängt von der Zeit ab. Ein Mechanismus zum Extrahieren von Merkmalsparametern, die solch Höhreigenschaften in Betracht ziehen, ist bis jetzt nicht berichtet worden.
- Es ist daher eine Aufgabe der vorliegenden Erfindung, ein Verfahren und ein Gerät der Spracherkennung vorzusehen, die die Zuverlässigkeit der automatischen Spracherkennung durch eine Maschine verbessern können, bei dem eine Spektralzeitsequenz näher zu der tatsächlichen Spektralzeitsequenz, die von einem Menschen empfunden wird, vorgesehen wird, in dem ein Spektralglättungsfilter mit Filtereigenschaften in Abhängigkeit von der Zeitdauer benutzt wird, wodurch Zeitfrequenzeigenschaften einer Vorwärtsmaskierung simuliert werden.
- Diese Aufgabe wird gelöst durch ein Spracherkennungsverfahren, wie es in Anspruch 1 definiert ist.
- Bevorzugte Ausgestaltungen des Spracherkennungsverfahrens sind in den Unteransprüchen 2 bis 13 angegeben.
- Die Aufgabe wird ebenfalls gelöst durch ein Spracherkennungsgerät, wie es in Anspruch 14 definiert ist.
- Bevorzugte Ausgestaltungen des Gerätes sind in den Unteransprüchen 15 und 16 angegeben.
- Bei dem Spracherkennungsverfahren gemäß der vorliegenden Erfindung kann ein dynamisches Merkmal, wie es bei den Maskierungseigenschaften eines menschlichen Hörsystems beobachtet wird, extrahiert werden. Genauer, ein Merkmal, das bis jetzt noch nicht aufgetreten ist, wird verstärkt, während ein Merkmal, das kontinuierlich aufgetreten ist, unterdrückt wird. Da die vorangehenden Spektren geglättet werden, so daß sie zu dem Maskierungsmuster addiert werden, stellt das Maskierungsmuster ein globales Merkmal der vorangehenden Spracheingabe dar, und die Änderung davon stellt das Merkmal an jedem Zeitpunkt dar. Durch dieses Verfahren kann das dynamische Merkmal, das bei der Spracherkennung wichtig ist, extrahiert werden und zusätzlich kann der Einfluß eines stationären spektralen Neigung in Abhängigkeit von dem Individuum, die in der Sprache oder in der Übertragungseigenschaft bei dem Sprachsignalübertragungssystem enthalten sind, verringert werden. Das Delta- Cepstrum, das ein dynamischer Merkmalparameter ist und herkömmlicherweise benutzt wird, weist keine Information einer Spektralform auf, und daher muß es mit anderen Parametern wie Cepstrum benutzt werden. Da jedoch das dynamische Cepstrum sowohl gegenwärtige als auch vorübergehende Merkmale eines Spektrums enthält, ist es nicht notwendig, es mit anderen Parametern zu benutzen. Weiter kann durch Benutzen solch eines Zeitfrequenzmaskierungsmechanismus ein dynamisches Merkmal auf der Grundlage des vorangehenden geglätteten Spektrums erhalten werden, und daher kann das dynamische Merkmal mit weniger Einfluß der detaillierten Formansstruktur des vorangehenden Phonems extrahiert werden.
- Die vorangehenden und anderen Aufgaben, Merkmale, Aspekte und Vorteile der vorliegenden Erfindung werden ersichtlicher aus der folgenden detaillierten Beschreibung der vorliegenden Erfindung, wenn sie in Zusammenhang mit den begleitenden Zeichnungen genommen wird.
- Fig. 1 ist ein Blockschaltbild, das einen Aufbau einer Ausführungsform der vorliegenden Erfindung zeigt.
- Fig. 2 ist ein Blockschaltbild, das einen Aufbau einer anderen Ausführungsform der vorliegenden Erfindung zeigt.
- Fig. 3 ist ein Blockschaltbild, das einen Aufbau einer noch anderen Ausführungsform der vorliegenden Erfindung zeigt.
- Zuerst wird das Prinzip der vorliegenden Erfindung beschrieben. Bei dieser Erfindung wird Sprache in eine Zeitsequenz von Cepstrumskoeffizienten umgewandelt. Das Cepstrum kann leicht unter Benutzung einer linearen Vorhersagecodieranalyse (LPC) berechnet werden [J. D. Markel und A. H. Gray, Jr.: "Linear Prediction of Speech", Springer-Verlag (Berlin Heidelberg New York, 1976)]. Die Tätigkeit des Frequenzglättens des Spektrums bedeutet das Berechnen der Faltung des Spektrums und des Glättungsfilters auf der Frequenzachse, und es wird äquivalent durchgeführt durch Multiplizieren eines Cepstrumvektors und eines cepstralen Hebers. Ein Cepstrumvektor wird durch inverse Fouriertransformation eines logarithmischen Spektrums berechnet. Ein cepstraler Heber wird durch inverse Fouriertransformation des Glättungsfilters berechnet. Der Cepstrumskoeffizient der Kartenordnung der Sprache an dem Zeitpunkt i sei als ck(i) dargestellt. Wenn der Koeffizient der Kartenordnung des Hebers zum Glätten des Spektrums n Zeitpunkte zuvor als Ik(n) dargestellt wird, kann der Cepstrumsexpansionskoeffizient der Kartenordnung mk(i) des Maskierungsmusters zu der gegenwärtigen Zeit i als eine gesamte Summe des Sprachencepstrums, das durch den Heber gewichtet ist, für vorangehende N Zeitpunkte dargestellt werden, durch die folgende Gleichung (1):
- N stellt die maximale Zeitdauer dar, in der Maskierung effektiv ist. Das maskierte effektive Sprachspektrum kann durch Subtrahieren des Maskierungsmusters von dem gegenwärtigen Spektrum erhalten werden, und in der cepstralen Domäne kann der Cepstrumsexpansionskoeffizient der Kartenordnung des maskierten effektiven Spektrums erhalten werden durch Subtrahieren des Cepstrumsexpansionskoeffizienten des Maskierungsmusters von dem gegenwärtigen Cepstrum, wie es durch die folgende Gleichung (2) dargestellt ist:
- bk(i) = ck(i) - mk(i) (2)
- Dieser Parameter wird als ein "dynamisches Cepstrum" bezeichnet.
- Der Bandpaß des Frequenzglättungshebers Ik(n), der hierin benutzt wird, ist dazu ausgelegt, daß er schmaler wird, wenn die Zeit n weiter von der gegenwärtigen Zeit zurückverfolgt wird, wobei die Frequenz der 0-ten Ordnung die Mitte darstellt. Bei der ersten Ausführungsform wird ein Quadratfenster für die Form des Hebers benutzt, das durch die folgende Gleichung dargestellt wird:
- Hier stellt q&sub0; eine Abschneidefrequenz einen Zeitpunkt vor der Gegenwart dar, und ν stellt die Rate des Schmalerwerdens des Frequenzbandpasses zu jedem Zeitfortschritt um einen Rahmen dar. Der Einfluß der vorangehenden Sprache als ein Maskierungsmuster auf die gegenwärtige Sprache nimmt exponentiell ab, wobei die anfängliche Maskierungsabnahmerate 0ββ < α < 1 ist und die mediale Maskierungsabnahmerate 0 < β < 1 ist.
- Eine Zeitsequenz eines dynamischen Cepstrums wird durch die oben beschriebene Tätigkeit erzeugt, die aufeinanderfolgend für die Sprache an entsprechenden Zeitpunkten von der Vergangenheit ausgeführt wird. Spracherkennung wird ausgeführt, indem die Zeitsequenz der erzeugten dynamischen Cepstrumsreihe benutzt wird. Das Erkennungsverfahren kann Modellanpassung unter Benutzung dynamischer Programmierung, DTW (Dynamic Time-Warping = dynamische Zeitverwerfung) oder HMM (Hidden Markov Model = verborgene Markov-Modelle) benutzt werden. Da das dynamische Cepstrum aus den Sprachspektren der Vergangenheit und der Gegenwart erhalten wird und kein zukünftiges Spektrum benutzt, ist es ebenfalls für ein Spracherkennungsgerät bequem, das zeitsynchrone Verarbeitung durchführt. Die Ausführungsformen gemäß des Prinzips werden im folgenden beschrieben:
- Fig. 1 ist ein Blockschaltbild einer Ausführungsform der vorliegenden Erfindung. Eingangssprache wird in eine elektrisches Signal umgewandelt, dessen Frequenzkomponente nicht niedriger als 1/2 der Abtastfrequenz durch ein Tiefpaßfilter 2 entfernt wird, und das Signal wird an einen A/D-Wandler 3 angelegt. Der A/D-Wandler 3 weist eine Abtastfrequenz von zum Beispiel 12 kHz und ein Quantisierungsniveau von 16 Bit auf, und durch diesen Wandler wird das Signal in ein Digitalsignal umgewandelt. Das digitale Signal wird an eine Autokorrelationsanalyseeinheit 4 angelegt, eine Sequenz von Sprachsegmenten wird alle 10 msek erzeugt unter Benutzung eines Hamming-Fensters mit der Breite von 30 msek, und Autokorrelationskoeffizienten der ersten bis 16-ten Ordnung werden berechnet. In diesem Fall ist das Zeitpunktintervall 10 msek. Eine Koeffizientenanalyseeinheit 5 linearer Vorhersage berechnet lineare Vorhersagekoeffizienten der ersten bis 16-ten Ordnung aus den Autokorrelationskoeffizienten, und eine Cepstrumanalyseeinheit 6 berechnet Cepstrumskoeffizienten der ersten bis 16-ten Ordnung. Weiterhin wird vor der linearen Vorhersageanalyse eine Frequenzanhebung zum Verstärken der Hochfrequenzkomponente der Sprache durch Ausführen von z. B. eines Differentialfilterns der Sprechwelle bewirkt. Eine dynamische Cepstrumserzeugereinheit 7 sieht ein Zeitfrequenzmaskierungsfilter auf der Cepstrumszeitsequenz zum Erhalten einer Zeitsequenz des dynamischen Cepstrums vor. Entsprechende Koeffizienten des Maskierungshebers sind auf q&sub0; = 7, α = 0,5, β = 0,5, ν = 1, N = 4 gesetzt. Die Koeffizienten des Maskierungshebers der k-te Ordnung zu der Zeitverzögerung von n sind in Tabelle 1 unten gezeigt.
- Tabelle 1
- Koeffizienten des quadratischen Spektrumsglättungshebers
- Bei dieser Ausführungsform wird ein diskretes HMM benutzt, daß eine Ausgangswahrscheinlichkeit eines repräsentativen Vektorcodes benutzt, und daher ist ein Schritt der Vektorquantifizierung notwendig [Y. Linde, A. Buzo, und R. M Gray, "An algorithm for vector quantizer design", IEEE Trans. Commun., Bd. COM-28, S. 84- 95 (Jan. 1980)].
- Ein Schalter SW1 wird zum Erhalten repräsentativer Punkte eines Vektors geschaltet, d. h. eines Schwerpunktes von einer Zahl von Proben eines Merkmalsvektors in einer vorbestimmten Zeitdauer. Wenn der Schalter zu der "a"-Seite geschaltet wird, wird eine Zahl von Proben des dynamischen Cepstrums, die in der Erzeugereinheit 7 für das dynamische Cepstrum erhalten werden, an die Schwerpunktserzeugereinheit 8 angelegt, und Schwerpunktsvektoren von 256 dynamischen Cepstra können durch Vektorquantisierung erhalten werden. Die Schwerpunktsvektoren werden in einer Codebuchspeichereinheit 9 gespeichert. Wenn der Schalter SW1 zu der "b"-Seite geschaltet wird, ordnet eine Vektorquantisierungseinheit 10 einen Schwerpunktsvektor zu, der am nächsten zu entsprechenden Vektoren der dynamischen Cepstrumszeitsequenz der Sprache ist, indem ungefähr 256 in der Codebuchspeichereinheit 9 gespeicherte Schwerpunktsvektoren benutzt werden, und die Sprache wird durch eine Sequenz der Vektorcodezahlen dargestellt. Nähe zwischen dem Schwerpunkt und einem jeden Vektor kann durch ein Maß gemessen werden wie die Euklidische Distanz.
- Ein Schalter SW2 dient zum Schalten zwischen HMM-Lernen und Erkennen der Testsprache. Wenn er zu der "a"-Seite geschaltet ist, wird eine Zahl von Phonemtrainingsproben in einer HMM-Trainingseinheit 11 gesammelt, und gelernt gemäß dem Baum-Welch-Lernalgorithmus [L. E. Baum, "An Inequality and Associated Maximization Technique in Statistical Estimation for Probabilistic Functions of a Markov Process", Inequalities, 3, S. 1-8, 1972]. Da die Ausführungsform 1 auf ein Gerät zum Erkennen von Phonemen ist, lernt HMM auf der Phonem -nach- Phonem-Basis. Zum Beispiel wird das HMM zum Erkennen des Phonems /b/ aus einer Zahl von Beispielen /b/ gelernt. Das Phonemtrainingsbeispiel ist eine Sequenz von Vektorcodes. Die Länge der Sequenz ist variabel. Ein typisches 4-Zustands-3-Schleifen- HMM wird zum Beispiel zum Darstellen eines Phonems benutzt. Das erhaltene HMM wird in einer HMM-Speichereinheit 12 gespeichert. Solche HMMs werden entsprechend der zu erkennenden Kategorien vorbereitet. Zur Zeit der Erkennung wird der Schalter SW2 zu der "b"-Seite geschaltet, und die Sequenz von Vektorcodes der Testsprache wird von den HMMs an einer HMM-Erkennungseinheit 13 erkannt. Es gibt eine Wahrscheinlichkeitstabelle (Ausgangswahrscheinlichkeit) von Schwerpunktszahlen (Vektorcodes) für jeden Zustand (ein Code 1 an einem Zustand 1 wird zum Beispiel als eine Wahrscheinlichkeit von 0,01 aufweisend beschrieben), und die Tabelle wird auf der Grundlage der Menge der Trainingssprachen gelernt. Die Wahrscheinlichkeit des Übergangs von einem Zustand zu einem anderen wird ebenfalls gelernt.
- In der HMM-Erkennungseinheit 13 werden ein HMM-Modell von /b/, ein HMM- Modell /d/ usw. aufeinanderfolgend für die Eingangssprache untersucht, die als eine Zeitsequenz von Vektorcodes dargestellt ist, und die Wahrscheinlichkeit der Erzeugung einer Vektorcodezeitsequenz der Eingangssprache wird berechnet. Es mag unnötig sein, im einzelnen das Erkennungsverfahren unter Benutzung von HMM zu beschreiben, da es gut bekannt ist. Zusammengefaßt, ein Verfahren zum Berechnen der Wahrscheinlichkeit eines HMM in bezug auf die eingegebene Sprache ist wie folgt. Jede mögliche Zuordnung ohne Zurückverfolgen der Zeit der HMM-Zustände wird für die Vektorcodezeitsequenz der Eingangssprache ausgeführt, die Erzeugungswahrscheinlichkeit des Vektorcodes wird mit einer Zustandsübergangswahrscheinlichkeit multipliziert, und die Logarithmen der Resultate werden akkumuliert zum Erhalten einer Wahrscheinlichkeit, die die Distanz zwischen dem Modell und der Eingangssprache bezeichnet. Solche Wahrscheinlichkeiten verschiedener HMM- Modelle wie /b/, /d/ und ähnliches werden berechnet, und das Modell mit der höchsten Wahrscheinlichkeit wird als das Resultat der Erkennung angesehen, und das Resultat wird auf einer Erkennungsresultatanzeigeneinheit 14 angezeigt.
- Das durch eine Ausführungsform der vorliegenden Erfindung vorgesehene Resultat wurde durch ein Experiment des Erkennens von 6 Phonemen /b, d, g, m, n, N/ unter Benutzung von HMMs bestätigt. Phonemproben, die zum Lernen benutzt wurden, wurden aus 2640 japanischen wichtigen Wörtern extrahiert, die von einem Mann ausgesprochen wurden. Phonemproben, die zum Testen benutzt wurden, wurden aus verschiedenen 2640 wichtigen Wörtern extrahiert, die von der selben Person ausgesprochen wurden. Gemäß dem Resultat des Erkennungsexperimentes konnte die Erkennungsrate, die 84,1% betrug, wenn herkömmliche Cepstrumskoeffizienten als Merkmalsparameter benutzt wurden, auf 88,6% verbessert werden.
- Bei dem quadratischen Glättungsheber der Ausführungsform 1 sind die dynamischen Cepstrumskoeffizienten der Ordnung nicht niedriger als die anfängliche Abschneidefrequenz q&sub0; die gleichen wie die ursprünglichen Cepstrumskoeffizienten. Ein Verfahren, das einen Heber mit einer Gaußverteilung verwendet, kann als ein Verfahren vorgeschlagen werden, bei dem Maskierung sogar für Koeffizienten höherer Ordnung in Betracht gezogen werden können. Wenn der Heber in der Form einer Gaußverteilung vorliegt, liegt die Impulsantwort des Spektrumsglättungsfilters auf der Fre quenzachse, die durch eine Fouriertransformation davon erhalten wird, ebenfalls in der Form einer Gaußverteilung vor. Der k-te Koeffizient des Gaußhebers zum Glätten des Spektrums vor n Zeitpunkten wird wie folgt dargestellt:
- In dem Gaußglättungsheber stellt q&sub0; die Standardabweichung der Gaußverteilung des Glättungshebers an einem Zeitpunkt zuvor dar. Die Standardabweichung der Gaußverteilung wird linear kleiner, während die Zeit zurückverfolgt wird.
- Fig. 2 zeigt eine andere Ausführungsform der vorliegenden Erfindung. Bei dem Beispiel von Fig. 2, werden kontinuierliche HMMs als die Erkennungseinheit benutzt [Peter F. Brown: "The Acoustic-Modeling Problem in Automatic Speech Recognition", Doktor Diss., Carnegie-Mellon University (1987)]. Ein Verfahren, das ein Quadratfenster vom Gaußtyp und kontinuierliche HMMs in der Erkennungseinheit verwendet, und das Resultat eines Experimentes wird unter Bezugnahme auf die Ausführungsform von Fig. 2 beschrieben. Die Strukturen vom Mikrophon 1 bis zur Erzeugereinheit 7 des dynamischen Cepstrums sind die gleichen wie jene in Fig. 1 gezeigten. Ein Glättungsheber vom Gaußtyp wird in der Erzeugereinheit 7 des dynamischen Cepstrums benutzt. Es können sowohl die Glättungsfenster vom Quadrattyp als auch vom Gaußtyp in der Erzeugereinheit 7 des dynamischen Cepstrums in beiden Ausführungsformen von Fig. 1 und 2 benutzt werden.
- Die Parameter des Glättungshebers vom Gaußtyp werden auf N = 4, anfängliche Standardabweichung q&sub0; = 18, Standardabweichungabnahmerate ν = 1, α = 0,3 und β = 0,7 gesetzt. Da kontinuierlich HMMs in dem Beispiel von Fig. 2 benutzt werden, sind Einheiten, die sich auf Vektorquantisierung beziehen, nicht notwendig. Daher tritt das dynamische Cepstrum, das in der Erzeugereinheit 7 des dynamischen Cepstrums erhalten wird, direkt in den Schalter SW1 ein. Bei dem Lern-HMM wird der Schalter SW1 zu der "a"-Seite geschaltet. Die Zeitsequenz des dynamischen Cepstrums tritt in die kontinuierliche HMM-Lerneinheit 15 ein und wird als kontinuierliche HMM mit einer kontinuierlichen Ausgangsverteilung, die durch eine diagonale Gaußmischverteilung dargestellt ist, für jeden Zustand gelernt. Die Zahl der Mischungen der Gaußverteilung beträgt zum Beispiel 8. Das gelernte Phonemerkennungs-HMM wird in einer kontinuierlichen HMM-Speichereinheit 16 gespeichert. Wenn eine Testsprache zu erkennen ist, wird der Schalter SW1 der "b"-Seite geschaltet, Erkennung wird in der kontinuierlichen HMM-Erkennungseinheit 17 ausgeführt, und das Resultat wird auf der Erkennungsresultatanzeigeneinheit 14 angezeigt.
- Genauer, das in der kontinuierlichen HMM-Speichereinheit 16 gespeicherte kontinuierliche HMM stellt nicht die Wahrscheinlichkeit der Erzeugung von Vektorcodes, wie bei dem diskreten HMM, sondern eine Ausgangswahrscheinlichkeit durch eine Funktion, die die Wahrscheinlichkeit der Erzeugung des Vektors selbst anzeigt dar. Allgemein, diese Wahrscheinlichkeit der Erzeugung wird durch eine Mischung von Gaußverteilungen dargestellt. In der kontinuierlichen HMM-Erkennungseinheit 17 wird die Modellwahrscheinlichkeit durch das kontinuierliche HMM berechnet. Es kann unnötig sein, im einzelnen das Erkennungsverfahren gemäß dem HMM zu beschreiben, da es weit bekannt ist. Zusammenfassend, das Verfahren des Erhaltens der Wahrscheinlichkeit eines HMM für eine Eingangssprache ist wie folgt. Jede mögliche Zuordnung ohne Zurückverfolgung in der Zeit der Zustände des HMM wird für eine Zeitsequenz des dynamischen Cepstrumsvektors der Eingabesprache ausgeführt, die Ausgangswahrscheinlichkeit des dynamischen Cepstrumsvektors wird mit der Übergangswahrscheinlichkeit multipliziert, die Logarithmen der Resultate werden akkumuliert, und die Summe wird als Wahrscheinlichkeit für ein HMM-Modell für die Eingangssprache angesehen. Solche Wahrscheinlichkeiten verschiedener HMM-Modelle wie /b/, /d/, usw. werden berechnet und das Modell mit der höchsten Wahrscheinlichkeit wird das als Resultat der Erkennung angesehen. Obwohl die Einheit des HMM-Modelles in dieser Ausführungsform ein Phonem ist, kann ein Wort oder eine Phrase als die Einheit benutzt werden. Die Zuverlässigkeit des dynamischen Cepstrums wurde durch ein Experiment der Phonemerkennung geschätzt. Die benutzte Sprachdatenbasis enthielt 5240 wichtige japanische Wörter und 115 Sätze, die mit einer Pause an jeder Phrase gesprochen wurden, die von 10 Männern und 10 Frauen gesprochen wurden. Die erstere wird als Wortsprechdatenbasis bezeichnet, während die letztere als Phrasensprechdatenbasis bezeichnet wird. Zum Lernen wurden 2640 Wörter der Wortsprechdatenbasis benutzt, und Testphoneme wurden für die verbleibenden 2640 Wörter der Wortsprechdatenbasis und von der Phrasensprechdatenbasis gesammelt. Die Erkennung von 23 Phonemen einschließlich 5 Vokalen und 18 Konsonanten, das heißt /b, d, g, m, n, N, p, t, k, s, h, z, r, y, w, ch, ts, sh, a, i, u, e, o/, wurde ausgeführt.
- Ein Experiment des Erkennens der 23 Phoneme der Sprachen von 10 Männern und 10 Frauen wurde ausgeführt, und eine mittlere Erkennungsrate von 20 Sprechern wurde berechnet. Als Resultat konnte im Vergleich mit dem Beispiel, bei dem Cepstrumskoeffizienten benutzt wurden, indem das dynamische Cepstrum benutzt wurde, die Erkennungsrate von 93,9% auf 95,4% erhöht werden, wenn die Wortsprechdatenbasis benutzt wurde, und die Rate konnte von 77,3% auf 82,5% erhöht werden, wenn die Phrasensprechdatenbasis benutzt wurde. Von diesem Resultat kann verstanden werden, daß das dynamische Cepstrum nicht nur für Sprachen ähnlicher Sprechstile, sondern auch für Sprachen unterschiedlicher Sprechstile robust ist.
- Bei der dritten Ausführungsform wird die vorliegende Erfindung nicht in der cepstralen Domäne, sondern durch eine äquivalente Tätigkeit einer logarithmischen Spektrumsdomäne eingesetzt. Das Prinzip wird beschrieben. Die Sprache wird in eine Spektrumszeitsequenz durch Fouriertransformation oder ähnliches umgewandelt. Eine Tätigkeit zum Frequenzglätten des Spektrums entspricht einer Faltung zwischen dem Spektrum und dem Glättungsfilter auf der Frequenzachse.
- Wenn das logarithmische Spektrum der Sprache zu dem gegenwärtigen Zeitpunkt i als S(ω, i) dargestellt wird, und das Filter zum Glätten der logarithmischen Sprache n Zeitpunkte zuvor als ein h(λ, n) dargestellt wird, kann das Maskenmuster M(ω, i) zu der gegenwärtigen Zeit i als eine Gesamtsumme der logarithmischen Spektren die über N Zeitpunkte in der Vergangenheit geglättet wurden, dargestellt werden wie
- N stellt die maximale Zeitdauer dar, in der die Maskierung wirksam ist. Das maskierte effektive Hörsprachenspektrum kann durch Subtrahieren des maskierten Musters von dem gegenwärtigen logarithmischen Spektrum erhalten werden, das heißt
- P(ω, i) = S (ω, i) - M (ω, i)
- Dieser Parameter wird als maskiertes Spektrum bezeichnet. Hier wird h(λ, n) durch die Fouriertransformation des Frequenzglättungshebers Ik(n) der Ausführungsform 1 oder 2 erhalten.
- Eine Zeitsequenz eines maskierten Spektrums wird erzeugt, wenn die obige Tätigkeit aufeinanderfolgend für entsprechende Zeitpunkte des Sprache von der Vergangenheit ausgeführt wird. Spracherkennung wird ausgeführt, indem die Zeitsequenz benutzt wird. Das Erkennungsverfahren kann Modellanpassung unter Benutzung dynamischen Programmierens benutzen (oder ein Verfahren, das DTW benutzt: dynamische Zeitverwerfung), oder ein Verfahren, das HMM (verborgenes Markov-Modell) benutzt. Die Ausführungsform gemäß dieses Prinzips wird beschrieben. Bei dieser Ausführungsform wird die dynamische Zeitverwerfung in der Erkennungseinheit benutzt.
- Fig. 3 ist ein Blockschaltbild, das eine weitere Ausführungsform zum Erkennen von Wörtern gemäß der vorliegenden Erfindung zeigt. Eine Eingangssprache wird in ein elektrisches Signal durch ein Mikrophon 1 umgewandelt, seine Frequenzkomponente nicht niedriger als 1/2 der Abtastfrequenz wird durch ein Tiefpaßfilter 2 entfernt, und das Signal wird an einen A/D-Wandler 3 angelegt. Der A/D-Wandler 3 weist eine Abtastfrequenz von z. B. 12 kHz und ein Quantisierungsniveau von 16 Bit auf, und das Signal wird in ein digitales Signal umgewandelt. Das digitale Signal wird an eine Fouriertransformationseinheit 18 angelegt, Sprachabschnitte werden alle 10 msek durch ein Hammingfenster mit der Breite von 21,3 msek segmentiert, und Spektren von 128 Ordnungen werden erhalten. Eine Berechnungseinheit 19 eines logarithmischen Spektrums sieht einen Logarithmus durch ein quadratisches Mittel von 4 Frequenzen · 4 Frequenzen vor, so daß die Spektren in logarithmische Spektren mit 32 Frequenzpunkten umgewandelt werden.
- Eine Erzeugereinheit 20 des maskierten Spektrums sieht ein Zeitfrequenzmaskierungsfilter der logarithmischen Spektrumszeitfrequenz zum Vorsehen einer Zeitfrequenz des maskierten Spektrums vor. Das Zeitfrequenzmaskierungsfilter wird durch die Fouriertransformierte des Maskierungshebers für das dynamische Cepstrum der Ausführungsform 1 oder 2 erhalten.
- Ein Schalter SW 1 dient zum Schalten zwischen Modelllernen und Erkennung. Wenn er zu der "a"-Seite geschaltet ist, wird eine oder mehrere Worttrainingsproben gesammelt und zu einer Wortmodellspeichereinheit 21 übertragen. Bei dieser Ausführungsform wird dynamisches Zeitverwerfen oder dynamisches Programmanpassen benutzt, und daher wird die Trainingssprache einer statistischen Bearbeitung nicht unterworfen, sondern direkt in der Wortmodellspeichereinheit 21 gespeichert [Hiroaki Sakoe und Seibi Chiba: "Dynamic Programming Algorithm optimization for Spoken Word Recognition" IEEE Trans. on Acoustics, Speech, and Signal Processing, Bd. ASSP-26, Nr. 1, Feb. 1978].
- Da die Ausführungsform 3 direkt auf ein Gerät zur Erkennung von Wörtern gerichtet ist, werden die Modelle auf der Wort für Wort Basis gespeichert. Solche Modelle werden entsprechend in zu erkennenden Kategorien vorbereitet. Zu der Zeit der Erkennung wird der Schalter SW1 zu der "b"-Seite geschaltet, und bei einer Distanzrechnungseinheit 22 wird die Distanz zwischen der Eingangssprache und den Modellen aller Wörter, die gespeichert sind durch dynamisches Programmanpassen berechnet. Genauer, die Zeitachse der Eingangssprache, des Modells oder von beiden werden zu jedem Zeitpunkt verwunden, und der Mittelwert in der gesamten Sprache der Distanzen zwischen entsprechenden Punkten beider Sprachen, an dem diese am besten zusammenpassen, wird als die Distanz zwischen der Eingangssprache und dem Modell angesehen. Die Distanzberechnungseinheit 22 vergleicht die Distanz zwischen Eingangssprache und jedem Modell und zeigt den Namen des Wortmodelles an, das die minimale Distanz bezeichnet, zum Beispiel /Wort/ als Resultat der Erkennung in der Erkennungsresultatanzeigeeinheit 14. Dieses Verfahren kann auf Phonemerkennung und ähnliches zusätzlich zu der Worterkennung angewendet werden.
- Obwohl die vorliegende Erfindung im einzelnen beschrieben und dargestellt worden ist, ist klar zu verstehen, daß dieses nur als Weg der Darstellung und eines Beispieles dient und nicht als Weg zur Begrenzung genommen werden kann, der Umfang der vorliegenden Erfindung ist nur durch den Inhalt der beigefügten Ansprüche begrenzt.
Claims (16)
1. Spracherkennungsverfahren, bei dem eine Eingangssprache in
eine Zeitsequenz eines Merkmalsvektors eines Spektrums, wie ein
Cepstrum, umgewandelt wird und eine Distanz zwischen der
Zeitsequenz und einer Zeitsequenz eines Modellmerkmalsvektors eines
Modells der Eingangssprache zur Erkennung berechnet wird, mit
den Schritten:
Glätten vorangehender Merkmalsvektoren durch Vorsehen eines
Frequenzfilters, bei dem das Frequenzglätten zunimmt während
die Zeit zurückverfolgt wird, wobei die Zunahme an einem
bestimmten zurückverfolgten Zeitpunkt gestoppt wird, wenn das
Glätten nicht mehr auf der Zeitsequenz des Merkmalsvektors
wirksam ist;
Berechnen eines Maskierungsmusters durch Akkumulieren der
geglätteten vorangehenden Merkmalsvektoren von dem bestimmten
Zeitpunkt in der Vergangenheit bis unmittelbar vor der
gegenwärtigen Zeit;
Berechnen eines maskierten Merkmalsvektors durch Subtraktion
zwischen dem gegenwärtigen Merkmalsvektor und dem
Maskierungsmuster;
Erkennen der Sprache durch Benutzen des maskierten
Merkmalsvektors, der durch die oben beschriebene Tätigkeit erhalten wird,
zu jedem Zeitpunkt.
2. Spracherkennungsverfahren nach Anspruch 1, mit den
Schritten:
Umwandeln der Eingangssprache in ein digitales Signal (3);
Umwandeln des digitalisierten Sprachsignals in einen
Cepstrumskoeffizienten zu jedem vorgeschriebenen Zeitintervall (4, 5, 6)
der Zeitsequenz;
Erhalten der Zeitsequenz des dynamischen Cepstrums (7) durch
Bewirken der Zeitfrequenzmaskierungsfilterung der
Cepstrumszeitsequenz und
Erkennen der Sprache durch Benutzung des dynamischen Cepstrums
oder der äquivalenten Merkmalsvektorzeitsequenz (8-13, 15-17).
3. Spracherkennungsverfahren nach Anspruch 2, bei dem
der Schritt des Umwandelns des Cepstrumskoeffizienten die
Schritte aufweist:
Segmentieren des digitalisierten Sprachsignales zu jedem
vorgeschriebenen Zeitintervall zum Erhalten eines
Autokorrelationskoeffizientenvektors (4) und
Berechnen eines Koeffizientenvektors der linearen Vorhersage
auf der Grundlage des Autokorrelationskoeffizientenvektors (5).
4. Spracherkennungsverfahren nach Anspruch 2, bei dem
der Schritt des Umwandelns des Cepstrumskoeffizienten den
Schritt des Segmentierens des digitalisierten Sprachsignals zu
jedem vorgeschriebenen Zeitintervall aufweist zum Erhalten
eines logarithmischen Spektrums durch Fouriertransformierte oder
durch ein anderes Verfahren wie eine Filterbank und Berechnen
eines Cepstrumskoeffizientenvektors durch inverse
Fouriertransformierte des Resultates (18, 19).
5. Spracherkennungsverfahren nach einem der Ansprüche 2 bis
4, bei dem der Schritt des Erkennens der Sprache die Schritte
aufweist:
Zuordnen des nächsten von Schwerpunktsvektoren, die aus einer
Zahl von Trainingsproben von dynamischen Cepstrumsvektoren
erhalten werden, zu einer Zeitsequenz des dynamischen Cepstrums
für eine Eingangssprache zum Erzeugen einer Sequenz von
Vektorcodezahlen (8, 9, 10) und
Erkennen der Sequenz der Vektorcodezahlen.
6. Spracherkennungsverfahren nach einem der Ansprüche 2 bis
5, weiter mit den Schritten:
Sammeln von Trainingsproben wie eine Zahl von Phonemen, Wörtern
und ähnlichem, die durch die Sequenz eines Vektors oder
Vektorcodezahl dargestellt werden, und Lernen derselben gemäß eines
vorgeschriebenen Algorithmus (11, 12); wobei
der Schritt des Erzeugens der Sequenz der Vektorzahl den
Schritt es Erkennens einer Sequenz einer Vektorcodezahl der zu
erkennenden Eingangsprache auf der Grundlage des Lernens gemäß
dem vorgeschriebenen Algorithmus enthält.
7. Spracherkennungsverfahren Anspruch nach 6,
bei dem der Schritt des Lernens den Schritt des Lernens und der
Benutzung von verborgenen Markovmodellen (11) enthält.
8. Spracherkennungsverfahren nach einem der Ansprüche 2 bis 6
bei dem der Schritt des Erkennens der Sprache den Schritt des
Lernens der Sprache enthält, die durch die dynamische
Cepstrumszeitsequenz unter Benutzung kontinuierlicher
verborgener Markovmodelle dargestellt wird.
9. Spracherkennungsverfahren nach einem der Ansprüche 6 bis 9
bei dem der Schritt des Erkennens der Sprache den Schritt des
Erkennens der Eingangssprache enthält, die durch die dynamische
Cepstrumszeitsequenz unter Benutzung des Resultates des Lernens
(13) dargestellt wird.
10. Spracherkennungsverfahren nach Anspruch 1, mit den
Schritten:
Umwandeln der Eingangssprache in ein digitales Signal (3);
Segmentieren des digitalisierten Sprechsignals an jedem
vorgeschriebenen Zeitintervall zum Erhalten einer logarithmischen
Spektrumszeitsequenz durch Fouriertransformierte oder ein
anderes Verfahren wie eine Filterbank (18, 19);
Bewirken der Zeitfrequenzmaskierungsfilterung auf der
logarithmischen Spektrumszeitsequenz zum Erhalten einer maskierten
Spektrumszeitsequenz (20);
Erkennen der Sprache unter Benutzung der maskierten
Spektrumszeitsequenz (21, 23).
11.
Spracherkennungsverfahren nach Anspruch 10,
bei dem der Schritt des Erkennens der Sprache den Schritt des
Erkennens der Sprache durch Berechnen eines Merkmalsvektors,
der gleich einem dynamischen Cepstrum ist, der das maskierte
Spektrum enthält (21, 22), oder durch Modellanpassung unter
Benutzung dynamischen Programmierens oder durch ein Verfahren des
dynamischen Zeitverwerfens enthält.
12. Spracherkennungsverfahren nach Anspruch 1,
bei dem die Distanz zwischen der Zeitsequenz und einem
statistischen Modell des Merkmalsvektors oder einer
Wahrscheinlichkeit des Modells für die Eingangssprache berechnet wird.
13. Spracherkennungsverfahren nach Anspruch 1,
bei dem das Frequenzfilter einen Satz von Frequenzfiltern
aufweist, in denen das Frequenzglätten zunimmt, während die Zeit
zurückverfolgt wird.
14. Spracherkennungsgerät, in dem eine Eingangssprache in eine
Zeitsequenz eines Merkmalsvektors eines Spektrums, wie ein
Cepstrum, umgewandelt wird und eine Distanz zwischen der
Zeitsequenz und einer Zeitsequenz eines Modellmerkmalsvektors eines
Modells für die Eingangssprache zur Erkennung berechnet wird,
mit
- einem Frequenzfilter zum Glätten vorangehender
Merkmalsvektoren, bei dem das Frequenzglätten zunimmt, während die
Zeit zurückverfolgt wird, wobei die Zunahme beim Glätten an
einem bestimmten zurückverfolgten Zeitpunkt gestoppt wird,
wenn das Glätten nicht mehr wirksam ist;
- einem Akkumulator zum Berechnen eines Maskierungsmusters
durch Akkumulieren der geglätteten vorangehenden
Merkmalsvektoren von dem bestimmten Zeitpunkt in der Vergangenheit
bis unmittelbar vor der gegenwärtigen Zeit;
- einem Subtrahierer zum Berechnen eines maskierten
Merkmalsvektors durch Subtrahieren des Maskierungsmusters von dem
Merkmalsvektor an der Gegenwart und
- einer Erkennungseinrichtung zum Erkennen der Sprache und der
Benutzung des maskierten Merkmalsvektors zu jedem Zeitpunkt.
15. Gerät nach Anspruch 14 mit:
einem Wandler (3) zum Wandeln der Eingangssprache in ein
digitales Signal,
einer Autokorrelationsanalyseeinheit (4) zum Erhalten eines
Autokorrelationskoeffizientenvektors aus dem digitalisierten
Sprachsignal,
einer Analyseeinheit (5) der linearen Vorhersage zum Berechnen
eines linearen Vorhersagevektors aus dem
Autokorrelationskoeffizientenvektor,
einer Cepstrumsanalyseeinheit (6) zum Umwandeln des linearen
Vorhersagevektors in Cepstrumskoeffizienten und
einer Erzeugereinheit (7) des dynamischen Cepstrums zum
Bewirken einer Zeitfrequenzmaskierungsfilterung auf die
Cepstrumskoeffizienten zum Erhalten einer Zeitsequenz des dynamischen
Cepstrums.
16. Gerät nach Anspruch 14 mit:
einem Wandler (3) zum Umwandeln der Eingangssprache in ein
digitales Signal,
einer Fouriertransformationseinheit (18) zum Erhalten einer
Fouriertransformierten aus dem digitalen Signal,
einer Berechnungseinheit (19) des logarithmischen Spektrums zum
Erhalten einer logarithmischen Spektrumszeitsequenz aus der
Fouriertransformierten und
eine Erzeugereinheit (20) des maskierten Spektrums zum Erhalten
eines Zeitfrequenzmaskierungsfilters der logarithmischen
Spektrumszeitsequenz zum Vorsehen einer Zeitsequenz des maskierten
Spektrums.
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP4167832A JPH0743598B2 (ja) | 1992-06-25 | 1992-06-25 | 音声認識方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| DE69321656D1 DE69321656D1 (de) | 1998-11-26 |
| DE69321656T2 true DE69321656T2 (de) | 1999-04-15 |
Family
ID=15856918
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| DE69321656T Expired - Fee Related DE69321656T2 (de) | 1992-06-25 | 1993-06-08 | Verfahren zur Spracherkennung |
Country Status (5)
| Country | Link |
|---|---|
| US (1) | US5459815A (de) |
| EP (1) | EP0575815B1 (de) |
| JP (1) | JPH0743598B2 (de) |
| CA (1) | CA2098629C (de) |
| DE (1) | DE69321656T2 (de) |
Families Citing this family (29)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5590242A (en) * | 1994-03-24 | 1996-12-31 | Lucent Technologies Inc. | Signal bias removal for robust telephone speech recognition |
| US5794198A (en) * | 1994-10-28 | 1998-08-11 | Nippon Telegraph And Telephone Corporation | Pattern recognition method |
| US5646961A (en) * | 1994-12-30 | 1997-07-08 | Lucent Technologies Inc. | Method for noise weighting filtering |
| EP0720146A1 (de) * | 1994-12-30 | 1996-07-03 | AT&T Corp. | Verfahren zur Messung von Sprachmaskierungseigenschaften |
| JP3697748B2 (ja) * | 1995-08-21 | 2005-09-21 | セイコーエプソン株式会社 | 端末、音声認識装置 |
| JPH0990974A (ja) * | 1995-09-25 | 1997-04-04 | Nippon Telegr & Teleph Corp <Ntt> | 信号処理方法 |
| JP3397568B2 (ja) * | 1996-03-25 | 2003-04-14 | キヤノン株式会社 | 音声認識方法及び装置 |
| US6366883B1 (en) | 1996-05-15 | 2002-04-02 | Atr Interpreting Telecommunications | Concatenation of speech segments by use of a speech synthesizer |
| US5758277A (en) * | 1996-09-19 | 1998-05-26 | Corsair Communications, Inc. | Transient analysis system for characterizing RF transmitters by analyzing transmitted RF signals |
| US7630895B2 (en) * | 2000-01-21 | 2009-12-08 | At&T Intellectual Property I, L.P. | Speaker verification method |
| US6076055A (en) * | 1997-05-27 | 2000-06-13 | Ameritech | Speaker verification method |
| KR100434527B1 (ko) * | 1997-08-01 | 2005-09-28 | 삼성전자주식회사 | 벡터 테일러 급수를 이용한 음성 모델 보상 방법 |
| US6895374B1 (en) * | 2000-09-29 | 2005-05-17 | Sony Corporation | Method for utilizing temporal masking in digital audio coding |
| JP4048741B2 (ja) | 2001-07-24 | 2008-02-20 | セイコーエプソン株式会社 | Hmmの出力確率演算方法および音声認識装置 |
| JP4623920B2 (ja) * | 2002-07-09 | 2011-02-02 | ソニー株式会社 | 類似度算出方法及び装置、並びにプログラム及び記録媒体 |
| KR100476103B1 (ko) * | 2002-08-09 | 2005-03-10 | 한국과학기술원 | 특징벡터의 필터링을 이용한 음성인식방법 |
| SG140445A1 (en) * | 2003-07-28 | 2008-03-28 | Sony Corp | Method and apparatus for automatically recognizing audio data |
| US10223934B2 (en) | 2004-09-16 | 2019-03-05 | Lena Foundation | Systems and methods for expressive language, developmental disorder, and emotion assessment, and contextual feedback |
| US9240188B2 (en) | 2004-09-16 | 2016-01-19 | Lena Foundation | System and method for expressive language, developmental disorder, and emotion assessment |
| US9355651B2 (en) | 2004-09-16 | 2016-05-31 | Lena Foundation | System and method for expressive language, developmental disorder, and emotion assessment |
| US8938390B2 (en) * | 2007-01-23 | 2015-01-20 | Lena Foundation | System and method for expressive language and developmental disorder assessment |
| US8219391B2 (en) * | 2005-02-15 | 2012-07-10 | Raytheon Bbn Technologies Corp. | Speech analyzing system with speech codebook |
| WO2008091947A2 (en) | 2007-01-23 | 2008-07-31 | Infoture, Inc. | System and method for detection and analysis of speech |
| JP4754651B2 (ja) * | 2009-12-22 | 2011-08-24 | アレクセイ・ビノグラドフ | 信号検出方法、信号検出装置、及び、信号検出プログラム |
| US8725498B1 (en) * | 2012-06-20 | 2014-05-13 | Google Inc. | Mobile speech recognition with explicit tone features |
| CN104123934A (zh) * | 2014-07-23 | 2014-10-29 | 泰亿格电子(上海)有限公司 | 一种构音识别方法及其系统 |
| WO2019113477A1 (en) | 2017-12-07 | 2019-06-13 | Lena Foundation | Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness |
| CN111613243B (zh) * | 2020-04-26 | 2023-04-18 | 云知声智能科技股份有限公司 | 一种语音检测的方法及其装置 |
| CN111948171B (zh) * | 2020-08-19 | 2023-04-07 | 长春理工大学 | 基于动态时间规整的复合材料缺陷识别方法 |
Family Cites Families (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4956865A (en) * | 1985-01-30 | 1990-09-11 | Northern Telecom Limited | Speech recognition |
| US5067158A (en) * | 1985-06-11 | 1991-11-19 | Texas Instruments Incorporated | Linear predictive residual representation via non-iterative spectral reconstruction |
| EP0290190B1 (de) * | 1987-04-30 | 1991-10-09 | Oki Electric Industry Company, Limited | Anordnung zum Vergleichen von Mustern |
| US5097510A (en) * | 1989-11-07 | 1992-03-17 | Gs Systems, Inc. | Artificial intelligence pattern-recognition-based noise reduction system for speech processing |
| DE69128582T2 (de) * | 1990-09-13 | 1998-07-09 | Oki Electric Ind Co Ltd | Methode zur Phonemunterscheidung |
| JP3134338B2 (ja) * | 1991-03-30 | 2001-02-13 | ソニー株式会社 | ディジタル音声信号符号化方法 |
-
1992
- 1992-06-25 JP JP4167832A patent/JPH0743598B2/ja not_active Expired - Fee Related
-
1993
- 1993-06-08 DE DE69321656T patent/DE69321656T2/de not_active Expired - Fee Related
- 1993-06-08 EP EP93109222A patent/EP0575815B1/de not_active Expired - Lifetime
- 1993-06-17 CA CA002098629A patent/CA2098629C/en not_active Expired - Fee Related
- 1993-06-21 US US08/079,425 patent/US5459815A/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JPH0612089A (ja) | 1994-01-21 |
| JPH0743598B2 (ja) | 1995-05-15 |
| EP0575815B1 (de) | 1998-10-21 |
| CA2098629A1 (en) | 1993-12-26 |
| CA2098629C (en) | 1997-07-15 |
| DE69321656D1 (de) | 1998-11-26 |
| US5459815A (en) | 1995-10-17 |
| EP0575815A1 (de) | 1993-12-29 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE69321656T2 (de) | Verfahren zur Spracherkennung | |
| DE69311303T2 (de) | Sprachtrainingshilfe für kinder. | |
| DE69127818T2 (de) | System zur verarbeitung kontinuierlicher sprache | |
| DE69326044T2 (de) | Verfahren zur Erkennung von Sprachsignalen | |
| DE69315374T2 (de) | Spracherkennungssystem zur naturgetreuen Sprachübersetzung | |
| DE60000074T2 (de) | Linear prädiktive Cepstral-Merkmale in hierarchische Subbänder organisiert für die HMM-basierte Spracherkennung | |
| DE69432943T2 (de) | Verfahren und Vorrichtung zur Sprachdetektion | |
| DE69613646T2 (de) | Verfahren zur Sprachdetektion bei starken Umgebungsgeräuschen | |
| DE3878001T2 (de) | Spracherkennungseinrichtung unter anwendung von phonemermittlung. | |
| DE69033084T2 (de) | Schaltung zur Spracherkennung unter Anwendung von nichtlinearer Verarbeitung, Sprachelementmodellierung und Phonembewertung | |
| DE69726526T2 (de) | Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert | |
| DE69619284T3 (de) | Vorrichtung zur Erweiterung der Sprachbandbreite | |
| DE69225371T2 (de) | Schlüsselwörtererkennung in einem zusammenhängenden Text mittels zweier "Hidden Markov" Modelle | |
| DE69616568T2 (de) | Mustererkennung | |
| DE69519453T2 (de) | Spracherkennung mit Sprecheradaptierung mittels Berechnung von Mittelwerten akustischer Kategorien | |
| DE68910859T2 (de) | Detektion für die Anwesenheit eines Sprachsignals. | |
| DE69830017T2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
| DE60305568T2 (de) | Schlüsselworterkennung in einem Sprachsignal | |
| DE68924134T2 (de) | Spracherkennungssystem. | |
| EP1084490B1 (de) | Anordnung und verfahren zur erkennung eines vorgegebenen wortschatzes in gesprochener sprache durch einen rechner | |
| DE69423692T2 (de) | Sprachkodiergerät und Verfahren unter Verwendung von Klassifikationsregeln | |
| EP1649450A1 (de) | Verfahren zur spracherkennung und kommunikationsger t | |
| EP0925461A2 (de) | Verfahren zur mehrsprachenverwendung eines hidden markov lautmodelles in einem spracherkennungssystem | |
| DE69720134T2 (de) | Spracherkenner unter Verwendung von Grundfrequenzintensitätsdaten | |
| DE602004000716T2 (de) | Rauschadaptierungssystem für ein Sprachmodell, Verfahren zur Rauschadaptierung und Programm zur Rauschadaptierung für Spracherkennung |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 8364 | No opposition during term of opposition | ||
| 8339 | Ceased/non-payment of the annual fee |