DE69321656T2

DE69321656T2 - Verfahren zur Spracherkennung

Info

Publication number: DE69321656T2
Application number: DE69321656T
Authority: DE
Inventors: Kiyoaki Atr Human Inf. Processing Res.Lab Soraku-Gun Kyoto Aikawa; Hideki Atr Human Inf.Processing Res.Lab Soraku-Gun Kyoto Kawahara; Yoh'ichi Atr Human Inf. Process. Res.Lab Soraku-Gun Kyoto Tohkura
Original assignee: ATR AUDITORY VISUAL PERCEPTION
Current assignee: ATR AUDITORY VISUAL PERCEPTION
Priority date: 1992-06-25
Filing date: 1993-06-08
Publication date: 1999-04-15
Anticipated expiration: 2013-06-09
Also published as: JPH0612089A; JPH0743598B2; EP0575815B1; CA2098629A1; CA2098629C; DE69321656D1; US5459815A; EP0575815A1

Description

HINTERGRUND DER ERFINDUNG

Gebiet der Erfindung

Die vorliegende Erfindung bezieht sich auf ein Spracherkennungsverfahren. Genauer, die vorliegende Erfindung bezieht sich auf ein Spracherkennungsverfahren, bei dem eine automatische Spracherkennung durch eine Maschine, wie ein elektronischer Computer bewirkt wird, in dem Abstand oder Wahrscheinlichkeit zwischen einer Zeitsequenz eines Eingangssprachspektrums und einer Zeitsequenz eines Modellsprachspektrums oder seines statistischen Modelles benutzt wird.

Beschreibung der Hintergrundstechnik

Grundsätzlich wird bei einer automatischen Spracherkennung durch einen elektronischen Computer oder ähnlichem die Sprache in einer Spektrumszeitsequenz umgewandelt und erkannt. Cepstrum wird oft als Merkmalsparameter benutzt, der das Spektrum darstellt. Das Cepstrum ist als eine inverse Fouriertransformierte des logarithmischen Spektrums definiert. Im folgenden wird das logarithmische Spektrum einfach als Spektrum bezeichnet.
Kürzlich ist berichtet worden, daß die Zuverlässigkeit der Spracherkennung verbessert werden kann, wenn Änderung des Spektrums in der Zeit oder auf der Frequenzachse als Merkmal zusammen mit dem Spektrum benutzt wird. Vorgeschlagen sind "delta cepstrum", das die Zeitänderung des Spektrums benutzt [Sadaoki Furui: "Speaker-Independent Isolated Word Recognition Using Dynamic Features of Speech Spectrum", IEEE Trans., ASSP-34, Nr. 1, S. 52-59 (1986-2)]; "spektrale Neigung", die die Frequenzänderung des Spektrums benutzt [D. H. Klatt: "Prediction of Perceived Phonetic Distance from Critical-Band Spectra: A First Step", Proc. ICASSP82 (International Conference on Acoustics Speech and Signal Processing), S. 12778-1281 (Mai 1982), Brian A. Hanson und Hisashi Wakita: "Spectral Slope Distance Measures with Linear Prediction Analysis for Word Recognition in Noise", IEEE Trans. ASSP-35, Nr. 7, S. 968-973 (Juli 1987)]; und "spektrale Bewegungsfunktion", die die Bewegung des Formans erfaßt [Kiyoaki Aikawa und Sadaoki Furui: "Spectral Movement Function and its Application to Speech Recognition", Proc. ICASSP88, S. 223-226 (April 1988)].
"Delta Cepstrum" basiert auf der Zeitableitung der logarithmischen Spektralzeitsequenz und wird durch ein Zeitfilter berechnet, das nicht von der Frequenz abhängt. "Spektrale Neigung" beruht auf der Frequenzableitung des logarithmischen Spektrums und wird durch ein Frequenzfilter berechnet, das nicht von der Zeit abhängt. "Spektrale Bewegungsfunktion" basiert auf der Zeitfrequenzableitung des logarithmischen Spektrums und wird durch Durchführen sowohl des Zeitfilters als auch des Frequenzfilters berechnet. Hier ist das Frequenzfilter konstant unabhängig von der Zeit, und das Zeitfilter ist konstant für jede Frequenz. Das Zeitfilter adressiert Fluktuation des Spektrums auf der Zeitachse, während das Frequenzfilter Fluktuation des Spektrums auf der Frequenzachse adressiert.
Weiterhin offenbart das US-Patent 5,097,510 ein System zum Verringern von Rauschen von einem Sprachsignal, das durch Rauschen verunreinigt ist. Das System verwendet eine künstliche Intelligenz, die auf die Einstellung hin eines Filteruntersystemes durch Unterscheiden zwischen Rauschen und Sprache in dem Spektrum des eingehenden Signals der Sprache plus Rauschen entscheiden kann. Das System tut dies, indem das Muster einer Leistungs- oder Hüllenfunktion des Frequenzspektrums des eingehenden Signals getestet wird. Das System bestimmt, daß die schnell ändernden Abschnitt der Hülle Sprache bezeichnen, während der Rest so bestimmt wird, daß er die Frequenzverteilung der Rauschleistung ist. Die Bestimmung wird durchgeführt, während entweder das ganze Spektrum geprüft wird oder Frequenzbänder davon, unabhängig davon, wo das Maximum des Spektrums liegt.
Das US-Patent 5,067,158 offenbart ein Verfahren zum Codieren von Sprache, bei dem insbesondere der LPC-Rest des Sprachsignales unter Benutzung minimaler Phasenspektralrekonstruktionstechniken codiert wird, in dem das LPC-Restsignal auf eine Weise ungefähr eines minimalen Phasensignales transformiert wird und dann spektrale Rekonstruktionstechniken zum Darstellen des LPC-Restsignales durch entweder seine fouriertransformierte Größe oder Phase angewendet werden. Die nicht iterative Spektralrekonstruktionstechnik beruht auf dem Cepstralkoeffizienten, durch den die Größe und die Phase eines minimalen Phasensignales aufeinander bezogen sind.
Aus der EP 0 290 190 A kann ein Musteranpaßsystem entnommen werden, das bei einer Spracherkennungsausrüstung benutzt wird, insbesondere für zwei Achsenmusteranpassung auf der Frequenz- und Zeitachse unter Benutzung eines linearen Vorhersagekoeffizienten oder ähnliches.
Es wird jedoch angenommen, daß der Merkmalsextraktionsmechanismus des menschlichen Hörsystems sich von jedem dieser Filter unterscheidet. Das menschliche Hörsystem weist einen Maskierungseffekt auf. In einem zweidimensionalen Spektrum auf einer Zeitfrequenzebene wird ein Sprachsignal einer bestimmten Frequenz an einem bestimmten Zeitpunkt durch ein Sprachsignal maskiert, das nahe in der Zeit und in der Frequenz ist. Mit anderen Worten, es wird unterdrückt. Bezüglich des Maskierungseffektes, wenn die Sprache an einem bestimmten Zeitpunkt eine Sprache maskiert, die in der Zeit folgt, wird dieser Effekt als Vorwärtsmaskierung bezeichnet. Wir können annehmen, daß die Vorwärtsmaskierung zum Speichern der Spektralform eines vorangehenden Zeitpunktes dient, und daher können wir annehmen, daß ein dynamisches Merkmal, das nicht in der vorangehenden Sprache enthalten ist, durch diesen Effekt extrahiert wird. Gemäß einer hörpsychologischen Studie wird das Frequenzmuster der Vorwärtsmaskierung glatter, wenn das Zeitinterval zwischen dem Maskierungsgeräusch und dem maskierten Geräusch (Maskierung-Signal-Zeitintervall) länger wird [Elichi Miyasaka, "Spatio-Temporal Characteristics of Masking of Brief Test-Tone Pulses by a Tone-Burst with Abrupt Switching Transients", J. Acoust. Soc. Jpn, Bd. 39, Nr. 9, S. 614-623, 1983 (auf japanisch)]. Diese maskierte Sprache ist die effektive Sprache, die in dem menschlichen Hörsystem empfunden wird. Dieser Signalverarbeitungsmechanismus kann nicht durch ein festes Frequenzfilter, das nicht von der Zeit abhängt, realisiert wer den. Damit dieser Signalverarbeitungsmechanismus eingesetzt wird, ist es notwendig, einen Satz von Frequenzfiltern zu benutzen, deren Eigenschaften sich zeitabhängig ändern. Der Satz von Frequenzfiltern, deren Eigenschaften als Spektrumglättungsfilter sich in Abhängigkeit von dem Zeitinterval von dem Empfangen der Sprache, die als Maskierung dient, und die sich auf die Frequenz beziehende Tätigkeit, hängt von der Zeit ab. Ein Mechanismus zum Extrahieren von Merkmalsparametern, die solch Höhreigenschaften in Betracht ziehen, ist bis jetzt nicht berichtet worden.

ZUSAMMENFASSUNG DER ERFINDUNG

Es ist daher eine Aufgabe der vorliegenden Erfindung, ein Verfahren und ein Gerät der Spracherkennung vorzusehen, die die Zuverlässigkeit der automatischen Spracherkennung durch eine Maschine verbessern können, bei dem eine Spektralzeitsequenz näher zu der tatsächlichen Spektralzeitsequenz, die von einem Menschen empfunden wird, vorgesehen wird, in dem ein Spektralglättungsfilter mit Filtereigenschaften in Abhängigkeit von der Zeitdauer benutzt wird, wodurch Zeitfrequenzeigenschaften einer Vorwärtsmaskierung simuliert werden.
Diese Aufgabe wird gelöst durch ein Spracherkennungsverfahren, wie es in Anspruch 1 definiert ist.
Bevorzugte Ausgestaltungen des Spracherkennungsverfahrens sind in den Unteransprüchen 2 bis 13 angegeben.
Die Aufgabe wird ebenfalls gelöst durch ein Spracherkennungsgerät, wie es in Anspruch 14 definiert ist.
Bevorzugte Ausgestaltungen des Gerätes sind in den Unteransprüchen 15 und 16 angegeben.
Bei dem Spracherkennungsverfahren gemäß der vorliegenden Erfindung kann ein dynamisches Merkmal, wie es bei den Maskierungseigenschaften eines menschlichen Hörsystems beobachtet wird, extrahiert werden. Genauer, ein Merkmal, das bis jetzt noch nicht aufgetreten ist, wird verstärkt, während ein Merkmal, das kontinuierlich aufgetreten ist, unterdrückt wird. Da die vorangehenden Spektren geglättet werden, so daß sie zu dem Maskierungsmuster addiert werden, stellt das Maskierungsmuster ein globales Merkmal der vorangehenden Spracheingabe dar, und die Änderung davon stellt das Merkmal an jedem Zeitpunkt dar. Durch dieses Verfahren kann das dynamische Merkmal, das bei der Spracherkennung wichtig ist, extrahiert werden und zusätzlich kann der Einfluß eines stationären spektralen Neigung in Abhängigkeit von dem Individuum, die in der Sprache oder in der Übertragungseigenschaft bei dem Sprachsignalübertragungssystem enthalten sind, verringert werden. Das Delta- Cepstrum, das ein dynamischer Merkmalparameter ist und herkömmlicherweise benutzt wird, weist keine Information einer Spektralform auf, und daher muß es mit anderen Parametern wie Cepstrum benutzt werden. Da jedoch das dynamische Cepstrum sowohl gegenwärtige als auch vorübergehende Merkmale eines Spektrums enthält, ist es nicht notwendig, es mit anderen Parametern zu benutzen. Weiter kann durch Benutzen solch eines Zeitfrequenzmaskierungsmechanismus ein dynamisches Merkmal auf der Grundlage des vorangehenden geglätteten Spektrums erhalten werden, und daher kann das dynamische Merkmal mit weniger Einfluß der detaillierten Formansstruktur des vorangehenden Phonems extrahiert werden.
Die vorangehenden und anderen Aufgaben, Merkmale, Aspekte und Vorteile der vorliegenden Erfindung werden ersichtlicher aus der folgenden detaillierten Beschreibung der vorliegenden Erfindung, wenn sie in Zusammenhang mit den begleitenden Zeichnungen genommen wird.

KURZE BESCHREIBUNG DER ZEICHNUNGEN

Fig. 1 ist ein Blockschaltbild, das einen Aufbau einer Ausführungsform der vorliegenden Erfindung zeigt.
Fig. 2 ist ein Blockschaltbild, das einen Aufbau einer anderen Ausführungsform der vorliegenden Erfindung zeigt.
Fig. 3 ist ein Blockschaltbild, das einen Aufbau einer noch anderen Ausführungsform der vorliegenden Erfindung zeigt.

BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN

Zuerst wird das Prinzip der vorliegenden Erfindung beschrieben. Bei dieser Erfindung wird Sprache in eine Zeitsequenz von Cepstrumskoeffizienten umgewandelt. Das Cepstrum kann leicht unter Benutzung einer linearen Vorhersagecodieranalyse (LPC) berechnet werden [J. D. Markel und A. H. Gray, Jr.: "Linear Prediction of Speech", Springer-Verlag (Berlin Heidelberg New York, 1976)]. Die Tätigkeit des Frequenzglättens des Spektrums bedeutet das Berechnen der Faltung des Spektrums und des Glättungsfilters auf der Frequenzachse, und es wird äquivalent durchgeführt durch Multiplizieren eines Cepstrumvektors und eines cepstralen Hebers. Ein Cepstrumvektor wird durch inverse Fouriertransformation eines logarithmischen Spektrums berechnet. Ein cepstraler Heber wird durch inverse Fouriertransformation des Glättungsfilters berechnet. Der Cepstrumskoeffizient der Kartenordnung der Sprache an dem Zeitpunkt i sei als ck(i) dargestellt. Wenn der Koeffizient der Kartenordnung des Hebers zum Glätten des Spektrums n Zeitpunkte zuvor als Ik(n) dargestellt wird, kann der Cepstrumsexpansionskoeffizient der Kartenordnung mk(i) des Maskierungsmusters zu der gegenwärtigen Zeit i als eine gesamte Summe des Sprachencepstrums, das durch den Heber gewichtet ist, für vorangehende N Zeitpunkte dargestellt werden, durch die folgende Gleichung (1):
N stellt die maximale Zeitdauer dar, in der Maskierung effektiv ist. Das maskierte effektive Sprachspektrum kann durch Subtrahieren des Maskierungsmusters von dem gegenwärtigen Spektrum erhalten werden, und in der cepstralen Domäne kann der Cepstrumsexpansionskoeffizient der Kartenordnung des maskierten effektiven Spektrums erhalten werden durch Subtrahieren des Cepstrumsexpansionskoeffizienten des Maskierungsmusters von dem gegenwärtigen Cepstrum, wie es durch die folgende Gleichung (2) dargestellt ist:
bk(i) = ck(i) - mk(i) (2)
Dieser Parameter wird als ein "dynamisches Cepstrum" bezeichnet.
Der Bandpaß des Frequenzglättungshebers Ik(n), der hierin benutzt wird, ist dazu ausgelegt, daß er schmaler wird, wenn die Zeit n weiter von der gegenwärtigen Zeit zurückverfolgt wird, wobei die Frequenz der 0-ten Ordnung die Mitte darstellt. Bei der ersten Ausführungsform wird ein Quadratfenster für die Form des Hebers benutzt, das durch die folgende Gleichung dargestellt wird:
Hier stellt q&sub0; eine Abschneidefrequenz einen Zeitpunkt vor der Gegenwart dar, und ν stellt die Rate des Schmalerwerdens des Frequenzbandpasses zu jedem Zeitfortschritt um einen Rahmen dar. Der Einfluß der vorangehenden Sprache als ein Maskierungsmuster auf die gegenwärtige Sprache nimmt exponentiell ab, wobei die anfängliche Maskierungsabnahmerate 0ββ < α < 1 ist und die mediale Maskierungsabnahmerate 0 < β < 1 ist.
Eine Zeitsequenz eines dynamischen Cepstrums wird durch die oben beschriebene Tätigkeit erzeugt, die aufeinanderfolgend für die Sprache an entsprechenden Zeitpunkten von der Vergangenheit ausgeführt wird. Spracherkennung wird ausgeführt, indem die Zeitsequenz der erzeugten dynamischen Cepstrumsreihe benutzt wird. Das Erkennungsverfahren kann Modellanpassung unter Benutzung dynamischer Programmierung, DTW (Dynamic Time-Warping = dynamische Zeitverwerfung) oder HMM (Hidden Markov Model = verborgene Markov-Modelle) benutzt werden. Da das dynamische Cepstrum aus den Sprachspektren der Vergangenheit und der Gegenwart erhalten wird und kein zukünftiges Spektrum benutzt, ist es ebenfalls für ein Spracherkennungsgerät bequem, das zeitsynchrone Verarbeitung durchführt. Die Ausführungsformen gemäß des Prinzips werden im folgenden beschrieben:
Fig. 1 ist ein Blockschaltbild einer Ausführungsform der vorliegenden Erfindung. Eingangssprache wird in eine elektrisches Signal umgewandelt, dessen Frequenzkomponente nicht niedriger als 1/2 der Abtastfrequenz durch ein Tiefpaßfilter 2 entfernt wird, und das Signal wird an einen A/D-Wandler 3 angelegt. Der A/D-Wandler 3 weist eine Abtastfrequenz von zum Beispiel 12 kHz und ein Quantisierungsniveau von 16 Bit auf, und durch diesen Wandler wird das Signal in ein Digitalsignal umgewandelt. Das digitale Signal wird an eine Autokorrelationsanalyseeinheit 4 angelegt, eine Sequenz von Sprachsegmenten wird alle 10 msek erzeugt unter Benutzung eines Hamming-Fensters mit der Breite von 30 msek, und Autokorrelationskoeffizienten der ersten bis 16-ten Ordnung werden berechnet. In diesem Fall ist das Zeitpunktintervall 10 msek. Eine Koeffizientenanalyseeinheit 5 linearer Vorhersage berechnet lineare Vorhersagekoeffizienten der ersten bis 16-ten Ordnung aus den Autokorrelationskoeffizienten, und eine Cepstrumanalyseeinheit 6 berechnet Cepstrumskoeffizienten der ersten bis 16-ten Ordnung. Weiterhin wird vor der linearen Vorhersageanalyse eine Frequenzanhebung zum Verstärken der Hochfrequenzkomponente der Sprache durch Ausführen von z. B. eines Differentialfilterns der Sprechwelle bewirkt. Eine dynamische Cepstrumserzeugereinheit 7 sieht ein Zeitfrequenzmaskierungsfilter auf der Cepstrumszeitsequenz zum Erhalten einer Zeitsequenz des dynamischen Cepstrums vor. Entsprechende Koeffizienten des Maskierungshebers sind auf q&sub0; = 7, α = 0,5, β = 0,5, ν = 1, N = 4 gesetzt. Die Koeffizienten des Maskierungshebers der k-te Ordnung zu der Zeitverzögerung von n sind in Tabelle 1 unten gezeigt.
Tabelle 1
Koeffizienten des quadratischen Spektrumsglättungshebers
Bei dieser Ausführungsform wird ein diskretes HMM benutzt, daß eine Ausgangswahrscheinlichkeit eines repräsentativen Vektorcodes benutzt, und daher ist ein Schritt der Vektorquantifizierung notwendig [Y. Linde, A. Buzo, und R. M Gray, "An algorithm for vector quantizer design", IEEE Trans. Commun., Bd. COM-28, S. 84- 95 (Jan. 1980)].
Ein Schalter SW1 wird zum Erhalten repräsentativer Punkte eines Vektors geschaltet, d. h. eines Schwerpunktes von einer Zahl von Proben eines Merkmalsvektors in einer vorbestimmten Zeitdauer. Wenn der Schalter zu der "a"-Seite geschaltet wird, wird eine Zahl von Proben des dynamischen Cepstrums, die in der Erzeugereinheit 7 für das dynamische Cepstrum erhalten werden, an die Schwerpunktserzeugereinheit 8 angelegt, und Schwerpunktsvektoren von 256 dynamischen Cepstra können durch Vektorquantisierung erhalten werden. Die Schwerpunktsvektoren werden in einer Codebuchspeichereinheit 9 gespeichert. Wenn der Schalter SW1 zu der "b"-Seite geschaltet wird, ordnet eine Vektorquantisierungseinheit 10 einen Schwerpunktsvektor zu, der am nächsten zu entsprechenden Vektoren der dynamischen Cepstrumszeitsequenz der Sprache ist, indem ungefähr 256 in der Codebuchspeichereinheit 9 gespeicherte Schwerpunktsvektoren benutzt werden, und die Sprache wird durch eine Sequenz der Vektorcodezahlen dargestellt. Nähe zwischen dem Schwerpunkt und einem jeden Vektor kann durch ein Maß gemessen werden wie die Euklidische Distanz.
Ein Schalter SW2 dient zum Schalten zwischen HMM-Lernen und Erkennen der Testsprache. Wenn er zu der "a"-Seite geschaltet ist, wird eine Zahl von Phonemtrainingsproben in einer HMM-Trainingseinheit 11 gesammelt, und gelernt gemäß dem Baum-Welch-Lernalgorithmus [L. E. Baum, "An Inequality and Associated Maximization Technique in Statistical Estimation for Probabilistic Functions of a Markov Process", Inequalities, 3, S. 1-8, 1972]. Da die Ausführungsform 1 auf ein Gerät zum Erkennen von Phonemen ist, lernt HMM auf der Phonem -nach- Phonem-Basis. Zum Beispiel wird das HMM zum Erkennen des Phonems /b/ aus einer Zahl von Beispielen /b/ gelernt. Das Phonemtrainingsbeispiel ist eine Sequenz von Vektorcodes. Die Länge der Sequenz ist variabel. Ein typisches 4-Zustands-3-Schleifen- HMM wird zum Beispiel zum Darstellen eines Phonems benutzt. Das erhaltene HMM wird in einer HMM-Speichereinheit 12 gespeichert. Solche HMMs werden entsprechend der zu erkennenden Kategorien vorbereitet. Zur Zeit der Erkennung wird der Schalter SW2 zu der "b"-Seite geschaltet, und die Sequenz von Vektorcodes der Testsprache wird von den HMMs an einer HMM-Erkennungseinheit 13 erkannt. Es gibt eine Wahrscheinlichkeitstabelle (Ausgangswahrscheinlichkeit) von Schwerpunktszahlen (Vektorcodes) für jeden Zustand (ein Code 1 an einem Zustand 1 wird zum Beispiel als eine Wahrscheinlichkeit von 0,01 aufweisend beschrieben), und die Tabelle wird auf der Grundlage der Menge der Trainingssprachen gelernt. Die Wahrscheinlichkeit des Übergangs von einem Zustand zu einem anderen wird ebenfalls gelernt.
In der HMM-Erkennungseinheit 13 werden ein HMM-Modell von /b/, ein HMM- Modell /d/ usw. aufeinanderfolgend für die Eingangssprache untersucht, die als eine Zeitsequenz von Vektorcodes dargestellt ist, und die Wahrscheinlichkeit der Erzeugung einer Vektorcodezeitsequenz der Eingangssprache wird berechnet. Es mag unnötig sein, im einzelnen das Erkennungsverfahren unter Benutzung von HMM zu beschreiben, da es gut bekannt ist. Zusammengefaßt, ein Verfahren zum Berechnen der Wahrscheinlichkeit eines HMM in bezug auf die eingegebene Sprache ist wie folgt. Jede mögliche Zuordnung ohne Zurückverfolgen der Zeit der HMM-Zustände wird für die Vektorcodezeitsequenz der Eingangssprache ausgeführt, die Erzeugungswahrscheinlichkeit des Vektorcodes wird mit einer Zustandsübergangswahrscheinlichkeit multipliziert, und die Logarithmen der Resultate werden akkumuliert zum Erhalten einer Wahrscheinlichkeit, die die Distanz zwischen dem Modell und der Eingangssprache bezeichnet. Solche Wahrscheinlichkeiten verschiedener HMM- Modelle wie /b/, /d/ und ähnliches werden berechnet, und das Modell mit der höchsten Wahrscheinlichkeit wird als das Resultat der Erkennung angesehen, und das Resultat wird auf einer Erkennungsresultatanzeigeneinheit 14 angezeigt.
Das durch eine Ausführungsform der vorliegenden Erfindung vorgesehene Resultat wurde durch ein Experiment des Erkennens von 6 Phonemen /b, d, g, m, n, N/ unter Benutzung von HMMs bestätigt. Phonemproben, die zum Lernen benutzt wurden, wurden aus 2640 japanischen wichtigen Wörtern extrahiert, die von einem Mann ausgesprochen wurden. Phonemproben, die zum Testen benutzt wurden, wurden aus verschiedenen 2640 wichtigen Wörtern extrahiert, die von der selben Person ausgesprochen wurden. Gemäß dem Resultat des Erkennungsexperimentes konnte die Erkennungsrate, die 84,1% betrug, wenn herkömmliche Cepstrumskoeffizienten als Merkmalsparameter benutzt wurden, auf 88,6% verbessert werden.
Bei dem quadratischen Glättungsheber der Ausführungsform 1 sind die dynamischen Cepstrumskoeffizienten der Ordnung nicht niedriger als die anfängliche Abschneidefrequenz q&sub0; die gleichen wie die ursprünglichen Cepstrumskoeffizienten. Ein Verfahren, das einen Heber mit einer Gaußverteilung verwendet, kann als ein Verfahren vorgeschlagen werden, bei dem Maskierung sogar für Koeffizienten höherer Ordnung in Betracht gezogen werden können. Wenn der Heber in der Form einer Gaußverteilung vorliegt, liegt die Impulsantwort des Spektrumsglättungsfilters auf der Fre quenzachse, die durch eine Fouriertransformation davon erhalten wird, ebenfalls in der Form einer Gaußverteilung vor. Der k-te Koeffizient des Gaußhebers zum Glätten des Spektrums vor n Zeitpunkten wird wie folgt dargestellt:
In dem Gaußglättungsheber stellt q&sub0; die Standardabweichung der Gaußverteilung des Glättungshebers an einem Zeitpunkt zuvor dar. Die Standardabweichung der Gaußverteilung wird linear kleiner, während die Zeit zurückverfolgt wird.
Fig. 2 zeigt eine andere Ausführungsform der vorliegenden Erfindung. Bei dem Beispiel von Fig. 2, werden kontinuierliche HMMs als die Erkennungseinheit benutzt [Peter F. Brown: "The Acoustic-Modeling Problem in Automatic Speech Recognition", Doktor Diss., Carnegie-Mellon University (1987)]. Ein Verfahren, das ein Quadratfenster vom Gaußtyp und kontinuierliche HMMs in der Erkennungseinheit verwendet, und das Resultat eines Experimentes wird unter Bezugnahme auf die Ausführungsform von Fig. 2 beschrieben. Die Strukturen vom Mikrophon 1 bis zur Erzeugereinheit 7 des dynamischen Cepstrums sind die gleichen wie jene in Fig. 1 gezeigten. Ein Glättungsheber vom Gaußtyp wird in der Erzeugereinheit 7 des dynamischen Cepstrums benutzt. Es können sowohl die Glättungsfenster vom Quadrattyp als auch vom Gaußtyp in der Erzeugereinheit 7 des dynamischen Cepstrums in beiden Ausführungsformen von Fig. 1 und 2 benutzt werden.
Die Parameter des Glättungshebers vom Gaußtyp werden auf N = 4, anfängliche Standardabweichung q&sub0; = 18, Standardabweichungabnahmerate ν = 1, α = 0,3 und β = 0,7 gesetzt. Da kontinuierlich HMMs in dem Beispiel von Fig. 2 benutzt werden, sind Einheiten, die sich auf Vektorquantisierung beziehen, nicht notwendig. Daher tritt das dynamische Cepstrum, das in der Erzeugereinheit 7 des dynamischen Cepstrums erhalten wird, direkt in den Schalter SW1 ein. Bei dem Lern-HMM wird der Schalter SW1 zu der "a"-Seite geschaltet. Die Zeitsequenz des dynamischen Cepstrums tritt in die kontinuierliche HMM-Lerneinheit 15 ein und wird als kontinuierliche HMM mit einer kontinuierlichen Ausgangsverteilung, die durch eine diagonale Gaußmischverteilung dargestellt ist, für jeden Zustand gelernt. Die Zahl der Mischungen der Gaußverteilung beträgt zum Beispiel 8. Das gelernte Phonemerkennungs-HMM wird in einer kontinuierlichen HMM-Speichereinheit 16 gespeichert. Wenn eine Testsprache zu erkennen ist, wird der Schalter SW1 der "b"-Seite geschaltet, Erkennung wird in der kontinuierlichen HMM-Erkennungseinheit 17 ausgeführt, und das Resultat wird auf der Erkennungsresultatanzeigeneinheit 14 angezeigt.
Genauer, das in der kontinuierlichen HMM-Speichereinheit 16 gespeicherte kontinuierliche HMM stellt nicht die Wahrscheinlichkeit der Erzeugung von Vektorcodes, wie bei dem diskreten HMM, sondern eine Ausgangswahrscheinlichkeit durch eine Funktion, die die Wahrscheinlichkeit der Erzeugung des Vektors selbst anzeigt dar. Allgemein, diese Wahrscheinlichkeit der Erzeugung wird durch eine Mischung von Gaußverteilungen dargestellt. In der kontinuierlichen HMM-Erkennungseinheit 17 wird die Modellwahrscheinlichkeit durch das kontinuierliche HMM berechnet. Es kann unnötig sein, im einzelnen das Erkennungsverfahren gemäß dem HMM zu beschreiben, da es weit bekannt ist. Zusammenfassend, das Verfahren des Erhaltens der Wahrscheinlichkeit eines HMM für eine Eingangssprache ist wie folgt. Jede mögliche Zuordnung ohne Zurückverfolgung in der Zeit der Zustände des HMM wird für eine Zeitsequenz des dynamischen Cepstrumsvektors der Eingabesprache ausgeführt, die Ausgangswahrscheinlichkeit des dynamischen Cepstrumsvektors wird mit der Übergangswahrscheinlichkeit multipliziert, die Logarithmen der Resultate werden akkumuliert, und die Summe wird als Wahrscheinlichkeit für ein HMM-Modell für die Eingangssprache angesehen. Solche Wahrscheinlichkeiten verschiedener HMM-Modelle wie /b/, /d/, usw. werden berechnet und das Modell mit der höchsten Wahrscheinlichkeit wird das als Resultat der Erkennung angesehen. Obwohl die Einheit des HMM-Modelles in dieser Ausführungsform ein Phonem ist, kann ein Wort oder eine Phrase als die Einheit benutzt werden. Die Zuverlässigkeit des dynamischen Cepstrums wurde durch ein Experiment der Phonemerkennung geschätzt. Die benutzte Sprachdatenbasis enthielt 5240 wichtige japanische Wörter und 115 Sätze, die mit einer Pause an jeder Phrase gesprochen wurden, die von 10 Männern und 10 Frauen gesprochen wurden. Die erstere wird als Wortsprechdatenbasis bezeichnet, während die letztere als Phrasensprechdatenbasis bezeichnet wird. Zum Lernen wurden 2640 Wörter der Wortsprechdatenbasis benutzt, und Testphoneme wurden für die verbleibenden 2640 Wörter der Wortsprechdatenbasis und von der Phrasensprechdatenbasis gesammelt. Die Erkennung von 23 Phonemen einschließlich 5 Vokalen und 18 Konsonanten, das heißt /b, d, g, m, n, N, p, t, k, s, h, z, r, y, w, ch, ts, sh, a, i, u, e, o/, wurde ausgeführt.
Ein Experiment des Erkennens der 23 Phoneme der Sprachen von 10 Männern und 10 Frauen wurde ausgeführt, und eine mittlere Erkennungsrate von 20 Sprechern wurde berechnet. Als Resultat konnte im Vergleich mit dem Beispiel, bei dem Cepstrumskoeffizienten benutzt wurden, indem das dynamische Cepstrum benutzt wurde, die Erkennungsrate von 93,9% auf 95,4% erhöht werden, wenn die Wortsprechdatenbasis benutzt wurde, und die Rate konnte von 77,3% auf 82,5% erhöht werden, wenn die Phrasensprechdatenbasis benutzt wurde. Von diesem Resultat kann verstanden werden, daß das dynamische Cepstrum nicht nur für Sprachen ähnlicher Sprechstile, sondern auch für Sprachen unterschiedlicher Sprechstile robust ist.
Bei der dritten Ausführungsform wird die vorliegende Erfindung nicht in der cepstralen Domäne, sondern durch eine äquivalente Tätigkeit einer logarithmischen Spektrumsdomäne eingesetzt. Das Prinzip wird beschrieben. Die Sprache wird in eine Spektrumszeitsequenz durch Fouriertransformation oder ähnliches umgewandelt. Eine Tätigkeit zum Frequenzglätten des Spektrums entspricht einer Faltung zwischen dem Spektrum und dem Glättungsfilter auf der Frequenzachse.
Wenn das logarithmische Spektrum der Sprache zu dem gegenwärtigen Zeitpunkt i als S(ω, i) dargestellt wird, und das Filter zum Glätten der logarithmischen Sprache n Zeitpunkte zuvor als ein h(λ, n) dargestellt wird, kann das Maskenmuster M(ω, i) zu der gegenwärtigen Zeit i als eine Gesamtsumme der logarithmischen Spektren die über N Zeitpunkte in der Vergangenheit geglättet wurden, dargestellt werden wie
N stellt die maximale Zeitdauer dar, in der die Maskierung wirksam ist. Das maskierte effektive Hörsprachenspektrum kann durch Subtrahieren des maskierten Musters von dem gegenwärtigen logarithmischen Spektrum erhalten werden, das heißt
P(ω, i) = S (ω, i) - M (ω, i)
Dieser Parameter wird als maskiertes Spektrum bezeichnet. Hier wird h(λ, n) durch die Fouriertransformation des Frequenzglättungshebers Ik(n) der Ausführungsform 1 oder 2 erhalten.
Eine Zeitsequenz eines maskierten Spektrums wird erzeugt, wenn die obige Tätigkeit aufeinanderfolgend für entsprechende Zeitpunkte des Sprache von der Vergangenheit ausgeführt wird. Spracherkennung wird ausgeführt, indem die Zeitsequenz benutzt wird. Das Erkennungsverfahren kann Modellanpassung unter Benutzung dynamischen Programmierens benutzen (oder ein Verfahren, das DTW benutzt: dynamische Zeitverwerfung), oder ein Verfahren, das HMM (verborgenes Markov-Modell) benutzt. Die Ausführungsform gemäß dieses Prinzips wird beschrieben. Bei dieser Ausführungsform wird die dynamische Zeitverwerfung in der Erkennungseinheit benutzt.
Fig. 3 ist ein Blockschaltbild, das eine weitere Ausführungsform zum Erkennen von Wörtern gemäß der vorliegenden Erfindung zeigt. Eine Eingangssprache wird in ein elektrisches Signal durch ein Mikrophon 1 umgewandelt, seine Frequenzkomponente nicht niedriger als 1/2 der Abtastfrequenz wird durch ein Tiefpaßfilter 2 entfernt, und das Signal wird an einen A/D-Wandler 3 angelegt. Der A/D-Wandler 3 weist eine Abtastfrequenz von z. B. 12 kHz und ein Quantisierungsniveau von 16 Bit auf, und das Signal wird in ein digitales Signal umgewandelt. Das digitale Signal wird an eine Fouriertransformationseinheit 18 angelegt, Sprachabschnitte werden alle 10 msek durch ein Hammingfenster mit der Breite von 21,3 msek segmentiert, und Spektren von 128 Ordnungen werden erhalten. Eine Berechnungseinheit 19 eines logarithmischen Spektrums sieht einen Logarithmus durch ein quadratisches Mittel von 4 Frequenzen · 4 Frequenzen vor, so daß die Spektren in logarithmische Spektren mit 32 Frequenzpunkten umgewandelt werden.
Eine Erzeugereinheit 20 des maskierten Spektrums sieht ein Zeitfrequenzmaskierungsfilter der logarithmischen Spektrumszeitfrequenz zum Vorsehen einer Zeitfrequenz des maskierten Spektrums vor. Das Zeitfrequenzmaskierungsfilter wird durch die Fouriertransformierte des Maskierungshebers für das dynamische Cepstrum der Ausführungsform 1 oder 2 erhalten.
Ein Schalter SW 1 dient zum Schalten zwischen Modelllernen und Erkennung. Wenn er zu der "a"-Seite geschaltet ist, wird eine oder mehrere Worttrainingsproben gesammelt und zu einer Wortmodellspeichereinheit 21 übertragen. Bei dieser Ausführungsform wird dynamisches Zeitverwerfen oder dynamisches Programmanpassen benutzt, und daher wird die Trainingssprache einer statistischen Bearbeitung nicht unterworfen, sondern direkt in der Wortmodellspeichereinheit 21 gespeichert [Hiroaki Sakoe und Seibi Chiba: "Dynamic Programming Algorithm optimization for Spoken Word Recognition" IEEE Trans. on Acoustics, Speech, and Signal Processing, Bd. ASSP-26, Nr. 1, Feb. 1978].
Da die Ausführungsform 3 direkt auf ein Gerät zur Erkennung von Wörtern gerichtet ist, werden die Modelle auf der Wort für Wort Basis gespeichert. Solche Modelle werden entsprechend in zu erkennenden Kategorien vorbereitet. Zu der Zeit der Erkennung wird der Schalter SW1 zu der "b"-Seite geschaltet, und bei einer Distanzrechnungseinheit 22 wird die Distanz zwischen der Eingangssprache und den Modellen aller Wörter, die gespeichert sind durch dynamisches Programmanpassen berechnet. Genauer, die Zeitachse der Eingangssprache, des Modells oder von beiden werden zu jedem Zeitpunkt verwunden, und der Mittelwert in der gesamten Sprache der Distanzen zwischen entsprechenden Punkten beider Sprachen, an dem diese am besten zusammenpassen, wird als die Distanz zwischen der Eingangssprache und dem Modell angesehen. Die Distanzberechnungseinheit 22 vergleicht die Distanz zwischen Eingangssprache und jedem Modell und zeigt den Namen des Wortmodelles an, das die minimale Distanz bezeichnet, zum Beispiel /Wort/ als Resultat der Erkennung in der Erkennungsresultatanzeigeeinheit 14. Dieses Verfahren kann auf Phonemerkennung und ähnliches zusätzlich zu der Worterkennung angewendet werden.
Obwohl die vorliegende Erfindung im einzelnen beschrieben und dargestellt worden ist, ist klar zu verstehen, daß dieses nur als Weg der Darstellung und eines Beispieles dient und nicht als Weg zur Begrenzung genommen werden kann, der Umfang der vorliegenden Erfindung ist nur durch den Inhalt der beigefügten Ansprüche begrenzt.

Claims

1. Spracherkennungsverfahren, bei dem eine Eingangssprache in eine Zeitsequenz eines Merkmalsvektors eines Spektrums, wie ein Cepstrum, umgewandelt wird und eine Distanz zwischen der Zeitsequenz und einer Zeitsequenz eines Modellmerkmalsvektors eines Modells der Eingangssprache zur Erkennung berechnet wird, mit den Schritten:

Glätten vorangehender Merkmalsvektoren durch Vorsehen eines Frequenzfilters, bei dem das Frequenzglätten zunimmt während die Zeit zurückverfolgt wird, wobei die Zunahme an einem bestimmten zurückverfolgten Zeitpunkt gestoppt wird, wenn das Glätten nicht mehr auf der Zeitsequenz des Merkmalsvektors wirksam ist;

Berechnen eines Maskierungsmusters durch Akkumulieren der geglätteten vorangehenden Merkmalsvektoren von dem bestimmten Zeitpunkt in der Vergangenheit bis unmittelbar vor der gegenwärtigen Zeit;

Berechnen eines maskierten Merkmalsvektors durch Subtraktion zwischen dem gegenwärtigen Merkmalsvektor und dem Maskierungsmuster;

Erkennen der Sprache durch Benutzen des maskierten Merkmalsvektors, der durch die oben beschriebene Tätigkeit erhalten wird, zu jedem Zeitpunkt.

2. Spracherkennungsverfahren nach Anspruch 1, mit den Schritten:

Umwandeln der Eingangssprache in ein digitales Signal (3);

Umwandeln des digitalisierten Sprachsignals in einen Cepstrumskoeffizienten zu jedem vorgeschriebenen Zeitintervall (4, 5, 6) der Zeitsequenz;

Erhalten der Zeitsequenz des dynamischen Cepstrums (7) durch Bewirken der Zeitfrequenzmaskierungsfilterung der Cepstrumszeitsequenz und

Erkennen der Sprache durch Benutzung des dynamischen Cepstrums oder der äquivalenten Merkmalsvektorzeitsequenz (8-13, 15-17).

3. Spracherkennungsverfahren nach Anspruch 2, bei dem der Schritt des Umwandelns des Cepstrumskoeffizienten die Schritte aufweist:

Segmentieren des digitalisierten Sprachsignales zu jedem vorgeschriebenen Zeitintervall zum Erhalten eines Autokorrelationskoeffizientenvektors (4) und

Berechnen eines Koeffizientenvektors der linearen Vorhersage auf der Grundlage des Autokorrelationskoeffizientenvektors (5).

4. Spracherkennungsverfahren nach Anspruch 2, bei dem der Schritt des Umwandelns des Cepstrumskoeffizienten den Schritt des Segmentierens des digitalisierten Sprachsignals zu jedem vorgeschriebenen Zeitintervall aufweist zum Erhalten eines logarithmischen Spektrums durch Fouriertransformierte oder durch ein anderes Verfahren wie eine Filterbank und Berechnen eines Cepstrumskoeffizientenvektors durch inverse Fouriertransformierte des Resultates (18, 19).

5. Spracherkennungsverfahren nach einem der Ansprüche 2 bis 4, bei dem der Schritt des Erkennens der Sprache die Schritte aufweist:

Zuordnen des nächsten von Schwerpunktsvektoren, die aus einer Zahl von Trainingsproben von dynamischen Cepstrumsvektoren erhalten werden, zu einer Zeitsequenz des dynamischen Cepstrums für eine Eingangssprache zum Erzeugen einer Sequenz von Vektorcodezahlen (8, 9, 10) und

Erkennen der Sequenz der Vektorcodezahlen.

6. Spracherkennungsverfahren nach einem der Ansprüche 2 bis 5, weiter mit den Schritten:

Sammeln von Trainingsproben wie eine Zahl von Phonemen, Wörtern und ähnlichem, die durch die Sequenz eines Vektors oder Vektorcodezahl dargestellt werden, und Lernen derselben gemäß eines vorgeschriebenen Algorithmus (11, 12); wobei

der Schritt des Erzeugens der Sequenz der Vektorzahl den Schritt es Erkennens einer Sequenz einer Vektorcodezahl der zu erkennenden Eingangsprache auf der Grundlage des Lernens gemäß dem vorgeschriebenen Algorithmus enthält.

7. Spracherkennungsverfahren Anspruch nach 6, bei dem der Schritt des Lernens den Schritt des Lernens und der Benutzung von verborgenen Markovmodellen (11) enthält.

8. Spracherkennungsverfahren nach einem der Ansprüche 2 bis 6 bei dem der Schritt des Erkennens der Sprache den Schritt des Lernens der Sprache enthält, die durch die dynamische Cepstrumszeitsequenz unter Benutzung kontinuierlicher verborgener Markovmodelle dargestellt wird.

9. Spracherkennungsverfahren nach einem der Ansprüche 6 bis 9 bei dem der Schritt des Erkennens der Sprache den Schritt des Erkennens der Eingangssprache enthält, die durch die dynamische Cepstrumszeitsequenz unter Benutzung des Resultates des Lernens (13) dargestellt wird.

10. Spracherkennungsverfahren nach Anspruch 1, mit den Schritten:

Umwandeln der Eingangssprache in ein digitales Signal (3);

Segmentieren des digitalisierten Sprechsignals an jedem vorgeschriebenen Zeitintervall zum Erhalten einer logarithmischen Spektrumszeitsequenz durch Fouriertransformierte oder ein anderes Verfahren wie eine Filterbank (18, 19);

Bewirken der Zeitfrequenzmaskierungsfilterung auf der logarithmischen Spektrumszeitsequenz zum Erhalten einer maskierten Spektrumszeitsequenz (20);

Erkennen der Sprache unter Benutzung der maskierten Spektrumszeitsequenz (21, 23).

11. Spracherkennungsverfahren nach Anspruch 10, bei dem der Schritt des Erkennens der Sprache den Schritt des Erkennens der Sprache durch Berechnen eines Merkmalsvektors, der gleich einem dynamischen Cepstrum ist, der das maskierte Spektrum enthält (21, 22), oder durch Modellanpassung unter Benutzung dynamischen Programmierens oder durch ein Verfahren des dynamischen Zeitverwerfens enthält.

12. Spracherkennungsverfahren nach Anspruch 1, bei dem die Distanz zwischen der Zeitsequenz und einem statistischen Modell des Merkmalsvektors oder einer Wahrscheinlichkeit des Modells für die Eingangssprache berechnet wird.

13. Spracherkennungsverfahren nach Anspruch 1, bei dem das Frequenzfilter einen Satz von Frequenzfiltern aufweist, in denen das Frequenzglätten zunimmt, während die Zeit zurückverfolgt wird.

14. Spracherkennungsgerät, in dem eine Eingangssprache in eine Zeitsequenz eines Merkmalsvektors eines Spektrums, wie ein Cepstrum, umgewandelt wird und eine Distanz zwischen der Zeitsequenz und einer Zeitsequenz eines Modellmerkmalsvektors eines Modells für die Eingangssprache zur Erkennung berechnet wird, mit

- einem Frequenzfilter zum Glätten vorangehender Merkmalsvektoren, bei dem das Frequenzglätten zunimmt, während die Zeit zurückverfolgt wird, wobei die Zunahme beim Glätten an einem bestimmten zurückverfolgten Zeitpunkt gestoppt wird, wenn das Glätten nicht mehr wirksam ist;

- einem Akkumulator zum Berechnen eines Maskierungsmusters durch Akkumulieren der geglätteten vorangehenden Merkmalsvektoren von dem bestimmten Zeitpunkt in der Vergangenheit bis unmittelbar vor der gegenwärtigen Zeit;

- einem Subtrahierer zum Berechnen eines maskierten Merkmalsvektors durch Subtrahieren des Maskierungsmusters von dem Merkmalsvektor an der Gegenwart und

- einer Erkennungseinrichtung zum Erkennen der Sprache und der Benutzung des maskierten Merkmalsvektors zu jedem Zeitpunkt.

15. Gerät nach Anspruch 14 mit:

einem Wandler (3) zum Wandeln der Eingangssprache in ein digitales Signal,

einer Autokorrelationsanalyseeinheit (4) zum Erhalten eines Autokorrelationskoeffizientenvektors aus dem digitalisierten Sprachsignal,

einer Analyseeinheit (5) der linearen Vorhersage zum Berechnen eines linearen Vorhersagevektors aus dem Autokorrelationskoeffizientenvektor,

einer Cepstrumsanalyseeinheit (6) zum Umwandeln des linearen Vorhersagevektors in Cepstrumskoeffizienten und einer Erzeugereinheit (7) des dynamischen Cepstrums zum Bewirken einer Zeitfrequenzmaskierungsfilterung auf die Cepstrumskoeffizienten zum Erhalten einer Zeitsequenz des dynamischen Cepstrums.

16. Gerät nach Anspruch 14 mit:

einem Wandler (3) zum Umwandeln der Eingangssprache in ein digitales Signal,

einer Fouriertransformationseinheit (18) zum Erhalten einer Fouriertransformierten aus dem digitalen Signal,

einer Berechnungseinheit (19) des logarithmischen Spektrums zum Erhalten einer logarithmischen Spektrumszeitsequenz aus der Fouriertransformierten und

eine Erzeugereinheit (20) des maskierten Spektrums zum Erhalten eines Zeitfrequenzmaskierungsfilters der logarithmischen Spektrumszeitsequenz zum Vorsehen einer Zeitsequenz des maskierten Spektrums.