[go: up one dir, main page]

DE69321656T2 - Verfahren zur Spracherkennung - Google Patents

Verfahren zur Spracherkennung

Info

Publication number
DE69321656T2
DE69321656T2 DE69321656T DE69321656T DE69321656T2 DE 69321656 T2 DE69321656 T2 DE 69321656T2 DE 69321656 T DE69321656 T DE 69321656T DE 69321656 T DE69321656 T DE 69321656T DE 69321656 T2 DE69321656 T2 DE 69321656T2
Authority
DE
Germany
Prior art keywords
speech
time
cepstrum
vector
time sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69321656T
Other languages
English (en)
Other versions
DE69321656D1 (de
Inventor
Kiyoaki Atr Human Inf. Processing Res.Lab Soraku-Gun Kyoto Aikawa
Hideki Atr Human Inf.Processing Res.Lab Soraku-Gun Kyoto Kawahara
Yoh'ichi Atr Human Inf. Process. Res.Lab Soraku-Gun Kyoto Tohkura
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR AUDITORY VISUAL PERCEPTION
Original Assignee
ATR AUDITORY VISUAL PERCEPTION
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR AUDITORY VISUAL PERCEPTION filed Critical ATR AUDITORY VISUAL PERCEPTION
Application granted granted Critical
Publication of DE69321656D1 publication Critical patent/DE69321656D1/de
Publication of DE69321656T2 publication Critical patent/DE69321656T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Complex Calculations (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

    HINTERGRUND DER ERFINDUNG Gebiet der Erfindung
  • Die vorliegende Erfindung bezieht sich auf ein Spracherkennungsverfahren. Genauer, die vorliegende Erfindung bezieht sich auf ein Spracherkennungsverfahren, bei dem eine automatische Spracherkennung durch eine Maschine, wie ein elektronischer Computer bewirkt wird, in dem Abstand oder Wahrscheinlichkeit zwischen einer Zeitsequenz eines Eingangssprachspektrums und einer Zeitsequenz eines Modellsprachspektrums oder seines statistischen Modelles benutzt wird.
  • Beschreibung der Hintergrundstechnik
  • Grundsätzlich wird bei einer automatischen Spracherkennung durch einen elektronischen Computer oder ähnlichem die Sprache in einer Spektrumszeitsequenz umgewandelt und erkannt. Cepstrum wird oft als Merkmalsparameter benutzt, der das Spektrum darstellt. Das Cepstrum ist als eine inverse Fouriertransformierte des logarithmischen Spektrums definiert. Im folgenden wird das logarithmische Spektrum einfach als Spektrum bezeichnet.
  • Kürzlich ist berichtet worden, daß die Zuverlässigkeit der Spracherkennung verbessert werden kann, wenn Änderung des Spektrums in der Zeit oder auf der Frequenzachse als Merkmal zusammen mit dem Spektrum benutzt wird. Vorgeschlagen sind "delta cepstrum", das die Zeitänderung des Spektrums benutzt [Sadaoki Furui: "Speaker-Independent Isolated Word Recognition Using Dynamic Features of Speech Spectrum", IEEE Trans., ASSP-34, Nr. 1, S. 52-59 (1986-2)]; "spektrale Neigung", die die Frequenzänderung des Spektrums benutzt [D. H. Klatt: "Prediction of Perceived Phonetic Distance from Critical-Band Spectra: A First Step", Proc. ICASSP82 (International Conference on Acoustics Speech and Signal Processing), S. 12778-1281 (Mai 1982), Brian A. Hanson und Hisashi Wakita: "Spectral Slope Distance Measures with Linear Prediction Analysis for Word Recognition in Noise", IEEE Trans. ASSP-35, Nr. 7, S. 968-973 (Juli 1987)]; und "spektrale Bewegungsfunktion", die die Bewegung des Formans erfaßt [Kiyoaki Aikawa und Sadaoki Furui: "Spectral Movement Function and its Application to Speech Recognition", Proc. ICASSP88, S. 223-226 (April 1988)].
  • "Delta Cepstrum" basiert auf der Zeitableitung der logarithmischen Spektralzeitsequenz und wird durch ein Zeitfilter berechnet, das nicht von der Frequenz abhängt. "Spektrale Neigung" beruht auf der Frequenzableitung des logarithmischen Spektrums und wird durch ein Frequenzfilter berechnet, das nicht von der Zeit abhängt. "Spektrale Bewegungsfunktion" basiert auf der Zeitfrequenzableitung des logarithmischen Spektrums und wird durch Durchführen sowohl des Zeitfilters als auch des Frequenzfilters berechnet. Hier ist das Frequenzfilter konstant unabhängig von der Zeit, und das Zeitfilter ist konstant für jede Frequenz. Das Zeitfilter adressiert Fluktuation des Spektrums auf der Zeitachse, während das Frequenzfilter Fluktuation des Spektrums auf der Frequenzachse adressiert.
  • Weiterhin offenbart das US-Patent 5,097,510 ein System zum Verringern von Rauschen von einem Sprachsignal, das durch Rauschen verunreinigt ist. Das System verwendet eine künstliche Intelligenz, die auf die Einstellung hin eines Filteruntersystemes durch Unterscheiden zwischen Rauschen und Sprache in dem Spektrum des eingehenden Signals der Sprache plus Rauschen entscheiden kann. Das System tut dies, indem das Muster einer Leistungs- oder Hüllenfunktion des Frequenzspektrums des eingehenden Signals getestet wird. Das System bestimmt, daß die schnell ändernden Abschnitt der Hülle Sprache bezeichnen, während der Rest so bestimmt wird, daß er die Frequenzverteilung der Rauschleistung ist. Die Bestimmung wird durchgeführt, während entweder das ganze Spektrum geprüft wird oder Frequenzbänder davon, unabhängig davon, wo das Maximum des Spektrums liegt.
  • Das US-Patent 5,067,158 offenbart ein Verfahren zum Codieren von Sprache, bei dem insbesondere der LPC-Rest des Sprachsignales unter Benutzung minimaler Phasenspektralrekonstruktionstechniken codiert wird, in dem das LPC-Restsignal auf eine Weise ungefähr eines minimalen Phasensignales transformiert wird und dann spektrale Rekonstruktionstechniken zum Darstellen des LPC-Restsignales durch entweder seine fouriertransformierte Größe oder Phase angewendet werden. Die nicht iterative Spektralrekonstruktionstechnik beruht auf dem Cepstralkoeffizienten, durch den die Größe und die Phase eines minimalen Phasensignales aufeinander bezogen sind.
  • Aus der EP 0 290 190 A kann ein Musteranpaßsystem entnommen werden, das bei einer Spracherkennungsausrüstung benutzt wird, insbesondere für zwei Achsenmusteranpassung auf der Frequenz- und Zeitachse unter Benutzung eines linearen Vorhersagekoeffizienten oder ähnliches.
  • Es wird jedoch angenommen, daß der Merkmalsextraktionsmechanismus des menschlichen Hörsystems sich von jedem dieser Filter unterscheidet. Das menschliche Hörsystem weist einen Maskierungseffekt auf. In einem zweidimensionalen Spektrum auf einer Zeitfrequenzebene wird ein Sprachsignal einer bestimmten Frequenz an einem bestimmten Zeitpunkt durch ein Sprachsignal maskiert, das nahe in der Zeit und in der Frequenz ist. Mit anderen Worten, es wird unterdrückt. Bezüglich des Maskierungseffektes, wenn die Sprache an einem bestimmten Zeitpunkt eine Sprache maskiert, die in der Zeit folgt, wird dieser Effekt als Vorwärtsmaskierung bezeichnet. Wir können annehmen, daß die Vorwärtsmaskierung zum Speichern der Spektralform eines vorangehenden Zeitpunktes dient, und daher können wir annehmen, daß ein dynamisches Merkmal, das nicht in der vorangehenden Sprache enthalten ist, durch diesen Effekt extrahiert wird. Gemäß einer hörpsychologischen Studie wird das Frequenzmuster der Vorwärtsmaskierung glatter, wenn das Zeitinterval zwischen dem Maskierungsgeräusch und dem maskierten Geräusch (Maskierung-Signal-Zeitintervall) länger wird [Elichi Miyasaka, "Spatio-Temporal Characteristics of Masking of Brief Test-Tone Pulses by a Tone-Burst with Abrupt Switching Transients", J. Acoust. Soc. Jpn, Bd. 39, Nr. 9, S. 614-623, 1983 (auf japanisch)]. Diese maskierte Sprache ist die effektive Sprache, die in dem menschlichen Hörsystem empfunden wird. Dieser Signalverarbeitungsmechanismus kann nicht durch ein festes Frequenzfilter, das nicht von der Zeit abhängt, realisiert wer den. Damit dieser Signalverarbeitungsmechanismus eingesetzt wird, ist es notwendig, einen Satz von Frequenzfiltern zu benutzen, deren Eigenschaften sich zeitabhängig ändern. Der Satz von Frequenzfiltern, deren Eigenschaften als Spektrumglättungsfilter sich in Abhängigkeit von dem Zeitinterval von dem Empfangen der Sprache, die als Maskierung dient, und die sich auf die Frequenz beziehende Tätigkeit, hängt von der Zeit ab. Ein Mechanismus zum Extrahieren von Merkmalsparametern, die solch Höhreigenschaften in Betracht ziehen, ist bis jetzt nicht berichtet worden.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Es ist daher eine Aufgabe der vorliegenden Erfindung, ein Verfahren und ein Gerät der Spracherkennung vorzusehen, die die Zuverlässigkeit der automatischen Spracherkennung durch eine Maschine verbessern können, bei dem eine Spektralzeitsequenz näher zu der tatsächlichen Spektralzeitsequenz, die von einem Menschen empfunden wird, vorgesehen wird, in dem ein Spektralglättungsfilter mit Filtereigenschaften in Abhängigkeit von der Zeitdauer benutzt wird, wodurch Zeitfrequenzeigenschaften einer Vorwärtsmaskierung simuliert werden.
  • Diese Aufgabe wird gelöst durch ein Spracherkennungsverfahren, wie es in Anspruch 1 definiert ist.
  • Bevorzugte Ausgestaltungen des Spracherkennungsverfahrens sind in den Unteransprüchen 2 bis 13 angegeben.
  • Die Aufgabe wird ebenfalls gelöst durch ein Spracherkennungsgerät, wie es in Anspruch 14 definiert ist.
  • Bevorzugte Ausgestaltungen des Gerätes sind in den Unteransprüchen 15 und 16 angegeben.
  • Bei dem Spracherkennungsverfahren gemäß der vorliegenden Erfindung kann ein dynamisches Merkmal, wie es bei den Maskierungseigenschaften eines menschlichen Hörsystems beobachtet wird, extrahiert werden. Genauer, ein Merkmal, das bis jetzt noch nicht aufgetreten ist, wird verstärkt, während ein Merkmal, das kontinuierlich aufgetreten ist, unterdrückt wird. Da die vorangehenden Spektren geglättet werden, so daß sie zu dem Maskierungsmuster addiert werden, stellt das Maskierungsmuster ein globales Merkmal der vorangehenden Spracheingabe dar, und die Änderung davon stellt das Merkmal an jedem Zeitpunkt dar. Durch dieses Verfahren kann das dynamische Merkmal, das bei der Spracherkennung wichtig ist, extrahiert werden und zusätzlich kann der Einfluß eines stationären spektralen Neigung in Abhängigkeit von dem Individuum, die in der Sprache oder in der Übertragungseigenschaft bei dem Sprachsignalübertragungssystem enthalten sind, verringert werden. Das Delta- Cepstrum, das ein dynamischer Merkmalparameter ist und herkömmlicherweise benutzt wird, weist keine Information einer Spektralform auf, und daher muß es mit anderen Parametern wie Cepstrum benutzt werden. Da jedoch das dynamische Cepstrum sowohl gegenwärtige als auch vorübergehende Merkmale eines Spektrums enthält, ist es nicht notwendig, es mit anderen Parametern zu benutzen. Weiter kann durch Benutzen solch eines Zeitfrequenzmaskierungsmechanismus ein dynamisches Merkmal auf der Grundlage des vorangehenden geglätteten Spektrums erhalten werden, und daher kann das dynamische Merkmal mit weniger Einfluß der detaillierten Formansstruktur des vorangehenden Phonems extrahiert werden.
  • Die vorangehenden und anderen Aufgaben, Merkmale, Aspekte und Vorteile der vorliegenden Erfindung werden ersichtlicher aus der folgenden detaillierten Beschreibung der vorliegenden Erfindung, wenn sie in Zusammenhang mit den begleitenden Zeichnungen genommen wird.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • Fig. 1 ist ein Blockschaltbild, das einen Aufbau einer Ausführungsform der vorliegenden Erfindung zeigt.
  • Fig. 2 ist ein Blockschaltbild, das einen Aufbau einer anderen Ausführungsform der vorliegenden Erfindung zeigt.
  • Fig. 3 ist ein Blockschaltbild, das einen Aufbau einer noch anderen Ausführungsform der vorliegenden Erfindung zeigt.
  • BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
  • Zuerst wird das Prinzip der vorliegenden Erfindung beschrieben. Bei dieser Erfindung wird Sprache in eine Zeitsequenz von Cepstrumskoeffizienten umgewandelt. Das Cepstrum kann leicht unter Benutzung einer linearen Vorhersagecodieranalyse (LPC) berechnet werden [J. D. Markel und A. H. Gray, Jr.: "Linear Prediction of Speech", Springer-Verlag (Berlin Heidelberg New York, 1976)]. Die Tätigkeit des Frequenzglättens des Spektrums bedeutet das Berechnen der Faltung des Spektrums und des Glättungsfilters auf der Frequenzachse, und es wird äquivalent durchgeführt durch Multiplizieren eines Cepstrumvektors und eines cepstralen Hebers. Ein Cepstrumvektor wird durch inverse Fouriertransformation eines logarithmischen Spektrums berechnet. Ein cepstraler Heber wird durch inverse Fouriertransformation des Glättungsfilters berechnet. Der Cepstrumskoeffizient der Kartenordnung der Sprache an dem Zeitpunkt i sei als ck(i) dargestellt. Wenn der Koeffizient der Kartenordnung des Hebers zum Glätten des Spektrums n Zeitpunkte zuvor als Ik(n) dargestellt wird, kann der Cepstrumsexpansionskoeffizient der Kartenordnung mk(i) des Maskierungsmusters zu der gegenwärtigen Zeit i als eine gesamte Summe des Sprachencepstrums, das durch den Heber gewichtet ist, für vorangehende N Zeitpunkte dargestellt werden, durch die folgende Gleichung (1):
  • N stellt die maximale Zeitdauer dar, in der Maskierung effektiv ist. Das maskierte effektive Sprachspektrum kann durch Subtrahieren des Maskierungsmusters von dem gegenwärtigen Spektrum erhalten werden, und in der cepstralen Domäne kann der Cepstrumsexpansionskoeffizient der Kartenordnung des maskierten effektiven Spektrums erhalten werden durch Subtrahieren des Cepstrumsexpansionskoeffizienten des Maskierungsmusters von dem gegenwärtigen Cepstrum, wie es durch die folgende Gleichung (2) dargestellt ist:
  • bk(i) = ck(i) - mk(i) (2)
  • Dieser Parameter wird als ein "dynamisches Cepstrum" bezeichnet.
  • Der Bandpaß des Frequenzglättungshebers Ik(n), der hierin benutzt wird, ist dazu ausgelegt, daß er schmaler wird, wenn die Zeit n weiter von der gegenwärtigen Zeit zurückverfolgt wird, wobei die Frequenz der 0-ten Ordnung die Mitte darstellt. Bei der ersten Ausführungsform wird ein Quadratfenster für die Form des Hebers benutzt, das durch die folgende Gleichung dargestellt wird:
  • Hier stellt q&sub0; eine Abschneidefrequenz einen Zeitpunkt vor der Gegenwart dar, und &nu; stellt die Rate des Schmalerwerdens des Frequenzbandpasses zu jedem Zeitfortschritt um einen Rahmen dar. Der Einfluß der vorangehenden Sprache als ein Maskierungsmuster auf die gegenwärtige Sprache nimmt exponentiell ab, wobei die anfängliche Maskierungsabnahmerate 0&beta;&beta; < &alpha; < 1 ist und die mediale Maskierungsabnahmerate 0 < &beta; < 1 ist.
  • Eine Zeitsequenz eines dynamischen Cepstrums wird durch die oben beschriebene Tätigkeit erzeugt, die aufeinanderfolgend für die Sprache an entsprechenden Zeitpunkten von der Vergangenheit ausgeführt wird. Spracherkennung wird ausgeführt, indem die Zeitsequenz der erzeugten dynamischen Cepstrumsreihe benutzt wird. Das Erkennungsverfahren kann Modellanpassung unter Benutzung dynamischer Programmierung, DTW (Dynamic Time-Warping = dynamische Zeitverwerfung) oder HMM (Hidden Markov Model = verborgene Markov-Modelle) benutzt werden. Da das dynamische Cepstrum aus den Sprachspektren der Vergangenheit und der Gegenwart erhalten wird und kein zukünftiges Spektrum benutzt, ist es ebenfalls für ein Spracherkennungsgerät bequem, das zeitsynchrone Verarbeitung durchführt. Die Ausführungsformen gemäß des Prinzips werden im folgenden beschrieben:
  • Fig. 1 ist ein Blockschaltbild einer Ausführungsform der vorliegenden Erfindung. Eingangssprache wird in eine elektrisches Signal umgewandelt, dessen Frequenzkomponente nicht niedriger als 1/2 der Abtastfrequenz durch ein Tiefpaßfilter 2 entfernt wird, und das Signal wird an einen A/D-Wandler 3 angelegt. Der A/D-Wandler 3 weist eine Abtastfrequenz von zum Beispiel 12 kHz und ein Quantisierungsniveau von 16 Bit auf, und durch diesen Wandler wird das Signal in ein Digitalsignal umgewandelt. Das digitale Signal wird an eine Autokorrelationsanalyseeinheit 4 angelegt, eine Sequenz von Sprachsegmenten wird alle 10 msek erzeugt unter Benutzung eines Hamming-Fensters mit der Breite von 30 msek, und Autokorrelationskoeffizienten der ersten bis 16-ten Ordnung werden berechnet. In diesem Fall ist das Zeitpunktintervall 10 msek. Eine Koeffizientenanalyseeinheit 5 linearer Vorhersage berechnet lineare Vorhersagekoeffizienten der ersten bis 16-ten Ordnung aus den Autokorrelationskoeffizienten, und eine Cepstrumanalyseeinheit 6 berechnet Cepstrumskoeffizienten der ersten bis 16-ten Ordnung. Weiterhin wird vor der linearen Vorhersageanalyse eine Frequenzanhebung zum Verstärken der Hochfrequenzkomponente der Sprache durch Ausführen von z. B. eines Differentialfilterns der Sprechwelle bewirkt. Eine dynamische Cepstrumserzeugereinheit 7 sieht ein Zeitfrequenzmaskierungsfilter auf der Cepstrumszeitsequenz zum Erhalten einer Zeitsequenz des dynamischen Cepstrums vor. Entsprechende Koeffizienten des Maskierungshebers sind auf q&sub0; = 7, &alpha; = 0,5, &beta; = 0,5, &nu; = 1, N = 4 gesetzt. Die Koeffizienten des Maskierungshebers der k-te Ordnung zu der Zeitverzögerung von n sind in Tabelle 1 unten gezeigt.
  • Tabelle 1
  • Koeffizienten des quadratischen Spektrumsglättungshebers
  • Bei dieser Ausführungsform wird ein diskretes HMM benutzt, daß eine Ausgangswahrscheinlichkeit eines repräsentativen Vektorcodes benutzt, und daher ist ein Schritt der Vektorquantifizierung notwendig [Y. Linde, A. Buzo, und R. M Gray, "An algorithm for vector quantizer design", IEEE Trans. Commun., Bd. COM-28, S. 84- 95 (Jan. 1980)].
  • Ein Schalter SW1 wird zum Erhalten repräsentativer Punkte eines Vektors geschaltet, d. h. eines Schwerpunktes von einer Zahl von Proben eines Merkmalsvektors in einer vorbestimmten Zeitdauer. Wenn der Schalter zu der "a"-Seite geschaltet wird, wird eine Zahl von Proben des dynamischen Cepstrums, die in der Erzeugereinheit 7 für das dynamische Cepstrum erhalten werden, an die Schwerpunktserzeugereinheit 8 angelegt, und Schwerpunktsvektoren von 256 dynamischen Cepstra können durch Vektorquantisierung erhalten werden. Die Schwerpunktsvektoren werden in einer Codebuchspeichereinheit 9 gespeichert. Wenn der Schalter SW1 zu der "b"-Seite geschaltet wird, ordnet eine Vektorquantisierungseinheit 10 einen Schwerpunktsvektor zu, der am nächsten zu entsprechenden Vektoren der dynamischen Cepstrumszeitsequenz der Sprache ist, indem ungefähr 256 in der Codebuchspeichereinheit 9 gespeicherte Schwerpunktsvektoren benutzt werden, und die Sprache wird durch eine Sequenz der Vektorcodezahlen dargestellt. Nähe zwischen dem Schwerpunkt und einem jeden Vektor kann durch ein Maß gemessen werden wie die Euklidische Distanz.
  • Ein Schalter SW2 dient zum Schalten zwischen HMM-Lernen und Erkennen der Testsprache. Wenn er zu der "a"-Seite geschaltet ist, wird eine Zahl von Phonemtrainingsproben in einer HMM-Trainingseinheit 11 gesammelt, und gelernt gemäß dem Baum-Welch-Lernalgorithmus [L. E. Baum, "An Inequality and Associated Maximization Technique in Statistical Estimation for Probabilistic Functions of a Markov Process", Inequalities, 3, S. 1-8, 1972]. Da die Ausführungsform 1 auf ein Gerät zum Erkennen von Phonemen ist, lernt HMM auf der Phonem -nach- Phonem-Basis. Zum Beispiel wird das HMM zum Erkennen des Phonems /b/ aus einer Zahl von Beispielen /b/ gelernt. Das Phonemtrainingsbeispiel ist eine Sequenz von Vektorcodes. Die Länge der Sequenz ist variabel. Ein typisches 4-Zustands-3-Schleifen- HMM wird zum Beispiel zum Darstellen eines Phonems benutzt. Das erhaltene HMM wird in einer HMM-Speichereinheit 12 gespeichert. Solche HMMs werden entsprechend der zu erkennenden Kategorien vorbereitet. Zur Zeit der Erkennung wird der Schalter SW2 zu der "b"-Seite geschaltet, und die Sequenz von Vektorcodes der Testsprache wird von den HMMs an einer HMM-Erkennungseinheit 13 erkannt. Es gibt eine Wahrscheinlichkeitstabelle (Ausgangswahrscheinlichkeit) von Schwerpunktszahlen (Vektorcodes) für jeden Zustand (ein Code 1 an einem Zustand 1 wird zum Beispiel als eine Wahrscheinlichkeit von 0,01 aufweisend beschrieben), und die Tabelle wird auf der Grundlage der Menge der Trainingssprachen gelernt. Die Wahrscheinlichkeit des Übergangs von einem Zustand zu einem anderen wird ebenfalls gelernt.
  • In der HMM-Erkennungseinheit 13 werden ein HMM-Modell von /b/, ein HMM- Modell /d/ usw. aufeinanderfolgend für die Eingangssprache untersucht, die als eine Zeitsequenz von Vektorcodes dargestellt ist, und die Wahrscheinlichkeit der Erzeugung einer Vektorcodezeitsequenz der Eingangssprache wird berechnet. Es mag unnötig sein, im einzelnen das Erkennungsverfahren unter Benutzung von HMM zu beschreiben, da es gut bekannt ist. Zusammengefaßt, ein Verfahren zum Berechnen der Wahrscheinlichkeit eines HMM in bezug auf die eingegebene Sprache ist wie folgt. Jede mögliche Zuordnung ohne Zurückverfolgen der Zeit der HMM-Zustände wird für die Vektorcodezeitsequenz der Eingangssprache ausgeführt, die Erzeugungswahrscheinlichkeit des Vektorcodes wird mit einer Zustandsübergangswahrscheinlichkeit multipliziert, und die Logarithmen der Resultate werden akkumuliert zum Erhalten einer Wahrscheinlichkeit, die die Distanz zwischen dem Modell und der Eingangssprache bezeichnet. Solche Wahrscheinlichkeiten verschiedener HMM- Modelle wie /b/, /d/ und ähnliches werden berechnet, und das Modell mit der höchsten Wahrscheinlichkeit wird als das Resultat der Erkennung angesehen, und das Resultat wird auf einer Erkennungsresultatanzeigeneinheit 14 angezeigt.
  • Das durch eine Ausführungsform der vorliegenden Erfindung vorgesehene Resultat wurde durch ein Experiment des Erkennens von 6 Phonemen /b, d, g, m, n, N/ unter Benutzung von HMMs bestätigt. Phonemproben, die zum Lernen benutzt wurden, wurden aus 2640 japanischen wichtigen Wörtern extrahiert, die von einem Mann ausgesprochen wurden. Phonemproben, die zum Testen benutzt wurden, wurden aus verschiedenen 2640 wichtigen Wörtern extrahiert, die von der selben Person ausgesprochen wurden. Gemäß dem Resultat des Erkennungsexperimentes konnte die Erkennungsrate, die 84,1% betrug, wenn herkömmliche Cepstrumskoeffizienten als Merkmalsparameter benutzt wurden, auf 88,6% verbessert werden.
  • Bei dem quadratischen Glättungsheber der Ausführungsform 1 sind die dynamischen Cepstrumskoeffizienten der Ordnung nicht niedriger als die anfängliche Abschneidefrequenz q&sub0; die gleichen wie die ursprünglichen Cepstrumskoeffizienten. Ein Verfahren, das einen Heber mit einer Gaußverteilung verwendet, kann als ein Verfahren vorgeschlagen werden, bei dem Maskierung sogar für Koeffizienten höherer Ordnung in Betracht gezogen werden können. Wenn der Heber in der Form einer Gaußverteilung vorliegt, liegt die Impulsantwort des Spektrumsglättungsfilters auf der Fre quenzachse, die durch eine Fouriertransformation davon erhalten wird, ebenfalls in der Form einer Gaußverteilung vor. Der k-te Koeffizient des Gaußhebers zum Glätten des Spektrums vor n Zeitpunkten wird wie folgt dargestellt:
  • In dem Gaußglättungsheber stellt q&sub0; die Standardabweichung der Gaußverteilung des Glättungshebers an einem Zeitpunkt zuvor dar. Die Standardabweichung der Gaußverteilung wird linear kleiner, während die Zeit zurückverfolgt wird.
  • Fig. 2 zeigt eine andere Ausführungsform der vorliegenden Erfindung. Bei dem Beispiel von Fig. 2, werden kontinuierliche HMMs als die Erkennungseinheit benutzt [Peter F. Brown: "The Acoustic-Modeling Problem in Automatic Speech Recognition", Doktor Diss., Carnegie-Mellon University (1987)]. Ein Verfahren, das ein Quadratfenster vom Gaußtyp und kontinuierliche HMMs in der Erkennungseinheit verwendet, und das Resultat eines Experimentes wird unter Bezugnahme auf die Ausführungsform von Fig. 2 beschrieben. Die Strukturen vom Mikrophon 1 bis zur Erzeugereinheit 7 des dynamischen Cepstrums sind die gleichen wie jene in Fig. 1 gezeigten. Ein Glättungsheber vom Gaußtyp wird in der Erzeugereinheit 7 des dynamischen Cepstrums benutzt. Es können sowohl die Glättungsfenster vom Quadrattyp als auch vom Gaußtyp in der Erzeugereinheit 7 des dynamischen Cepstrums in beiden Ausführungsformen von Fig. 1 und 2 benutzt werden.
  • Die Parameter des Glättungshebers vom Gaußtyp werden auf N = 4, anfängliche Standardabweichung q&sub0; = 18, Standardabweichungabnahmerate &nu; = 1, &alpha; = 0,3 und &beta; = 0,7 gesetzt. Da kontinuierlich HMMs in dem Beispiel von Fig. 2 benutzt werden, sind Einheiten, die sich auf Vektorquantisierung beziehen, nicht notwendig. Daher tritt das dynamische Cepstrum, das in der Erzeugereinheit 7 des dynamischen Cepstrums erhalten wird, direkt in den Schalter SW1 ein. Bei dem Lern-HMM wird der Schalter SW1 zu der "a"-Seite geschaltet. Die Zeitsequenz des dynamischen Cepstrums tritt in die kontinuierliche HMM-Lerneinheit 15 ein und wird als kontinuierliche HMM mit einer kontinuierlichen Ausgangsverteilung, die durch eine diagonale Gaußmischverteilung dargestellt ist, für jeden Zustand gelernt. Die Zahl der Mischungen der Gaußverteilung beträgt zum Beispiel 8. Das gelernte Phonemerkennungs-HMM wird in einer kontinuierlichen HMM-Speichereinheit 16 gespeichert. Wenn eine Testsprache zu erkennen ist, wird der Schalter SW1 der "b"-Seite geschaltet, Erkennung wird in der kontinuierlichen HMM-Erkennungseinheit 17 ausgeführt, und das Resultat wird auf der Erkennungsresultatanzeigeneinheit 14 angezeigt.
  • Genauer, das in der kontinuierlichen HMM-Speichereinheit 16 gespeicherte kontinuierliche HMM stellt nicht die Wahrscheinlichkeit der Erzeugung von Vektorcodes, wie bei dem diskreten HMM, sondern eine Ausgangswahrscheinlichkeit durch eine Funktion, die die Wahrscheinlichkeit der Erzeugung des Vektors selbst anzeigt dar. Allgemein, diese Wahrscheinlichkeit der Erzeugung wird durch eine Mischung von Gaußverteilungen dargestellt. In der kontinuierlichen HMM-Erkennungseinheit 17 wird die Modellwahrscheinlichkeit durch das kontinuierliche HMM berechnet. Es kann unnötig sein, im einzelnen das Erkennungsverfahren gemäß dem HMM zu beschreiben, da es weit bekannt ist. Zusammenfassend, das Verfahren des Erhaltens der Wahrscheinlichkeit eines HMM für eine Eingangssprache ist wie folgt. Jede mögliche Zuordnung ohne Zurückverfolgung in der Zeit der Zustände des HMM wird für eine Zeitsequenz des dynamischen Cepstrumsvektors der Eingabesprache ausgeführt, die Ausgangswahrscheinlichkeit des dynamischen Cepstrumsvektors wird mit der Übergangswahrscheinlichkeit multipliziert, die Logarithmen der Resultate werden akkumuliert, und die Summe wird als Wahrscheinlichkeit für ein HMM-Modell für die Eingangssprache angesehen. Solche Wahrscheinlichkeiten verschiedener HMM-Modelle wie /b/, /d/, usw. werden berechnet und das Modell mit der höchsten Wahrscheinlichkeit wird das als Resultat der Erkennung angesehen. Obwohl die Einheit des HMM-Modelles in dieser Ausführungsform ein Phonem ist, kann ein Wort oder eine Phrase als die Einheit benutzt werden. Die Zuverlässigkeit des dynamischen Cepstrums wurde durch ein Experiment der Phonemerkennung geschätzt. Die benutzte Sprachdatenbasis enthielt 5240 wichtige japanische Wörter und 115 Sätze, die mit einer Pause an jeder Phrase gesprochen wurden, die von 10 Männern und 10 Frauen gesprochen wurden. Die erstere wird als Wortsprechdatenbasis bezeichnet, während die letztere als Phrasensprechdatenbasis bezeichnet wird. Zum Lernen wurden 2640 Wörter der Wortsprechdatenbasis benutzt, und Testphoneme wurden für die verbleibenden 2640 Wörter der Wortsprechdatenbasis und von der Phrasensprechdatenbasis gesammelt. Die Erkennung von 23 Phonemen einschließlich 5 Vokalen und 18 Konsonanten, das heißt /b, d, g, m, n, N, p, t, k, s, h, z, r, y, w, ch, ts, sh, a, i, u, e, o/, wurde ausgeführt.
  • Ein Experiment des Erkennens der 23 Phoneme der Sprachen von 10 Männern und 10 Frauen wurde ausgeführt, und eine mittlere Erkennungsrate von 20 Sprechern wurde berechnet. Als Resultat konnte im Vergleich mit dem Beispiel, bei dem Cepstrumskoeffizienten benutzt wurden, indem das dynamische Cepstrum benutzt wurde, die Erkennungsrate von 93,9% auf 95,4% erhöht werden, wenn die Wortsprechdatenbasis benutzt wurde, und die Rate konnte von 77,3% auf 82,5% erhöht werden, wenn die Phrasensprechdatenbasis benutzt wurde. Von diesem Resultat kann verstanden werden, daß das dynamische Cepstrum nicht nur für Sprachen ähnlicher Sprechstile, sondern auch für Sprachen unterschiedlicher Sprechstile robust ist.
  • Bei der dritten Ausführungsform wird die vorliegende Erfindung nicht in der cepstralen Domäne, sondern durch eine äquivalente Tätigkeit einer logarithmischen Spektrumsdomäne eingesetzt. Das Prinzip wird beschrieben. Die Sprache wird in eine Spektrumszeitsequenz durch Fouriertransformation oder ähnliches umgewandelt. Eine Tätigkeit zum Frequenzglätten des Spektrums entspricht einer Faltung zwischen dem Spektrum und dem Glättungsfilter auf der Frequenzachse.
  • Wenn das logarithmische Spektrum der Sprache zu dem gegenwärtigen Zeitpunkt i als S(&omega;, i) dargestellt wird, und das Filter zum Glätten der logarithmischen Sprache n Zeitpunkte zuvor als ein h(&lambda;, n) dargestellt wird, kann das Maskenmuster M(&omega;, i) zu der gegenwärtigen Zeit i als eine Gesamtsumme der logarithmischen Spektren die über N Zeitpunkte in der Vergangenheit geglättet wurden, dargestellt werden wie
  • N stellt die maximale Zeitdauer dar, in der die Maskierung wirksam ist. Das maskierte effektive Hörsprachenspektrum kann durch Subtrahieren des maskierten Musters von dem gegenwärtigen logarithmischen Spektrum erhalten werden, das heißt
  • P(&omega;, i) = S (&omega;, i) - M (&omega;, i)
  • Dieser Parameter wird als maskiertes Spektrum bezeichnet. Hier wird h(&lambda;, n) durch die Fouriertransformation des Frequenzglättungshebers Ik(n) der Ausführungsform 1 oder 2 erhalten.
  • Eine Zeitsequenz eines maskierten Spektrums wird erzeugt, wenn die obige Tätigkeit aufeinanderfolgend für entsprechende Zeitpunkte des Sprache von der Vergangenheit ausgeführt wird. Spracherkennung wird ausgeführt, indem die Zeitsequenz benutzt wird. Das Erkennungsverfahren kann Modellanpassung unter Benutzung dynamischen Programmierens benutzen (oder ein Verfahren, das DTW benutzt: dynamische Zeitverwerfung), oder ein Verfahren, das HMM (verborgenes Markov-Modell) benutzt. Die Ausführungsform gemäß dieses Prinzips wird beschrieben. Bei dieser Ausführungsform wird die dynamische Zeitverwerfung in der Erkennungseinheit benutzt.
  • Fig. 3 ist ein Blockschaltbild, das eine weitere Ausführungsform zum Erkennen von Wörtern gemäß der vorliegenden Erfindung zeigt. Eine Eingangssprache wird in ein elektrisches Signal durch ein Mikrophon 1 umgewandelt, seine Frequenzkomponente nicht niedriger als 1/2 der Abtastfrequenz wird durch ein Tiefpaßfilter 2 entfernt, und das Signal wird an einen A/D-Wandler 3 angelegt. Der A/D-Wandler 3 weist eine Abtastfrequenz von z. B. 12 kHz und ein Quantisierungsniveau von 16 Bit auf, und das Signal wird in ein digitales Signal umgewandelt. Das digitale Signal wird an eine Fouriertransformationseinheit 18 angelegt, Sprachabschnitte werden alle 10 msek durch ein Hammingfenster mit der Breite von 21,3 msek segmentiert, und Spektren von 128 Ordnungen werden erhalten. Eine Berechnungseinheit 19 eines logarithmischen Spektrums sieht einen Logarithmus durch ein quadratisches Mittel von 4 Frequenzen · 4 Frequenzen vor, so daß die Spektren in logarithmische Spektren mit 32 Frequenzpunkten umgewandelt werden.
  • Eine Erzeugereinheit 20 des maskierten Spektrums sieht ein Zeitfrequenzmaskierungsfilter der logarithmischen Spektrumszeitfrequenz zum Vorsehen einer Zeitfrequenz des maskierten Spektrums vor. Das Zeitfrequenzmaskierungsfilter wird durch die Fouriertransformierte des Maskierungshebers für das dynamische Cepstrum der Ausführungsform 1 oder 2 erhalten.
  • Ein Schalter SW 1 dient zum Schalten zwischen Modelllernen und Erkennung. Wenn er zu der "a"-Seite geschaltet ist, wird eine oder mehrere Worttrainingsproben gesammelt und zu einer Wortmodellspeichereinheit 21 übertragen. Bei dieser Ausführungsform wird dynamisches Zeitverwerfen oder dynamisches Programmanpassen benutzt, und daher wird die Trainingssprache einer statistischen Bearbeitung nicht unterworfen, sondern direkt in der Wortmodellspeichereinheit 21 gespeichert [Hiroaki Sakoe und Seibi Chiba: "Dynamic Programming Algorithm optimization for Spoken Word Recognition" IEEE Trans. on Acoustics, Speech, and Signal Processing, Bd. ASSP-26, Nr. 1, Feb. 1978].
  • Da die Ausführungsform 3 direkt auf ein Gerät zur Erkennung von Wörtern gerichtet ist, werden die Modelle auf der Wort für Wort Basis gespeichert. Solche Modelle werden entsprechend in zu erkennenden Kategorien vorbereitet. Zu der Zeit der Erkennung wird der Schalter SW1 zu der "b"-Seite geschaltet, und bei einer Distanzrechnungseinheit 22 wird die Distanz zwischen der Eingangssprache und den Modellen aller Wörter, die gespeichert sind durch dynamisches Programmanpassen berechnet. Genauer, die Zeitachse der Eingangssprache, des Modells oder von beiden werden zu jedem Zeitpunkt verwunden, und der Mittelwert in der gesamten Sprache der Distanzen zwischen entsprechenden Punkten beider Sprachen, an dem diese am besten zusammenpassen, wird als die Distanz zwischen der Eingangssprache und dem Modell angesehen. Die Distanzberechnungseinheit 22 vergleicht die Distanz zwischen Eingangssprache und jedem Modell und zeigt den Namen des Wortmodelles an, das die minimale Distanz bezeichnet, zum Beispiel /Wort/ als Resultat der Erkennung in der Erkennungsresultatanzeigeeinheit 14. Dieses Verfahren kann auf Phonemerkennung und ähnliches zusätzlich zu der Worterkennung angewendet werden.
  • Obwohl die vorliegende Erfindung im einzelnen beschrieben und dargestellt worden ist, ist klar zu verstehen, daß dieses nur als Weg der Darstellung und eines Beispieles dient und nicht als Weg zur Begrenzung genommen werden kann, der Umfang der vorliegenden Erfindung ist nur durch den Inhalt der beigefügten Ansprüche begrenzt.

Claims (16)

1. Spracherkennungsverfahren, bei dem eine Eingangssprache in eine Zeitsequenz eines Merkmalsvektors eines Spektrums, wie ein Cepstrum, umgewandelt wird und eine Distanz zwischen der Zeitsequenz und einer Zeitsequenz eines Modellmerkmalsvektors eines Modells der Eingangssprache zur Erkennung berechnet wird, mit den Schritten:
Glätten vorangehender Merkmalsvektoren durch Vorsehen eines Frequenzfilters, bei dem das Frequenzglätten zunimmt während die Zeit zurückverfolgt wird, wobei die Zunahme an einem bestimmten zurückverfolgten Zeitpunkt gestoppt wird, wenn das Glätten nicht mehr auf der Zeitsequenz des Merkmalsvektors wirksam ist;
Berechnen eines Maskierungsmusters durch Akkumulieren der geglätteten vorangehenden Merkmalsvektoren von dem bestimmten Zeitpunkt in der Vergangenheit bis unmittelbar vor der gegenwärtigen Zeit;
Berechnen eines maskierten Merkmalsvektors durch Subtraktion zwischen dem gegenwärtigen Merkmalsvektor und dem Maskierungsmuster;
Erkennen der Sprache durch Benutzen des maskierten Merkmalsvektors, der durch die oben beschriebene Tätigkeit erhalten wird, zu jedem Zeitpunkt.
2. Spracherkennungsverfahren nach Anspruch 1, mit den Schritten:
Umwandeln der Eingangssprache in ein digitales Signal (3);
Umwandeln des digitalisierten Sprachsignals in einen Cepstrumskoeffizienten zu jedem vorgeschriebenen Zeitintervall (4, 5, 6) der Zeitsequenz;
Erhalten der Zeitsequenz des dynamischen Cepstrums (7) durch Bewirken der Zeitfrequenzmaskierungsfilterung der Cepstrumszeitsequenz und
Erkennen der Sprache durch Benutzung des dynamischen Cepstrums oder der äquivalenten Merkmalsvektorzeitsequenz (8-13, 15-17).
3. Spracherkennungsverfahren nach Anspruch 2, bei dem der Schritt des Umwandelns des Cepstrumskoeffizienten die Schritte aufweist:
Segmentieren des digitalisierten Sprachsignales zu jedem vorgeschriebenen Zeitintervall zum Erhalten eines Autokorrelationskoeffizientenvektors (4) und
Berechnen eines Koeffizientenvektors der linearen Vorhersage auf der Grundlage des Autokorrelationskoeffizientenvektors (5).
4. Spracherkennungsverfahren nach Anspruch 2, bei dem der Schritt des Umwandelns des Cepstrumskoeffizienten den Schritt des Segmentierens des digitalisierten Sprachsignals zu jedem vorgeschriebenen Zeitintervall aufweist zum Erhalten eines logarithmischen Spektrums durch Fouriertransformierte oder durch ein anderes Verfahren wie eine Filterbank und Berechnen eines Cepstrumskoeffizientenvektors durch inverse Fouriertransformierte des Resultates (18, 19).
5. Spracherkennungsverfahren nach einem der Ansprüche 2 bis 4, bei dem der Schritt des Erkennens der Sprache die Schritte aufweist:
Zuordnen des nächsten von Schwerpunktsvektoren, die aus einer Zahl von Trainingsproben von dynamischen Cepstrumsvektoren erhalten werden, zu einer Zeitsequenz des dynamischen Cepstrums für eine Eingangssprache zum Erzeugen einer Sequenz von Vektorcodezahlen (8, 9, 10) und
Erkennen der Sequenz der Vektorcodezahlen.
6. Spracherkennungsverfahren nach einem der Ansprüche 2 bis 5, weiter mit den Schritten:
Sammeln von Trainingsproben wie eine Zahl von Phonemen, Wörtern und ähnlichem, die durch die Sequenz eines Vektors oder Vektorcodezahl dargestellt werden, und Lernen derselben gemäß eines vorgeschriebenen Algorithmus (11, 12); wobei
der Schritt des Erzeugens der Sequenz der Vektorzahl den Schritt es Erkennens einer Sequenz einer Vektorcodezahl der zu erkennenden Eingangsprache auf der Grundlage des Lernens gemäß dem vorgeschriebenen Algorithmus enthält.
7. Spracherkennungsverfahren Anspruch nach 6, bei dem der Schritt des Lernens den Schritt des Lernens und der Benutzung von verborgenen Markovmodellen (11) enthält.
8. Spracherkennungsverfahren nach einem der Ansprüche 2 bis 6 bei dem der Schritt des Erkennens der Sprache den Schritt des Lernens der Sprache enthält, die durch die dynamische Cepstrumszeitsequenz unter Benutzung kontinuierlicher verborgener Markovmodelle dargestellt wird.
9. Spracherkennungsverfahren nach einem der Ansprüche 6 bis 9 bei dem der Schritt des Erkennens der Sprache den Schritt des Erkennens der Eingangssprache enthält, die durch die dynamische Cepstrumszeitsequenz unter Benutzung des Resultates des Lernens (13) dargestellt wird.
10. Spracherkennungsverfahren nach Anspruch 1, mit den Schritten:
Umwandeln der Eingangssprache in ein digitales Signal (3);
Segmentieren des digitalisierten Sprechsignals an jedem vorgeschriebenen Zeitintervall zum Erhalten einer logarithmischen Spektrumszeitsequenz durch Fouriertransformierte oder ein anderes Verfahren wie eine Filterbank (18, 19);
Bewirken der Zeitfrequenzmaskierungsfilterung auf der logarithmischen Spektrumszeitsequenz zum Erhalten einer maskierten Spektrumszeitsequenz (20);
Erkennen der Sprache unter Benutzung der maskierten Spektrumszeitsequenz (21, 23).
11. Spracherkennungsverfahren nach Anspruch 10, bei dem der Schritt des Erkennens der Sprache den Schritt des Erkennens der Sprache durch Berechnen eines Merkmalsvektors, der gleich einem dynamischen Cepstrum ist, der das maskierte Spektrum enthält (21, 22), oder durch Modellanpassung unter Benutzung dynamischen Programmierens oder durch ein Verfahren des dynamischen Zeitverwerfens enthält.
12. Spracherkennungsverfahren nach Anspruch 1, bei dem die Distanz zwischen der Zeitsequenz und einem statistischen Modell des Merkmalsvektors oder einer Wahrscheinlichkeit des Modells für die Eingangssprache berechnet wird.
13. Spracherkennungsverfahren nach Anspruch 1, bei dem das Frequenzfilter einen Satz von Frequenzfiltern aufweist, in denen das Frequenzglätten zunimmt, während die Zeit zurückverfolgt wird.
14. Spracherkennungsgerät, in dem eine Eingangssprache in eine Zeitsequenz eines Merkmalsvektors eines Spektrums, wie ein Cepstrum, umgewandelt wird und eine Distanz zwischen der Zeitsequenz und einer Zeitsequenz eines Modellmerkmalsvektors eines Modells für die Eingangssprache zur Erkennung berechnet wird, mit
- einem Frequenzfilter zum Glätten vorangehender Merkmalsvektoren, bei dem das Frequenzglätten zunimmt, während die Zeit zurückverfolgt wird, wobei die Zunahme beim Glätten an einem bestimmten zurückverfolgten Zeitpunkt gestoppt wird, wenn das Glätten nicht mehr wirksam ist;
- einem Akkumulator zum Berechnen eines Maskierungsmusters durch Akkumulieren der geglätteten vorangehenden Merkmalsvektoren von dem bestimmten Zeitpunkt in der Vergangenheit bis unmittelbar vor der gegenwärtigen Zeit;
- einem Subtrahierer zum Berechnen eines maskierten Merkmalsvektors durch Subtrahieren des Maskierungsmusters von dem Merkmalsvektor an der Gegenwart und
- einer Erkennungseinrichtung zum Erkennen der Sprache und der Benutzung des maskierten Merkmalsvektors zu jedem Zeitpunkt.
15. Gerät nach Anspruch 14 mit:
einem Wandler (3) zum Wandeln der Eingangssprache in ein digitales Signal,
einer Autokorrelationsanalyseeinheit (4) zum Erhalten eines Autokorrelationskoeffizientenvektors aus dem digitalisierten Sprachsignal,
einer Analyseeinheit (5) der linearen Vorhersage zum Berechnen eines linearen Vorhersagevektors aus dem Autokorrelationskoeffizientenvektor,
einer Cepstrumsanalyseeinheit (6) zum Umwandeln des linearen Vorhersagevektors in Cepstrumskoeffizienten und einer Erzeugereinheit (7) des dynamischen Cepstrums zum Bewirken einer Zeitfrequenzmaskierungsfilterung auf die Cepstrumskoeffizienten zum Erhalten einer Zeitsequenz des dynamischen Cepstrums.
16. Gerät nach Anspruch 14 mit:
einem Wandler (3) zum Umwandeln der Eingangssprache in ein digitales Signal,
einer Fouriertransformationseinheit (18) zum Erhalten einer Fouriertransformierten aus dem digitalen Signal,
einer Berechnungseinheit (19) des logarithmischen Spektrums zum Erhalten einer logarithmischen Spektrumszeitsequenz aus der Fouriertransformierten und
eine Erzeugereinheit (20) des maskierten Spektrums zum Erhalten eines Zeitfrequenzmaskierungsfilters der logarithmischen Spektrumszeitsequenz zum Vorsehen einer Zeitsequenz des maskierten Spektrums.
DE69321656T 1992-06-25 1993-06-08 Verfahren zur Spracherkennung Expired - Fee Related DE69321656T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4167832A JPH0743598B2 (ja) 1992-06-25 1992-06-25 音声認識方法

Publications (2)

Publication Number Publication Date
DE69321656D1 DE69321656D1 (de) 1998-11-26
DE69321656T2 true DE69321656T2 (de) 1999-04-15

Family

ID=15856918

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69321656T Expired - Fee Related DE69321656T2 (de) 1992-06-25 1993-06-08 Verfahren zur Spracherkennung

Country Status (5)

Country Link
US (1) US5459815A (de)
EP (1) EP0575815B1 (de)
JP (1) JPH0743598B2 (de)
CA (1) CA2098629C (de)
DE (1) DE69321656T2 (de)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5590242A (en) * 1994-03-24 1996-12-31 Lucent Technologies Inc. Signal bias removal for robust telephone speech recognition
US5794198A (en) * 1994-10-28 1998-08-11 Nippon Telegraph And Telephone Corporation Pattern recognition method
US5646961A (en) * 1994-12-30 1997-07-08 Lucent Technologies Inc. Method for noise weighting filtering
EP0720146A1 (de) * 1994-12-30 1996-07-03 AT&T Corp. Verfahren zur Messung von Sprachmaskierungseigenschaften
JP3697748B2 (ja) * 1995-08-21 2005-09-21 セイコーエプソン株式会社 端末、音声認識装置
JPH0990974A (ja) * 1995-09-25 1997-04-04 Nippon Telegr & Teleph Corp <Ntt> 信号処理方法
JP3397568B2 (ja) * 1996-03-25 2003-04-14 キヤノン株式会社 音声認識方法及び装置
US6366883B1 (en) 1996-05-15 2002-04-02 Atr Interpreting Telecommunications Concatenation of speech segments by use of a speech synthesizer
US5758277A (en) * 1996-09-19 1998-05-26 Corsair Communications, Inc. Transient analysis system for characterizing RF transmitters by analyzing transmitted RF signals
US7630895B2 (en) * 2000-01-21 2009-12-08 At&T Intellectual Property I, L.P. Speaker verification method
US6076055A (en) * 1997-05-27 2000-06-13 Ameritech Speaker verification method
KR100434527B1 (ko) * 1997-08-01 2005-09-28 삼성전자주식회사 벡터 테일러 급수를 이용한 음성 모델 보상 방법
US6895374B1 (en) * 2000-09-29 2005-05-17 Sony Corporation Method for utilizing temporal masking in digital audio coding
JP4048741B2 (ja) 2001-07-24 2008-02-20 セイコーエプソン株式会社 Hmmの出力確率演算方法および音声認識装置
JP4623920B2 (ja) * 2002-07-09 2011-02-02 ソニー株式会社 類似度算出方法及び装置、並びにプログラム及び記録媒体
KR100476103B1 (ko) * 2002-08-09 2005-03-10 한국과학기술원 특징벡터의 필터링을 이용한 음성인식방법
SG140445A1 (en) * 2003-07-28 2008-03-28 Sony Corp Method and apparatus for automatically recognizing audio data
US10223934B2 (en) 2004-09-16 2019-03-05 Lena Foundation Systems and methods for expressive language, developmental disorder, and emotion assessment, and contextual feedback
US9240188B2 (en) 2004-09-16 2016-01-19 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
US9355651B2 (en) 2004-09-16 2016-05-31 Lena Foundation System and method for expressive language, developmental disorder, and emotion assessment
US8938390B2 (en) * 2007-01-23 2015-01-20 Lena Foundation System and method for expressive language and developmental disorder assessment
US8219391B2 (en) * 2005-02-15 2012-07-10 Raytheon Bbn Technologies Corp. Speech analyzing system with speech codebook
WO2008091947A2 (en) 2007-01-23 2008-07-31 Infoture, Inc. System and method for detection and analysis of speech
JP4754651B2 (ja) * 2009-12-22 2011-08-24 アレクセイ・ビノグラドフ 信号検出方法、信号検出装置、及び、信号検出プログラム
US8725498B1 (en) * 2012-06-20 2014-05-13 Google Inc. Mobile speech recognition with explicit tone features
CN104123934A (zh) * 2014-07-23 2014-10-29 泰亿格电子(上海)有限公司 一种构音识别方法及其系统
WO2019113477A1 (en) 2017-12-07 2019-06-13 Lena Foundation Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness
CN111613243B (zh) * 2020-04-26 2023-04-18 云知声智能科技股份有限公司 一种语音检测的方法及其装置
CN111948171B (zh) * 2020-08-19 2023-04-07 长春理工大学 基于动态时间规整的复合材料缺陷识别方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4956865A (en) * 1985-01-30 1990-09-11 Northern Telecom Limited Speech recognition
US5067158A (en) * 1985-06-11 1991-11-19 Texas Instruments Incorporated Linear predictive residual representation via non-iterative spectral reconstruction
EP0290190B1 (de) * 1987-04-30 1991-10-09 Oki Electric Industry Company, Limited Anordnung zum Vergleichen von Mustern
US5097510A (en) * 1989-11-07 1992-03-17 Gs Systems, Inc. Artificial intelligence pattern-recognition-based noise reduction system for speech processing
DE69128582T2 (de) * 1990-09-13 1998-07-09 Oki Electric Ind Co Ltd Methode zur Phonemunterscheidung
JP3134338B2 (ja) * 1991-03-30 2001-02-13 ソニー株式会社 ディジタル音声信号符号化方法

Also Published As

Publication number Publication date
JPH0612089A (ja) 1994-01-21
JPH0743598B2 (ja) 1995-05-15
EP0575815B1 (de) 1998-10-21
CA2098629A1 (en) 1993-12-26
CA2098629C (en) 1997-07-15
DE69321656D1 (de) 1998-11-26
US5459815A (en) 1995-10-17
EP0575815A1 (de) 1993-12-29

Similar Documents

Publication Publication Date Title
DE69321656T2 (de) Verfahren zur Spracherkennung
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
DE69127818T2 (de) System zur verarbeitung kontinuierlicher sprache
DE69326044T2 (de) Verfahren zur Erkennung von Sprachsignalen
DE69315374T2 (de) Spracherkennungssystem zur naturgetreuen Sprachübersetzung
DE60000074T2 (de) Linear prädiktive Cepstral-Merkmale in hierarchische Subbänder organisiert für die HMM-basierte Spracherkennung
DE69432943T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
DE69613646T2 (de) Verfahren zur Sprachdetektion bei starken Umgebungsgeräuschen
DE3878001T2 (de) Spracherkennungseinrichtung unter anwendung von phonemermittlung.
DE69033084T2 (de) Schaltung zur Spracherkennung unter Anwendung von nichtlinearer Verarbeitung, Sprachelementmodellierung und Phonembewertung
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE69619284T3 (de) Vorrichtung zur Erweiterung der Sprachbandbreite
DE69225371T2 (de) Schlüsselwörtererkennung in einem zusammenhängenden Text mittels zweier &#34;Hidden Markov&#34; Modelle
DE69616568T2 (de) Mustererkennung
DE69519453T2 (de) Spracherkennung mit Sprecheradaptierung mittels Berechnung von Mittelwerten akustischer Kategorien
DE68910859T2 (de) Detektion für die Anwesenheit eines Sprachsignals.
DE69830017T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE60305568T2 (de) Schlüsselworterkennung in einem Sprachsignal
DE68924134T2 (de) Spracherkennungssystem.
EP1084490B1 (de) Anordnung und verfahren zur erkennung eines vorgegebenen wortschatzes in gesprochener sprache durch einen rechner
DE69423692T2 (de) Sprachkodiergerät und Verfahren unter Verwendung von Klassifikationsregeln
EP1649450A1 (de) Verfahren zur spracherkennung und kommunikationsger t
EP0925461A2 (de) Verfahren zur mehrsprachenverwendung eines hidden markov lautmodelles in einem spracherkennungssystem
DE69720134T2 (de) Spracherkenner unter Verwendung von Grundfrequenzintensitätsdaten
DE602004000716T2 (de) Rauschadaptierungssystem für ein Sprachmodell, Verfahren zur Rauschadaptierung und Programm zur Rauschadaptierung für Spracherkennung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee