DE69901324T2 - Vorrichtung, Verfahren und Speichermedium zur Sprechererkennung - Google Patents
Vorrichtung, Verfahren und Speichermedium zur SprechererkennungInfo
- Publication number
- DE69901324T2 DE69901324T2 DE69901324T DE69901324T DE69901324T2 DE 69901324 T2 DE69901324 T2 DE 69901324T2 DE 69901324 T DE69901324 T DE 69901324T DE 69901324 T DE69901324 T DE 69901324T DE 69901324 T2 DE69901324 T2 DE 69901324T2
- Authority
- DE
- Germany
- Prior art keywords
- speakers
- probability
- inhibition
- standard pattern
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 82
- 230000005764 inhibitory process Effects 0.000 claims description 240
- 239000013598 vector Substances 0.000 claims description 184
- 238000013507 mapping Methods 0.000 claims description 61
- 230000006978 adaptation Effects 0.000 claims description 51
- 238000010606 normalization Methods 0.000 claims description 45
- 238000004364 calculation method Methods 0.000 claims description 36
- 238000010187 selection method Methods 0.000 claims description 10
- 230000002401 inhibitory effect Effects 0.000 claims 4
- 238000002372 labelling Methods 0.000 claims 1
- 230000007613 environmental effect Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 8
- 238000001228 spectrum Methods 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Collating Specific Patterns (AREA)
Description
- Die vorliegende Erfindung betrifft eine Vorrichtung, ein Verfahren und ein Speichermedium zur Sprecherkollationierung, und insbesondere eine Vorrichtung, ein Verfahren und ein Speichermedium zur Sprecherkollationierung, welche durch die Generierung eines Standardmusters von Hemmungssprechern zum Vorbereiten des Standardmusters von Hemmungssprechern gekennzeichnet ist.
- Ein großes Problem bei der Sprecherkollationierung ist, daß Unterschiede im Umgebungsgeräusch und Unterschied in Linienmerkmalen (Umgebungsunterschiede) bei der Registrierung und Kollationierung die Kollationierungsquote verringern. Das Verfahren zum Lösen eines derartigen Problems wird beispielhaft durch Wahrscheinlichkeitsnormalisierungsverfahren auf der Basis des Standardmusters von Hemmungssprechern erläutert, wie von Higgins, Rosenberg und Matsui et al. vorgeschlagen. Diese Beispiele sind: A. Higgins, L. Bahler und J. Porter "Speaker collation using randomized phrase prompting", digital signal processing, 1, Seiten 89 bis 106 (1991) als Referenz 1; A. E. Rosenberg, Joel Delong, Chin- Hui Lee, Biing-Hweng Juang, Frank K. Soong: "The Use of cohort normalized scores for speaker collation", ICSLP 92, Seiten 599-602 (1992) als Referenz 2; Tomoko Matsui, Sadaoki Furui: "Speaker adaptation of tied-mixture-based phoneme models for text-prompted speaker recognition", ICASSP 94, Seiten 125-128 (1994) als Referenz 3.
- Ein Wahrscheinlichkeitsnormalisierungsverfahren auf der Basis des Standardmusters von Hemmungssprechern ist ein Verfahren zum Normalisieren einer Wahrscheinlichkeit durch Subtrahieren von Wahrscheinlichkeit (Wahrscheinlichkeit von Hemmungssprechern) zwischen einer eingegebenen Stimme und dem Standardmuster von Hemmungssprechern von einer Wahrscheinlichkeit (Wahrscheinlichkeit der identischen Person) zwischen einer eingegebenen Stimme und dem Standardmuster der identischen Person. Eine durch Umgebungsunterschiede nicht leicht beeinflußte Wahrscheinlichkeit kann dadurch erzielt werden, daß die Wahrscheinlichkeit von Hemmungssprechern von der Wahrscheinlichkeit der identischen Person subtrahiert wird, weil Umgebungsunterschiede bei der Registrierung und Kollationierung sowohl die Wahrscheinlichkeit der identischen Person und die Wahrscheinlichkeit von Hemmungssprechern beeinflussen. Bekannte Verfahren zum Auswählen von Hemmungssprechern sind ein Verfahren zum Auswählen von Hemmungssprechern ähnlich einer Stimme der identischen Person bei der Registrierung und ein Verfahren zum Auswählen von Hemmungssprechern ähnlich einer eingegebenen Stimme bei der Kollationierung. Das erstere Verfahren ist detailliert in der Referenz 2 beschrieben und das letztere Verfahren ist detailliert in der Referenz 1 und der Referenz 3 beschrieben.
- Bei dem Wahrscheinlichkeitsnormalisierungsverfahren, welches das Standardmuster von Hemmungssprechern verwendet, kann eine gute Kollationierungsquote in so klein wie möglichen Umgebungsunterschieden in der registrierten Stimme, der kollationierten Stimme und des Standardmusters von Hemmungssprechern akquiriert werden. Es ist ein Problem, daß ein großer Unterschied in diesen Umgebungsunterschieden die Kollationierungsquote verringert. Um das Problem zu lösen, müssen viele Standardmuster der Kandidaten für Hemmungssprecher vorher für verschiedene Umgebungen in Registrierung und Kollationierung vorbereitet werden.
- Es ist jedoch schwierig, viele Standardmuster der Kandidaten für Hemmungssprecher für verschiedene Umgebungen vorzubereiten. Daher benötigt man ein Verfahren zum Akquirieren einer guten Kollationierungsquote ohne die Notwendigkeit, die Standardmuster der Kandidaten von Hemmungssprechern für verschiedene Umgebungen vorzubereiten.
- Als Lösungsverfahren in dem Fall eines großen Unterschieds in der Umgebung zwischen registrierter Stimme und dem Standardmuster von Hemmungssprechern wird ein Verfahren zur Wahrscheinlichkeitsnormalisierung vorgeschlagen, in dem das Standardmuster von Hemmungssprechern unter Verwendung von registrierter Stimme adaptiert wird, Wahrscheinlichkeit (Wahrscheinlichkeit von Hemmungssprechern) zwischen dem adaptierten reduzierenden Standardmuster und der kollationierten Stimme akquiriert wird, und in dem die Wahrscheinlichkeit von Hemmungssprechern von den Wahrscheinlichkeiten der kollationierten Stimme und dem Standardmuster der identischen Person subtrahiert wird.
- Dieses Verfahren ist ein Verfahren zum Verringern von Umgebungsunterschieden zwischen der registrierten Stimme und dem Standardmuster von Hemmungssprechern durch Adaptieren des Standardmusters von Hemmungssprechern auf der Basis der Stimme der identischen Person in der Registrierung. Dieses Verfahren ist ein effektives Verfahren zum Auswählen von Hemmungssprechern in der Registrierung und ist detailliert bei Yamada und Hattori der Referenz 4 (a method and a system of generation of a reducing standard pattern namely cohort in speaker recognition and a speaker collation apparatus including the system. Japanische Patentanmeldung Nr. 1997-040102) beschrieben.
- Es ist daher ein Ziel der vorliegenden Erfindung, eine Vorrichtung, ein Verfahren und ein Speichermedium zur Sprecherkollationierung bereitzustellen, die dazu fähig sind, eine hohe Kollationierungsquote ohne vorherige Generierung der Standardmuster der Kandidaten für Hemmungssprecher für viele Umgebungen in einem Verfahren zum Auswählen des Standardmusters von Hemmungssprechern in der Kollationierung zu akquirieren.
- Weitere Ziele der vorliegenden Erfindung werden in der weiteren Beschreibung deutlich werden.
- Gemäß einem Aspekt der vorliegenden Erfindung wird eine Vorrichtung zur Sprecherkollationierung bereitgestellt, welche folgendes umfaßt: einen Analyseabschnitt zum Konvertieren von eingegebenen Stimmdaten zum Kollationieren in einen Merkmalsvektor, einen Speicherabschnitt für den Merkmalsvektor zum Speichern des im Analyseabschnitt konvertierten Merkmalsvektors, einen Speicherabschnitt für ein Standardmuster von Kandidaten für Hemmungssprecher, in dem ein oder mehrere Standardmuster von Kandidaten für Hemmungssprecher gespeichert worden sind, einen Auswahlabschnitt zum Auswählen von wenigstens einem Hemmungssprecher dadurch, daß ein Ähnlichkeitsgrad zwischen dem im Analyseabschnitt konvertierten Merkmalsvektor und den Standardmustern der jeweiligen Sprecher berechnet wird, die in dem Speicherabschnitt für die Standardmuster von Kandidaten für Hemmungssprecher gespeichert sind, einen Adaptionsabschnitt zum Adaptieren der Standardmuster von Hemmungssprechern durch Akquirieren einer Abbildungsfunktion von einem Merkmalsvektorraum einer Stimme eines Hemmungssprechers auf einen Merkmalsvektorraum einer eingegebenen Stimme unter Verwendung einer Abbildungsfunktion, die unter Verwendung des im Auswahlabschnitt ausgewählten Standardmusters von Hemmungssprechern akquiriert wurde, um einen Hemmungssprecher auszuwählen, und des in dem Speicherabschnitt für die Merkmalsvektoren gespeicherten Merkmalsvektors, einen Berechnungsabschnitt eines Ähnlichkeitsgrads von Hemmungssprechern, zum Berechnen des Ähnlichkeitsgrads zwischen einem in dem Speicherabschnitt für Merkmalsvektoren gespeicherten Merkmalsvektor und dem in dem Adaptionsabschnitt adaptierten Standardmuster von Hemmungssprechern, einen Speicherabschnitt für das Standardmuster der identischen Person, in dem das registrierte Standardmuster der identischen Person gespeichert worden ist, einen Berechnungsabschnitt eines Ähnlichkeitsgrads mit der identischen Person zum Berechnen des Ähnlichkeitsgrads zwischen dem in dem Speicherabschnitt für den Merkmalsvektor gespeicherten Merkmalsvektor und dem in dem Speicherabschnitt für das Standardmuster der identischen Person gespeicherten Standardmuster der identischen Person, einen Normalisierungsabschnitt des Ähnlichkeitsgrads zum Normalisieren des Ähnlichkeitsgrade unter Verwendung des in dem Berechnungsabschnitt für einen Ähnlichkeitsgrad mit der identischen Person berechneten Ähnlichkeitsgrads und des in dem Berechnungsabschnitt für einen Ähnlichkeitsgrad der Hemmungssprecher gespeicherten Ähnlichkeitsgrads, einen Schwellenwert-Speicherabschnitt zum Speichern eines vorbestimmten Schwellenwerts, und einen Entscheidungsabschnitt zum Entscheiden der Person unter Verwendung des in dem Normalisierungsabschnitt für den Ähnlichkeitsgrad normalisierten Ähnlichkeitsgrads und des in dem Speicherabschnitt zum Speichern eines Schwellenwerts gespeicherten Schwellenwerts.
- Die Vorrichtung zur Sprecherkollationierung kann weiterhin umfassen: einen Normalisierungsabschnitt zum Normalisieren des in dem Analyseabschnitt konvertierten Merkmalsvektors, des Standardmusters eines Kandidaten für Hemmungssprecher, das in dem Speicherabschnitt für das Standardmuster des Kandidaten für Hemmungssprecher gespeichert ist, und des Standardmusters der identischen Person, das in dem Speicherabschnitt für das Standardmuster der identischen Person gespeichert ist.
- Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird auch eine Vorrichtung zur Sprecherkollationierung bereitgestellt, die umfaßt: einen Analyseabschnitt zum Konvertieren von eingegebenen Stimmdaten zur Kollationierung in einen Merkmalsvektor, einen Speicherabschnitt für den Merkmalsvektor zum Speichern des im Analyseabschnitt konvertierten Merkmalsvektors, einen Speicherabschnitt für ein Standardmuster von Kandidaten für Hemmungssprecher, in dem ein oder mehrere Standardmuster von Kandidaten für Hemmungssprecher gespeichert worden sind, einen Adaptionsabschnitt zum Adaptieren des Standardmusters eines Sprechers durch Akquirieren einer Abbildungsfunktion von einem Merkmalsvektorraum einer Stimme der jeweiligen Sprecher auf einen Merkmalsvektorraum einer eingegebenen Stimme unter Verwendung aller Standardmuster von Sprechern, die in dem Speicherabschnitt für ein Standardmuster von Kandidaten für Hemmungssprecher gespeichert sind, und des Merkmalsvektors, der in dem Speicherabschnitt für den Merkmalsvektor gespeichert ist, um die akquirierte Abbildungsfunktion zu benutzen, einen Auswahlabschnitt von Hemmungssprechern, zum Auswählen von wenigstens einem Hemmungssprecher durch Berechnen eines Ähnlichkeitsgrads zwischen dem im Analyseabschnitt konvertierten Merkmalsvektor und den in dem Adaptionsabschnitt adaptierten Standardmustern von Sprechern, einen Berechnungsabschnitt eines Ähnlichkeitsgrads von Hemmungssprechern zum Berechnen des Ähnlichkeitsgrads zwischen einem in dem Speicherabschnitt für den Merkmalsvektor gespeicherten Merkmalsvektor und dem Standardmuster von Hemmungssprechern, das in dem Auswahlabschnitt von Hemmungssprechern ausgewählt wurde, einen Speicherabschnitt für das Standardmuster der identischen Person, in dem das registrierte Standardmuster der identischen Person gespeichert worden ist, einen Berechnungsabschnitt eines Ähnlichkeitsgrads der identischen Person zum Berechnen des Ähnlichkeitsgrads zwischen dem in dem Speicherabschnitt für den Merkmalsvektor gespeicherten Merkmalsvektor und dem Standardmuster der identischen Person, das in dem Speicherabschnitt für das Standardmuster der identischen Person gespeichert ist, einen Normalisierungsabschnitt des Ähnlichkeitsgrads zum Normalisieren des Ähnlichkeitsgrads unter Verwendung des in dem Berechnungsabschnitt für einen Ähnlichkeitsgrad mit der identischen Person berechneten Ähnlichkeitsgrads und des Ähnlichkeitsgrads, der in dem Berechnungsabschnitt für einen Ähnlichkeitsgrad von Hemmungssprechern berechnet wurde,
- einen Schwellenwert-Speicherabschnitt zum Speichern eines vorbestimmten Schwellenwerts, und einen Entscheidungsabschnitt zum Entscheiden der Person unter Verwendung des in dem Normalisierungsabschnitt für den Ähnlichkeitsgrad normalisierten Ähnlichkeitsgrads und des in dem Speicherabschnitt zum Speichern eines Schwellenwerts gespeicherten Schwellenwerts.
- Die Vorrichtung zur Sprecherkollationierung kann weiterhin umfassen: einen Normalisierungsabschnitt zum Normalisieren des in dem Analyseabschnitt konvertierten Merkmalsvektors, des Standardmusters eines Kandidaten für Hemmungssprecher, das in dem Speicherabschnitt für das Standardmuster des Kandidaten für Hemmungssprecher gespeichert ist, und des Standardmusters der identischen Person, das in dem Speicherabschnitt für das Standardmuster der identischen Person gespeichert ist.
- Gemäß noch einem weiteren Aspekt der vorliegenden Erfindung wird ein Verfahren zur Sprecherkollationierung bereitgestellt, wobei das Verfahren die folgenden Schritte umfaßt: Berechnen eines Ähnlichkeitsgrads zwischen einem von einer kollationierten Stimme akquirierten Merkmalsvektor und einem Standardmuster von jeweiligen Sprechern, das in einem Speicherabschnitt für ein Standardmuster von Kandidaten für Hemmungssprecher gespeichert ist; Auswählen von wenigstens einem Hemmungssprecher; Akquirieren einer Abbildungsfunktion von einem Merkmalsvektorraum eines Standardmusters von Hemmungssprechern auf einen Merkmalsvektorraum einer kollationierten Stimme; Adaptieren des Standardmusters von Hemmungssprechern unter Verwendung der akquirierten Abbildungsfunktion; Berechnen einer Wahrscheinlichkeit von Hemmungssprechern auf der Basis der Wahrscheinlichkeit zwischen dem adaptierten Standardmuster von Hemmungssprechern und der kollationierten Stimme; Berechnen der Wahrscheinlichkeit der identischen Person auf der Basis der Wahrscheinlichkeit zwischen dem Standardmuster der identischen Person und der kollationierten Stimme; Akquirieren einer normalisierten Wahrscheinlichkeit durch Subtrahieren der Wahrscheinlichkeit von Hemmungssprechern von der Wahrscheinlichkeit der identischen Person; und Entscheiden der Person auf der Basis der normalisierten Wahrscheinlichkeit.
- Der Schritt des Auswählens von wenigstens einem Hemmungssprecher kann mit einem solchen Auswahlverfahren durchgeführt werden wie N Personen, zufällige N Personen, N Personen um N Perzentil in der Größenordnung eines hohen Wahrscheinlichkeitsgrads.
- Gemäß noch einem weiteren Aspekt der vorliegenden Erfindung wird auch ein Verfahren zur Sprecherkollationierung bereitgestellt, wobei das Verfahren die folgenden Schritte umfaßt: Normalisieren eines Merkmalsvektors einer Eingabe zur Kollationierung, eines Standardmusters von Kandidaten für Hemmungssprecher, und eines Standardmusters der identischen Person; Berechnen eines Ähnlichkeitsgrads zwischen einem normalisierten Standardmuster von Kandidaten für Hemmungssprecher und einem normalisierten Merkmalsvektor; Auswählen von Hemmungssprechern; Akquirieren einer Abbildungsfunktion von einem Merkmalsvektorraum eines Standardmusters von ausgewählten Hemmungssprechern auf einen Merkmalsvektorraum einer kollationierten Stimme; Adaptieren des Standardmusters von Hemmungssprechern unter Verwendung der erhaltenen Abbildungsfunktion; Berechnen einer Wahrscheinlichkeit von Hemmungssprechern auf der Basis der Wahrscheinlichkeit zwischen dem adaptierten Standardmuster von Hemmungssprechern und der kollationierten Stimme; Berechnen der Wahrscheinlichkeit der identischen Person auf der Basis der Wahrscheinlichkeit zwischen dem normalisierten Standardmuster der identischen Person und dem normalisierten Merkmalsvektor; Berechnen einer normalisierten Wahrscheinlichkeit durch Subtrahieren der Wahrscheinlichkeit des Hemmungssprechers von der Wahrscheinlichkeit der identischen Person; und Entscheiden der Person auf der Basis der normalisierten Wahrscheinlichkeit.
- Der Schritt des Auswählens von Hemmungssprechern kann mit einem solchen Auswahlverfahren durchgeführt werden wie N Personen, zufällige N Personen, N Personen um M Perzentil in der Größenordnung eines hohen Wahrscheinlichkeitsgrads.
- Gemäß noch einem weiteren Aspekt der vorliegenden Erfindung wird auch ein Verfahren zur Sprecherkollationierung bereitgestellt, wobei das Verfahren die folgenden Schritte umfaßt: Akquirieren einer Abbildungsfunktion von einem Merkmalsvektorraum eines Standardmusters aller Kandidaten für Hemmungssprecher auf einen Merkmalsvektorraum einer kollationierten Stimme; Adaptieren des Standardmusters des Kandidaten für Hemmungssprecher durch Verwenden der jeweiligen bekannten Abbildungsfunktion; Berechnen der Wahrscheinlichkeit zwischen dem adaptierten Standardmuster der Kandidaten für Hemmungssprecher und der kollationierten Stimme; Auswählen von Hemmungssprechern; Berechnen einer Wahrscheinlichkeit von Hemmungssprechern auf der Basis der Wahrscheinlichkeit zwischen dem ausgewählten Standardmuster von Hemmungssprechern und der kollationierten Stimme; Berechnen der Wahrscheinlichkeit der identischen Person auf der Basis der Wahrscheinlichkeit zwischen dem Standardmuster der identischen Person und dem kollationierten Stimmvektor; Berechnen einer normalisierten Wahrscheinlichkeit durch Subtrahieren der Wahrscheinlichkeit von Hemmungssprechern von der Wahrscheinlichkeit der identischen Person; und Entscheiden der Person auf der Basis der normalisierten Wahrscheinlichkeit.
- Der Schritt des Auswählens von Hemmungssprechern kann mit einem solchen Auswahlverfahren durchgeführt wie N Personen, zufällige N Personen, N Personen um M Perzentil in der Größenordnung eines hohen Wahrscheinlichkeitsgrads.
- Gemäß einem noch weiteren Aspekt der vorliegenden Erfindung wird auch ein Verfahren zur Sprecherkollationierung bereitgestellt, wobei das Verfahren die folgenden Schritte umfaßt: Akquirieren einer Abbildungsfunktion von einem Merkmalsvektorraum von normalisierten Standardmustern aller Kandidaten für Hemmungssprecher auf einen Merkmalsvektorraum der normalisierten kollationierten Stimme; Adaptieren des Standardmusters der Kandidaten von Hemmungssprechern unter Verwendung der akquirierten Abbildungsfunktion, Auswählen von Hemmungssprechern durch Akquirieren einer Wahrscheinlichkeit zwischen dem adaptierten Standardmuster der Kandidaten für Hemmungssprecher und dem Kennzeichnungsvektor; Berechnen einer Wahrscheinlichkeit von Hemmungssprechern auf der Basis der Wahrscheinlichkeit zwischen dem ausgewählten Standardmuster von Hemmungssprechern und der kollationierten Stimme; Berechnen der Wahrscheinlichkeit der identischen Person auf der Basis der Wahrscheinlichkeit zwischen dem normalisierten Standardmuster der identischen Person und dem normalisierten kollationierten Vektor; Berechnen einer normalisierten Wahrscheinlichkeit durch Subtrahieren der Wahrscheinlichkeit von Hemmungssprechern von der Wahrscheinlichkeit der identischen Person; und Entscheiden der Person auf der Basis der normalisierten Wahrscheinlichkeit.
- Der Schritt des Auswählens von Hemmungssprechern kann mit einem solchen Auswahlverfahren durchgeführt werden wie N Personen, zufällige N Personen, N Personen um M Perzentil in der Größenordnung eines hohen Wahrscheinlichkeitsgrads.
- Gemäß noch einem weiteren Aspekt der vorliegenden Erfindung wird ein computerlesbares Speichermedium zum Speichern eines Programms zur Sprecherkollationierung bereitgestellt, wobei das Programm umfaßt: Berechnen eines Ähnlichkeitsgrads zwischen einem von einer kollationierten Stimme akquirierten Merkmalsvektor und einem Standardmuster von jeweiligen Sprechern, das in einem Speicherabschnitt für ein Standardmuster von Kandidaten für Hemmungssprecher gespeichert ist; Auswählen von wenigstens einem Hemmungssprecher; Akquirieren einer Abbildungsfunktion von einem Merkmalsvektorraum eines Standardmusters von Hemmungssprechern auf einen Merkmalsvektorraum einer kollationierten Stimme; Adaptieren des Standardmusters von Hemmungssprechern unter Verwendung der akquirierten Abbildungsfunktion; Berechnen einer Wahrscheinlichkeit von Hemmungssprechern auf der Basis der Wahrscheinlichkeit zwischen dem adaptierten Standardmuster von Hemmungssprechern und der kollationierten Stimme; Berechnen der Wahrscheinlichkeit der identischen Person auf der Basis der Wahrscheinlichkeit zwischen dem Standardmuster der identischen Person und der kollationierten Stimme; Akquirieren einer normalisierten Wahrscheinlichkeit durch Subtrahieren der Wahrscheinlichkeit von Hemmungssprechern von der Wahrscheinlichkeit der identischen Person; und Entscheiden der Person auf der Basis der normalisierten Wahrscheinlichkeit.
- Gemäß noch einem weiteren Aspekt der vorliegenden Erfindung wird ein computerlesbares Speichermedium zum Speichern eines Programms zur Sprecherkollationierung bereitgestellt, wobei das Programm umfaßt: Normalisieren eines Merkmalsvektors einer Eingabe zur Kollationierung, eines Standardmusters von Kandidaten für Hemmungssprecher, und eines Standardmusters der identischen Person; Berechnen eines Ähnlichkeitsgrads zwischen einem normalisierten Standardmuster von Kandidaten für Hemmungssprecher und einem normalisierten Merkmalsvektor; Auswählen von Hemmungssprechern; Akquirieren einer Abbildungsfunktion von einem Merkmalsvektorraum eines Standardmusters von ausgewählten Hemmungssprechern auf einen Merkmalsvektorraum einer kollationierten Stimme; Adaptieren des Standardmusters von Hemmungssprechern unter Verwendung der erhaltenen Abbildungsfunktion; Berechnen einer Wahrscheinlichkeit von Hemmungssprechern auf der Basis der Wahrscheinlichkeit zwischen dem adaptierten Standardmuster von Hemmungssprechern und der kollationierten Stimme; Berechnen der Wahrscheinlichkeit der identischen Person auf der Basis der Wahrscheinlichkeit zwischen dem normalisierten Standardmuster der identischen Person und dem normalisierten Merkmalsvektor; Berechnen einer normalisierten Wahrscheinlichkeit durch Subtrahieren der Wahrscheinlichkeit von Hemmungssprechern von der Wahrscheinlichkeit der identischen Person; und Entscheiden der Person auf der Basis der normalisierten Wahrscheinlichkeit.
- Gemäß noch einem weiteren Aspekt der vorliegenden Erfindung wird auch ein computerlesbares Speichermedium zum Speichern eines Programms zur Sprecherkollationierung bereitgestellt, wobei das Programm umfaßt: Akquirieren einer Abbildungsfunktion von einem Merkmalsvektorraum eines Standardmusters aller Kandidaten für Hemmungssprecher auf einen Merkmalsvektorraum einer kollationierten Stimme; Adaptieren des Standardmusters der Kandidaten für Hemmungssprecher durch Verwenden der jeweiligen bekannten Abbildungsfunktion; Berechnen einer Wahrscheinlichkeit zwischen dem adaptierten Standardmuster der Kandidaten für Hemmungssprecher und der kollationierten Stimme; Auswählen von Hemmungssprechern; Berechnen einer Wahrscheinlichkeit von Hemmungssprechern auf der Basis der Wahrscheinlichkeit zwischen dem ausgewählten Standardmuster von Hemmungssprechern und der kollationierten Stimme; Berechnen der Wahrscheinlichkeit der identischen Person auf der Basis der Wahrscheinlichkeit zwischen dem Standardmuster der identischen Person und dem kollationierten Stimmvektor; Berechnen einer normalisierten Wahrscheinlichkeit durch Subtrahieren der Wahrscheinlichkeit von Hemmungssprechern von der Wahrscheinlichkeit der identischen Person; und Entscheiden der Person auf der Basis der normalisierten Wahrscheinlichkeit.
- Gemäß noch einem weiteren Aspekt der vorliegenden Erfindung wird auch ein computerlesbares Speichermedium zum Speichern eines Programms zur Sprecherkollationierung bereitgestellt, wobei das Programm umfaßt: Akquirieren einer Abbildungsfunktion von einem Merkmalsvektorraum von normalisierten Standardmustern aller Kandidaten für Hemmungssprecher auf einen Merkmalsvektorraum der normalisierten kollationierten Stimme; Adaptieren des Standardmusters der Kandidaten von Hemmungssprechern unter Verwendung der akquirierten Abbildungsfunktion, Auswählen von Hemmungssprechern durch Akquirieren einer Wahrscheinlichkeit zwischen dem adaptierten Standardmuster der Kandidaten für Hemmungssprecher und dem Kennzeichnungsvektor; Berechnen einer Wahrscheinlichkeit von Hemmungssprechern auf der Basis der Wahrscheinlichkeit zwischen dem ausgewählten Standardmuster von Hemmungssprechern und der kollationierten Stimme; Berechnen der Wahrscheinlichkeit der identischen Person auf der Basis der Wahrscheinlichkeit zwischen dem normalisierten Standardmuster der identischen Person und dem normalisierten kollationierten Vektor; Berechnen einer normalisierten Wahrscheinlichkeit durch Subtrahieren der Wahrscheinlichkeit von Hemmungssprechern von der Wahrscheinlichkeit der identischen Person; und Entscheiden der Person auf der Basis der normalisierten Wahrscheinlichkeit.
- Fig. 1 ist ein Zustandsblockdiagramm einer Vorrichtung zur Sprecherkollationierung gemäß des vorliegenden ersten Aspekts der Erfindung;
- Fig. 2 ist ein Zustandsblockdiagramm einer Vorrichtung zur Sprecherkollationierung gemäß des vorliegenden zweiten Aspekts der Erfindung;
- Fig. 3 ist ein Zustandsblockdiagramm einer Vorrichtung zur Sprecherkollationierung gemäß des vorliegenden dritten Aspekts der Erfindung; und
- Fig. 4 ist ein Zustandsblockdiagramm einer Vorrichtung zur Sprecherkollationierung gemäß des vorliegenden vierten Aspekte der Erfindung.
- Die folgenden Ausführungen sind die Beschreibung der bevorzugten Ausführungsformen der Vorrichtung, des Verfahrens und des Speichermediums zur Sprecherkollationierung der Erfindung mit Bezug auf die Zeichnungen.
- Zuerst werden bei dem Verfahren zur Sprecherkollationierung gemäß der ersten Ausführungsform Hemmungssprecher ausgewählt und eine Abbildungsfunktion von einem Merkmalsvektorraum eines Standardmusters von Hemmungssprechern auf einen Merkmalsvektorraum einer kollationierten Stimme akquiriert, das Standardmuster von Hemmungssprechern wurde unter Verwendung der erhaltenen Abbildungsfunktion adaptiert, eine Wahrscheinlichkeit (Wahrscheinlichkeit von Hemmungssprechern) zwischen dem adaptierten Standardmuster der Hemmungssprecher und der kollationierten Stimme wird berechnet. Für dieses Adaptionsverfahren, die Hochgeschwindigkeits-Umgebungsadaption (REALISE method) (detailliert beschrieben von Takagi et al. in Referenz 5: voice recognition having environmental adaptation function by a spectrum mapping. Onkyou Kouron: 173-174. 1994-3) die Sprecheradaptierung der Baumstruktur (ACTS) (detailliert beschrieben von Sinoda et al. in Referenz 6: speaker adaptation by using probability distribution having a tree structure. Onkyou Kouron: 49-50. 1995-3,) und die Spektruminterpolationssprecheradaption (detailliert beschrieben von Sinoda et al. in Referenz 7: speaker adaptation for voice recognition by using deem-syllable HMM. Onkyou Kouron: 23-24, 1991-9;) und Ceptrum mean equalization (CME).
- Als nächstes wird eine Wahrscheinlichkeit (Wahrscheinlichkeit der identischen Person) zwischen dem Standardmuster der identischen Person und der kollationierten Stimme berechnet, und eine Normalisierungswahrscheinlichkeit wird berechnet, indem die Wahrscheinlichkeit von Hemmungssprechern von der Wahrscheinlichkeit der identischen Person subtrahiert wird.
- Die bei diesem Verfahren unter Verwendung einer kollationierten Stimme durchgeführte Adaption des Standardmusters von Hemmungssprechern erlaubt es, das Standardmuster von Hemmungssprechern in einer ähnlichen Umgebung wie die der Kollationierung zu akquirieren und erlaubt daher, eine hohe Kollationierungsquote ohne vorherige Generierung des Standardmusters der Kandidaten für Hemmungssprecher für identische Umgebungen wie die der Kollationierung zu akquirieren.
- In dem Verfahren zur Sprecherkollationierung gemäß der zweiten Ausführungsform werden ein Merkmalsvektor, das Standardmuster von Kandidaten für Hemmungssprecher und das Standardmuster der identischen Person, die alle zunächst analysiert wurden, normalisiert. Das dabei angewandte Normalisierungsverfahren ist ein Verfahren zur Korrektur von Frequenzmerkmalen der Phonetik oder des Standardmusters. Das Verfahren stellt eine kleine Freiheit in der Adaption im Vergleich zu dem beim ersten Verfahren angewandten Adaptierungsverfahren bereit und zeigt einen niedrigen Grad der Adaption. Für das Normalisierungsverfahren kann Cepstrum mean substraction (CMS) und sekundäre Normalisierung (detailliert beschrieben von Yamada et al. in Referenz 8: An evaluation of spectrum normalization not easily affected by a difference in voice inputting system. Onkyou Kouron: 145-146. 1994-3) angewandt werden. Als nächstes werden Hemmungssprecher durch Akquirieren einer Wahrscheinlichkeit zwischen dem normalisierten Standardmuster der Kandidaten für Hemmungssprecher und dem normalisierten Kennzeichnungsvektor ausgewählt. Daraufhin wird eine Abbildungsfunktion von einem Merkmalsvektorraum eines Standardmusters der ausgewählten Hemmungssprecher auf einen Merkmalsvektorraum einer kollationierten Stimme akquiriert, das Standardmuster von Hemmungssprechern wird unter Verwendung der erhaltenen Abbildungsfunktion adaptiert und eine Wahrscheinlichkeit (Wahrscheinlichkeit von Hemmungssprechern) zwischen dem adaptierten Standardmuster der Hemmungssprecher und der kollationierten Stimme wird berechnet. Das Normalisierungsverfahren ist identisch zu dem der ersten Erfindung.
- Nach diesen Schritten wird eine Wahrscheinlichkeit (Wahrscheinlichkeit der identischen Person) zwischen dem normalisierten Standardmuster der identischen Person und dem normalisierten Merkmalsvektor berechnet, und eine Wahrscheinlichkeit der Normalisierung wird dadurch berechnet, daß die Wahrscheinlichkeit von Hemmungssprechern von der Wahrscheinlichkeit der identischen Person subtrahiert wird. Die Adaption des Standardmusters von Hemmungssprechern wird bei diesem Verfahren unter Verwendung der kollationierten Stimme folgend durchgeführt, um einen Umgebungsunterschied zwischen einer registrierten Stimme und der kollationierten Stimme zu verringern, indem das registrierte Standardmuster der identischen Person und der Merkmalsvektor der kollationierten Stimme normalisiert wird, und auf der Basis dieses Schritts wird der Umgebungsunterschied zwischen der kollationierten Stimme und dem Standardmuster von Hemmungssprechern verringert. Die Anwendung dieses Verfahrens erlaubt es, eine hohe Kollationierungsquote ohne vorherige Generierung der Standardmuster der Kandidaten für Hemmungssprecher für identische Umgebung zu der jeweiligen Kollationierung zu akquirieren, sogar in dem Fall eines großen Umgebungsunterschieds zwischen Registrierung und Kollationierung.
- Bei dem Verfahren zur Sprecherkollationierung der dritten Ausführungsform wird eine Abbildungsfunktion von einem Merkmalsvektorraum aller Standardmuster von Kandidaten für Hemmungssprecher auf einen Merkmalsvektorraum einer kollationierten Stimme zunächst akquiriert, und das Standardmuster von Kandidaten für Hemmungssprecher wird unter Verwendung der jeweiligen bekannten Abbildungsfunktion adaptiert. Das Verfahren zur Adaption ist identisch zu dem der ersten Erfindung.
- Als nächstes wird eine Wahrscheinlichkeit zwischen dem adaptierten Standardmuster der Kandidaten für Hemmungssprecher und dem Kennzeichnungsvektor berechnet, Hemmungssprecher werden ausgewählt, eine Wahrscheinlichkeit von Hemmungssprechern ist die Wahrscheinlichkeit zwischen dem ausgewählten Standardmuster von Hemmungssprechern und der kollationierten Stimme, und die Wahrscheinlichkeit (die Wahrscheinlichkeit der identischen Person) zwischen dem Standardmuster der identischen Person und kollationierten Stimme wird berechnet, eine Normalisierungswahrscheinlichkeit wird dadurch berechnet, daß die Wahrscheinlichkeit von Hemmungssprechern von der Wahrscheinlichkeit der identischen Person subtrahiert wird. Bei diesem Verfahren werden Hemmungssprecher unter Verwendung des adaptierten Standardmusters der Kandidaten für Hemmungssprecher ausgewählt, und daher kann das Standardmuster von Hemmungssprechern mit einer größeren Präzision generiert werden.
- Bei einem Verfahren zur Sprecherkollationierung der vierten Ausführungsform wird zuerst eine Abbildungsfunktion von einem Merkmalsvektorraum von normalisierten Standardmustern aller Kandidaten für Hemmungssprecher auf einen Merkmalsvektorraum der normalisierten kollationierten Stimme akquiriert, das Standardmuster der Kandidaten für Hemmungssprecher wird unter Verwendung der akquirierten Abbildungsfunktion adaptiert. Das Verfahren zur Adaption ist identisch zu dem der ersten Erfindung, das Verfahren zur Normalisierung ist identisch zu dem der zweiten Erfindung. Als nächstes wird eine Wahrscheinlichkeit zwischen dem adaptierten Standardmuster der Kandidaten für Hemmungssprecher und dem Kennzeichnungsvektor, Hemmungssprecher werden ausgewählt, und eine Wahrscheinlichkeit von Hemmungssprechern ist die Wahrscheinlichkeit zwischen dem ausgewählten Standardmuster von Hemmungssprechern und der kollationierten Stimme. Als nächstes wird eine Wahrscheinlichkeit (Wahrscheinlichkeit der identischen Person) zwischen dem normalisierten Standardmuster der identischen Person und dem normalisierten kollationierten Vektor berechnet, und die normalisierte Wahrscheinlichkeit wird durch Subtrahieren der Wahrscheinlichkeit von Hemmungssprechern von der Wahrscheinlichkeit der identischen Person berechnet. Dieses Verfahren ist sogar im Fall von großen Umgebungsunterschieden zwischen Registrierung und Kollationierung effektiv. Daher kann das Standardmuster von Hemmungssprechern mit einer höheren Präzision durch Auswahl von Hemmungssprechern unter Verwendung des adaptierten Standardmusters von Hemmungssprechern generiert werden.
- Für das auf die erste bis zur vierten Ausführungsform angewandte Verfahren zur Selektion von Hemmungssprechern kann ein solches Auswahlverfahren wie N Personen, zufällige N Personen, N Personen um M Perzentil in der Größenordnung eines hohen Wahrscheinlichkeitsgrades verwendet werden. Die Wahrscheinlichkeit von Hemmungssprechern kann unter Verwendung eines Verfahrens zum Berechnen des Mittels von N Wahrscheinlichkeiten berechnet werden. Das Maß des Ähnlichkeitsgrads wurde hierin beispielhaft mit Wahrscheinlichkeit beschrieben, die gleiche Beschreibung kann jedoch auch bei Umwandlung auf eine Distanz angewandt werden.
- Hiermit wird die bevorzugte Ausführungsform einer Vorrichtung zur Sprecherkollationierung unter Verwendung eines Verfahrens zur Sprecherkollationierung gemäß der vorliegenden Erfindung nachstehend mit Bezug auf die Zeichnungen beschrieben.
- Fig. 1 ist ein Zustandsblockdiagramm eines ersten Modus zum Ausführen der vorliegenden Erfindung.
- Eine eingegebene kollationierte Stimme wird in einem Analyseabschnitt 1 in einen Merkmalsvektor konvertiert. Der verwendete Merkmalsvektor wird durch Cepstrum und 4 Cepstrum veranschaulicht (detailliert beschrieben von Hurui in Referenz 9: Digital voice processing. Toukai Daigaku Syuppan Kai: 44-47. 1985). Der analysierte Merkmalsvektor wird zu einem Speicherabschnitt 3 für den Merkmalsvektor und einen Auswahlabschnitt 4 zum Auswählen eines Hemmungssprechers geschickt. Im Auswahlabschnitt 4 zum Auswählen eines Hemmungssprechers wird ein Ähnlichkeitsgrad zwischen dem geschickten Merkmalsvektor und den im Speicharabschnitt 2 des Standardmusters vom Kandidaten für Hemmungssprecher gespeicherten Standardmuster für Hemmungssprecher berechnet. Das verwendete Verfahren zur Berechnung des Ähnlichkeitsgrads wird durch Viterbi-Algorithmen beispielhaft veranschaulicht (detailliert beschrieben durch Nakagawa in Referenz 10: Voice recognition by probability model, THE JOURNAL OF THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION EN- GINEERS. 19ß8) und ΔP Anpassung (detailliert beschrieben von Sakoe in Referenz 11: Voice designation by path constraints of DP matching. Onkyou Kouron: 67-6ß. 1974). Der berechnete Ähnlichkeitsgrad wird in absteigender Reihenfolge sortiert, um N Personen der größten Ordnung als Hemmungssprecher auszuwählen. Es gibt andere brauchbare Auswahlverfahren, so wie ein Verfahren zum zufälligen Auswählen von N Personen und ein Verfahren von N Personen um M Perzentril der Ähnlichkeitsgradverteilung. Das Standardmuster der ausgewählten Hemmungssprecher wird zum Adaptionsabschnitt 25 geschickt.
- Im Adaptionsabschnitt S wird eine Abbildungsfunktion von einem Merkmalsvektorraum des Standardmusters von Hemmungssprechern auf einen Merkmalsvektorraum der kollationierten Stimme unter Verwendung des vom Auswahlabschnitt 4 zum Auswählen eines Hemmungssprechers geschickten Standardmusters von Hemmungssprechern und des von dem Speicherabschnitt 3 für den Merkmalsvektor geschickten Merkmalsvektor akquiriert. Für das Verfahren zum Akquirieren der Abbildungsfunktion wird die Funktion gemäß der Formel (2) und Formel (3) von Referenz 5 im Fall der Hochgeschwindigkeits- Umgebungsadaption erhalten, gemäß der Formel (1) der Referenz 6 im Fall der Sprecheradaption der Baumstruktur, und gemäß der Formel (1) der Referenz 6 im Fall der Spektruminterpolationssprecheradaption. Die Standardmuster von Hemmungssprechern werden unter Verwendung der durch solche Verfahren bekannten Abbildungsfunktion adaptiert. Die adaptierten Standardmuster von Hemmungssprechern werden zum Berechnungsabschnitt 6 eines Ähnlichkeitsgrads von Hemmungssprechern geschickt.
- Im Berechnungsabschnitt 6 eines Ähnlichkeitsgrads von Hemmungssprechern wird der Ähnlichkeitsgrad zwischen N der adaptierten Standardmuster von Hemmungssprechern und einem vom Speicherabschnitt 3 für den Merkmalsvektor geschickten Merkmalsvektor berechnet. Die zur Berechnung des Ähnlichkeitsgrads verwendeten Verfahren werden durch Viterbi- Algorithmen und ΔP Anpassung beispielhaft veranschaulicht. Das Mittel von N Ähnlichkeiten (Ähnlichkeitsgrad von Hemmungssprechern) wird berechnet und an den Normalisierungsabschnitt 9 für Ähnlichkeitsgrad geschickt.
- Im Berechnungsabschnitt 8 für den Ähnlichkeitsgrad der identischen Person wird der Ähnlichkeitsgrad (Ähnlichkeitsgrad der identischen Person) zwischen dem vom Speicherabschnitt 7 für das Standardmuster der identischen Person geschickten Standardmuster der identischen Person und dem vom Speicherabschnitt 3 für den Merkmalsvektor geschickten Merkmalsvektor berechnet. Der berechnete Ähnlichkeitsgrad der identischen Person wird zum Ähnlichkeitsgrad- Normalisierungsabschnitt 9 geschickt.
- Im Normalisierungsabschnitt 9 für den Ähnlichkeitsgrad wird die Normalisierung des Ähnlichkeitsgrads durch Subtrahieren des vom Berechnungsabschnitt 6 eines Ähnlichkeitsgrads von Hemmungssprechern geschickten Ähnlichkeitsgrads von Hemmungssprechern von dem vom Berechnungsabschnitt 8 für den Ähnlichkeitsgrad der identischen Person geschickten Ähnlichkeitsgrad der identischen Person durchgeführt. Der normalisierte Ähnlichkeitsgrad wird zum Entscheidungsabschnitt 11 zum Entscheiden der Person geschickt.
- Im Entscheidungsabschnitt 11 zum Entscheiden der Person wird die Identifizierung der Person unter Verwendung des vom Normalisierungsabschnitt 9 des Ähnlichkeitsgrads und des vom Speicherabschnitt zum Speichern eines Schwellenwerts geschickten Schwellenwerts durchgeführt. Wenn der Ähnlichkeitsgrad die Wahrscheinlichkeit ist, wird die Person entschieden, sofern die Wahrscheinlichkeit größer als der Schwellenwert ist, und die Person wird nicht entschieden, wenn die Wahrscheinlichkeit kleiner als der Schwellenwert ist. Zum Schluß wird ein Ergebnis der Entscheidung ausgegeben.
- Fig. 2 ist ein Zustandsblockdiagramm einer zweiten Ausführungsform der vorliegenden Erfindung.
- Die eingegebene kollationierte Stimme wird zum Analyseabschnitt 21 zur Konvertierung in einen Merkmalsvektor geschickt. Die verwendeten Merkmalsvektoren werden durch Cepstrum und Δ Cepstrum beispielhaft veranschaulicht. Analysierte Merkmalsvektoren werden zum Normalisierungsabschnitt 22 für Merkmalsvektoren geschickt.
- Im Normalisierungsabschnitt 22 für Merkmalsvektoren werden der vom Analyseabschnitt 21 geschickte Merkmalsvektor, das im Speicherabschnitt 24 für ein Standardmuster von Kandidaten für Hemmungssprecher gespeicherte Standardmuster von Kandidaten für Hemmungssprecher, und das im Speicherabschnitt 28 für das Standardmuster der identischen Person gespeicherte Standardmuster der identischen Person normalisiert. Das Normalisierungsverfahren unter Verwendung der sekundären Normalisierung wird gemäß der Formel (3) der Referenz 8 durchgeführt. Der normalisierte Merkmalsvektor wird zum Speicherabschnitt 23 für Merkmalsvektoren und dem Auswahlabschnitt 25 von Hemmungssprechers geschickt, das normalisierte Standardmuster von Kandidaten für Hemmungssprecher wird zum Auswahlabschnitt 25 von Hemmungssprechern geschickt, und das normalisierte Standardmuster der identischen Person wird zum Berechnungsabschnitt 29 für den Ähnlichkeitsgrad der identischen Person geschickt.
- Im Auswahlabschnitt 25 von Hemmungssprechern wird der Ähnlichkeitsgrad zwischen dem geschickten Merkmalsvektor und dem Standardmuster von Kandidaten für Hemmungssprecher berechnet. Die Verfahren zur Berechnung des Ähnlichkeitsgrads werden durch Viterbi-Algorithmen und DP Anpassung beispielhaft veranschaulicht. Der berechnete Ähnlichkeitsgrad wird in absteigender Reihenfolge sortiert, um N Personen der höchsten Ordnungen als Hemmungssprecher auszuwählen. Es gibt andere verwendbare Verfahren zum Auswählen, so wie ein Verfahren zum zufälligen Auswählen von N Personen und ein Verfahren zum Auswählen von N Personen um M Perzentil der Ähnlichkeitsgradverteilung. Das Standardmuster der ausgewählten Hemmungssprecher wird an den Adaptionsabschnitt 26 geschickt.
- Im Adaptionsabschnitt 26 wird eine Abbildungsfunktion von einem Merkmalsvektorraum der Standardmuster von Hemmungssprechern auf einen Merkmalsvektorraum der kollationierten Stimme unter Verwendung des von dem Auswahlabschnitt 25 zum Auswählen eines Hemmungssprechers geschickten Standardmusters von Hemmungssprechern und des vom Speicherabschnitt 23 für den Merkmalsvektor geschickten Merkmalsvektor akquiriert. Für das Verfahren zum Akquirieren der Abbildungsfunktion wird die Funktion gemäß der Formel (2) und der Formel (3) der Differenz 5 im Fall der Hochgeschwindigkeits-Umgebungsadaption akquiriert, gemäß der Formel (1) der Referenz 6 im Fall der Sprecheradaption der Baumstruktur, und gemäß der Formel (1) der Referenz 7 im Fall der Spektruminterpolationssprecheradaption. Die Standardmuster der Hemmungssprecher wird unter Verwendung der durch solche Verfahren bekannten Abbildungsfunktion adaptiert. Die adaptierten Standardmuster von Hemmungssprechern wird zum Berechnungsabschnitt 27 eines Ähnlichkeitsgrads von Hemmungssprechern geschickt.
- Im Berechnungsabschnitt 27 eines Ähnlichkeitsgrads von Hemmungssprechern wird der Ähnlichkeitsgrad zwischen N der adaptierten Standardmuster von Hemmungssprechern und eines vom Speicherabschnitt 23 für den Merkmalsvektor geschickten Merkmalsvektor berechnet. Die verwendbaren Verfahren zur Berechnung des Ähnlichkeitsgrads werden durch Viterbi- Algorithmen und DP Anpassung beispielhaft veranschaulicht. Das Mittel von N Ähnlichkeiten (Ähnlichkeitsgrad von Hemmungssprechern) wird berechnet und an den Normalisierungsabschnitt 30 für Ähnlichkeitsgrad geschickt.
- Im Berechnungsabschnitt 29 für den Ähnlichkeitsgrad der identischen Person wird der Ähnlichkeitsgrad (Ähnlichkeitsgrad der identischen Person) zwischen dem vom Normalisierungsabschnitt 22 geschickten Standardmuster der identischen Person und dem vom Speicherabschnitt 23 für den Merkmalsvektor geschickten Merkmalsvektor berechnet. Der berechnete Ähnlichkeitsgrad der identischen Person wird zum Normalisierungsabschnitt 30 für den Ähnlichkeitsgrad geschickt.
- Im Normalisierungsabschnitt 29 für den Ähnlichkeitsgrad wird der Ähnlichkeitsgrad durch Subtrahieren des vom Berechnungsabschnitt 27 eines Ähnlichkeitsgrads von Hemmungssprechern geschickten Ähnlichkeitsgrads von dem vom Berechnungsabschnitt 29 für den Ähnlichkeitsgrad der identischen Person geschickten Ähnlichkeitsgrad zur identischen Person normalisiert. Der normalisierte Ähnlichkeitsgrad wird zum Entscheidungsabschnitt 32 zum Entscheiden der Person geschickt.
- Im Entscheidungsabschnitt 32 zum Entscheiden der Person wird die Person unter Verwendung des vom Normalisierungsabschnitt 30 des Ähnlichkeitsgrads geschickten normalisierten Ähnlichkeitsgrads und des vom Speicherabschnitt 31 zum Speichern eines Schwellenwerts geschickten Schwellenwerts entschieden. Wenn der Ähnlichkeitsgrad die Wahrscheinlichkeit ist, wird die Person entschieden, sofern die Wahrscheinlichkeit größer als der Schwellenwert ist, und die Person wird nicht entschieden, wenn die Wahrscheinlichkeit niedriger als der Schwellenwert ist. Schließlich wird ein Ergebnis der Entscheidung ausgegeben.
- Fig. 3 ist ein Zustandsblockdiagramm einer dritten Ausführungsform der vorliegenden Erfindung.
- Die eingegebene kollationierte Stimme wird zum Analyseabschnitt 41 zur Konvertierung in einen Merkmalsvektor geschickt. Verwendete Merkmalsvektoren werden durch Cepstrum und Δ Cepstrum beispielhaft veranschaulicht. Analysierte Merkmalsvektoren werden an den Speicherabschnitt 43 zum Speichern von Merkmalsvektoren und an den Adaptionsabschnitt 44 geschickt.
- Im Adaptionsabschnitt 44 wird eine Abbildungsfunktion von einem Merkmalsvektorraum aller Standardmuster, die in dem Speicherabschnitt 42 für ein Standardmuster von Kandidaten für Hemmungssprecher gespeichert wurden, von Kandidaten für Hemmungssprecher auf einen Merkmalsvektorraum der vom Speicherabschnitt 43 zum Speichern von Merkmalsvektoren geschickten kollationierten Stimme erhalten. Für das Verfahren zum Akquirieren der Abbildungsfunktion wird die Funktion gemäß der Formel (2) und Formel (3) der Referenz 5 im Fall der Hochgeschwindigkeits-Umgebungsadaption erhalten, gemäß der Formel (1) der Referenz 6 im Fall der Sprecheradaption der Baumstruktur, und gemäß der Formel (1) der Referenz 7 im Fall der Spektruminterpolationssprecheradaption. All die Standardmuster der Kandidaten für Hemmungssprecher werden unter Verwendung der durch solche Verfahren jeweils erhaltenen Abbildungsfunktion adaptiert. Die adaptierten Standardmuster von Kandidaten für Hemmungssprecher werden an den Auswahlabschnitt 45 für Hemmungssprecher geschickt.
- Im Auswahlabschnitt 45 für Hemmungssprecher wird ein Ähnlichkeitsgrad zwischen dem vom Adaptionsabschnitt 44 geschickten Standardmuster vom Kandidaten für Hemmungssprecher und dem vom Speicherabschnitt 43 zum Speichern von Merkmalsvektoren geschickten Merkmalsvektor berechnet. Die zur Berechnung des Ähnlichkeitsgrads verwendeten Verfahren werden durch Viterbi-Algorithmen und DP Anpassung veranschaulicht. Der berechnete Ähnlichkeitsgrad wird in absteigender Ordnung geordnet, um N Personen der höchsten Ordnung als Hemmungssprecher auszuwählen. Der Ähnlichkeitsgrad der ausgewählten Hemmungssprecher wird an dem Berechnungsabschnitt 46 für den Ähnlichkeitsgrad der Hemmungssprecher geschickt.
- Im Berechnungsabschnitt 46 eines Ähnlichkeitsgrads von Hemmungssprechern wird das Mittel von N von vom Auswahlabschnitt 45 für Hemmungssprecher geschickten Ähnlichkeitsgrad (der Ähnlichkeitsgrad der Hemmungssprecher) berechnet. Das Mittel wird an den Normalisierungsabschnitt 49 für Ähnlichkeitsgrad geschickt.
- Im Berechnungsabschnitt 48 für den Ähnlichkeitsgrad der identischen Person wird der Ähnlichkeitsgrad (Ähnlichkeitsgrad der identischen Person) zwischen dem vom Speicherabschnitt 47 für das Standardmuster der identischen Person geschickten Standardmusters der identischen Person und dem vom Speicherabschnitt 43 für den Merkmalsvektor geschickten Merkmalsvektor berechnet. Der berechnete Ähnlichkeitsgrad der identischen Person wird zum Normalisierungsabschnitt 49 für Ähnlichkeitsgrad geschickt.
- Im Normalisierungsabschnitt 49 für den Ähnlichkeitsgrad wird der Ähnlichkeitsgrad durch Subtrahieren des vom Berechnungsabschnitt 46 eines Ähnlichkeitsgrads von Hemmungssprechern geschickten Ähnlichkeitsgrads von Hemmungssprechern von dem vom Berechnungsabschnitt 48 für den Ähnlichkeitsgrad der identischen Person geschickten Ähnlichkeitsgrad der identischen Person normalisiert. Der normalisierte Ähnlichkeitsgrad wird zum Entscheidungsabschnitt 51 zum Entscheiden der Person geschickt.
- Im Entscheidungsabschnitt 51 zum Entscheiden der Person wird die Person unter Verwendung des vom Normalisierungsabschnitt 49 des Ähnlichkeitsgrads geschickten normalisierten Ähnlichkeitsgrads und des vom Speicherabschnitt 50 zum Speichern eines Schwellenwerts geschickten Schwellenwerts entschieden. Wenn der Ähnlichkeitsgrad die Wahrscheinlichkeit ist, wird die Person entschieden, wenn die Wahrscheinlichkeit größer ist als der Schwellenwert, und die Person wird nicht entschieden, wenn die Wahrscheinlichkeit kleiner als der Schwellenwert ist. Zum Schluß wird ein Ergebnis der Entscheidung ausgegeben.
- Fig. 4 ist ein Zustandsblockdiagramm eine vierten Ausführungsform der vorliegenden Erfindung.
- Die eingegebene kollationierte Stimme wird zum Analyseabschnitt 61 zum Konvertieren in einen Merkmalsvektor geschickt. Verwendete Merkmalsvektoren werden durch Cepstrum und Δ Cepstrum beispielhaft veranschaulicht. Analysierte Merkmalsvektoren werden zum Normalisierungsabschnitt 62 zum Speichern von Merkmalsvektoren geschickt.
- Im Normalisierungsabschnitt 62 für Merkmalsvektoren werden der vom Analyseabschnitt 61 geschickte Merkmalsvektor, das im Speicherabschnitt 64 für ein Standardmuster von Kandidaten für Hemmungssprecher gespeicherte Standardmuster von Kandidaten für Hemmungssprecher und das im Speicherabschnitt 68 für das Standardmuster der identischen Person gespeicherte Standardmuster der identischen Person normalisiert. Das Normalisierungsverfahren unter Verwendung der sekundären Normalisierung wird gemäß der Formel (3) der Referenz 8 durchgeführt. Der normalisierte Merkmalsvektor wird zum Speicherabschnitt 63 für Merkmalsvektoren und zum Adaptionsabschnitt 65 geschickt, das normalisierte Standardmuster von Kandidaten für Hemmungssprecher wird zum Adaptionsabschnitt 65 geschickt, und das normalisierte Standardmuster der identischen Person wird zum Berechnungsabschnitt 69 für den Ähnlichkeitsgrad der identischen Person geschickt.
- Im Adaptionsabschnitt 65 wird eine Abbildungsfunktion vom Merkmalsvektorraum aller normalisierten Standardmuster von Kandidaten für Hemmungssprecher auf den normalisierten Merkmalsvektorraum der vom Speicherabschnitt 63 zum Speichern von Merkmalsvektoren geschickten kollationierten Stimme erhalten. Für das Verfahren zum Akquirieren der Abbildungsfunktion wird die Funktion gemäß der Formel (2) und der Formel (3) der Referenz 5 im Fall der Hochgeschwindigkeits-Umgebungsadaption erhalten, gemäß der Formel (1) der Referenz 6 im Fall der Sprecheradaption der Baumstruktur, und gemäß der Formel (1) der Referenz 7 im Fall der Spektruminterpolationssprecheradaption. Alle Standardmuster von Kandidaten für Hemmungssprecher werden unter Verwendung der durch solche Verfahren erhaltenen Abbildungsfunktion adaptiert. Die adaptierten Standardmuster von Kandidaten für Hemmungssprecher werden an den Auswahlabschnitt 66 von Hemmungssprechern geschickt.
- In dem Auswahlabschnitt 66 von Hemmungssprechern wird ein Ähnlichkeitsgrad zwischen dem vom Adaptionsabschnitt 65 geschickten Standardmuster von Kandidaten für Hemmungssprechern und dem vom Speicherabschnitt 63 zum Speichern von Merkmalsvektoren geschickten Merkmalsvektor berechnet. Die für die Berechnung des Ähnlichkeitsgrads verwendeten Verfahren werden durch Viterbi-Algorithmen und DP-Anpassung beispielhaft veranschaulicht. Der berechnete Ähnlichkeitsgrad wird in absteigender Reihenfolge geordnet, um N Personen der höchsten Ordnung als Hemmungssprecher auszuwählen. Der Ähnlichkeitsgrad der ausgewählten Hemmungssprecher wird an den Berechnungsabschnitt 67 für den Ähnlichkeitsgrad der Hemmungssprecher geschickt.
- Im Berechnungsabschnitt 67 eines Ähnlichkeitsgrads von Hemmungssprechern wird der Mittelwert von N von vom Auswahlabschnitt 66 für Hemmungssprecher geschickten Ähnlichkeitsgrad (der Ähnlichkeitsgrad von Hemmungssprechern) berechnet. Der Mittelwert wird an den Normalisierungsabschnitt 70 für den Ähnlichkeitsgrad geschickt.
- Im Berechnungsabschnitt 69 für den Ähnlichkeitsgrad der identischen Person wird der Ähnlichkeitsgrad (Ähnlichkeitsgrad der identischen Person) zwischen dem vom Normalisierungsabschnitt 62 geschickten normalisierten Standardmuster der identischen Person und dem vom Speicherabschnitt 63 für den Merkmalsvektor geschickten Merkmalsvektor berechnet. Der berechnete Ähnlichkeitsgrad der identischen Person wird zum Normalisierungsabschnitt 70 für den Ähnlichkeitsgrad geschickt.
- Im Normalisierungsabschnitt 70 für den Ähnlichkeitsgrad wird der Ähnlichkeitsgrad durch Subtrahieren des vom Berechnungsabschnitt 67 eines Ähnlichkeitsgrads von Hemmungssprechern geschickten Ähnlichkeitsgrads von Hemmungssprechern von dem vom Berechnungsabschnitt 69 für den Ähnlichkeitsgrad der identischen Person geschickten Ähnlichkeitsgrad der identischen Person normalisiert. Der normalisierte Ähnlichkeitsgrad wird zum Entscheidungsabschnitt 72 zum Entscheiden der Person geschickt.
- Im Entscheidungsabschnitt 72 zum Entscheiden der Person wird die Person unter Verwendung eines vom Normalisierungsabschnitt 70 des Ähnlichkeitsgrads geschickten normalisierten Ähnlichkeitsgrads und des vom Speicherabschnitt 71 zum Speichern eines Schwellenwerts geschickten Schwellenwerts entschieden. Wenn der Ähnlichkeitsgrad die Wahrscheinlichkeit ist, wird die Person entschieden, sofern die Wahrscheinlichkeit höher ist als der Schwellenwert, und die Person wird nicht entschieden, wenn die Wahrscheinlichkeit kleiner als der Schwellenwert ist. Zum Schluß wird ein Ergebnis der Entscheidung ausgegeben.
- Wie oben beschrieben kann gemäß der Vorrichtung, dem Verfahren und dem Speichermedium zur Sprecherkollationierung gemäß der vorliegenden Erfindung eine hohe Kollationierungsquote ohne vorherige Generierung des Standardmusters von Hemmungssprechern für identische Umgebung wie die der Kollationierung akquiriert werden, und zwar sogar in dem Fall eines großen Umgebungsunterschieds zwischen Kollationierung und den Standardmustern der Hemmungssprecher.
- Obgleich die vorliegende Erfindung hierher im Zusammenhang mit nur mehreren ihrer Ausführungsformen beschrieben worden ist, ist es nun für den Fachmann leicht möglich, die Erfindung auf verschiedene andere Weisen auszuführen, ohne vom Schutzbereich der Erfindung abzuweichen, der nur durch die beiliegenden Ansprüche begrenzt ist.
Claims (16)
1. Vorrichtung zur Sprecherkollationierung, dadurch
gekennzeichnet, daß die Vorrichtung umfaßt:
einen Analyseabschnitt (1, 21) zum Konvertieren von
eingegebenen Stimmdaten zum Kollationieren in einen
Merkmalsvektor,
einen Speicherabschnitt (3, 23) für den
Merkmalsvektor zum Speichern des im Analyseabschnitt konvertierten
Merkmalsvektors,
einen Speicherabschnitt (2, 24) für ein
Standardmuster von Kandidaten für Hemmungssprecher, in dem ein oder
mehrere Standardmuster von Kandidaten für Hemmungssprecher
gespeichert worden sind,
einen Auswahlabschnitt (4, 25) zum Auswählen von
wenigstens einem Hemmungssprecher dadurch, daß ein
Ähnlichkeitsgrad zwischen dem im Analyseabschnitt konvertierten
Merkmalsvektor und den Standardmustern der jeweiligen
Sprecher berechnet wird, die in dem Speicherabschnitt für die
Standardmuster von Kandidaten für Hemmungssprecher
gespeichert sind,
einen Adaptionsabschnitt (5, 26) zum Adaptieren der
Standardmuster von Hemmungssprechern durch Akquirieren
einer Abbildungsfunktion von einem Merkmalsvektorraum einer
Stimme eines Hemmungssprechers auf einen Merkmalsvektorraum
einer eingegebenen Stimme unter Verwendung einer
Abbildungsfunktion, die unter Verwendung des im Auswahlabschnitt
ausgewählten Standardmusters von Hemmungssprechern
akquiriert wurde, um einen Hemmungssprecher auszuwählen, und des
in dem Speicherabschnitt für die Merkmalsvektoren
gespeicherten Merkmalsvektors,
einen Berechnungsabschnitt (6, 27) eines
Ähnlichkeitsgrads von Hemmungssprechern, zum Berechnen des
Ähnlichkeitsgrads zwischen einem in dem Speicherabschnitt für
Merkmalsvektoren gespeicherten Merkmalsvektor und dem in
dem Adaptionsabschnitt adaptierten Standardmuster von
Hemmungssprechern,
einen Speicherabschnitt (7, 28) für das
Standardmuster der identischen Person, in dem das registrierte
Standardmuster der identischen Person gespeichert worden ist,
einen Berechnungsabschnitt (e, 29) eines
Ähnlichkeitsgrads mit der identischen Person zum Berechnen des
Ähnlichkeitsgrads zwischen dem in dem Speicherabschnitt für
den Merkmalsvektor gespeicherten Merkmalsvektor und dem in
dem Speicherabschnitt für das Standardmuster der
identischen Person gespeicherten Standardmuster der identischen
Person,
einen Normalisierungsabschnitt (9, 30) des
Ähnlichkeitsgrads zum Normalisieren des Ähnlichkeitsgrads unter
Verwendung des in dem Berechnungsabschnitt für einen
Ähnlichkeitsgrad mit der identischen Person berechneten
Ähnlichkeitsgrads und des in dem Berechnungsabschnitt für
einen Ähnlichkeitsgrad der Hemmungssprecher gespeicherten
Ähnlichkeitsgrads,
einen Schwellenwert-Speicherabschnitt (10, 31) zum
Speichern eines vorbestimmten Schwellenwerts, und
einen Entscheidungsabschnitt (11, 32) zum Entscheiden
der Person unter Verwendung des in dem
Normalisierungsabschnitt für den Ähnlichkeitsgrad normalisierten
Ähnlichkeitsgrads und des in dem Speicherabschnitt zum Speichern
eines Schwellenwerts gespeicherten Schwellenwerts.
2. Vorrichtung zur Sprecherkollationierung nach
Anspruch 1, dadurch gekennzeichnet, daß die Vorrichtung
weiterhin umfaßt: einen Normalisierungsabschnitt (22) zum
Normalisieren des in dem Analyseabschnitt konvertierten
Merkmalsvektors, des Standardmusters eines Kandidaten für
Hemmungssprecher, das in dem Speicherabschnitt für das
Standardmuster des Kandidaten für Hemmungssprecher gespeichert
ist, und des Standardmusters der identischen Person, das in
dem Speicherabschnitt für das Standardmuster der
identischen Person gespeichert ist:
3. Vorrichtung zur Sprecherkollationierung, dadurch
gekennzeichnet, daß die Vorrichtung umfaßt:
einen Analyseabschnitt (41, 61) zum Konvertieren von
eingegebenen Stimmdaten zur Kollationierung in einen
Merkmalsvektor,
einen Speicherabschnitt (43, 63) für den
Merkmalsvektor zum Speichern des im Analyseabschnitt konvertierten
Merkmalsvektors,
einen Speicherabschnitt (42, 64) für ein
Standardmuster von Kandidaten für Hemmungssprecher, in dem ein oder
mehrere Standardmuster von Kandidaten für Hemmungssprecher
gespeichert worden sind,
einen Adaptionsabschnitt (44, 65) zum Adaptieren des
Standardmusters eines Sprechers durch Akquirieren einer
Abbildungsfunktion von einem Merkmalsvektorraum einer Stimme
der jeweiligen Sprecher auf einen Merkmalsvektorraum einer
eingegebenen Stimme unter Verwendung aller Standardmuster
von Sprechern, die in dem Speicherabschnitt für ein
Standardmuster von Kandidaten für Hemmungssprecher gespeichert
sind, und des Merkmalsvektors, der in dem Speicherabschnitt
für den Merkmalsvektor gespeichert ist, um die akquirierte
Abbildungsfunktion zu benutzen,
einen Auswahlabschnitt (45, 66) von
Hemmungssprechern, zum Auswählen von wenigstens einem Hemmungssprecher
durch Berechnen eines Ähnlichkeitsgrads zwischen dem im
Analyseabschnitt konvertierten Merkmalsvektor und den in
dem Adaptionsabschnitt adaptierten Standardmustern von
Sprechern,
einen Berechnungsabschnitt (46, 47) eines
Ähnlichkeitsgrads von Hemmungssprechern zum Berechnen des
Ähnlichkeitsgrads zwischen einem in dem Speicherabschnitt für den
Merkmalsvektor gespeicherten Merkmalsvektor und dem
Standardmuster von Hemmungssprechern, das in dem
Auswahlabschnitt von Hemmungssprechern ausgewählt wurde,
einen Speicherabschnitt (47, 68) für das
Standardmuster der identischen Person, in dem das registrierte
Standardmuster der identischen Person gespeichert worden ist,
einen Berechnungsabschnitt (48, 69) eines
Ähnlichkeitsgrads der identischen Person zum Berechnen des
Ähnlichkeitsgrads zwischen dem in dem Speicherabschnitt für
den Merkmalsvektor gespeicherten Merkmalsvektor und dem
Standardmuster der identischen Person, das in dem
Speicherabschnitt für das Standardmuster der identischen Person
gespeichert ist,
einen Normalisierungsabechnitt (49, 70) des
Ähnlichkeitsgrads zum Normalisieren des Ähnlichkeitsgrads unter
Verwendung des in dem Berechnungsabschnitt für einen
Ähnlichkeitsgrad mit der identischen Person berechneten
Ähnlichkeitsgrads und des Ähnlichkeitsgrads, der in dem
Berechnungsabschnitt für einen Ähnlichkeitsgrad von
Hemmungssprechern berechnet wurde,
einen Schwellenwert-Speicherabschnitt (50, 71) zum
Speichern eines vorbestimmten Schwellenwerts, und
einen Entscheidungsabschnitt (51, 72) zum Entscheiden
der Person unter Verwendung des in dem
Normalisierungsabschnitt für den Ähnlichkeitsgrad normalisierten
Ähnlichkeitsgrads und des in dem Speicherabschnitt zum Speichern
eines Schwellenwerts gespeicherten Schwellenwerts.
4. Vorrichtung zur Sprecherkollationierung nach
Anspruch 3, dadurch gekennzeichnet, daß die Vorrichtung
weiterhin umfaßt: einen Normalisierungsabschnitt (62) zum
Normalisieren des in dem Analyseabschnitt konvertierten
Merkmalsvektors, des Standardmusters eines Kandidaten für
Hemmungssprecher, das in dem Speicherabschnitt für das
Standardmuster des Kandidaten für Hemmungssprecher gespeichert
ist, und des Standardmusters der identischen Person, das in
dem Speicherabschnitt für das Standardmuster der
identischen Person gespeichert ist.
5. Verfahren zur Sprecherkollationierung, dadurch
gekennzeichnet, daß das Verfahren die folgenden Schritte
umfaßt:
Berechnen eines Ähnlichkeitsgrads zwischen einem von
einer kollationierten Stimme akquirierten Merkmalsvektor
und einem Standardmuster von jeweiligen Sprechern, das in
einem Speicherabschnitt für ein Standardmuster von
Kandidaten für Hemmungssprecher gespeichert ist;
Auswählen von wenigstens einem Hemmungssprecher;
Akquirieren einer Abbildungsfunktion von einem
Merkmalsvektorraum eines Standardmusters von Hemmungssprechern
auf einen Merkmalsvektorraum einer kollationierten Stimme;
Adaptieren des Standardmusters von Hemmungssprechern
unter Verwendung der akquirierten Abbildungsfunktion;
Berechnen einer Wahrscheinlichkeit von
Hemmungssprechern auf der Basis der Wahrscheinlichkeit zwischen dem
adaptierten Standardmuster von Hemmungssprechern und der
kollationierten Stimme;
Berechnen der Wahrscheinlichkeit der identischen
Person auf der Basis der Wahrscheinlichkeit zwischen dem
Standardmuster der identischen Person und der kollationierten
Stimme;
Akquirieren einer normalisierten Wahrscheinlichkeit
durch Subtrahieren der Wahrscheinlichkeit von
Hemmungssprechern von der Wahrscheinlichkeit der identischen Person;
und
Entscheiden der Person auf der Basis der
normalisierten Wahrscheinlichkeit.
6. Verfahren nach Anspruch 5, dadurch
gekennzeichnet, daß der Schritt des Auswählens von wenigstens einem
Hemmungssprecher mit einem solchen Auswahlverfahren
durchgeführt wird wie N Personen, zufällige N Personen, N
Personen um M Perzentil in der Größenordnung eines hohen
Wahrscheinlichkeitsgrads.
7. Verfahren zur Sprecherkollationierung, dadurch
gekennzeichnet, daß das Verfahren die folgenden Schritte
umfaßt:
Normalisieren eines Merkmalsvektors einer Eingabe zur
Kollationierung, eines Standardmusters von Kandidaten für
Hemmungssprecher, und eines Standardmusters der identischen
Person;
Berechnen eines Ähnlichkeitsgrads zwischen einem
normalisierten Standardmuster von Kandidaten für
Hemmungssprecher und einem normalisierten Merkmalsvektor;
Auswählen von Hemmungssprechern;
Akquirieren einer Abbildungsfunktion von einem
Merkmalsvektorraum eines Standardmusters von ausgewählten
Hemmungssprechern auf einen Merkmalsvektorraum einer
kollationierten Stimme;
Adaptieren des Standardmusters von Hemmungssprechern
unter Verwendung der erhaltenen Abbildungsfunktion;
Berechnen einer Wahrscheinlichkeit von
Hemmungssprechern auf der Basis der Wahrscheinlichkeit zwischen dem
adaptierten Standardmuster von Hemmungssprechern und der
kollationierten Stimme;
Berechnen der Wahrscheinlichkeit der identischen
Person auf der Basis der Wahrscheinlichkeit zwischen dem
normalisierten Standardmuster der identischen Person und dem
normalisierten Merkmalsvektor;
Berechnen einer normalisierten Wahrscheinlichkeit
durch Subtrahieren der Wahrscheinlichkeit des
Hemmungssprechers von der Wahrscheinlichkeit der identischen Person;
und
Entscheiden der Person auf der Basis der
normalisierten Wahrscheinlichkeit.
8. Verfahren nach Anspruch 7, dadurch
gekennzeichnet, daß der Schritt des Auswählens von Hemmungssprechern
mit einem solchen Auswahlverfahren durchgeführt wird wie N
Personen, zufällige N Personen, N Personen um M Perzentil
in der Größenordnung eines hohen Wahrscheinlichkeitsgrads.
9. Verfahren zur Sprecherkollationierung, dadurch
gekennzeichnet, daß das Verfahren die folgenden Schritte
umfaßt:
Akquirieren einer Abbildungsfunktion von einem
Merkmalsvektorraum eines Standardmusters aller Kandidaten für
Hemmungssprecher auf einen Merkmalsvektorraum einer
kollationierten Stimme;
Adaptieren des Standardmusters des Kandidaten für
Hemmungssprecher durch Verwenden der jeweiligen bekannten
Abbildungsfunktion;
Berechnen der Wahrscheinlichkeit zwischen dem
adaptierten Standardmuster der Kandidaten für Hemmungssprecher
und der kollationierten Stimme;
Auswählen von Hemmungssprechern;
Berechnen einer Wahrscheinlichkeit von
Hemmungssprechern auf der Basis der Wahrscheinlichkeit zwischen dem
ausgewählten Standardmuster von Hemmungssprechern und der
kollationierten Stimme;
Berechnen der Wahrscheinlichkeit der identischen
Person auf der Basis der Wahrscheinlichkeit zwischen dem
Standardmuster der identischen Person und dem kollationierten
Stimmvektor;
Berechnen einer normalisierten Wahrscheinlichkeit
durch Subtrahieren der Wahrscheinlichkeit von
Hemmungssprechern von der Wahrscheinlichkeit der identischen Person;
und
Entscheiden der Person auf der Basis der
normalisierten Wahrscheinlichkeit.
10. Verfahren nach Anspruch 9, dadurch
gekennzeichnet, daß der Schritt des Auswählens von
Hemmungssprechern mit einem solchen Auswahlverfahren durchgeführt wird
wie N Personen, zufällige N Personen, N Personen um M
Perzentil in der Größenordnung eines hohen
Wahrscheinlichkeitsgrads.
11. Verfahren zur Sprecherkollationierung, dadurch
gekennzeichnet, daß das Verfahren die folgenden Schritte
umfaßt:
Akquirieren einer Abbildungsfunktion von einem
Merkmalsvektorraum von normalisierten Standardmustern aller
Kandidaten für Hemmungssprecher auf einen
Merkmalsvektorraum der normalisierten kollationierten Stimme;
Adaptieren des Standardmusters der Kandidaten von
Hemmungssprechern unter Verwendung der akquirierten
Abbildungsfunktion,
Auswählen von Hemmungssprechern durch Akquirieren
einer Wahrscheinlichkeit zwischen dem adaptierten
Standardmuster der Kandidaten für Hemmungssprecher und dem
Kennzeichnungsvektor;
Berechnen einer Wahrscheinlichkeit von
Hemmungssprechern auf der Basis der Wahrscheinlichkeit zwischen dem
ausgewählten Standardmuster von Hemmungssprechern und der
kollationierten Stimme;
Berechnen der Wahrscheinlichkeit der identischen
Person auf der Basis der Wahrscheinlichkeit zwischen dem
normalisierten Standardmuster der identischen Person und dem
normalisierten kollationierten Vektor;
Berechnen einer normalisierten Wahrscheinlichkeit
durch Subtrahieren der Wahrscheinlichkeit von
Hemmungssprechern von der Wahrscheinlichkeit der identischen Person;
und
Entscheiden der Person auf der Basis der
normalisierten Wahrscheinlichkeit.
12. Verfahren nach Anspruch 11, dadurch
gekennzeichnet, daß der Schritt des Auswählens von
Hemmungssprechern mit einem solchen Auswahlverfahren durchgeführt wird
wie N Personen, zufällige N Personen, N Personen um M
Perzentil in der Größenordnung eines hohen
Wahrscheinlichkeitsgrads.
13. Computerlesbares Speichermedium, aus dem ein
Programm zur Sprecherkollationierung gespeichert ist, dadurch
gekennzeichnet, daß das Programm Befehle umfaßt zum:
Berechnen eines Ähnlichkeitsgrads zwischen einem von
einer kollationierten Stimme akquirierten Merkmalsvektor
und einem Standardmuster von jeweiligen Sprechern, das in
einem Speicherabschnitt für ein Standardmuster von
Kandidaten für Hemmungssprecher gespeichert ist;
Auswählen von wenigstens einem Hemmungssprecher;
Akquirieren einer Abbildungsfunktion von einem
Merkmalsvektorraum eines Standardmusters von Hemmungssprechern
auf einen Merkmalsvektorraum einer kollationierten Stimme;
Adaptieren des Standardmusters von Hemmungssprechern
unter Verwendung der akquirierten Abbildungsfunktion;
Berechnen einer Wahrscheinlichkeit von
Hemmungssprechern auf der Basis der Wahrscheinlichkeit zwischen dem
adaptierten Standardmuster von Hemmungssprechern und der
kollationierten Stimme;
Berechnen der Wahrscheinlichkeit der identischen
Person auf der Basis der Wahrscheinlichkeit zwischen dem
Standardmuster der identischen Person und der kollationierten
Stimme;
Akquirieren einer normalisierten Wahrscheinlichkeit
durch Subtrahieren der Wahrscheinlichkeit von
Hemmungssprechern von der Wahrscheinlichkeit der identischen Person;
und
Entscheiden der Person auf der Basis der
normalisierten Wahrscheinlichkeit.
14. Computerlesbares Speichermedium, auf dem ein
Programm zur Sprecherkollationierung gespeichert ist, dadurch
gekennzeichnet, daß das Programm Befehle umfaßt zum:
Normalisieren eines Merkmalsvektors einer Eingabe zur
Kollationierung, eines Standardmusters von Kandidaten für
Hemmungssprecher, und eines Standardmusters der identischen
Person;
Berechnen eines Ähnlichkeitsgrads zwischen einem
normalisierten Standardmuster von Kandidaten für
Hemmungssprecher und einem normalisierten Merkmalsvektor;
Auswählen von Hemmungssprechern;
Akquirieren einer Abbildungsfunktion von einem
Merkmalsvektorraum eines Standardmusters von ausgewählten
Hemmungssprechern auf einen Merkmalsvektorraum einer
kollationierten Stimme;
Adaptieren des Standardmusters von Hemmungssprechern
unter Verwendung der erhaltenen Abbildungsfunktion;
Berechnen einer Wahrscheinlichkeit von
Hemmungssprechern auf der Basis der Wahrscheinlichkeit zwischen dem
adaptierten Standardmuster von Hemmungssprechern und der
kollationierten Stimme;
Berechnen der Wahrscheinlichkeit der identischen
Person auf der Basis der Wahrscheinlichkeit zwischen dem
normalisierten Standardmuster der identischen Person und dem
normalisierten Merkmalsvektor;
Berechnen einer normalisierten Wahrscheinlichkeit
durch Subtrahieren der Wahrscheinlichkeit von
Hemmungssprechern von der Wahrscheinlichkeit der identischen Person;
und
Entscheiden der Person auf der Basis der
normalisierten Wahrscheinlichkeit,
15. Computerlesbares Speichermedium, auf dem ein Programm
zur Sprecherkollationierung gespeichert ist, dadurch
gekennzeichnet, daß das Programm Befehle umfaßt zum:
Akquirieren einer Abbildungsfunktion von einem
Merkmalsvektorraum eines Standardmusters aller Kandidaten für
Hemmungssprecher auf einen Merkmalsvektorraum einer
kollationierten Stimme;
Adaptieren des Standardmusters der Kandidaten für
Hemmungssprecher durch Verwenden der jeweiligen bekannten
Abbildungsfunktion;
Berechnen einer Wahrscheinlichkeit zwischen dem
adaptierten Standardmuster der Kandidaten für Hemmungssprecher
und der kollationierten Stimme;
Auswählen von Hemmungssprechern;
Berechnen einer Wahrscheinlichkeit von
Hemmungssprechern auf der Basis der Wahrscheinlichkeit zwischen dem
ausgewählten Standardmuster von Hemmungssprechern und der
kollationierten Stimme;
Berechnen der Wahrscheinlichkeit der identischen
Person auf der Basis der Wahrscheinlichkeit zwischen dem
Standardmuster der identischen Person und dem kollationierten
Stimmvektor;
Berechnen einer normalisierten Wahrscheinlichkeit
durch Subtrahieren der Wahrscheinlichkeit von
Hemmungssprechern von der Wahrscheinlichkeit der identischen Person;
und
Entscheiden der Person auf der Basis der
normalisierten Wahrscheinlichkeit.
16. Computerlesbares Speichermedium, auf dem ein Programm
zur Sprecherkollationierung gespeichert ist, dadurch
gekennzeichnet, daß das Programm Befehle umfaßt zum:
Akquirieren einer Abbildungsfunktion von einem
Merkmalsvektorraum von normalisierten Standardmustern aller
Kandidaten für Hemmungssprecher auf einen
Merkmalsvektorraum der normalisierten kollationierten Stimme;
Adaptieren des Standardmusters der Kandidaten von
Hemmungssprechern unter Verwendung der akquirierten
Abbildungsfunktion,
Auswählen von Hemmungssprechern durch Akquirieren
einer Wahrscheinlichkeit zwischen dem adaptierten
Standardmuster der Kandidaten für Hemmungssprecher und dem
Kennzeichnungsvektor;
Berechnen einer Wahrscheinlichkeit von
Hemmungssprechern auf der Basis der Wahrscheinlichkeit zwischen dem
ausgewählten Standardmuster von Hemmungssprechern und der
kollationierten Stimme;
Berechnen der Wahrscheinlichkeit der identischen
Person auf der Basis der Wahrscheinlichkeit zwischen dem
normalisierten Standardmuster der identischen Person und dem
normalisierten kollationierten Vektor;
Berechnen einer normalisierten Wahrscheinlichkeit
durch Subtrahieren der Wahrscheinlichkeit von
Hemmungssprechern von der Wahrscheinlichkeit der identischen Person;
und
Entscheiden der Person auf der Basis der
normalisierten Wahrscheinlichkeit.
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP10132788A JP3090119B2 (ja) | 1998-05-15 | 1998-05-15 | 話者照合装置、方法及び記憶媒体 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| DE69901324D1 DE69901324D1 (de) | 2002-05-29 |
| DE69901324T2 true DE69901324T2 (de) | 2002-12-05 |
Family
ID=15089568
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| DE69901324T Expired - Fee Related DE69901324T2 (de) | 1998-05-15 | 1999-05-17 | Vorrichtung, Verfahren und Speichermedium zur Sprechererkennung |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US6341263B1 (de) |
| EP (1) | EP0964388B1 (de) |
| JP (1) | JP3090119B2 (de) |
| DE (1) | DE69901324T2 (de) |
Families Citing this family (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3885523B2 (ja) * | 2001-06-20 | 2007-02-21 | 日本電気株式会社 | サーバ・クライアント型音声認識装置及び方法 |
| WO2009087250A1 (es) * | 2008-01-10 | 2009-07-16 | Agnitio, S.L. | Dispositivo de reconocimiento automático de voz. |
| WO2009110613A1 (ja) * | 2008-03-07 | 2009-09-11 | 日本電気株式会社 | 個人照合装置及び話者登録装置と方法並びにプログラム |
| EP3660842A4 (de) * | 2017-07-26 | 2020-09-02 | Nec Corporation | Sprachbedienungsvorrichtung und steuerverfahren dafür |
| JP7792430B2 (ja) * | 2021-11-08 | 2025-12-25 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 情報処理方法、情報処理装置及び情報処理プログラム |
Family Cites Families (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5347612A (en) * | 1986-07-30 | 1994-09-13 | Ricoh Company, Ltd. | Voice recognition system and method involving registered voice patterns formed from superposition of a plurality of other voice patterns |
| US6061652A (en) * | 1994-06-13 | 2000-05-09 | Matsushita Electric Industrial Co., Ltd. | Speech recognition apparatus |
| US5687287A (en) * | 1995-05-22 | 1997-11-11 | Lucent Technologies Inc. | Speaker verification method and apparatus using mixture decomposition discrimination |
| US5839103A (en) * | 1995-06-07 | 1998-11-17 | Rutgers, The State University Of New Jersey | Speaker verification system using decision fusion logic |
| DE19630109A1 (de) * | 1996-07-25 | 1998-01-29 | Siemens Ag | Verfahren zur Sprecherverifikation anhand mindestens eines von einem Sprecher eingesprochenen Sprachsignals, durch einen Rechner |
| US6205424B1 (en) * | 1996-07-31 | 2001-03-20 | Compaq Computer Corporation | Two-staged cohort selection for speaker verification system |
| JP2991144B2 (ja) * | 1997-01-29 | 1999-12-20 | 日本電気株式会社 | 話者認識装置 |
| JP2991148B2 (ja) | 1997-02-07 | 1999-12-20 | 日本電気株式会社 | 話者認識における抑制標準パターンすなわちコホートの作成方法及びシステムと該システムを含む話者照合装置 |
| US6272463B1 (en) * | 1998-03-03 | 2001-08-07 | Lernout & Hauspie Speech Products N.V. | Multi-resolution system and method for speaker verification |
-
1998
- 1998-05-15 JP JP10132788A patent/JP3090119B2/ja not_active Expired - Lifetime
-
1999
- 1999-05-17 EP EP99109709A patent/EP0964388B1/de not_active Expired - Lifetime
- 1999-05-17 US US09/312,886 patent/US6341263B1/en not_active Expired - Fee Related
- 1999-05-17 DE DE69901324T patent/DE69901324T2/de not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP3090119B2 (ja) | 2000-09-18 |
| JPH11327586A (ja) | 1999-11-26 |
| EP0964388A3 (de) | 2001-03-14 |
| EP0964388B1 (de) | 2002-04-24 |
| US6341263B1 (en) | 2002-01-22 |
| EP0964388A2 (de) | 1999-12-15 |
| DE69901324D1 (de) | 2002-05-29 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| DE69800006T2 (de) | Verfahren zur Durchführung stochastischer Mustervergleiche für die Sprecherverifizierung | |
| DE69127961T2 (de) | Verfahren zur Spracherkennung | |
| DE69315374T2 (de) | Spracherkennungssystem zur naturgetreuen Sprachübersetzung | |
| DE69226796T2 (de) | Zeitliche Dekorrelationsverfahren zur störsicheren Sprechererkennung | |
| DE69423692T2 (de) | Sprachkodiergerät und Verfahren unter Verwendung von Klassifikationsregeln | |
| DE69634784T2 (de) | Unterscheidende Verifizierung von Äusserungen für die Erkennung zusammenhängender Ziffern | |
| EP0821346B1 (de) | Verfahren zur Sprecherverifikation durch einen Rechner anhand mindestens eines von einem Sprecher eingesprochenen Sprachsignals | |
| DE69425776T2 (de) | Spracherkennungseinrichtung mit verbesserter Ausschliessung von Wörtern und Tönen welche nicht im Vokabular enthalten sind | |
| DE69422097T2 (de) | Training von kombinierten Kettenmodellen mit minimaler Fehlerrate | |
| DE69322894T2 (de) | Lernverfahren und Gerät zur Spracherkennung | |
| DE69814195T2 (de) | Vorrichtung zur Sprechererkennung | |
| DE69636057T2 (de) | Sprecherverifizierungssystem | |
| DE68924134T2 (de) | Spracherkennungssystem. | |
| DE69318447T2 (de) | Erkennungssystem | |
| DE69311303T2 (de) | Sprachtrainingshilfe für kinder. | |
| DE69705830T2 (de) | Sprachverarbeitung | |
| DE69938374T2 (de) | Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle | |
| DE60020660T2 (de) | Kontextabhängige akustische Modelle für die Spracherkennung mit Eigenstimmenanpassung | |
| DE3884880T2 (de) | Billige Spracherkennungseinrichtung und Verfahren. | |
| DE69519453T2 (de) | Spracherkennung mit Sprecheradaptierung mittels Berechnung von Mittelwerten akustischer Kategorien | |
| EP1084490B1 (de) | Anordnung und verfahren zur erkennung eines vorgegebenen wortschatzes in gesprochener sprache durch einen rechner | |
| DE4310190A1 (de) | Sprecher-Verifizierungssystem unter Verwendung der Abstandsmessung nächster Nachbarn | |
| EP0862161A2 (de) | Verfahren zur Spracherkennung mit Sprachmodellanpassung | |
| DE69720134T2 (de) | Spracherkenner unter Verwendung von Grundfrequenzintensitätsdaten | |
| DE69614937T2 (de) | Verfahren und System zur Spracherkennung mit verringerter Erkennungszeit unter Berücksichtigung von Veränderungen der Hintergrundgeräusche |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 8364 | No opposition during term of opposition | ||
| 8339 | Ceased/non-payment of the annual fee |