[go: up one dir, main page]

DE69901324T2 - Vorrichtung, Verfahren und Speichermedium zur Sprechererkennung - Google Patents

Vorrichtung, Verfahren und Speichermedium zur Sprechererkennung

Info

Publication number
DE69901324T2
DE69901324T2 DE69901324T DE69901324T DE69901324T2 DE 69901324 T2 DE69901324 T2 DE 69901324T2 DE 69901324 T DE69901324 T DE 69901324T DE 69901324 T DE69901324 T DE 69901324T DE 69901324 T2 DE69901324 T2 DE 69901324T2
Authority
DE
Germany
Prior art keywords
speakers
probability
inhibition
standard pattern
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69901324T
Other languages
English (en)
Other versions
DE69901324D1 (de
Inventor
Hiroaki Hattori
Eiko Yamada
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of DE69901324D1 publication Critical patent/DE69901324D1/de
Application granted granted Critical
Publication of DE69901324T2 publication Critical patent/DE69901324T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Collating Specific Patterns (AREA)

Description

  • Die vorliegende Erfindung betrifft eine Vorrichtung, ein Verfahren und ein Speichermedium zur Sprecherkollationierung, und insbesondere eine Vorrichtung, ein Verfahren und ein Speichermedium zur Sprecherkollationierung, welche durch die Generierung eines Standardmusters von Hemmungssprechern zum Vorbereiten des Standardmusters von Hemmungssprechern gekennzeichnet ist.
  • Ein großes Problem bei der Sprecherkollationierung ist, daß Unterschiede im Umgebungsgeräusch und Unterschied in Linienmerkmalen (Umgebungsunterschiede) bei der Registrierung und Kollationierung die Kollationierungsquote verringern. Das Verfahren zum Lösen eines derartigen Problems wird beispielhaft durch Wahrscheinlichkeitsnormalisierungsverfahren auf der Basis des Standardmusters von Hemmungssprechern erläutert, wie von Higgins, Rosenberg und Matsui et al. vorgeschlagen. Diese Beispiele sind: A. Higgins, L. Bahler und J. Porter "Speaker collation using randomized phrase prompting", digital signal processing, 1, Seiten 89 bis 106 (1991) als Referenz 1; A. E. Rosenberg, Joel Delong, Chin- Hui Lee, Biing-Hweng Juang, Frank K. Soong: "The Use of cohort normalized scores for speaker collation", ICSLP 92, Seiten 599-602 (1992) als Referenz 2; Tomoko Matsui, Sadaoki Furui: "Speaker adaptation of tied-mixture-based phoneme models for text-prompted speaker recognition", ICASSP 94, Seiten 125-128 (1994) als Referenz 3.
  • Ein Wahrscheinlichkeitsnormalisierungsverfahren auf der Basis des Standardmusters von Hemmungssprechern ist ein Verfahren zum Normalisieren einer Wahrscheinlichkeit durch Subtrahieren von Wahrscheinlichkeit (Wahrscheinlichkeit von Hemmungssprechern) zwischen einer eingegebenen Stimme und dem Standardmuster von Hemmungssprechern von einer Wahrscheinlichkeit (Wahrscheinlichkeit der identischen Person) zwischen einer eingegebenen Stimme und dem Standardmuster der identischen Person. Eine durch Umgebungsunterschiede nicht leicht beeinflußte Wahrscheinlichkeit kann dadurch erzielt werden, daß die Wahrscheinlichkeit von Hemmungssprechern von der Wahrscheinlichkeit der identischen Person subtrahiert wird, weil Umgebungsunterschiede bei der Registrierung und Kollationierung sowohl die Wahrscheinlichkeit der identischen Person und die Wahrscheinlichkeit von Hemmungssprechern beeinflussen. Bekannte Verfahren zum Auswählen von Hemmungssprechern sind ein Verfahren zum Auswählen von Hemmungssprechern ähnlich einer Stimme der identischen Person bei der Registrierung und ein Verfahren zum Auswählen von Hemmungssprechern ähnlich einer eingegebenen Stimme bei der Kollationierung. Das erstere Verfahren ist detailliert in der Referenz 2 beschrieben und das letztere Verfahren ist detailliert in der Referenz 1 und der Referenz 3 beschrieben.
  • Bei dem Wahrscheinlichkeitsnormalisierungsverfahren, welches das Standardmuster von Hemmungssprechern verwendet, kann eine gute Kollationierungsquote in so klein wie möglichen Umgebungsunterschieden in der registrierten Stimme, der kollationierten Stimme und des Standardmusters von Hemmungssprechern akquiriert werden. Es ist ein Problem, daß ein großer Unterschied in diesen Umgebungsunterschieden die Kollationierungsquote verringert. Um das Problem zu lösen, müssen viele Standardmuster der Kandidaten für Hemmungssprecher vorher für verschiedene Umgebungen in Registrierung und Kollationierung vorbereitet werden.
  • Es ist jedoch schwierig, viele Standardmuster der Kandidaten für Hemmungssprecher für verschiedene Umgebungen vorzubereiten. Daher benötigt man ein Verfahren zum Akquirieren einer guten Kollationierungsquote ohne die Notwendigkeit, die Standardmuster der Kandidaten von Hemmungssprechern für verschiedene Umgebungen vorzubereiten.
  • Als Lösungsverfahren in dem Fall eines großen Unterschieds in der Umgebung zwischen registrierter Stimme und dem Standardmuster von Hemmungssprechern wird ein Verfahren zur Wahrscheinlichkeitsnormalisierung vorgeschlagen, in dem das Standardmuster von Hemmungssprechern unter Verwendung von registrierter Stimme adaptiert wird, Wahrscheinlichkeit (Wahrscheinlichkeit von Hemmungssprechern) zwischen dem adaptierten reduzierenden Standardmuster und der kollationierten Stimme akquiriert wird, und in dem die Wahrscheinlichkeit von Hemmungssprechern von den Wahrscheinlichkeiten der kollationierten Stimme und dem Standardmuster der identischen Person subtrahiert wird.
  • Dieses Verfahren ist ein Verfahren zum Verringern von Umgebungsunterschieden zwischen der registrierten Stimme und dem Standardmuster von Hemmungssprechern durch Adaptieren des Standardmusters von Hemmungssprechern auf der Basis der Stimme der identischen Person in der Registrierung. Dieses Verfahren ist ein effektives Verfahren zum Auswählen von Hemmungssprechern in der Registrierung und ist detailliert bei Yamada und Hattori der Referenz 4 (a method and a system of generation of a reducing standard pattern namely cohort in speaker recognition and a speaker collation apparatus including the system. Japanische Patentanmeldung Nr. 1997-040102) beschrieben.
  • Es ist daher ein Ziel der vorliegenden Erfindung, eine Vorrichtung, ein Verfahren und ein Speichermedium zur Sprecherkollationierung bereitzustellen, die dazu fähig sind, eine hohe Kollationierungsquote ohne vorherige Generierung der Standardmuster der Kandidaten für Hemmungssprecher für viele Umgebungen in einem Verfahren zum Auswählen des Standardmusters von Hemmungssprechern in der Kollationierung zu akquirieren.
  • Weitere Ziele der vorliegenden Erfindung werden in der weiteren Beschreibung deutlich werden.
  • Gemäß einem Aspekt der vorliegenden Erfindung wird eine Vorrichtung zur Sprecherkollationierung bereitgestellt, welche folgendes umfaßt: einen Analyseabschnitt zum Konvertieren von eingegebenen Stimmdaten zum Kollationieren in einen Merkmalsvektor, einen Speicherabschnitt für den Merkmalsvektor zum Speichern des im Analyseabschnitt konvertierten Merkmalsvektors, einen Speicherabschnitt für ein Standardmuster von Kandidaten für Hemmungssprecher, in dem ein oder mehrere Standardmuster von Kandidaten für Hemmungssprecher gespeichert worden sind, einen Auswahlabschnitt zum Auswählen von wenigstens einem Hemmungssprecher dadurch, daß ein Ähnlichkeitsgrad zwischen dem im Analyseabschnitt konvertierten Merkmalsvektor und den Standardmustern der jeweiligen Sprecher berechnet wird, die in dem Speicherabschnitt für die Standardmuster von Kandidaten für Hemmungssprecher gespeichert sind, einen Adaptionsabschnitt zum Adaptieren der Standardmuster von Hemmungssprechern durch Akquirieren einer Abbildungsfunktion von einem Merkmalsvektorraum einer Stimme eines Hemmungssprechers auf einen Merkmalsvektorraum einer eingegebenen Stimme unter Verwendung einer Abbildungsfunktion, die unter Verwendung des im Auswahlabschnitt ausgewählten Standardmusters von Hemmungssprechern akquiriert wurde, um einen Hemmungssprecher auszuwählen, und des in dem Speicherabschnitt für die Merkmalsvektoren gespeicherten Merkmalsvektors, einen Berechnungsabschnitt eines Ähnlichkeitsgrads von Hemmungssprechern, zum Berechnen des Ähnlichkeitsgrads zwischen einem in dem Speicherabschnitt für Merkmalsvektoren gespeicherten Merkmalsvektor und dem in dem Adaptionsabschnitt adaptierten Standardmuster von Hemmungssprechern, einen Speicherabschnitt für das Standardmuster der identischen Person, in dem das registrierte Standardmuster der identischen Person gespeichert worden ist, einen Berechnungsabschnitt eines Ähnlichkeitsgrads mit der identischen Person zum Berechnen des Ähnlichkeitsgrads zwischen dem in dem Speicherabschnitt für den Merkmalsvektor gespeicherten Merkmalsvektor und dem in dem Speicherabschnitt für das Standardmuster der identischen Person gespeicherten Standardmuster der identischen Person, einen Normalisierungsabschnitt des Ähnlichkeitsgrads zum Normalisieren des Ähnlichkeitsgrade unter Verwendung des in dem Berechnungsabschnitt für einen Ähnlichkeitsgrad mit der identischen Person berechneten Ähnlichkeitsgrads und des in dem Berechnungsabschnitt für einen Ähnlichkeitsgrad der Hemmungssprecher gespeicherten Ähnlichkeitsgrads, einen Schwellenwert-Speicherabschnitt zum Speichern eines vorbestimmten Schwellenwerts, und einen Entscheidungsabschnitt zum Entscheiden der Person unter Verwendung des in dem Normalisierungsabschnitt für den Ähnlichkeitsgrad normalisierten Ähnlichkeitsgrads und des in dem Speicherabschnitt zum Speichern eines Schwellenwerts gespeicherten Schwellenwerts.
  • Die Vorrichtung zur Sprecherkollationierung kann weiterhin umfassen: einen Normalisierungsabschnitt zum Normalisieren des in dem Analyseabschnitt konvertierten Merkmalsvektors, des Standardmusters eines Kandidaten für Hemmungssprecher, das in dem Speicherabschnitt für das Standardmuster des Kandidaten für Hemmungssprecher gespeichert ist, und des Standardmusters der identischen Person, das in dem Speicherabschnitt für das Standardmuster der identischen Person gespeichert ist.
  • Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird auch eine Vorrichtung zur Sprecherkollationierung bereitgestellt, die umfaßt: einen Analyseabschnitt zum Konvertieren von eingegebenen Stimmdaten zur Kollationierung in einen Merkmalsvektor, einen Speicherabschnitt für den Merkmalsvektor zum Speichern des im Analyseabschnitt konvertierten Merkmalsvektors, einen Speicherabschnitt für ein Standardmuster von Kandidaten für Hemmungssprecher, in dem ein oder mehrere Standardmuster von Kandidaten für Hemmungssprecher gespeichert worden sind, einen Adaptionsabschnitt zum Adaptieren des Standardmusters eines Sprechers durch Akquirieren einer Abbildungsfunktion von einem Merkmalsvektorraum einer Stimme der jeweiligen Sprecher auf einen Merkmalsvektorraum einer eingegebenen Stimme unter Verwendung aller Standardmuster von Sprechern, die in dem Speicherabschnitt für ein Standardmuster von Kandidaten für Hemmungssprecher gespeichert sind, und des Merkmalsvektors, der in dem Speicherabschnitt für den Merkmalsvektor gespeichert ist, um die akquirierte Abbildungsfunktion zu benutzen, einen Auswahlabschnitt von Hemmungssprechern, zum Auswählen von wenigstens einem Hemmungssprecher durch Berechnen eines Ähnlichkeitsgrads zwischen dem im Analyseabschnitt konvertierten Merkmalsvektor und den in dem Adaptionsabschnitt adaptierten Standardmustern von Sprechern, einen Berechnungsabschnitt eines Ähnlichkeitsgrads von Hemmungssprechern zum Berechnen des Ähnlichkeitsgrads zwischen einem in dem Speicherabschnitt für den Merkmalsvektor gespeicherten Merkmalsvektor und dem Standardmuster von Hemmungssprechern, das in dem Auswahlabschnitt von Hemmungssprechern ausgewählt wurde, einen Speicherabschnitt für das Standardmuster der identischen Person, in dem das registrierte Standardmuster der identischen Person gespeichert worden ist, einen Berechnungsabschnitt eines Ähnlichkeitsgrads der identischen Person zum Berechnen des Ähnlichkeitsgrads zwischen dem in dem Speicherabschnitt für den Merkmalsvektor gespeicherten Merkmalsvektor und dem Standardmuster der identischen Person, das in dem Speicherabschnitt für das Standardmuster der identischen Person gespeichert ist, einen Normalisierungsabschnitt des Ähnlichkeitsgrads zum Normalisieren des Ähnlichkeitsgrads unter Verwendung des in dem Berechnungsabschnitt für einen Ähnlichkeitsgrad mit der identischen Person berechneten Ähnlichkeitsgrads und des Ähnlichkeitsgrads, der in dem Berechnungsabschnitt für einen Ähnlichkeitsgrad von Hemmungssprechern berechnet wurde,
  • einen Schwellenwert-Speicherabschnitt zum Speichern eines vorbestimmten Schwellenwerts, und einen Entscheidungsabschnitt zum Entscheiden der Person unter Verwendung des in dem Normalisierungsabschnitt für den Ähnlichkeitsgrad normalisierten Ähnlichkeitsgrads und des in dem Speicherabschnitt zum Speichern eines Schwellenwerts gespeicherten Schwellenwerts.
  • Die Vorrichtung zur Sprecherkollationierung kann weiterhin umfassen: einen Normalisierungsabschnitt zum Normalisieren des in dem Analyseabschnitt konvertierten Merkmalsvektors, des Standardmusters eines Kandidaten für Hemmungssprecher, das in dem Speicherabschnitt für das Standardmuster des Kandidaten für Hemmungssprecher gespeichert ist, und des Standardmusters der identischen Person, das in dem Speicherabschnitt für das Standardmuster der identischen Person gespeichert ist.
  • Gemäß noch einem weiteren Aspekt der vorliegenden Erfindung wird ein Verfahren zur Sprecherkollationierung bereitgestellt, wobei das Verfahren die folgenden Schritte umfaßt: Berechnen eines Ähnlichkeitsgrads zwischen einem von einer kollationierten Stimme akquirierten Merkmalsvektor und einem Standardmuster von jeweiligen Sprechern, das in einem Speicherabschnitt für ein Standardmuster von Kandidaten für Hemmungssprecher gespeichert ist; Auswählen von wenigstens einem Hemmungssprecher; Akquirieren einer Abbildungsfunktion von einem Merkmalsvektorraum eines Standardmusters von Hemmungssprechern auf einen Merkmalsvektorraum einer kollationierten Stimme; Adaptieren des Standardmusters von Hemmungssprechern unter Verwendung der akquirierten Abbildungsfunktion; Berechnen einer Wahrscheinlichkeit von Hemmungssprechern auf der Basis der Wahrscheinlichkeit zwischen dem adaptierten Standardmuster von Hemmungssprechern und der kollationierten Stimme; Berechnen der Wahrscheinlichkeit der identischen Person auf der Basis der Wahrscheinlichkeit zwischen dem Standardmuster der identischen Person und der kollationierten Stimme; Akquirieren einer normalisierten Wahrscheinlichkeit durch Subtrahieren der Wahrscheinlichkeit von Hemmungssprechern von der Wahrscheinlichkeit der identischen Person; und Entscheiden der Person auf der Basis der normalisierten Wahrscheinlichkeit.
  • Der Schritt des Auswählens von wenigstens einem Hemmungssprecher kann mit einem solchen Auswahlverfahren durchgeführt werden wie N Personen, zufällige N Personen, N Personen um N Perzentil in der Größenordnung eines hohen Wahrscheinlichkeitsgrads.
  • Gemäß noch einem weiteren Aspekt der vorliegenden Erfindung wird auch ein Verfahren zur Sprecherkollationierung bereitgestellt, wobei das Verfahren die folgenden Schritte umfaßt: Normalisieren eines Merkmalsvektors einer Eingabe zur Kollationierung, eines Standardmusters von Kandidaten für Hemmungssprecher, und eines Standardmusters der identischen Person; Berechnen eines Ähnlichkeitsgrads zwischen einem normalisierten Standardmuster von Kandidaten für Hemmungssprecher und einem normalisierten Merkmalsvektor; Auswählen von Hemmungssprechern; Akquirieren einer Abbildungsfunktion von einem Merkmalsvektorraum eines Standardmusters von ausgewählten Hemmungssprechern auf einen Merkmalsvektorraum einer kollationierten Stimme; Adaptieren des Standardmusters von Hemmungssprechern unter Verwendung der erhaltenen Abbildungsfunktion; Berechnen einer Wahrscheinlichkeit von Hemmungssprechern auf der Basis der Wahrscheinlichkeit zwischen dem adaptierten Standardmuster von Hemmungssprechern und der kollationierten Stimme; Berechnen der Wahrscheinlichkeit der identischen Person auf der Basis der Wahrscheinlichkeit zwischen dem normalisierten Standardmuster der identischen Person und dem normalisierten Merkmalsvektor; Berechnen einer normalisierten Wahrscheinlichkeit durch Subtrahieren der Wahrscheinlichkeit des Hemmungssprechers von der Wahrscheinlichkeit der identischen Person; und Entscheiden der Person auf der Basis der normalisierten Wahrscheinlichkeit.
  • Der Schritt des Auswählens von Hemmungssprechern kann mit einem solchen Auswahlverfahren durchgeführt werden wie N Personen, zufällige N Personen, N Personen um M Perzentil in der Größenordnung eines hohen Wahrscheinlichkeitsgrads.
  • Gemäß noch einem weiteren Aspekt der vorliegenden Erfindung wird auch ein Verfahren zur Sprecherkollationierung bereitgestellt, wobei das Verfahren die folgenden Schritte umfaßt: Akquirieren einer Abbildungsfunktion von einem Merkmalsvektorraum eines Standardmusters aller Kandidaten für Hemmungssprecher auf einen Merkmalsvektorraum einer kollationierten Stimme; Adaptieren des Standardmusters des Kandidaten für Hemmungssprecher durch Verwenden der jeweiligen bekannten Abbildungsfunktion; Berechnen der Wahrscheinlichkeit zwischen dem adaptierten Standardmuster der Kandidaten für Hemmungssprecher und der kollationierten Stimme; Auswählen von Hemmungssprechern; Berechnen einer Wahrscheinlichkeit von Hemmungssprechern auf der Basis der Wahrscheinlichkeit zwischen dem ausgewählten Standardmuster von Hemmungssprechern und der kollationierten Stimme; Berechnen der Wahrscheinlichkeit der identischen Person auf der Basis der Wahrscheinlichkeit zwischen dem Standardmuster der identischen Person und dem kollationierten Stimmvektor; Berechnen einer normalisierten Wahrscheinlichkeit durch Subtrahieren der Wahrscheinlichkeit von Hemmungssprechern von der Wahrscheinlichkeit der identischen Person; und Entscheiden der Person auf der Basis der normalisierten Wahrscheinlichkeit.
  • Der Schritt des Auswählens von Hemmungssprechern kann mit einem solchen Auswahlverfahren durchgeführt wie N Personen, zufällige N Personen, N Personen um M Perzentil in der Größenordnung eines hohen Wahrscheinlichkeitsgrads.
  • Gemäß einem noch weiteren Aspekt der vorliegenden Erfindung wird auch ein Verfahren zur Sprecherkollationierung bereitgestellt, wobei das Verfahren die folgenden Schritte umfaßt: Akquirieren einer Abbildungsfunktion von einem Merkmalsvektorraum von normalisierten Standardmustern aller Kandidaten für Hemmungssprecher auf einen Merkmalsvektorraum der normalisierten kollationierten Stimme; Adaptieren des Standardmusters der Kandidaten von Hemmungssprechern unter Verwendung der akquirierten Abbildungsfunktion, Auswählen von Hemmungssprechern durch Akquirieren einer Wahrscheinlichkeit zwischen dem adaptierten Standardmuster der Kandidaten für Hemmungssprecher und dem Kennzeichnungsvektor; Berechnen einer Wahrscheinlichkeit von Hemmungssprechern auf der Basis der Wahrscheinlichkeit zwischen dem ausgewählten Standardmuster von Hemmungssprechern und der kollationierten Stimme; Berechnen der Wahrscheinlichkeit der identischen Person auf der Basis der Wahrscheinlichkeit zwischen dem normalisierten Standardmuster der identischen Person und dem normalisierten kollationierten Vektor; Berechnen einer normalisierten Wahrscheinlichkeit durch Subtrahieren der Wahrscheinlichkeit von Hemmungssprechern von der Wahrscheinlichkeit der identischen Person; und Entscheiden der Person auf der Basis der normalisierten Wahrscheinlichkeit.
  • Der Schritt des Auswählens von Hemmungssprechern kann mit einem solchen Auswahlverfahren durchgeführt werden wie N Personen, zufällige N Personen, N Personen um M Perzentil in der Größenordnung eines hohen Wahrscheinlichkeitsgrads.
  • Gemäß noch einem weiteren Aspekt der vorliegenden Erfindung wird ein computerlesbares Speichermedium zum Speichern eines Programms zur Sprecherkollationierung bereitgestellt, wobei das Programm umfaßt: Berechnen eines Ähnlichkeitsgrads zwischen einem von einer kollationierten Stimme akquirierten Merkmalsvektor und einem Standardmuster von jeweiligen Sprechern, das in einem Speicherabschnitt für ein Standardmuster von Kandidaten für Hemmungssprecher gespeichert ist; Auswählen von wenigstens einem Hemmungssprecher; Akquirieren einer Abbildungsfunktion von einem Merkmalsvektorraum eines Standardmusters von Hemmungssprechern auf einen Merkmalsvektorraum einer kollationierten Stimme; Adaptieren des Standardmusters von Hemmungssprechern unter Verwendung der akquirierten Abbildungsfunktion; Berechnen einer Wahrscheinlichkeit von Hemmungssprechern auf der Basis der Wahrscheinlichkeit zwischen dem adaptierten Standardmuster von Hemmungssprechern und der kollationierten Stimme; Berechnen der Wahrscheinlichkeit der identischen Person auf der Basis der Wahrscheinlichkeit zwischen dem Standardmuster der identischen Person und der kollationierten Stimme; Akquirieren einer normalisierten Wahrscheinlichkeit durch Subtrahieren der Wahrscheinlichkeit von Hemmungssprechern von der Wahrscheinlichkeit der identischen Person; und Entscheiden der Person auf der Basis der normalisierten Wahrscheinlichkeit.
  • Gemäß noch einem weiteren Aspekt der vorliegenden Erfindung wird ein computerlesbares Speichermedium zum Speichern eines Programms zur Sprecherkollationierung bereitgestellt, wobei das Programm umfaßt: Normalisieren eines Merkmalsvektors einer Eingabe zur Kollationierung, eines Standardmusters von Kandidaten für Hemmungssprecher, und eines Standardmusters der identischen Person; Berechnen eines Ähnlichkeitsgrads zwischen einem normalisierten Standardmuster von Kandidaten für Hemmungssprecher und einem normalisierten Merkmalsvektor; Auswählen von Hemmungssprechern; Akquirieren einer Abbildungsfunktion von einem Merkmalsvektorraum eines Standardmusters von ausgewählten Hemmungssprechern auf einen Merkmalsvektorraum einer kollationierten Stimme; Adaptieren des Standardmusters von Hemmungssprechern unter Verwendung der erhaltenen Abbildungsfunktion; Berechnen einer Wahrscheinlichkeit von Hemmungssprechern auf der Basis der Wahrscheinlichkeit zwischen dem adaptierten Standardmuster von Hemmungssprechern und der kollationierten Stimme; Berechnen der Wahrscheinlichkeit der identischen Person auf der Basis der Wahrscheinlichkeit zwischen dem normalisierten Standardmuster der identischen Person und dem normalisierten Merkmalsvektor; Berechnen einer normalisierten Wahrscheinlichkeit durch Subtrahieren der Wahrscheinlichkeit von Hemmungssprechern von der Wahrscheinlichkeit der identischen Person; und Entscheiden der Person auf der Basis der normalisierten Wahrscheinlichkeit.
  • Gemäß noch einem weiteren Aspekt der vorliegenden Erfindung wird auch ein computerlesbares Speichermedium zum Speichern eines Programms zur Sprecherkollationierung bereitgestellt, wobei das Programm umfaßt: Akquirieren einer Abbildungsfunktion von einem Merkmalsvektorraum eines Standardmusters aller Kandidaten für Hemmungssprecher auf einen Merkmalsvektorraum einer kollationierten Stimme; Adaptieren des Standardmusters der Kandidaten für Hemmungssprecher durch Verwenden der jeweiligen bekannten Abbildungsfunktion; Berechnen einer Wahrscheinlichkeit zwischen dem adaptierten Standardmuster der Kandidaten für Hemmungssprecher und der kollationierten Stimme; Auswählen von Hemmungssprechern; Berechnen einer Wahrscheinlichkeit von Hemmungssprechern auf der Basis der Wahrscheinlichkeit zwischen dem ausgewählten Standardmuster von Hemmungssprechern und der kollationierten Stimme; Berechnen der Wahrscheinlichkeit der identischen Person auf der Basis der Wahrscheinlichkeit zwischen dem Standardmuster der identischen Person und dem kollationierten Stimmvektor; Berechnen einer normalisierten Wahrscheinlichkeit durch Subtrahieren der Wahrscheinlichkeit von Hemmungssprechern von der Wahrscheinlichkeit der identischen Person; und Entscheiden der Person auf der Basis der normalisierten Wahrscheinlichkeit.
  • Gemäß noch einem weiteren Aspekt der vorliegenden Erfindung wird auch ein computerlesbares Speichermedium zum Speichern eines Programms zur Sprecherkollationierung bereitgestellt, wobei das Programm umfaßt: Akquirieren einer Abbildungsfunktion von einem Merkmalsvektorraum von normalisierten Standardmustern aller Kandidaten für Hemmungssprecher auf einen Merkmalsvektorraum der normalisierten kollationierten Stimme; Adaptieren des Standardmusters der Kandidaten von Hemmungssprechern unter Verwendung der akquirierten Abbildungsfunktion, Auswählen von Hemmungssprechern durch Akquirieren einer Wahrscheinlichkeit zwischen dem adaptierten Standardmuster der Kandidaten für Hemmungssprecher und dem Kennzeichnungsvektor; Berechnen einer Wahrscheinlichkeit von Hemmungssprechern auf der Basis der Wahrscheinlichkeit zwischen dem ausgewählten Standardmuster von Hemmungssprechern und der kollationierten Stimme; Berechnen der Wahrscheinlichkeit der identischen Person auf der Basis der Wahrscheinlichkeit zwischen dem normalisierten Standardmuster der identischen Person und dem normalisierten kollationierten Vektor; Berechnen einer normalisierten Wahrscheinlichkeit durch Subtrahieren der Wahrscheinlichkeit von Hemmungssprechern von der Wahrscheinlichkeit der identischen Person; und Entscheiden der Person auf der Basis der normalisierten Wahrscheinlichkeit.
  • Kurzbeschreibung der Zeichnungen:
  • Fig. 1 ist ein Zustandsblockdiagramm einer Vorrichtung zur Sprecherkollationierung gemäß des vorliegenden ersten Aspekts der Erfindung;
  • Fig. 2 ist ein Zustandsblockdiagramm einer Vorrichtung zur Sprecherkollationierung gemäß des vorliegenden zweiten Aspekts der Erfindung;
  • Fig. 3 ist ein Zustandsblockdiagramm einer Vorrichtung zur Sprecherkollationierung gemäß des vorliegenden dritten Aspekts der Erfindung; und
  • Fig. 4 ist ein Zustandsblockdiagramm einer Vorrichtung zur Sprecherkollationierung gemäß des vorliegenden vierten Aspekte der Erfindung.
  • Detaillierte Beschreibung der bevorzugten Ausführungsformen:
  • Die folgenden Ausführungen sind die Beschreibung der bevorzugten Ausführungsformen der Vorrichtung, des Verfahrens und des Speichermediums zur Sprecherkollationierung der Erfindung mit Bezug auf die Zeichnungen.
  • Zuerst werden bei dem Verfahren zur Sprecherkollationierung gemäß der ersten Ausführungsform Hemmungssprecher ausgewählt und eine Abbildungsfunktion von einem Merkmalsvektorraum eines Standardmusters von Hemmungssprechern auf einen Merkmalsvektorraum einer kollationierten Stimme akquiriert, das Standardmuster von Hemmungssprechern wurde unter Verwendung der erhaltenen Abbildungsfunktion adaptiert, eine Wahrscheinlichkeit (Wahrscheinlichkeit von Hemmungssprechern) zwischen dem adaptierten Standardmuster der Hemmungssprecher und der kollationierten Stimme wird berechnet. Für dieses Adaptionsverfahren, die Hochgeschwindigkeits-Umgebungsadaption (REALISE method) (detailliert beschrieben von Takagi et al. in Referenz 5: voice recognition having environmental adaptation function by a spectrum mapping. Onkyou Kouron: 173-174. 1994-3) die Sprecheradaptierung der Baumstruktur (ACTS) (detailliert beschrieben von Sinoda et al. in Referenz 6: speaker adaptation by using probability distribution having a tree structure. Onkyou Kouron: 49-50. 1995-3,) und die Spektruminterpolationssprecheradaption (detailliert beschrieben von Sinoda et al. in Referenz 7: speaker adaptation for voice recognition by using deem-syllable HMM. Onkyou Kouron: 23-24, 1991-9;) und Ceptrum mean equalization (CME).
  • Als nächstes wird eine Wahrscheinlichkeit (Wahrscheinlichkeit der identischen Person) zwischen dem Standardmuster der identischen Person und der kollationierten Stimme berechnet, und eine Normalisierungswahrscheinlichkeit wird berechnet, indem die Wahrscheinlichkeit von Hemmungssprechern von der Wahrscheinlichkeit der identischen Person subtrahiert wird.
  • Die bei diesem Verfahren unter Verwendung einer kollationierten Stimme durchgeführte Adaption des Standardmusters von Hemmungssprechern erlaubt es, das Standardmuster von Hemmungssprechern in einer ähnlichen Umgebung wie die der Kollationierung zu akquirieren und erlaubt daher, eine hohe Kollationierungsquote ohne vorherige Generierung des Standardmusters der Kandidaten für Hemmungssprecher für identische Umgebungen wie die der Kollationierung zu akquirieren.
  • In dem Verfahren zur Sprecherkollationierung gemäß der zweiten Ausführungsform werden ein Merkmalsvektor, das Standardmuster von Kandidaten für Hemmungssprecher und das Standardmuster der identischen Person, die alle zunächst analysiert wurden, normalisiert. Das dabei angewandte Normalisierungsverfahren ist ein Verfahren zur Korrektur von Frequenzmerkmalen der Phonetik oder des Standardmusters. Das Verfahren stellt eine kleine Freiheit in der Adaption im Vergleich zu dem beim ersten Verfahren angewandten Adaptierungsverfahren bereit und zeigt einen niedrigen Grad der Adaption. Für das Normalisierungsverfahren kann Cepstrum mean substraction (CMS) und sekundäre Normalisierung (detailliert beschrieben von Yamada et al. in Referenz 8: An evaluation of spectrum normalization not easily affected by a difference in voice inputting system. Onkyou Kouron: 145-146. 1994-3) angewandt werden. Als nächstes werden Hemmungssprecher durch Akquirieren einer Wahrscheinlichkeit zwischen dem normalisierten Standardmuster der Kandidaten für Hemmungssprecher und dem normalisierten Kennzeichnungsvektor ausgewählt. Daraufhin wird eine Abbildungsfunktion von einem Merkmalsvektorraum eines Standardmusters der ausgewählten Hemmungssprecher auf einen Merkmalsvektorraum einer kollationierten Stimme akquiriert, das Standardmuster von Hemmungssprechern wird unter Verwendung der erhaltenen Abbildungsfunktion adaptiert und eine Wahrscheinlichkeit (Wahrscheinlichkeit von Hemmungssprechern) zwischen dem adaptierten Standardmuster der Hemmungssprecher und der kollationierten Stimme wird berechnet. Das Normalisierungsverfahren ist identisch zu dem der ersten Erfindung.
  • Nach diesen Schritten wird eine Wahrscheinlichkeit (Wahrscheinlichkeit der identischen Person) zwischen dem normalisierten Standardmuster der identischen Person und dem normalisierten Merkmalsvektor berechnet, und eine Wahrscheinlichkeit der Normalisierung wird dadurch berechnet, daß die Wahrscheinlichkeit von Hemmungssprechern von der Wahrscheinlichkeit der identischen Person subtrahiert wird. Die Adaption des Standardmusters von Hemmungssprechern wird bei diesem Verfahren unter Verwendung der kollationierten Stimme folgend durchgeführt, um einen Umgebungsunterschied zwischen einer registrierten Stimme und der kollationierten Stimme zu verringern, indem das registrierte Standardmuster der identischen Person und der Merkmalsvektor der kollationierten Stimme normalisiert wird, und auf der Basis dieses Schritts wird der Umgebungsunterschied zwischen der kollationierten Stimme und dem Standardmuster von Hemmungssprechern verringert. Die Anwendung dieses Verfahrens erlaubt es, eine hohe Kollationierungsquote ohne vorherige Generierung der Standardmuster der Kandidaten für Hemmungssprecher für identische Umgebung zu der jeweiligen Kollationierung zu akquirieren, sogar in dem Fall eines großen Umgebungsunterschieds zwischen Registrierung und Kollationierung.
  • Bei dem Verfahren zur Sprecherkollationierung der dritten Ausführungsform wird eine Abbildungsfunktion von einem Merkmalsvektorraum aller Standardmuster von Kandidaten für Hemmungssprecher auf einen Merkmalsvektorraum einer kollationierten Stimme zunächst akquiriert, und das Standardmuster von Kandidaten für Hemmungssprecher wird unter Verwendung der jeweiligen bekannten Abbildungsfunktion adaptiert. Das Verfahren zur Adaption ist identisch zu dem der ersten Erfindung.
  • Als nächstes wird eine Wahrscheinlichkeit zwischen dem adaptierten Standardmuster der Kandidaten für Hemmungssprecher und dem Kennzeichnungsvektor berechnet, Hemmungssprecher werden ausgewählt, eine Wahrscheinlichkeit von Hemmungssprechern ist die Wahrscheinlichkeit zwischen dem ausgewählten Standardmuster von Hemmungssprechern und der kollationierten Stimme, und die Wahrscheinlichkeit (die Wahrscheinlichkeit der identischen Person) zwischen dem Standardmuster der identischen Person und kollationierten Stimme wird berechnet, eine Normalisierungswahrscheinlichkeit wird dadurch berechnet, daß die Wahrscheinlichkeit von Hemmungssprechern von der Wahrscheinlichkeit der identischen Person subtrahiert wird. Bei diesem Verfahren werden Hemmungssprecher unter Verwendung des adaptierten Standardmusters der Kandidaten für Hemmungssprecher ausgewählt, und daher kann das Standardmuster von Hemmungssprechern mit einer größeren Präzision generiert werden.
  • Bei einem Verfahren zur Sprecherkollationierung der vierten Ausführungsform wird zuerst eine Abbildungsfunktion von einem Merkmalsvektorraum von normalisierten Standardmustern aller Kandidaten für Hemmungssprecher auf einen Merkmalsvektorraum der normalisierten kollationierten Stimme akquiriert, das Standardmuster der Kandidaten für Hemmungssprecher wird unter Verwendung der akquirierten Abbildungsfunktion adaptiert. Das Verfahren zur Adaption ist identisch zu dem der ersten Erfindung, das Verfahren zur Normalisierung ist identisch zu dem der zweiten Erfindung. Als nächstes wird eine Wahrscheinlichkeit zwischen dem adaptierten Standardmuster der Kandidaten für Hemmungssprecher und dem Kennzeichnungsvektor, Hemmungssprecher werden ausgewählt, und eine Wahrscheinlichkeit von Hemmungssprechern ist die Wahrscheinlichkeit zwischen dem ausgewählten Standardmuster von Hemmungssprechern und der kollationierten Stimme. Als nächstes wird eine Wahrscheinlichkeit (Wahrscheinlichkeit der identischen Person) zwischen dem normalisierten Standardmuster der identischen Person und dem normalisierten kollationierten Vektor berechnet, und die normalisierte Wahrscheinlichkeit wird durch Subtrahieren der Wahrscheinlichkeit von Hemmungssprechern von der Wahrscheinlichkeit der identischen Person berechnet. Dieses Verfahren ist sogar im Fall von großen Umgebungsunterschieden zwischen Registrierung und Kollationierung effektiv. Daher kann das Standardmuster von Hemmungssprechern mit einer höheren Präzision durch Auswahl von Hemmungssprechern unter Verwendung des adaptierten Standardmusters von Hemmungssprechern generiert werden.
  • Für das auf die erste bis zur vierten Ausführungsform angewandte Verfahren zur Selektion von Hemmungssprechern kann ein solches Auswahlverfahren wie N Personen, zufällige N Personen, N Personen um M Perzentil in der Größenordnung eines hohen Wahrscheinlichkeitsgrades verwendet werden. Die Wahrscheinlichkeit von Hemmungssprechern kann unter Verwendung eines Verfahrens zum Berechnen des Mittels von N Wahrscheinlichkeiten berechnet werden. Das Maß des Ähnlichkeitsgrads wurde hierin beispielhaft mit Wahrscheinlichkeit beschrieben, die gleiche Beschreibung kann jedoch auch bei Umwandlung auf eine Distanz angewandt werden.
  • Hiermit wird die bevorzugte Ausführungsform einer Vorrichtung zur Sprecherkollationierung unter Verwendung eines Verfahrens zur Sprecherkollationierung gemäß der vorliegenden Erfindung nachstehend mit Bezug auf die Zeichnungen beschrieben.
  • Fig. 1 ist ein Zustandsblockdiagramm eines ersten Modus zum Ausführen der vorliegenden Erfindung.
  • Eine eingegebene kollationierte Stimme wird in einem Analyseabschnitt 1 in einen Merkmalsvektor konvertiert. Der verwendete Merkmalsvektor wird durch Cepstrum und 4 Cepstrum veranschaulicht (detailliert beschrieben von Hurui in Referenz 9: Digital voice processing. Toukai Daigaku Syuppan Kai: 44-47. 1985). Der analysierte Merkmalsvektor wird zu einem Speicherabschnitt 3 für den Merkmalsvektor und einen Auswahlabschnitt 4 zum Auswählen eines Hemmungssprechers geschickt. Im Auswahlabschnitt 4 zum Auswählen eines Hemmungssprechers wird ein Ähnlichkeitsgrad zwischen dem geschickten Merkmalsvektor und den im Speicharabschnitt 2 des Standardmusters vom Kandidaten für Hemmungssprecher gespeicherten Standardmuster für Hemmungssprecher berechnet. Das verwendete Verfahren zur Berechnung des Ähnlichkeitsgrads wird durch Viterbi-Algorithmen beispielhaft veranschaulicht (detailliert beschrieben durch Nakagawa in Referenz 10: Voice recognition by probability model, THE JOURNAL OF THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION EN- GINEERS. 19ß8) und ΔP Anpassung (detailliert beschrieben von Sakoe in Referenz 11: Voice designation by path constraints of DP matching. Onkyou Kouron: 67-6ß. 1974). Der berechnete Ähnlichkeitsgrad wird in absteigender Reihenfolge sortiert, um N Personen der größten Ordnung als Hemmungssprecher auszuwählen. Es gibt andere brauchbare Auswahlverfahren, so wie ein Verfahren zum zufälligen Auswählen von N Personen und ein Verfahren von N Personen um M Perzentril der Ähnlichkeitsgradverteilung. Das Standardmuster der ausgewählten Hemmungssprecher wird zum Adaptionsabschnitt 25 geschickt.
  • Im Adaptionsabschnitt S wird eine Abbildungsfunktion von einem Merkmalsvektorraum des Standardmusters von Hemmungssprechern auf einen Merkmalsvektorraum der kollationierten Stimme unter Verwendung des vom Auswahlabschnitt 4 zum Auswählen eines Hemmungssprechers geschickten Standardmusters von Hemmungssprechern und des von dem Speicherabschnitt 3 für den Merkmalsvektor geschickten Merkmalsvektor akquiriert. Für das Verfahren zum Akquirieren der Abbildungsfunktion wird die Funktion gemäß der Formel (2) und Formel (3) von Referenz 5 im Fall der Hochgeschwindigkeits- Umgebungsadaption erhalten, gemäß der Formel (1) der Referenz 6 im Fall der Sprecheradaption der Baumstruktur, und gemäß der Formel (1) der Referenz 6 im Fall der Spektruminterpolationssprecheradaption. Die Standardmuster von Hemmungssprechern werden unter Verwendung der durch solche Verfahren bekannten Abbildungsfunktion adaptiert. Die adaptierten Standardmuster von Hemmungssprechern werden zum Berechnungsabschnitt 6 eines Ähnlichkeitsgrads von Hemmungssprechern geschickt.
  • Im Berechnungsabschnitt 6 eines Ähnlichkeitsgrads von Hemmungssprechern wird der Ähnlichkeitsgrad zwischen N der adaptierten Standardmuster von Hemmungssprechern und einem vom Speicherabschnitt 3 für den Merkmalsvektor geschickten Merkmalsvektor berechnet. Die zur Berechnung des Ähnlichkeitsgrads verwendeten Verfahren werden durch Viterbi- Algorithmen und ΔP Anpassung beispielhaft veranschaulicht. Das Mittel von N Ähnlichkeiten (Ähnlichkeitsgrad von Hemmungssprechern) wird berechnet und an den Normalisierungsabschnitt 9 für Ähnlichkeitsgrad geschickt.
  • Im Berechnungsabschnitt 8 für den Ähnlichkeitsgrad der identischen Person wird der Ähnlichkeitsgrad (Ähnlichkeitsgrad der identischen Person) zwischen dem vom Speicherabschnitt 7 für das Standardmuster der identischen Person geschickten Standardmuster der identischen Person und dem vom Speicherabschnitt 3 für den Merkmalsvektor geschickten Merkmalsvektor berechnet. Der berechnete Ähnlichkeitsgrad der identischen Person wird zum Ähnlichkeitsgrad- Normalisierungsabschnitt 9 geschickt.
  • Im Normalisierungsabschnitt 9 für den Ähnlichkeitsgrad wird die Normalisierung des Ähnlichkeitsgrads durch Subtrahieren des vom Berechnungsabschnitt 6 eines Ähnlichkeitsgrads von Hemmungssprechern geschickten Ähnlichkeitsgrads von Hemmungssprechern von dem vom Berechnungsabschnitt 8 für den Ähnlichkeitsgrad der identischen Person geschickten Ähnlichkeitsgrad der identischen Person durchgeführt. Der normalisierte Ähnlichkeitsgrad wird zum Entscheidungsabschnitt 11 zum Entscheiden der Person geschickt.
  • Im Entscheidungsabschnitt 11 zum Entscheiden der Person wird die Identifizierung der Person unter Verwendung des vom Normalisierungsabschnitt 9 des Ähnlichkeitsgrads und des vom Speicherabschnitt zum Speichern eines Schwellenwerts geschickten Schwellenwerts durchgeführt. Wenn der Ähnlichkeitsgrad die Wahrscheinlichkeit ist, wird die Person entschieden, sofern die Wahrscheinlichkeit größer als der Schwellenwert ist, und die Person wird nicht entschieden, wenn die Wahrscheinlichkeit kleiner als der Schwellenwert ist. Zum Schluß wird ein Ergebnis der Entscheidung ausgegeben.
  • Fig. 2 ist ein Zustandsblockdiagramm einer zweiten Ausführungsform der vorliegenden Erfindung.
  • Die eingegebene kollationierte Stimme wird zum Analyseabschnitt 21 zur Konvertierung in einen Merkmalsvektor geschickt. Die verwendeten Merkmalsvektoren werden durch Cepstrum und Δ Cepstrum beispielhaft veranschaulicht. Analysierte Merkmalsvektoren werden zum Normalisierungsabschnitt 22 für Merkmalsvektoren geschickt.
  • Im Normalisierungsabschnitt 22 für Merkmalsvektoren werden der vom Analyseabschnitt 21 geschickte Merkmalsvektor, das im Speicherabschnitt 24 für ein Standardmuster von Kandidaten für Hemmungssprecher gespeicherte Standardmuster von Kandidaten für Hemmungssprecher, und das im Speicherabschnitt 28 für das Standardmuster der identischen Person gespeicherte Standardmuster der identischen Person normalisiert. Das Normalisierungsverfahren unter Verwendung der sekundären Normalisierung wird gemäß der Formel (3) der Referenz 8 durchgeführt. Der normalisierte Merkmalsvektor wird zum Speicherabschnitt 23 für Merkmalsvektoren und dem Auswahlabschnitt 25 von Hemmungssprechers geschickt, das normalisierte Standardmuster von Kandidaten für Hemmungssprecher wird zum Auswahlabschnitt 25 von Hemmungssprechern geschickt, und das normalisierte Standardmuster der identischen Person wird zum Berechnungsabschnitt 29 für den Ähnlichkeitsgrad der identischen Person geschickt.
  • Im Auswahlabschnitt 25 von Hemmungssprechern wird der Ähnlichkeitsgrad zwischen dem geschickten Merkmalsvektor und dem Standardmuster von Kandidaten für Hemmungssprecher berechnet. Die Verfahren zur Berechnung des Ähnlichkeitsgrads werden durch Viterbi-Algorithmen und DP Anpassung beispielhaft veranschaulicht. Der berechnete Ähnlichkeitsgrad wird in absteigender Reihenfolge sortiert, um N Personen der höchsten Ordnungen als Hemmungssprecher auszuwählen. Es gibt andere verwendbare Verfahren zum Auswählen, so wie ein Verfahren zum zufälligen Auswählen von N Personen und ein Verfahren zum Auswählen von N Personen um M Perzentil der Ähnlichkeitsgradverteilung. Das Standardmuster der ausgewählten Hemmungssprecher wird an den Adaptionsabschnitt 26 geschickt.
  • Im Adaptionsabschnitt 26 wird eine Abbildungsfunktion von einem Merkmalsvektorraum der Standardmuster von Hemmungssprechern auf einen Merkmalsvektorraum der kollationierten Stimme unter Verwendung des von dem Auswahlabschnitt 25 zum Auswählen eines Hemmungssprechers geschickten Standardmusters von Hemmungssprechern und des vom Speicherabschnitt 23 für den Merkmalsvektor geschickten Merkmalsvektor akquiriert. Für das Verfahren zum Akquirieren der Abbildungsfunktion wird die Funktion gemäß der Formel (2) und der Formel (3) der Differenz 5 im Fall der Hochgeschwindigkeits-Umgebungsadaption akquiriert, gemäß der Formel (1) der Referenz 6 im Fall der Sprecheradaption der Baumstruktur, und gemäß der Formel (1) der Referenz 7 im Fall der Spektruminterpolationssprecheradaption. Die Standardmuster der Hemmungssprecher wird unter Verwendung der durch solche Verfahren bekannten Abbildungsfunktion adaptiert. Die adaptierten Standardmuster von Hemmungssprechern wird zum Berechnungsabschnitt 27 eines Ähnlichkeitsgrads von Hemmungssprechern geschickt.
  • Im Berechnungsabschnitt 27 eines Ähnlichkeitsgrads von Hemmungssprechern wird der Ähnlichkeitsgrad zwischen N der adaptierten Standardmuster von Hemmungssprechern und eines vom Speicherabschnitt 23 für den Merkmalsvektor geschickten Merkmalsvektor berechnet. Die verwendbaren Verfahren zur Berechnung des Ähnlichkeitsgrads werden durch Viterbi- Algorithmen und DP Anpassung beispielhaft veranschaulicht. Das Mittel von N Ähnlichkeiten (Ähnlichkeitsgrad von Hemmungssprechern) wird berechnet und an den Normalisierungsabschnitt 30 für Ähnlichkeitsgrad geschickt.
  • Im Berechnungsabschnitt 29 für den Ähnlichkeitsgrad der identischen Person wird der Ähnlichkeitsgrad (Ähnlichkeitsgrad der identischen Person) zwischen dem vom Normalisierungsabschnitt 22 geschickten Standardmuster der identischen Person und dem vom Speicherabschnitt 23 für den Merkmalsvektor geschickten Merkmalsvektor berechnet. Der berechnete Ähnlichkeitsgrad der identischen Person wird zum Normalisierungsabschnitt 30 für den Ähnlichkeitsgrad geschickt.
  • Im Normalisierungsabschnitt 29 für den Ähnlichkeitsgrad wird der Ähnlichkeitsgrad durch Subtrahieren des vom Berechnungsabschnitt 27 eines Ähnlichkeitsgrads von Hemmungssprechern geschickten Ähnlichkeitsgrads von dem vom Berechnungsabschnitt 29 für den Ähnlichkeitsgrad der identischen Person geschickten Ähnlichkeitsgrad zur identischen Person normalisiert. Der normalisierte Ähnlichkeitsgrad wird zum Entscheidungsabschnitt 32 zum Entscheiden der Person geschickt.
  • Im Entscheidungsabschnitt 32 zum Entscheiden der Person wird die Person unter Verwendung des vom Normalisierungsabschnitt 30 des Ähnlichkeitsgrads geschickten normalisierten Ähnlichkeitsgrads und des vom Speicherabschnitt 31 zum Speichern eines Schwellenwerts geschickten Schwellenwerts entschieden. Wenn der Ähnlichkeitsgrad die Wahrscheinlichkeit ist, wird die Person entschieden, sofern die Wahrscheinlichkeit größer als der Schwellenwert ist, und die Person wird nicht entschieden, wenn die Wahrscheinlichkeit niedriger als der Schwellenwert ist. Schließlich wird ein Ergebnis der Entscheidung ausgegeben.
  • Fig. 3 ist ein Zustandsblockdiagramm einer dritten Ausführungsform der vorliegenden Erfindung.
  • Die eingegebene kollationierte Stimme wird zum Analyseabschnitt 41 zur Konvertierung in einen Merkmalsvektor geschickt. Verwendete Merkmalsvektoren werden durch Cepstrum und Δ Cepstrum beispielhaft veranschaulicht. Analysierte Merkmalsvektoren werden an den Speicherabschnitt 43 zum Speichern von Merkmalsvektoren und an den Adaptionsabschnitt 44 geschickt.
  • Im Adaptionsabschnitt 44 wird eine Abbildungsfunktion von einem Merkmalsvektorraum aller Standardmuster, die in dem Speicherabschnitt 42 für ein Standardmuster von Kandidaten für Hemmungssprecher gespeichert wurden, von Kandidaten für Hemmungssprecher auf einen Merkmalsvektorraum der vom Speicherabschnitt 43 zum Speichern von Merkmalsvektoren geschickten kollationierten Stimme erhalten. Für das Verfahren zum Akquirieren der Abbildungsfunktion wird die Funktion gemäß der Formel (2) und Formel (3) der Referenz 5 im Fall der Hochgeschwindigkeits-Umgebungsadaption erhalten, gemäß der Formel (1) der Referenz 6 im Fall der Sprecheradaption der Baumstruktur, und gemäß der Formel (1) der Referenz 7 im Fall der Spektruminterpolationssprecheradaption. All die Standardmuster der Kandidaten für Hemmungssprecher werden unter Verwendung der durch solche Verfahren jeweils erhaltenen Abbildungsfunktion adaptiert. Die adaptierten Standardmuster von Kandidaten für Hemmungssprecher werden an den Auswahlabschnitt 45 für Hemmungssprecher geschickt.
  • Im Auswahlabschnitt 45 für Hemmungssprecher wird ein Ähnlichkeitsgrad zwischen dem vom Adaptionsabschnitt 44 geschickten Standardmuster vom Kandidaten für Hemmungssprecher und dem vom Speicherabschnitt 43 zum Speichern von Merkmalsvektoren geschickten Merkmalsvektor berechnet. Die zur Berechnung des Ähnlichkeitsgrads verwendeten Verfahren werden durch Viterbi-Algorithmen und DP Anpassung veranschaulicht. Der berechnete Ähnlichkeitsgrad wird in absteigender Ordnung geordnet, um N Personen der höchsten Ordnung als Hemmungssprecher auszuwählen. Der Ähnlichkeitsgrad der ausgewählten Hemmungssprecher wird an dem Berechnungsabschnitt 46 für den Ähnlichkeitsgrad der Hemmungssprecher geschickt.
  • Im Berechnungsabschnitt 46 eines Ähnlichkeitsgrads von Hemmungssprechern wird das Mittel von N von vom Auswahlabschnitt 45 für Hemmungssprecher geschickten Ähnlichkeitsgrad (der Ähnlichkeitsgrad der Hemmungssprecher) berechnet. Das Mittel wird an den Normalisierungsabschnitt 49 für Ähnlichkeitsgrad geschickt.
  • Im Berechnungsabschnitt 48 für den Ähnlichkeitsgrad der identischen Person wird der Ähnlichkeitsgrad (Ähnlichkeitsgrad der identischen Person) zwischen dem vom Speicherabschnitt 47 für das Standardmuster der identischen Person geschickten Standardmusters der identischen Person und dem vom Speicherabschnitt 43 für den Merkmalsvektor geschickten Merkmalsvektor berechnet. Der berechnete Ähnlichkeitsgrad der identischen Person wird zum Normalisierungsabschnitt 49 für Ähnlichkeitsgrad geschickt.
  • Im Normalisierungsabschnitt 49 für den Ähnlichkeitsgrad wird der Ähnlichkeitsgrad durch Subtrahieren des vom Berechnungsabschnitt 46 eines Ähnlichkeitsgrads von Hemmungssprechern geschickten Ähnlichkeitsgrads von Hemmungssprechern von dem vom Berechnungsabschnitt 48 für den Ähnlichkeitsgrad der identischen Person geschickten Ähnlichkeitsgrad der identischen Person normalisiert. Der normalisierte Ähnlichkeitsgrad wird zum Entscheidungsabschnitt 51 zum Entscheiden der Person geschickt.
  • Im Entscheidungsabschnitt 51 zum Entscheiden der Person wird die Person unter Verwendung des vom Normalisierungsabschnitt 49 des Ähnlichkeitsgrads geschickten normalisierten Ähnlichkeitsgrads und des vom Speicherabschnitt 50 zum Speichern eines Schwellenwerts geschickten Schwellenwerts entschieden. Wenn der Ähnlichkeitsgrad die Wahrscheinlichkeit ist, wird die Person entschieden, wenn die Wahrscheinlichkeit größer ist als der Schwellenwert, und die Person wird nicht entschieden, wenn die Wahrscheinlichkeit kleiner als der Schwellenwert ist. Zum Schluß wird ein Ergebnis der Entscheidung ausgegeben.
  • Fig. 4 ist ein Zustandsblockdiagramm eine vierten Ausführungsform der vorliegenden Erfindung.
  • Die eingegebene kollationierte Stimme wird zum Analyseabschnitt 61 zum Konvertieren in einen Merkmalsvektor geschickt. Verwendete Merkmalsvektoren werden durch Cepstrum und Δ Cepstrum beispielhaft veranschaulicht. Analysierte Merkmalsvektoren werden zum Normalisierungsabschnitt 62 zum Speichern von Merkmalsvektoren geschickt.
  • Im Normalisierungsabschnitt 62 für Merkmalsvektoren werden der vom Analyseabschnitt 61 geschickte Merkmalsvektor, das im Speicherabschnitt 64 für ein Standardmuster von Kandidaten für Hemmungssprecher gespeicherte Standardmuster von Kandidaten für Hemmungssprecher und das im Speicherabschnitt 68 für das Standardmuster der identischen Person gespeicherte Standardmuster der identischen Person normalisiert. Das Normalisierungsverfahren unter Verwendung der sekundären Normalisierung wird gemäß der Formel (3) der Referenz 8 durchgeführt. Der normalisierte Merkmalsvektor wird zum Speicherabschnitt 63 für Merkmalsvektoren und zum Adaptionsabschnitt 65 geschickt, das normalisierte Standardmuster von Kandidaten für Hemmungssprecher wird zum Adaptionsabschnitt 65 geschickt, und das normalisierte Standardmuster der identischen Person wird zum Berechnungsabschnitt 69 für den Ähnlichkeitsgrad der identischen Person geschickt.
  • Im Adaptionsabschnitt 65 wird eine Abbildungsfunktion vom Merkmalsvektorraum aller normalisierten Standardmuster von Kandidaten für Hemmungssprecher auf den normalisierten Merkmalsvektorraum der vom Speicherabschnitt 63 zum Speichern von Merkmalsvektoren geschickten kollationierten Stimme erhalten. Für das Verfahren zum Akquirieren der Abbildungsfunktion wird die Funktion gemäß der Formel (2) und der Formel (3) der Referenz 5 im Fall der Hochgeschwindigkeits-Umgebungsadaption erhalten, gemäß der Formel (1) der Referenz 6 im Fall der Sprecheradaption der Baumstruktur, und gemäß der Formel (1) der Referenz 7 im Fall der Spektruminterpolationssprecheradaption. Alle Standardmuster von Kandidaten für Hemmungssprecher werden unter Verwendung der durch solche Verfahren erhaltenen Abbildungsfunktion adaptiert. Die adaptierten Standardmuster von Kandidaten für Hemmungssprecher werden an den Auswahlabschnitt 66 von Hemmungssprechern geschickt.
  • In dem Auswahlabschnitt 66 von Hemmungssprechern wird ein Ähnlichkeitsgrad zwischen dem vom Adaptionsabschnitt 65 geschickten Standardmuster von Kandidaten für Hemmungssprechern und dem vom Speicherabschnitt 63 zum Speichern von Merkmalsvektoren geschickten Merkmalsvektor berechnet. Die für die Berechnung des Ähnlichkeitsgrads verwendeten Verfahren werden durch Viterbi-Algorithmen und DP-Anpassung beispielhaft veranschaulicht. Der berechnete Ähnlichkeitsgrad wird in absteigender Reihenfolge geordnet, um N Personen der höchsten Ordnung als Hemmungssprecher auszuwählen. Der Ähnlichkeitsgrad der ausgewählten Hemmungssprecher wird an den Berechnungsabschnitt 67 für den Ähnlichkeitsgrad der Hemmungssprecher geschickt.
  • Im Berechnungsabschnitt 67 eines Ähnlichkeitsgrads von Hemmungssprechern wird der Mittelwert von N von vom Auswahlabschnitt 66 für Hemmungssprecher geschickten Ähnlichkeitsgrad (der Ähnlichkeitsgrad von Hemmungssprechern) berechnet. Der Mittelwert wird an den Normalisierungsabschnitt 70 für den Ähnlichkeitsgrad geschickt.
  • Im Berechnungsabschnitt 69 für den Ähnlichkeitsgrad der identischen Person wird der Ähnlichkeitsgrad (Ähnlichkeitsgrad der identischen Person) zwischen dem vom Normalisierungsabschnitt 62 geschickten normalisierten Standardmuster der identischen Person und dem vom Speicherabschnitt 63 für den Merkmalsvektor geschickten Merkmalsvektor berechnet. Der berechnete Ähnlichkeitsgrad der identischen Person wird zum Normalisierungsabschnitt 70 für den Ähnlichkeitsgrad geschickt.
  • Im Normalisierungsabschnitt 70 für den Ähnlichkeitsgrad wird der Ähnlichkeitsgrad durch Subtrahieren des vom Berechnungsabschnitt 67 eines Ähnlichkeitsgrads von Hemmungssprechern geschickten Ähnlichkeitsgrads von Hemmungssprechern von dem vom Berechnungsabschnitt 69 für den Ähnlichkeitsgrad der identischen Person geschickten Ähnlichkeitsgrad der identischen Person normalisiert. Der normalisierte Ähnlichkeitsgrad wird zum Entscheidungsabschnitt 72 zum Entscheiden der Person geschickt.
  • Im Entscheidungsabschnitt 72 zum Entscheiden der Person wird die Person unter Verwendung eines vom Normalisierungsabschnitt 70 des Ähnlichkeitsgrads geschickten normalisierten Ähnlichkeitsgrads und des vom Speicherabschnitt 71 zum Speichern eines Schwellenwerts geschickten Schwellenwerts entschieden. Wenn der Ähnlichkeitsgrad die Wahrscheinlichkeit ist, wird die Person entschieden, sofern die Wahrscheinlichkeit höher ist als der Schwellenwert, und die Person wird nicht entschieden, wenn die Wahrscheinlichkeit kleiner als der Schwellenwert ist. Zum Schluß wird ein Ergebnis der Entscheidung ausgegeben.
  • Wie oben beschrieben kann gemäß der Vorrichtung, dem Verfahren und dem Speichermedium zur Sprecherkollationierung gemäß der vorliegenden Erfindung eine hohe Kollationierungsquote ohne vorherige Generierung des Standardmusters von Hemmungssprechern für identische Umgebung wie die der Kollationierung akquiriert werden, und zwar sogar in dem Fall eines großen Umgebungsunterschieds zwischen Kollationierung und den Standardmustern der Hemmungssprecher.
  • Obgleich die vorliegende Erfindung hierher im Zusammenhang mit nur mehreren ihrer Ausführungsformen beschrieben worden ist, ist es nun für den Fachmann leicht möglich, die Erfindung auf verschiedene andere Weisen auszuführen, ohne vom Schutzbereich der Erfindung abzuweichen, der nur durch die beiliegenden Ansprüche begrenzt ist.

Claims (16)

1. Vorrichtung zur Sprecherkollationierung, dadurch gekennzeichnet, daß die Vorrichtung umfaßt:
einen Analyseabschnitt (1, 21) zum Konvertieren von eingegebenen Stimmdaten zum Kollationieren in einen Merkmalsvektor,
einen Speicherabschnitt (3, 23) für den Merkmalsvektor zum Speichern des im Analyseabschnitt konvertierten Merkmalsvektors,
einen Speicherabschnitt (2, 24) für ein Standardmuster von Kandidaten für Hemmungssprecher, in dem ein oder mehrere Standardmuster von Kandidaten für Hemmungssprecher gespeichert worden sind,
einen Auswahlabschnitt (4, 25) zum Auswählen von wenigstens einem Hemmungssprecher dadurch, daß ein Ähnlichkeitsgrad zwischen dem im Analyseabschnitt konvertierten Merkmalsvektor und den Standardmustern der jeweiligen Sprecher berechnet wird, die in dem Speicherabschnitt für die Standardmuster von Kandidaten für Hemmungssprecher gespeichert sind,
einen Adaptionsabschnitt (5, 26) zum Adaptieren der Standardmuster von Hemmungssprechern durch Akquirieren einer Abbildungsfunktion von einem Merkmalsvektorraum einer Stimme eines Hemmungssprechers auf einen Merkmalsvektorraum einer eingegebenen Stimme unter Verwendung einer Abbildungsfunktion, die unter Verwendung des im Auswahlabschnitt ausgewählten Standardmusters von Hemmungssprechern akquiriert wurde, um einen Hemmungssprecher auszuwählen, und des in dem Speicherabschnitt für die Merkmalsvektoren gespeicherten Merkmalsvektors,
einen Berechnungsabschnitt (6, 27) eines Ähnlichkeitsgrads von Hemmungssprechern, zum Berechnen des Ähnlichkeitsgrads zwischen einem in dem Speicherabschnitt für Merkmalsvektoren gespeicherten Merkmalsvektor und dem in dem Adaptionsabschnitt adaptierten Standardmuster von Hemmungssprechern,
einen Speicherabschnitt (7, 28) für das Standardmuster der identischen Person, in dem das registrierte Standardmuster der identischen Person gespeichert worden ist,
einen Berechnungsabschnitt (e, 29) eines Ähnlichkeitsgrads mit der identischen Person zum Berechnen des Ähnlichkeitsgrads zwischen dem in dem Speicherabschnitt für den Merkmalsvektor gespeicherten Merkmalsvektor und dem in dem Speicherabschnitt für das Standardmuster der identischen Person gespeicherten Standardmuster der identischen Person,
einen Normalisierungsabschnitt (9, 30) des Ähnlichkeitsgrads zum Normalisieren des Ähnlichkeitsgrads unter Verwendung des in dem Berechnungsabschnitt für einen Ähnlichkeitsgrad mit der identischen Person berechneten Ähnlichkeitsgrads und des in dem Berechnungsabschnitt für einen Ähnlichkeitsgrad der Hemmungssprecher gespeicherten Ähnlichkeitsgrads,
einen Schwellenwert-Speicherabschnitt (10, 31) zum Speichern eines vorbestimmten Schwellenwerts, und
einen Entscheidungsabschnitt (11, 32) zum Entscheiden der Person unter Verwendung des in dem Normalisierungsabschnitt für den Ähnlichkeitsgrad normalisierten Ähnlichkeitsgrads und des in dem Speicherabschnitt zum Speichern eines Schwellenwerts gespeicherten Schwellenwerts.
2. Vorrichtung zur Sprecherkollationierung nach Anspruch 1, dadurch gekennzeichnet, daß die Vorrichtung weiterhin umfaßt: einen Normalisierungsabschnitt (22) zum Normalisieren des in dem Analyseabschnitt konvertierten Merkmalsvektors, des Standardmusters eines Kandidaten für Hemmungssprecher, das in dem Speicherabschnitt für das Standardmuster des Kandidaten für Hemmungssprecher gespeichert ist, und des Standardmusters der identischen Person, das in dem Speicherabschnitt für das Standardmuster der identischen Person gespeichert ist:
3. Vorrichtung zur Sprecherkollationierung, dadurch gekennzeichnet, daß die Vorrichtung umfaßt:
einen Analyseabschnitt (41, 61) zum Konvertieren von eingegebenen Stimmdaten zur Kollationierung in einen Merkmalsvektor,
einen Speicherabschnitt (43, 63) für den Merkmalsvektor zum Speichern des im Analyseabschnitt konvertierten Merkmalsvektors,
einen Speicherabschnitt (42, 64) für ein Standardmuster von Kandidaten für Hemmungssprecher, in dem ein oder mehrere Standardmuster von Kandidaten für Hemmungssprecher gespeichert worden sind,
einen Adaptionsabschnitt (44, 65) zum Adaptieren des Standardmusters eines Sprechers durch Akquirieren einer Abbildungsfunktion von einem Merkmalsvektorraum einer Stimme der jeweiligen Sprecher auf einen Merkmalsvektorraum einer eingegebenen Stimme unter Verwendung aller Standardmuster von Sprechern, die in dem Speicherabschnitt für ein Standardmuster von Kandidaten für Hemmungssprecher gespeichert sind, und des Merkmalsvektors, der in dem Speicherabschnitt für den Merkmalsvektor gespeichert ist, um die akquirierte Abbildungsfunktion zu benutzen,
einen Auswahlabschnitt (45, 66) von Hemmungssprechern, zum Auswählen von wenigstens einem Hemmungssprecher durch Berechnen eines Ähnlichkeitsgrads zwischen dem im Analyseabschnitt konvertierten Merkmalsvektor und den in dem Adaptionsabschnitt adaptierten Standardmustern von Sprechern,
einen Berechnungsabschnitt (46, 47) eines Ähnlichkeitsgrads von Hemmungssprechern zum Berechnen des Ähnlichkeitsgrads zwischen einem in dem Speicherabschnitt für den Merkmalsvektor gespeicherten Merkmalsvektor und dem Standardmuster von Hemmungssprechern, das in dem Auswahlabschnitt von Hemmungssprechern ausgewählt wurde,
einen Speicherabschnitt (47, 68) für das Standardmuster der identischen Person, in dem das registrierte Standardmuster der identischen Person gespeichert worden ist, einen Berechnungsabschnitt (48, 69) eines Ähnlichkeitsgrads der identischen Person zum Berechnen des Ähnlichkeitsgrads zwischen dem in dem Speicherabschnitt für den Merkmalsvektor gespeicherten Merkmalsvektor und dem Standardmuster der identischen Person, das in dem Speicherabschnitt für das Standardmuster der identischen Person gespeichert ist,
einen Normalisierungsabechnitt (49, 70) des Ähnlichkeitsgrads zum Normalisieren des Ähnlichkeitsgrads unter Verwendung des in dem Berechnungsabschnitt für einen Ähnlichkeitsgrad mit der identischen Person berechneten Ähnlichkeitsgrads und des Ähnlichkeitsgrads, der in dem Berechnungsabschnitt für einen Ähnlichkeitsgrad von Hemmungssprechern berechnet wurde,
einen Schwellenwert-Speicherabschnitt (50, 71) zum Speichern eines vorbestimmten Schwellenwerts, und einen Entscheidungsabschnitt (51, 72) zum Entscheiden der Person unter Verwendung des in dem Normalisierungsabschnitt für den Ähnlichkeitsgrad normalisierten Ähnlichkeitsgrads und des in dem Speicherabschnitt zum Speichern eines Schwellenwerts gespeicherten Schwellenwerts.
4. Vorrichtung zur Sprecherkollationierung nach Anspruch 3, dadurch gekennzeichnet, daß die Vorrichtung weiterhin umfaßt: einen Normalisierungsabschnitt (62) zum Normalisieren des in dem Analyseabschnitt konvertierten Merkmalsvektors, des Standardmusters eines Kandidaten für Hemmungssprecher, das in dem Speicherabschnitt für das Standardmuster des Kandidaten für Hemmungssprecher gespeichert ist, und des Standardmusters der identischen Person, das in dem Speicherabschnitt für das Standardmuster der identischen Person gespeichert ist.
5. Verfahren zur Sprecherkollationierung, dadurch gekennzeichnet, daß das Verfahren die folgenden Schritte umfaßt:
Berechnen eines Ähnlichkeitsgrads zwischen einem von einer kollationierten Stimme akquirierten Merkmalsvektor und einem Standardmuster von jeweiligen Sprechern, das in einem Speicherabschnitt für ein Standardmuster von Kandidaten für Hemmungssprecher gespeichert ist;
Auswählen von wenigstens einem Hemmungssprecher;
Akquirieren einer Abbildungsfunktion von einem Merkmalsvektorraum eines Standardmusters von Hemmungssprechern auf einen Merkmalsvektorraum einer kollationierten Stimme;
Adaptieren des Standardmusters von Hemmungssprechern unter Verwendung der akquirierten Abbildungsfunktion;
Berechnen einer Wahrscheinlichkeit von Hemmungssprechern auf der Basis der Wahrscheinlichkeit zwischen dem adaptierten Standardmuster von Hemmungssprechern und der kollationierten Stimme;
Berechnen der Wahrscheinlichkeit der identischen Person auf der Basis der Wahrscheinlichkeit zwischen dem Standardmuster der identischen Person und der kollationierten Stimme;
Akquirieren einer normalisierten Wahrscheinlichkeit durch Subtrahieren der Wahrscheinlichkeit von Hemmungssprechern von der Wahrscheinlichkeit der identischen Person; und
Entscheiden der Person auf der Basis der normalisierten Wahrscheinlichkeit.
6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß der Schritt des Auswählens von wenigstens einem Hemmungssprecher mit einem solchen Auswahlverfahren durchgeführt wird wie N Personen, zufällige N Personen, N Personen um M Perzentil in der Größenordnung eines hohen Wahrscheinlichkeitsgrads.
7. Verfahren zur Sprecherkollationierung, dadurch gekennzeichnet, daß das Verfahren die folgenden Schritte umfaßt:
Normalisieren eines Merkmalsvektors einer Eingabe zur Kollationierung, eines Standardmusters von Kandidaten für Hemmungssprecher, und eines Standardmusters der identischen Person;
Berechnen eines Ähnlichkeitsgrads zwischen einem normalisierten Standardmuster von Kandidaten für Hemmungssprecher und einem normalisierten Merkmalsvektor;
Auswählen von Hemmungssprechern;
Akquirieren einer Abbildungsfunktion von einem Merkmalsvektorraum eines Standardmusters von ausgewählten Hemmungssprechern auf einen Merkmalsvektorraum einer kollationierten Stimme;
Adaptieren des Standardmusters von Hemmungssprechern unter Verwendung der erhaltenen Abbildungsfunktion;
Berechnen einer Wahrscheinlichkeit von Hemmungssprechern auf der Basis der Wahrscheinlichkeit zwischen dem adaptierten Standardmuster von Hemmungssprechern und der kollationierten Stimme;
Berechnen der Wahrscheinlichkeit der identischen Person auf der Basis der Wahrscheinlichkeit zwischen dem normalisierten Standardmuster der identischen Person und dem normalisierten Merkmalsvektor;
Berechnen einer normalisierten Wahrscheinlichkeit durch Subtrahieren der Wahrscheinlichkeit des Hemmungssprechers von der Wahrscheinlichkeit der identischen Person; und
Entscheiden der Person auf der Basis der normalisierten Wahrscheinlichkeit.
8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß der Schritt des Auswählens von Hemmungssprechern mit einem solchen Auswahlverfahren durchgeführt wird wie N Personen, zufällige N Personen, N Personen um M Perzentil in der Größenordnung eines hohen Wahrscheinlichkeitsgrads.
9. Verfahren zur Sprecherkollationierung, dadurch gekennzeichnet, daß das Verfahren die folgenden Schritte umfaßt:
Akquirieren einer Abbildungsfunktion von einem Merkmalsvektorraum eines Standardmusters aller Kandidaten für Hemmungssprecher auf einen Merkmalsvektorraum einer kollationierten Stimme;
Adaptieren des Standardmusters des Kandidaten für Hemmungssprecher durch Verwenden der jeweiligen bekannten Abbildungsfunktion;
Berechnen der Wahrscheinlichkeit zwischen dem adaptierten Standardmuster der Kandidaten für Hemmungssprecher und der kollationierten Stimme;
Auswählen von Hemmungssprechern;
Berechnen einer Wahrscheinlichkeit von Hemmungssprechern auf der Basis der Wahrscheinlichkeit zwischen dem ausgewählten Standardmuster von Hemmungssprechern und der kollationierten Stimme;
Berechnen der Wahrscheinlichkeit der identischen Person auf der Basis der Wahrscheinlichkeit zwischen dem Standardmuster der identischen Person und dem kollationierten Stimmvektor;
Berechnen einer normalisierten Wahrscheinlichkeit durch Subtrahieren der Wahrscheinlichkeit von Hemmungssprechern von der Wahrscheinlichkeit der identischen Person; und
Entscheiden der Person auf der Basis der normalisierten Wahrscheinlichkeit.
10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, daß der Schritt des Auswählens von Hemmungssprechern mit einem solchen Auswahlverfahren durchgeführt wird wie N Personen, zufällige N Personen, N Personen um M Perzentil in der Größenordnung eines hohen Wahrscheinlichkeitsgrads.
11. Verfahren zur Sprecherkollationierung, dadurch gekennzeichnet, daß das Verfahren die folgenden Schritte umfaßt:
Akquirieren einer Abbildungsfunktion von einem Merkmalsvektorraum von normalisierten Standardmustern aller Kandidaten für Hemmungssprecher auf einen Merkmalsvektorraum der normalisierten kollationierten Stimme;
Adaptieren des Standardmusters der Kandidaten von Hemmungssprechern unter Verwendung der akquirierten Abbildungsfunktion, Auswählen von Hemmungssprechern durch Akquirieren einer Wahrscheinlichkeit zwischen dem adaptierten Standardmuster der Kandidaten für Hemmungssprecher und dem Kennzeichnungsvektor;
Berechnen einer Wahrscheinlichkeit von Hemmungssprechern auf der Basis der Wahrscheinlichkeit zwischen dem ausgewählten Standardmuster von Hemmungssprechern und der kollationierten Stimme;
Berechnen der Wahrscheinlichkeit der identischen Person auf der Basis der Wahrscheinlichkeit zwischen dem normalisierten Standardmuster der identischen Person und dem normalisierten kollationierten Vektor;
Berechnen einer normalisierten Wahrscheinlichkeit durch Subtrahieren der Wahrscheinlichkeit von Hemmungssprechern von der Wahrscheinlichkeit der identischen Person; und
Entscheiden der Person auf der Basis der normalisierten Wahrscheinlichkeit.
12. Verfahren nach Anspruch 11, dadurch gekennzeichnet, daß der Schritt des Auswählens von Hemmungssprechern mit einem solchen Auswahlverfahren durchgeführt wird wie N Personen, zufällige N Personen, N Personen um M Perzentil in der Größenordnung eines hohen Wahrscheinlichkeitsgrads.
13. Computerlesbares Speichermedium, aus dem ein Programm zur Sprecherkollationierung gespeichert ist, dadurch gekennzeichnet, daß das Programm Befehle umfaßt zum:
Berechnen eines Ähnlichkeitsgrads zwischen einem von einer kollationierten Stimme akquirierten Merkmalsvektor und einem Standardmuster von jeweiligen Sprechern, das in einem Speicherabschnitt für ein Standardmuster von Kandidaten für Hemmungssprecher gespeichert ist;
Auswählen von wenigstens einem Hemmungssprecher;
Akquirieren einer Abbildungsfunktion von einem Merkmalsvektorraum eines Standardmusters von Hemmungssprechern auf einen Merkmalsvektorraum einer kollationierten Stimme;
Adaptieren des Standardmusters von Hemmungssprechern unter Verwendung der akquirierten Abbildungsfunktion;
Berechnen einer Wahrscheinlichkeit von Hemmungssprechern auf der Basis der Wahrscheinlichkeit zwischen dem adaptierten Standardmuster von Hemmungssprechern und der kollationierten Stimme;
Berechnen der Wahrscheinlichkeit der identischen Person auf der Basis der Wahrscheinlichkeit zwischen dem Standardmuster der identischen Person und der kollationierten Stimme;
Akquirieren einer normalisierten Wahrscheinlichkeit durch Subtrahieren der Wahrscheinlichkeit von Hemmungssprechern von der Wahrscheinlichkeit der identischen Person; und
Entscheiden der Person auf der Basis der normalisierten Wahrscheinlichkeit.
14. Computerlesbares Speichermedium, auf dem ein Programm zur Sprecherkollationierung gespeichert ist, dadurch gekennzeichnet, daß das Programm Befehle umfaßt zum:
Normalisieren eines Merkmalsvektors einer Eingabe zur Kollationierung, eines Standardmusters von Kandidaten für Hemmungssprecher, und eines Standardmusters der identischen Person;
Berechnen eines Ähnlichkeitsgrads zwischen einem normalisierten Standardmuster von Kandidaten für Hemmungssprecher und einem normalisierten Merkmalsvektor;
Auswählen von Hemmungssprechern;
Akquirieren einer Abbildungsfunktion von einem Merkmalsvektorraum eines Standardmusters von ausgewählten Hemmungssprechern auf einen Merkmalsvektorraum einer kollationierten Stimme;
Adaptieren des Standardmusters von Hemmungssprechern unter Verwendung der erhaltenen Abbildungsfunktion;
Berechnen einer Wahrscheinlichkeit von Hemmungssprechern auf der Basis der Wahrscheinlichkeit zwischen dem adaptierten Standardmuster von Hemmungssprechern und der kollationierten Stimme;
Berechnen der Wahrscheinlichkeit der identischen Person auf der Basis der Wahrscheinlichkeit zwischen dem normalisierten Standardmuster der identischen Person und dem normalisierten Merkmalsvektor;
Berechnen einer normalisierten Wahrscheinlichkeit durch Subtrahieren der Wahrscheinlichkeit von Hemmungssprechern von der Wahrscheinlichkeit der identischen Person; und
Entscheiden der Person auf der Basis der normalisierten Wahrscheinlichkeit,
15. Computerlesbares Speichermedium, auf dem ein Programm zur Sprecherkollationierung gespeichert ist, dadurch gekennzeichnet, daß das Programm Befehle umfaßt zum:
Akquirieren einer Abbildungsfunktion von einem Merkmalsvektorraum eines Standardmusters aller Kandidaten für Hemmungssprecher auf einen Merkmalsvektorraum einer kollationierten Stimme;
Adaptieren des Standardmusters der Kandidaten für Hemmungssprecher durch Verwenden der jeweiligen bekannten Abbildungsfunktion;
Berechnen einer Wahrscheinlichkeit zwischen dem adaptierten Standardmuster der Kandidaten für Hemmungssprecher und der kollationierten Stimme;
Auswählen von Hemmungssprechern;
Berechnen einer Wahrscheinlichkeit von Hemmungssprechern auf der Basis der Wahrscheinlichkeit zwischen dem ausgewählten Standardmuster von Hemmungssprechern und der kollationierten Stimme;
Berechnen der Wahrscheinlichkeit der identischen Person auf der Basis der Wahrscheinlichkeit zwischen dem Standardmuster der identischen Person und dem kollationierten Stimmvektor;
Berechnen einer normalisierten Wahrscheinlichkeit durch Subtrahieren der Wahrscheinlichkeit von Hemmungssprechern von der Wahrscheinlichkeit der identischen Person; und
Entscheiden der Person auf der Basis der normalisierten Wahrscheinlichkeit.
16. Computerlesbares Speichermedium, auf dem ein Programm zur Sprecherkollationierung gespeichert ist, dadurch gekennzeichnet, daß das Programm Befehle umfaßt zum:
Akquirieren einer Abbildungsfunktion von einem Merkmalsvektorraum von normalisierten Standardmustern aller Kandidaten für Hemmungssprecher auf einen Merkmalsvektorraum der normalisierten kollationierten Stimme;
Adaptieren des Standardmusters der Kandidaten von Hemmungssprechern unter Verwendung der akquirierten Abbildungsfunktion,
Auswählen von Hemmungssprechern durch Akquirieren einer Wahrscheinlichkeit zwischen dem adaptierten Standardmuster der Kandidaten für Hemmungssprecher und dem Kennzeichnungsvektor;
Berechnen einer Wahrscheinlichkeit von Hemmungssprechern auf der Basis der Wahrscheinlichkeit zwischen dem ausgewählten Standardmuster von Hemmungssprechern und der kollationierten Stimme;
Berechnen der Wahrscheinlichkeit der identischen Person auf der Basis der Wahrscheinlichkeit zwischen dem normalisierten Standardmuster der identischen Person und dem normalisierten kollationierten Vektor;
Berechnen einer normalisierten Wahrscheinlichkeit durch Subtrahieren der Wahrscheinlichkeit von Hemmungssprechern von der Wahrscheinlichkeit der identischen Person; und
Entscheiden der Person auf der Basis der normalisierten Wahrscheinlichkeit.
DE69901324T 1998-05-15 1999-05-17 Vorrichtung, Verfahren und Speichermedium zur Sprechererkennung Expired - Fee Related DE69901324T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10132788A JP3090119B2 (ja) 1998-05-15 1998-05-15 話者照合装置、方法及び記憶媒体

Publications (2)

Publication Number Publication Date
DE69901324D1 DE69901324D1 (de) 2002-05-29
DE69901324T2 true DE69901324T2 (de) 2002-12-05

Family

ID=15089568

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69901324T Expired - Fee Related DE69901324T2 (de) 1998-05-15 1999-05-17 Vorrichtung, Verfahren und Speichermedium zur Sprechererkennung

Country Status (4)

Country Link
US (1) US6341263B1 (de)
EP (1) EP0964388B1 (de)
JP (1) JP3090119B2 (de)
DE (1) DE69901324T2 (de)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3885523B2 (ja) * 2001-06-20 2007-02-21 日本電気株式会社 サーバ・クライアント型音声認識装置及び方法
WO2009087250A1 (es) * 2008-01-10 2009-07-16 Agnitio, S.L. Dispositivo de reconocimiento automático de voz.
WO2009110613A1 (ja) * 2008-03-07 2009-09-11 日本電気株式会社 個人照合装置及び話者登録装置と方法並びにプログラム
EP3660842A4 (de) * 2017-07-26 2020-09-02 Nec Corporation Sprachbedienungsvorrichtung und steuerverfahren dafür
JP7792430B2 (ja) * 2021-11-08 2025-12-25 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 情報処理方法、情報処理装置及び情報処理プログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5347612A (en) * 1986-07-30 1994-09-13 Ricoh Company, Ltd. Voice recognition system and method involving registered voice patterns formed from superposition of a plurality of other voice patterns
US6061652A (en) * 1994-06-13 2000-05-09 Matsushita Electric Industrial Co., Ltd. Speech recognition apparatus
US5687287A (en) * 1995-05-22 1997-11-11 Lucent Technologies Inc. Speaker verification method and apparatus using mixture decomposition discrimination
US5839103A (en) * 1995-06-07 1998-11-17 Rutgers, The State University Of New Jersey Speaker verification system using decision fusion logic
DE19630109A1 (de) * 1996-07-25 1998-01-29 Siemens Ag Verfahren zur Sprecherverifikation anhand mindestens eines von einem Sprecher eingesprochenen Sprachsignals, durch einen Rechner
US6205424B1 (en) * 1996-07-31 2001-03-20 Compaq Computer Corporation Two-staged cohort selection for speaker verification system
JP2991144B2 (ja) * 1997-01-29 1999-12-20 日本電気株式会社 話者認識装置
JP2991148B2 (ja) 1997-02-07 1999-12-20 日本電気株式会社 話者認識における抑制標準パターンすなわちコホートの作成方法及びシステムと該システムを含む話者照合装置
US6272463B1 (en) * 1998-03-03 2001-08-07 Lernout & Hauspie Speech Products N.V. Multi-resolution system and method for speaker verification

Also Published As

Publication number Publication date
JP3090119B2 (ja) 2000-09-18
JPH11327586A (ja) 1999-11-26
EP0964388A3 (de) 2001-03-14
EP0964388B1 (de) 2002-04-24
US6341263B1 (en) 2002-01-22
EP0964388A2 (de) 1999-12-15
DE69901324D1 (de) 2002-05-29

Similar Documents

Publication Publication Date Title
DE69800006T2 (de) Verfahren zur Durchführung stochastischer Mustervergleiche für die Sprecherverifizierung
DE69127961T2 (de) Verfahren zur Spracherkennung
DE69315374T2 (de) Spracherkennungssystem zur naturgetreuen Sprachübersetzung
DE69226796T2 (de) Zeitliche Dekorrelationsverfahren zur störsicheren Sprechererkennung
DE69423692T2 (de) Sprachkodiergerät und Verfahren unter Verwendung von Klassifikationsregeln
DE69634784T2 (de) Unterscheidende Verifizierung von Äusserungen für die Erkennung zusammenhängender Ziffern
EP0821346B1 (de) Verfahren zur Sprecherverifikation durch einen Rechner anhand mindestens eines von einem Sprecher eingesprochenen Sprachsignals
DE69425776T2 (de) Spracherkennungseinrichtung mit verbesserter Ausschliessung von Wörtern und Tönen welche nicht im Vokabular enthalten sind
DE69422097T2 (de) Training von kombinierten Kettenmodellen mit minimaler Fehlerrate
DE69322894T2 (de) Lernverfahren und Gerät zur Spracherkennung
DE69814195T2 (de) Vorrichtung zur Sprechererkennung
DE69636057T2 (de) Sprecherverifizierungssystem
DE68924134T2 (de) Spracherkennungssystem.
DE69318447T2 (de) Erkennungssystem
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
DE69705830T2 (de) Sprachverarbeitung
DE69938374T2 (de) Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle
DE60020660T2 (de) Kontextabhängige akustische Modelle für die Spracherkennung mit Eigenstimmenanpassung
DE3884880T2 (de) Billige Spracherkennungseinrichtung und Verfahren.
DE69519453T2 (de) Spracherkennung mit Sprecheradaptierung mittels Berechnung von Mittelwerten akustischer Kategorien
EP1084490B1 (de) Anordnung und verfahren zur erkennung eines vorgegebenen wortschatzes in gesprochener sprache durch einen rechner
DE4310190A1 (de) Sprecher-Verifizierungssystem unter Verwendung der Abstandsmessung nächster Nachbarn
EP0862161A2 (de) Verfahren zur Spracherkennung mit Sprachmodellanpassung
DE69720134T2 (de) Spracherkenner unter Verwendung von Grundfrequenzintensitätsdaten
DE69614937T2 (de) Verfahren und System zur Spracherkennung mit verringerter Erkennungszeit unter Berücksichtigung von Veränderungen der Hintergrundgeräusche

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee