JP7266448B2

JP7266448B2 - 話者認識方法、話者認識装置、及び話者認識プログラム

Info

Publication number: JP7266448B2
Application number: JP2019076058A
Authority: JP
Inventors: 美沙貴辻川
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2019-04-12
Filing date: 2019-04-12
Publication date: 2023-04-28
Anticipated expiration: 2039-04-12
Also published as: CN111816184B; CN111816184A; US20200327894A1; CN117953900A; US11315573B2; JP2020173381A

Description

本開示は、音声信号を用いて話者が本人であるか否かを認識する技術に関するものである。

近年、未知の対象話者の音声信号を取得し、取得した音声信号に基づいて対象話者が本人であるか否かを識別する技術が知られている。例えば、特許文献１には、対象話者の音声信号を取得してｉ－ｖｅｃｔｏｒと呼ばれる特徴量を計算し、計算した特徴量と、大規模データベースに記憶された不特定話者及び登録話者のそれぞれの音声情報との類似度を計算し、計算した類似度において、対象話者が本人と主張する登録話者の音声情報の類似度の順位を計算し、その順位が所定順位以内であれば、本人であると判定する技術が開示されている。

特開２０１７－２２３８４８号公報

しかし、特許文献１において、本人であるか否かの識別精度を上げるためには、大規模音声データベースに登録された不特定話者の音声情報の数を増大させる必要があり、その結果、計算量が増大するという課題があり、更なる改善の必要がある。

本開示の目的は、計算量を増大させることなく本人であるか否かの識別精度を向上させることができる話者認識方法等を提供することである。

本開示の一態様は、コンピュータが、複数の不特定話者の音声を示す音声情報を記憶する第１データベースと、複数の登録話者の識別情報及び前記音声情報を対応付けて記憶する第２データベースとを用いて話者を認識する話者認識方法であって、前記第１データベースは、前記複数の登録話者のそれぞれについて、音声の特徴が類似する不特定話者の前記音声情報が、対応する登録話者の前記識別情報と予め対応付けられてグルーピングされており、対象話者が発話した音声を示す対象音声信号を取得し、前記対象話者が本人と主張する人物の前記識別情報である対象識別情報を取得し、前記対象音声信号の特徴量である第１特徴量を計算し、前記第１データベースから前記対象識別情報が対応付けられた前記音声情報を含むグループを選択し、選択した前記グループに含まれる前記音声情報及び前記第１特徴量の類似度と、前記第２データベースに記憶された前記対象識別情報が対応付けられた前記音声情報及び前記第１特徴量の類似度である対象類似度とを計算し、計算した前記類似度における、前記対象類似度の順位を計算し、前記順位が所定の第１順位以内の場合、前記対象話者は本人と判定する。

本開示によれば、計算量を増大させることなく本人であるか否かの識別精度を向上させることができる。

本開示の知見を裏付けるために女性を対象として行った実験の結果を示すグラフである。本開示の知見を裏付けるために男性を対象として行った実験の結果を示すグラフである。本開示の実施の形態に係る話者認識装置の構成の一例を示すブロック図である。第１データベースのデータ構成の一例を示す図である。第２データベースのデータ構成の一例を示す図である。本開示の実施の形態における話者認識装置の処理の一例を示すフローチャートである。出力装置が出力するメッセージの一例を示す図である。出力装置が出力するメッセージの一例を示す図である。本開示の実施の形態におけるデータベース作成装置の処理の一例を示すフローチャートである。本開示の変形例に係る話者認識装置の構成の一例を示すブロック図である。本開示の変形例に係るデータベース作成装置の構成の一例を示すブロック図である。

（本開示の一態様に至る経緯）
近年、本人のなりすましを防止するために、対象者が発話した音声を用いる技術が注目されている。例えば、ネットバンキングにおいては、対象者に対して識別情報を入力させると共に音声を発話させ、識別情報と発話された音声の特徴とが所定の条件を満たした場合に対象者を本人と識別するサービスが開始されている。さらに、部屋の入退室システムにおいて、例えば、カードに記録された識別情報をカードリーダに読み取らせた上で、対象者に発話をさせ、識別情報と発話された音声を示す音声信号の特徴量とが所定の条件を満たした場合に入退室を許可する運用も検討され始めている。

このようなサービス及び運用に適用可能な技術として上述の特許文献１がある。特許文献１では、対象話者が発話した音声信号の特徴量と大規模データベースに記憶された不特定話者及び登録話者のそれぞれの音声情報との類似度を計算し、計算した類似度において、対象話者が本人と主張する登録話者の音声情報の類似度の順位を計算し、順位が所定順位以内の場合に本人であると判定する技術が開示されている。

しかし、特許文献１において、本人であるか否かの識別精度を上げるためには大規模データベースに記憶される不特定話者の音声情報の個数を増やす必要があり、これによって、計算量が増大して、本人であるか否かの判定に時間がかかるという課題がある。さらに、特許文献１では、対象話者の発話期間が短い場合、本人であるか否かの識別精度が低下するというという課題もある。

そこで、本発明者は、計算量を増大させることなく本人であるか否かの識別精度を向上させる手法を検討した。すると、特許文献１において、上述の類似度を計算するに際し、大規模データベースに記憶された全ての不特定話者の音声情報を用いるのではなく、対象話者が本人と主張する識別情報と特徴が類似する不特定話者の音声情報をピックアップし、ピックアップした音声情報のみを用いた方が、本人であるか否かの識別精度が向上するとの知見が得られた。さらに、この手法を用いると、対象話者の発話期間が短い場合においても本人であるか否かの識別精度が向上するとの知見も得られた。

図１は、本開示の知見を裏付けるために女性を対象として行った実験の結果を示すグラフであり、上段は本開示の手法（本手法）を用いた場合のグラフであり、下段は特許文献１（比較例）の手法を用いた場合のグラフである。両グラフとも縦軸は誤り率を示し、横軸は発話時間を示している。

本実験では、０．４秒、０．８秒、１．２秒、２．０秒というように複数の発話時間のそれぞれについて、不特定話者の人数を３２６８名、１６３４名、８１７名、４０９名、２０４名、１０２名、５１名、２６名とした場合の誤り率が算出された。

誤り率とは、特許文献１に示されるように、本人であるはずの音声を他者と判定してしまう確率（本人拒否率）を縦軸とし、所定順位を横軸としたときの両者の関係を示す右肩上がりのグラフと、詐称者であるはずの音声を本人と判定してしまう確率（他者受入率）を縦軸とし、所定順位を横軸としたときの両者の関係を示す右肩下がりのグラフとの交点の縦軸の値である。

本手法では、不特定話者の音声情報として、対象話者の音声情報の特徴量に対する類似度が高い順に３２６８名、１６３４名、８１７名、４０９名、２０４名、１０２名、５１名、２６名の音声情報が用いられた。これに対して、比較例では不特定話者の音声情報としてランダムに抽出された３２６８名、１６３４名、８１７名、４０９名、２０４名、１０２名、５１名、２６名の音声情報が用いられた。

図１の上段及び下段のグラフにおいて、各発話時間における６本のバーは、左から順に不特定話者の人数を３２６８名、１６３４名、８１７名、４０９名、２０４名、１０２名、５１名、２６名としたときの誤り率が示されている。

上段及び下段のグラフに示されるように、本手法及び比較例とも発話時間が増大するにつれて誤り率が減少したが、全体的に本手法の方が誤り率が低下するという結果が得られた。特に、比較例では、各発話時間において不特定話者の人数が減少するにつれて誤り率が増大したのに対し、本手法ではこのような傾向は現れなかった。具体的には、本手法では、「１．２秒」及び「２．０秒」の長い発話時間においては、不特定話者の人数にかかわらず、誤り率は２．００％以下の低い値が維持された。また、本手法では、「０．４秒」、「０．８秒」秒の短い発話時間においては、不特定話者の人数が減少するにつれて誤り率が減少した。以上のことから、本手法では、不特定話者の人数を「３２６８名」から「２６名」に減らしても誤り率は増大せず、むしろ減少することが分かった。よって、本手法では、不特定話者の人数を減らすことで本人であるか否かの識別精度を向上でき、それによって、計算量を削減できることが分かった。さらに、本手法では、発話時間が短い場合であっても、不特定話者の人数を減らすことで、本人であるか否かの識別精度を向上できることが分かった。

このような実験結果が得られたのは、例えば、能力が類似する者同士で競争した場合、順位が上げるのが困難であり、そのため、能力が類似する者同士で競争した場合の順位は、そうでない場合の順位に比べて信頼度が高くなるという経験則が反映されているものと推測される。

図２は、本開示の知見を裏付けるために男性を対象として行った実験の結果を示すグラフであり、上段は本開示の手法（本手法）を用いた場合のグラフであり、下段は特許文献１（比較例）の手法を用いた場合のグラフである。図２における実験内容は、図１のものと同じである。図２においても、図１と同様の実験結果が得られた。したがって、本手法は性別を問わず有効であることが示された。

以上の知見を踏まえて、本発明者は以下に示す各態様を想到するに至った。

本態様によれば、複数の不特定話者の音声情報を記憶する第１データベースは、前記複数の登録話者のそれぞれについて、音声の特徴が類似する不特定話者の前記音声情報が、対応する登録話者の前記識別情報と予め対応付けられて、グルーピングされている。

そして、第１データベースから、対象話者が本人と主張する人物の対象識別情報に対応付けられた音声情報を含むグループが選択され、対象音声信号の特徴量である第１特徴量と、選択されたグループに含まれる音声情報との類似度が計算される。そして、計算した類似度における、第２データベースに記憶された対象識別情報に対応する音声情報と第１特徴量との類似度である対象類似度の順位が計算され、順位が第１順位以内の場合、対象話者は本人と判定される。

このように、本構成では、類似度を計算するに際し、第１データベースに記憶された不特定話者の全ての音声情報を用いるのではなく、選択したグループに含まれる音声情報、すなわち、対象話者が本人と主張する人物の音声情報に類似する不特定話者の音声情報が用いられている。そのため、本構成は、計算量を増大させることなく本人であるか否かの識別精度を向上させることができる。さらに、本態様は、発話時間が短い場合においても本人であるか否かの識別精度を向上させることができる。

上記構成において、さらに、計算した前記類似度の分散又は標準偏差を計算し、さらに、前記分散又は前記標準偏差が減少するにつれて前記第１順位を上昇させてもよい。

本構成によれば、計算した類似度の分散又は標準偏差が減少するにつれて第１順位が上昇される。そのため、選択されたグループが第１特徴量との類似度が高い音声情報で構成されている場合、第１順位が上昇されて、本人と判定され難くなる結果、本人であるか否かの識別精度を向上させることができる。

上記構成において、前記対象識別情報は、前記対象話者により入力された前記識別情報であってもよい。

本構成によれば、対象話者によって対象識別情報が入力されるため、対象識別情報を容易に取得できる。

上記構成において、前記対象音声信号は、前記対象話者が本人と主張する発話内容を含み、前記対象識別情報は、前記対象音声信号を音声認識することで得られる前記発話内容であってもよい。

本構成によれば、例えば、本人と主張する人物の名前を対象話者に発話させることにより、対象識別情報と対象音声信号とが取得できるため、対象話者が別途対象識別情報を入力する必要がなくなり、対象話者の手間を省くことができる。

上記構成において、さらに、前記対象話者が本人であるか否かの判定結果を提示してもよい。

本構成によれば、対象話者が本人であるか否かの判定結果が提示されるため、対象話者は、自身の主張が受け入れられたか否かを確認できる。

上記構成において、前記第１データベースが記憶する前記音声情報は、前記不特定話者の音声信号を含み、前記第２データベースが記憶する前記音声情報は、前記登録話者の前記音声信号を含み、さらに、前記不特定話者の前記音声信号と前記第２データベースに記憶された前記対象識別情報に対応する前記音声信号とのそれぞれの特徴量を第２特徴量として計算し、前記類似度の計算では、前記第１特徴量と前記第２特徴量との前記類似度を計算してもよい。

本構成によれば、第１データベース及び第２データベースには音声情報として音声信号が記憶されており、記憶された音声信号から第２特徴量が計算されるため、第１データベース及び第２データベースに対して特徴量を予め記憶させる必要がない。そのため、第１データベース及び第２データベースを容易に作成できる。

上記構成において、前記第１データベースが記憶する前記音声情報は、前記不特定話者の音声信号の特徴量を含み、前記第２データベースが記憶する前記音声情報は、前記登録話者の前記音声信号の前記特徴量であってもよい。

本構成によれば、第１データベース及び第２データベースには音声情報として音声信号の特徴量が記憶されているため、第１データベース及び第２データベースに記憶された音声信号から特徴量を算出する処理を行うことなく類似度を計算できる。

上記構成において、前記第１データベースは、前記複数の登録話者のそれぞれについて、前記複数の不特定話者に対する前記類似度の前記順位が所定の第２順位以内の前記音声情報を抽出することでグルーピングされたものであり、前記第２順位は、誤り率を最小化するために予め決定された前記不特定話者の最少人数であってもよい。

本構成によれば、第１データベースを構成する複数のグループのそれぞれに含まれる音声情報の個数を同じ個数にすることができ、第１データベースを整然とグルーピングできる。さらに、第２順位が、誤り率を最小化するために予め決定された不特定話者の最小人数に設定されているため、類似度を算出する際の計算量の削減と、識別精度の向上とを図ることができる。

本開示の別の一態様は、コンピュータが、話者認識を行うためのデータベースを作成するデータベース作成方法であって、複数の不特定話者の音声を示す音声情報を取得し、複数の登録話者のそれぞれの識別情報及び前記音声情報を取得し、前記複数の登録話者の音声情報と、前記複数の不特定話者の前記音声情報との特徴量の類似度を計算し、前記複数の登録話者のそれぞれについて、前記類似度が所定の第１条件を満たす不特定話者の前記音声情報を抽出し、前記複数の登録話者のそれぞれについて、登録話者の前記識別情報と、前記登録話者ごとに抽出した前記音声情報とを対応付けることで前記不特定話者の前記音声情報をグルーピングしてデータベースを作成する。

本構成によれば、複数の登録話者のそれぞれについて、類似度が所定の第１条件を満たす不特定話者の音声情報が抽出され、複数の登録話者のそれぞれについて、登録話者の識別情報と、抽出した不特定話者の音声情報とを対応付けることで不特定話者の音声情報がグルーピングされてデータベースが作成される。これにより、計算量を増大させることなく本人であるか否かの識別精度を向上させることができる話者認識方法を実現するデータベースを作成できる。

上記構成において、前記第１条件は、前記類似度が所定順位以内であり、前記所定順位は、誤り率を最小化するために予め決定された前記不特定話者の最少人数であってもよい。

本構成によれば、第１データベースを構成する複数のグループのそれぞれに含まれる音声情報の個数を同じ個数にすることができ、第１データベースを整然とグルーピングできる。さらに、所定順位が、誤り率を最小化するために予め決定された不特定話者の最小人数に設定されているため、類似度を算出する際の計算量の削減と、識別精度の向上とを図ることができる。

上記構成において、前記第１条件は、前記類似度が所定値以上であるという条件であってもよい。

本構成によれば、第１データベースの各グループを対応する登録話者に対して類似度が所定値以上である音声情報で構成できる。

本開示は、このような話者認識方法に含まれる特徴的な各構成をコンピュータに実行させる話者認識プログラム、或いは話者認識装置として実現することもできる。また、このような話者認識プログラムを、ＣＤ－ＲＯＭ等のコンピュータ読取可能な非一時的な記録媒体あるいはインターネット等の通信ネットワークを介して流通させることができるのは、言うまでもない。このことはデータベース作成方法、データベース作成装置、及びデータベース作成プログラムについても同じである。

なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、全ての実施の形態において、各々の内容を組み合わせることもできる。

（実施の形態）
図３は、本開示の実施の形態に係る話者認識装置１の構成の一例を示すブロック図である。話者認識装置１は、プロセッサ１０、メモリ２０、及び出力装置５０を含む。プロセッサ１０には、入力装置３０及び収音装置４０が接続されている。話者認識装置１は、入力装置３０及び収音装置４０を含んでもよいし、含んでいなくてもよい。

入力装置３０は、例えばキーボード、マウス、及びタッチパネルなどの入力装置であり、認識対象となる話者である対象話者の識別情報である対象識別情報が対象話者によって入力される。なお、入力装置３０は、カードリーダ、ＲＦＩＤリーダなどで構成されていてもよい。この場合、対象話者は、対象識別情報が記録されたカードをカードリーダに読み取らせる、又は対象識別情報が記録されたＲＦＩＤタグをＲＦＩＤリーダに読み取らせることによって対象識別情報を入力する。対象話者は本人であるか否かが未知の人物である。したがって、基本的には、対象話者が本人の場合、対象識別情報は対象話者の識別情報となり、対象話者が詐称者の場合、対象識別情報は対象話者とは異なる人物の識別情報となる。

収音装置４０は、例えばマイクロフォンであり、対象話者が発話した音声を収音し、音声信号に変換し、プロセッサ１０に入力する。

プロセッサ１０は、ＣＰＵで構成されてもよいし、専用の電気回路で構成されてもよい。プロセッサ１０は、音声取得部１１、識別情報取得部１２、特徴量計算部１３、選択部１４、類似度計算部１５、順位計算部１６、判定部１７、及び補正部１８を含む。

音声取得部１１は、対象話者が発話した音声を示す対象音声信号を収音装置４０から取得し、特徴量計算部１３に入力する。識別情報取得部１２は、対象話者が本人と主張する人物の識別情報である対象識別情報を入力装置３０から取得し、選択部１４及び類似度計算部１５に入力する。

なお、対象話者に対して本人と主張する発話を行わせることにより、対象識別情報を取得する態様が採用されてもよい。この場合、識別情報取得部１２は、収音装置４０が収音した対象音声信号に対して音声認識処理を適用して、対象音声信号に含まれる対象話者が本人と主張する発話内容を取得し、取得した発話内容を示すテキストを対象識別情報として取得してもよい。対象話者が本人と主張する発話内容としては、例えば、「太郎」、「花子」といった、本人の名前が採用できる。これにより、対象話者に対象識別情報の入力を課すことなく対象識別情報を取得できる。

特徴量計算部１３は、対象音声信号の特徴量である第１特徴量を計算し、類似度計算部１５に入力する。特徴量は、例えば、ｉ－ｖｅｃｔｏｒ、ｘ－ｖｅｃｔｏｒなどである。特徴量計算部１３は、多数の音声信号を用いて事前に学習された、音声信号を入力とし、特徴量を出力とする学習モデルを備えている。特徴量計算部１３は、この学習モデルに対象音声信号を入力し、出力された特徴量を第１特徴量として計算する。例えば、特徴量がｘ－ｖｅｃｔｏｒの場合、この学習モデルはディープニューラルネットワークで構成される。

選択部１４は、第１データベース２１から対象識別情報が対応付けられた音声情報を含むグループを選択する。図４は、第１データベース２１のデータ構成の一例を示す図である。第１データベース２１は、複数の不特定話者の音声を示す音声情報を記憶するデータベースであり、複数の登録話者のそれぞれについて、音声の特徴が類似する不特定話者の音声情報が、対応する登録話者の識別情報と予め対応付けられてグルーピングされたデータベースである。

具体的には、第１データベース２１は、登録話者ＩＤ、音声情報ＩＤ、及び音声情報の列を含む。登録話者ＩＤは、登録話者の識別情報である。登録話者は、後述する第２データベース２２において登録話者ＩＤと音声情報とが事前に対応付けて記憶された人物である。入力装置３０からカードリーダに対象話者のカードを読み取らせることによって対象識別情報を取得する態様が採用される場合、登録話者ＩＤは例えばカードに記録された識別情報を示す記号列で構成される。一方、対象音声信号を音声認識して対象識別情報を取得する態様が採用される場合、登録話者ＩＤは例えば名前で構成される。これらのことは、第２データベース２２の登録話者ＩＤも同じである。

本実施の形態では、第１データベース２１は、複数の登録話者の音声情報のそれぞれについて、不特定話者の音声情報との類似度を計算して類似度が大きい順に順位付けし、所定の第２順位以内の不特定話者の音声情報を抽出することで複数のグループに区分されている。したがって、登録話者ＩＤを指定することで、第１データベース２１から１つのグループに含まれる不特定話者の音声情報が取得される。

図１の実験結果によると、不特定話者の人数を「３２６８名」、「１６３４名」などの大人数に設定するよりも、「５１名」、「２６名」などの少人数に設定した方が、各発話時間において誤り率を小さくできることが分かる。そこで、第２順位としては、例えば、「５１名」又は「２６名」などの複数の発話時間を通じて全体的に誤り率を最小化できる不特定話者の最少人数が採用できる。

音声情報ＩＤは、不特定話者の音声情報を識別するための識別情報である。不特定話者とは、音声情報が第１データベース２１に記憶された人物である。音声情報ＩＤは、単に音声情報を特定するための識別情報であるに過ぎず、人物の識別情報は対応付けられていない。そのため、音声情報ＩＤから特定の人物は特定できない。したがって、不特定話者とは、第１データベース２１に単に音声情報が登録されているだけの不特定の人物である。

音声情報の列には、不特定話者の音声情報が記憶されている。音声情報は例えば上述の特徴量が採用できる。この場合、音声情報の列には、上述の学習モデルに不特定話者の音声信号を入力することで事前に得られた特徴量が記憶される。但し、これは一例であり、音声情報の列には、不特定話者の音声信号が記憶されていてもよい。この場合、特徴量計算部１３は、対象音声信号に加えて選択部１４によって選択されたグループに含まれる不特定話者の音声信号の特徴量を計算し、類似度計算部１５に入力すればよい。音声情報が特徴量である場合、音声情報の列に示されるＹ１，Ｙ２，・・・の数列は特徴量を示す多次元ベクトルを示す。音声情報が音声信号である場合、音声情報の列に示されるＹ１，Ｙ２，・・・の数列は音声信号の波形データを示す。

例えば、登録話者ＩＤ「Ａ」の対象識別情報が入力された場合、選択部１４は、登録話者ＩＤ「Ａ」のグループに含まれる音声情報を第１データベース２１の中から選択し、類似度計算部１５に入力する。

図３に参照を戻す。類似度計算部１５は、選択部１４により選択された不特定話者の音声情報と第１特徴量との類似度を計算する。さらに、類似度計算部１５は、識別情報取得部１２から入力された対象識別情報に対応する音声情報を第２データベース２２から取得し、取得した音声情報と第１特徴量との類似度を対象類似度として計算する。そして、類似度計算部１５は、算出した類似度と対象類似度とを順位計算部１６及び補正部１８に入力する。具体的には、類似度計算部１５は、類似度を音声情報ＩＤと対応付けて順位計算部１６に入力すると共に、対象類似度を対象識別情報（登録話者ＩＤ）と対応付けて順位計算部１６に入力すればよい。

第２データベース２２は、複数の登録話者の識別情報と音声情報とを対応付けて記憶するデータベースである。図５は、第２データベース２２のデータ構成の一例を示す図である。第２データベース２２は、登録話者ＩＤ及び音声情報の列を含む。登録話者ＩＤは、登録話者の識別情報である。音声情報の列には登録話者の音声情報が記憶されている。音声情報は、第１データベース２１の場合と同様、特徴量である。但し、これは一例であり、音声情報は、第１データベース２１において説明したように、音声信号であってもよい。

例えば、登録話者ＩＤ「Ａ」の対象識別情報が入力された場合、類似度計算部１５は、１行目の音声情報を第２データベース２２から取得し、その音声情報と第１特徴量との類似度を対象類似度として算出する。

なお、類似度としては、ユークリッド距離、コサイン類似度、マハラノビス距離などの類似指標が採用できる。類似しているほど値が減少する類似指標が類似度として採用される場合、例えば、類似度は類似指標の逆数が採用される。これにより、類似度は、類似性が高いほど値が増大する。

図３に参照を戻す。順位計算部１６は、類似度計算部１５から入力された類似度における、対象類似度の順位を計算し、判定部１７に入力する。ここで、順位計算部１６は、類似度計算部１５から入力された類似度及び対象類似度を高い順に並べたときの対象類似度が何番目に位置するかを特定することで対象類似度の順位を計算すればよい。

判定部１７は、補正部１８から補正された第１順位を取得し、順位計算部１６から入力された対象類似度の順位が第１順位以内の場合、対象話者は本人であると判定する。一方、判定部１７は、順位計算部１６から入力された対象類似度の順位が第１順位より大きい場合、対象話者は本人ではないと判定する。なお、本開示では、補正部１８は省かれてもよく、この場合、判定部１７は、第１順位記憶部２３から第１順位を取得すればよい。

補正部１８は、類似度計算部１５から入力された対象類似度及び類似度を含む母集団の分散を計算し、分散が減少するにつれて第１順位を上昇させて、判定部１７に入力する。一方、補正部１８は、類似度計算部１５から入力された対象類似度及び類似度を含む母集団の分散が増大するにつれて第１順位を低下させる。第１順位は、例えば分散の値に対して段階的に増減されてもよいし、連続的に増減されてもよい。段階的に増減させる場合、例えば、補正部１８は、分散を区分する複数の階級と、各階級に対する第１順位の増減値とが予め対応付けられた補正テーブルを用いて、計算した分散に対応する第１順位の増減値を特定すればよい。ここでは、補正部１８は、対象類似度及び類似度を含む母集団の分散を計算したが、分散に代えて標準偏差を計算してもよい。また、補正部１８は、分散又は標準偏差を算出するに際し、母集団から対象類似度を省いてもよい。

出力装置５０は、ディスプレイ及びスピーカを含み、判定部１７による判定結果を出力する。出力装置５０は、本人と判定した場合、認証が許可されたことを示すメッセージをディスプレイ及び／又はスピーカに出力する。一方、出力装置５０は、本人と判定されなかった場合、認証が許可されなかったことを示すメッセージをディスプレイ及び／又はスピーカに出力する。

メモリ２０は、例えばＥＥＰＲＯＭなどの不揮発性メモリであり、図４で説明した第１データベース２１、図５で説明した第２データベース２２の他、第１順位記憶部２３を含む。第１順位記憶部２３は、判定部１７が対象話者が本人であるか否かを判定するために使用する第１順位を記憶する。

第１順位は、特許文献１と同様、以下の手法により決定される。すなわち、多数の開発用話者の音声信号（以下、登録音声信号と呼ぶ。）を用意し、そのうちある１名の話者Ａを選出し、残りを詐称者と考える。そして、ある閾値（例えば、１００位）を設定し、話者Ａが実際に発話した音声信号と全開発用話者の登録音声信号との特徴量の類似度が算出され、話者Ａが発話した音声信号と話者Ａの登録音声信号との特徴量の類似度の順位が算出され、その順位が１００位よりも大きければ、本人拒否と判定される。

また、話者Ａ以外の詐称者が実際に発話した音声信号と全開発用話者の登録音声信号との特徴量の類似度が算出され、詐称者が発話した音声信号と話者Ａの登録音声信号との特徴量の類似度の順位が算出され、その順位が１００位以内であれば他人受入とされる。

この本人拒否と他人受入との判定が、話者Ａを変更させながら順次実行され、閾値が１００位における本人拒否率と他人受入率とがそれぞれ算出される。そして、１００位以内までは１０位刻み、１００位以上は１００位刻みというようにして閾値が変化され、閾値に応じた本人拒否率と他人受入率とが算出される。これにより、本人拒否率を縦軸とし、閾値を横軸としたときの両者の関係を示す右肩上がりのグラフと、他者受入率を縦軸とし、閾値を横軸としたときの両者の関係を示す右肩下がりのグラフとが得られ、両グラフの交点が算出され、その交点の閾値が第１順位として決定される。

次に、本実施の形態における話者認識装置１の処理について説明する。図６は、本開示の実施の形態における話者認識装置１の処理の一例を示すフローチャートである。まず、音声取得部１１は、収音装置４０が収音した対象音声信号を取得する（ステップＳ１）。次に、識別情報取得部１２は、入力装置３０又は収音装置４０に収音された対象音声信号から対象識別情報を取得する（ステップＳ２）。

次に、特徴量計算部１３は、対象音声信号を学習モデルに入力し第１特徴量を計算する（ステップＳ３）。次に、選択部１４は、対象識別情報（登録話者ＩＤ）に対応するグループを第１データベース２１から選択し、選択したグループに含まれる不特定話者の音声情報を類似度計算部１５に入力する（ステップＳ４）。

次に、類似度計算部１５は、選択されたグループに含まれる不特定話者の音声情報と第１特徴量との類似度を計算すると共に、第２データベース２２に記憶された対象識別情報（登録話者ＩＤ）に対応する音声情報と第１特徴量との対象類似度を計算する（ステップＳ５）。

次に、順位計算部１６は、類似度計算部１５で計算された類似度における対象類似度の順位を計算する（ステップＳ６）。次に、補正部１８は、類似度計算部１５により計算された対象類似度及び類似度の分散を計算する（ステップＳ７）。

次に、補正部１８は、計算された分散が減少するにつれて第１順位を上昇させ、計算された分散が増大するにつれて第１順位を低下させるように第１順位を補正する（ステップＳ８）。

次に、判定部１７は、対象類似度の順位と補正された第１順位とを比較することで対象話者が本人であるか否かを判定する（ステップＳ９）。対象類似度の順位が第１順位以内の場合、判定部１７は対象話者を本人と判定し（ステップＳ１０でＹＥＳ）、処理をステップＳ１１に進める。一方、対象類似度の順位が第１順位より大きい場合（ステップＳ１０でＮＯ）、判定部１７は対象話者を本人ではないと判定し（ステップＳ１０でＮＯ）、処理をステップＳ１２に進める。

ステップＳ１１において、出力装置５０は、対象話者が本人と判定されたため、認証が許可されたことを示すメッセージを出力する。ステップＳ１２において、出力装置５０は、対象話者が本人でないと判定されたため、認証が許可されなかったことを示すメッセージを出力する。

図７は、出力装置５０が出力するメッセージの一例を示す図である。図７において、画面Ｇ７１は、対象話者が本人と判定された場合にディスプレイに表示される画面であり、画面Ｇ７２は対象話者が本人と判定されなかった場合にディスプレイに表示される画面である。画面Ｇ７１に示すように、対象話者が本人と判定された場合、「許可されました」といった認証が許可された旨のメッセージがディスプレイに表示される。一方、画面Ｇ７２に示すように、対象話者が本人と判定されなかった場合、「許可されませんでした」といった認証が許可されたかった旨のメッセージがディスプレイに表示される。これにより、対象話者は、認証が許可されたか否かを速やかに認識できる。

次に、本実施の形態における話者認識装置１のユースケースについて説明する。１つ目のユースケースは、話者認識装置１がネットバンキングに適用される例である。まず、対象話者は自身の携帯端末から銀行のサイトに識別情報を入力してログインする。そして、対象話者は、例えば入金額を入力してある口座への入金を要求すると、音声の発話が要求される。この要求に応じて、対象話者は、何かしらの音声（例えば、自身の名前又は今日の天気など）を発話する。すると、ログイン時に入力した識別情報が対象識別情報として話者認識装置１に取得されると共に発話した音声を示す音声信号が対象音声信号として話者認識装置１に取得され、本人であるか否かの判定が行われる。本人と判定されると、画面Ｇ７１が携帯端末のディスプレイに表示され、本人でないと判定されると、画面Ｇ７２が携帯端末のディスプレイに表示される。

２つ目のユースケースは、話者認識装置１が入退室システムに適用される例である。まず、対象話者は入室を希望する部屋の入口に設けられたカードリーダにカードをか近接させ、カードに記録された識別情報を読み取らせる。次に、音声の発話が要求されるため、対象話者は何かしらの音声（例えば、自身の名前又は今日の天気など）を発話する。すると、読み取らせた識別情報が対象識別情報として話者認識装置１に取得されると共に、発話した音声を示す音声信号が対象音声信号として話者認識装置１に取得され、本人であるか否かの判定が行われる。本人と判定されると、例えば、入室が許可されましたといった音声メッセージがスピーカから出力されると共に、話者認識装置１からドアを開く制御コマンドがドアに出力されドアが開く。一方、本人と判定されなかった場合、例えば、入室が許可されませんでしたといった音声メッセージがスピーカから出力され、ドアは開かない。

このように、本実施の形態によれば、類似度を計算するに際し、第１データベース２１に記憶された不特定話者の全ての音声情報を用いるのではなく、選択したグループに含まれる音声情報、すなわち、対象話者が本人と主張する人物の音声情報に類似する不特定話者の音声情報が用いられている。そのため、本実施の形態は、計算量を増大させることなく本人であるか否かの識別精度を向上させることができる。さらに、本実施の形態は、発話時間が短い場合においても本人であるか否かの識別精度を向上させることができる。

次に、本開示の実施の形態におけるデータベース作成装置について説明する。図８は、本開示の実施の形態におけるデータベース作成装置２の構成の一例を示すブロック図である。データベース作成装置２は、プロセッサ１００、メモリ２００、入力装置３００、インターフェース回路３１０、及び収音装置４００を含む。

インターフェース回路３１０は、例えばメモリインターフェース及びネットワークインターフェースなどであり、外部メモリ及び外部ネットワークなどから複数の不特定話者の音声信号が入力される。

入力装置３００は、例えばキーボード、マウス、及びタッチパネルなどの入力装置であり、複数の登録話者の識別情報が入力される。

収音装置４００は、例えばマイクロフォンなどであり、複数の登録話者の音声を収音し、音声信号に変換し、プロセッサ１００に入力する。なお、複数の登録話者のそれぞれにおいて、音声信号と識別情報とは同期してプロセッサ１００に入力される。

プロセッサ１００は、ＣＰＵで構成されてもよいし、専用の電気回路で構成されてもよい。プロセッサ１００は、第１取得部１０１、第２取得部１０２、類似度計算部１０３、抽出部１０４、及び作成部１０５を含む。

第１取得部１０１は、入力装置３００のインターフェース回路から入力された複数の不特定話者の音声信号を取得して、類似度計算部１０３に入力する。第２取得部１０２は、入力装置３００から入力された複数の登録話者の識別情報と、収音装置４００から入力された複数の登録話者の音声信号とを取得する。そして、第２取得部１０２は、各登録話者の識別情報と同期して入力された各登録話者の音声信号とを対応付けて、類似度計算部１０３に入力する。

類似度計算部１０３は、第１取得部１０１から入力された複数の不特定話者の音声信号を学習モデルに入力して各不特定話者の音声信号の特徴量を計算する。また、類似度計算部１０３は、識別情報と対応付けて入力された各登録話者の音声信号の特徴量を学習モデルに入力して各登録話者の音声信号の特徴量を計算する。ここで、学習モデルは話者認識装置１で用いられたものと同じである。

そして、類似度計算部１０３は、複数の登録話者の音声信号の特徴量と、複数の不特定話者の音声信号の特徴量との類似度を計算する。類似度は、話者認識装置１で用いられたものと同じである。

抽出部１０４は、類似度が所定の第１条件を満たす不特定話者の音声信号を抽出する。第１条件は、例えば、類似度が話者認識装置１で説明した第２順位以内であるという条件である。この場合、抽出部１０４は、複数の登録話者のそれぞれについて、複数の不特定話者の音声信号を類似度が高い順に並べることで、複数の不特定話者の音声信号を順位付けする。そして、抽出部１０４は、複数の登録話者のそれぞれについて、順位が第２順位以内の不特定話者の音声信号を第１条件を満たす音声信号として抽出すればよい。

第１条件は、例えば、類似度が所定値以上であるという条件であってもよい。或いは、第１条件は、類似度が第２順位以内且つ所定値以上であるという条件であってもよい。これにより、類似度が第２順位以内の音声信号であっても、登録話者の音声信号に対する類似度が低い音声信号が当該登録話者に対応するグループに含まれることを防止できる。

作成部１０５は、複数の登録話者のそれぞれについて、登録話者の識別情報と、登録話者ごとに抽出した音声信号（音声情報）とを対応付けることで不特定話者の音声信号をグルーピングして第１データベース２１を作成し、メモリ２００に記憶する。この際、作成部１０５は、不特定話者の音声信号ごとに音声情報ＩＤを付与してもよい。これにより、図４に示すような第１データベース２１が作成される。

メモリ２００は、例えばＥＥＰＲＯＭなどの不揮発性メモリであり、第２順位記憶部２０１及び第１データベース２１を記憶する。第２順位記憶部２０１は、抽出部１０４が不特定話者の音声信号を抽出する際に使用する第２順位を記憶する。

次に、本開示の実施の形態におけるデータベース作成装置２の処理について説明する。図９は、本開示の実施の形態におけるデータベース作成装置２の処理の一例を示すフローチャートである。

まず、第１取得部１０１は、インターフェース回路３１０を介して複数の不特定話者の音声信号を取得する（ステップＳ１０１）。次に、第２取得部１０２は、入力装置３００から入力された複数の登録話者の識別情報と、収音装置４００から入力された各登録話者に対応する音声信号とを取得する（ステップＳ１０２）。

次に、類似度計算部１０３は、複数の不特定話者の音声信号と、複数の登録話者の音声信号とをそれぞれ学習モデルに入力することで、複数の不特定話者の音声信号の特徴量と、複数の登録話者の音声信号の特徴量とを計算する（ステップＳ１０３）。

次に、抽出部１０４は、複数の登録話者のそれぞれについて、複数の不特定話者の音声信号を類似度が高い順に順位付けする（ステップＳ１０４）。

次に、抽出部１０４は、複数の登録話者のそれぞれについて、第１条件を満たす不特定話者の音声信号、すなわち、類似度が第２順位以内且つ所定値以上の不特定話者の音声信号を抽出する（ステップＳ１０５）。

次に、作成部１０５は、複数の登録話者のそれぞれについて、登録話者の識別情報（登録話者ＩＤ）と抽出した不特定話者の音声信号（音声情報）とを対応付けてグルーピングすることで第１データベース２１を作成する（ステップＳ１０６）。次に、作成部１０５は第１データベース２１をメモリ２００に記憶する（ステップＳ１０７）。

本実施の形態におけるデータベース作成装置２によれば、複数の登録話者のそれぞれについて、類似度が所定の第１条件を満たす不特定話者の音声信号が抽出され、複数の登録話者のそれぞれについて、登録話者の識別情報と、抽出した不特定話者の音声信号とを対応付けることで不特定話者の音声信号がグルーピングされて第１データベース２１が作成される。これにより、計算量を増大させることなく本人であるか否かの識別精度を向上させることができる話者認識方法を実現するデータベースを作成できる。

なお、第１取得部１０１は、不特定話者の音声信号を取得するとして説明したが、本開示はこれに限定されず、不特定話者の音声信号の特徴量を取得してもよい。

また、作成部１０５は、音声信号を音声情報として第１データベース２１を作成したが、本開示はこれに限定されず、音声信号の特徴量を音声情報として第１データベース２１を作成してもよい。

次に、話者認識装置１を変形例である話者認識装置１Ａについて説明する。図１０は、本開示の変形例に係る話者認識装置１Ａの構成の一例を示すブロック図である。話者認識装置１Ａは話者認識装置１をクラウド上で実現したものであり、サーバ６００を備える。サーバ６００には所定のネットワークを介して端末装置７００が通信可能に接続されている。所定のネットワークは、例えば、インターネット及び携帯電話通信網を含むワイドエリアネットワーク、或いは有線ＬＡＮ又は無線ＬＡＮなどのローカルエリアネットワークである。

サーバ６００は、プロセッサ６１０、通信装置６２０、及びメモリ６３０を含む。プロセッサ６１０は、話者認識装置１と同様、特徴量計算部１３、選択部１４、類似度計算部１５、順位計算部１６、判定部１７、及び補正部１８を含む。但し、本変形例では、話者認識装置１のプロセッサ１０に含まれていた音声取得部１１及び識別情報取得部１２は通信装置６２０に設けられている。

通信装置６２０は、例えば、サーバ６００を所定のネットワークに接続するための通信回路で構成されている。

この変形例において、音声取得部１１は、端末装置７００からネットワークを介して対象音声信号を取得する。また、この変形例において、識別情報取得部１２は、端末装置７００からネットワークを介して対象識別情報を取得する。メモリ６３０の構成は、話者認識装置１と同じである。

端末装置７００は、例えばタブレット端末、スマートフォンなどの携帯端末、又はデスクトップコンピュータである。端末装置７００は、通信装置７０１、ディスプレイ７０２、スピーカ７０３、収音部７０４、及び入力部７０５を含む。

通信装置７０１は、例えば、端末装置７００を所定のネットワークに接続する通信回路である。ディスプレイ７０２は、例えば液晶パネルであり、図７に示す画面Ｇ７１，Ｇ７２を表示する。

スピーカ７０３は、通信装置６２０から送信された、判定部１７による対象話者が本人であるか否かを示す判定結果を示す音声メッセージを出力する。ここでは、対象話者が本人であると判定された場合は、認証が許可されましたとの音声メッセージが出力され、対象話者が本人でないと判定された場合は、認証が許可されませんでしたとの音声メッセージが出力される。

収音部７０４は、例えばマイクロフォンであり、対象話者が発話した音声を収音し、音声信号に変換する。変換された音声信号は対象音声信号として通信装置７０１からサーバ６００に送信される。

入力部７０５は、例えばタッチパネル、キーボード、マウスなどであり、対象話者によって入力された対象識別情報を受け付ける。入力された対象識別情報は、通信装置７０１からサーバ６００に送信される。この変形例によれば、本開示の話者認識方法をクラウドシステムで実現できる。

次に、データベース作成装置２の変形例であるデータベース作成装置２Ａについて説明する。図１１は、本開示の変形例に係るデータベース作成装置２Ａの構成の一例を示すブロック図である。データベース作成装置２Ａは、データベース作成装置２をクラウド上で実現したものであり、サーバ８００を含む。

サーバ８００には所定のネットワークを介して端末装置９００が通信可能に接続されている。所定のネットワークは、例えば、インターネット及び携帯電話通信網を含むワイドエリアネットワーク、或いは有線ＬＡＮ又は無線ＬＡＮなどのローカルエリアネットワークである。

サーバ８００は、プロセッサ８１０、通信装置８２０、及びメモリ８３０を含む。プロセッサ８１０は、データベース作成装置２と同様、類似度計算部１０３、抽出部１０４、作成部１０５を含む。但し、本変形例では、データベース作成装置２のプロセッサ１００に含まれていた第１取得部１０１及び第２取得部１０２は通信装置８２０に設けられている。

通信装置８２０は、例えば、サーバ６００を所定のネットワークに接続するための通信回路で構成されている。

この変形例において、第１取得部１０１は、ネットワークを介して複数の不特定話者の音声信号を取得する。また、この変形例において、第２取得部１０２は、端末装置７００からネットワークを介して登録話者の音声信号及び識別情報を取得する。メモリ８３０の構成は、データベース作成装置２と同じである。

端末装置９００は、例えばタブレット端末、スマートフォンなどの携帯端末、又はデスクトップコンピュータである。端末装置９００は、通信装置９０１、収音部９０２、及び入力部９０３を含む。

通信装置９０１は、例えば、端末装置９００を所定のネットワークに接続する通信回路である。収音部９０２は、例えばマイクロフォンであり、登録話者が発話した音声を収音し、音声信号に変換する。変換された音声信号は通信装置９０１からサーバ８００に送信される。

入力部９０３は、例えばタッチパネル、キーボード、マウスなどであり、登録話者によって入力された識別情報を受け付ける。入力された識別情報は、通信装置９０１からサーバ８００に音声信号と対応付けられた送信される。この変形例によれば、本開示のデータベース作成方法をクラウドシステムで実現できる。

本開示は以下の変形例をとることができる。

（１）図３に示す話者認識装置１及び図８に示すデータベース作成装置２は同一のコンピュータに実装されてもよい。

（２）図１０において第１データベース２１及び第２データベース２２は、サーバ６００とは別のネットワークを介してサーバ６００に接続された装置に実装されてもよい。

（３）図３に示す話者認識装置１と図８に示すデータベース作成装置２とが異なるコンピュータで構成されている場合、データベース作成装置２は、作成した第１データベース２１をネットワークを介して話者認識装置１に送信すればよい。

（４）上記実施の形態において、第１順位は、各登録話者について個別に計算された値が採用されてもよいし、全登録話者について同一の値が採用されてもよい。

本開示によれば、計算量を増大させることなく本人であるか否かの識別精度を向上させることができるため、本人のなりすましを防止する技術分野に有用である。

１：話者認識装置
２：データベース作成装置
１０：プロセッサ
１１：音声取得部
１２：識別情報取得部
１３：特徴量計算部
１４：選択部
１５：類似度計算部
１６：順位計算部
１７：判定部
１８：補正部
２０：メモリ
２１：第１データベース
２２：第２データベース
２３：第１順位記憶部
５０：出力装置
１００：プロセッサ
１０１：第１取得部
１０２：第２取得部
１０３：類似度計算部
１０４：抽出部
１０５：作成部
２００：メモリ
２０１：第２順位記憶部

Claims

コンピュータが、複数の不特定話者の音声を示す音声情報を記憶する第１データベースと、複数の登録話者の識別情報及び前記音声情報を対応付けて記憶する第２データベースとを用いて話者を認識する話者認識方法であって、
前記第１データベースは、前記複数の登録話者のそれぞれについて、音声の特徴が類似する不特定話者の前記音声情報が、対応する登録話者の前記識別情報と予め対応付けられてグルーピングされており、
対象話者が発話した音声を示す対象音声信号を取得し、
前記対象話者が本人と主張する人物の前記識別情報である対象識別情報を取得し、
前記対象音声信号の特徴量である第１特徴量を計算し、
前記第１データベースから前記対象識別情報が対応付けられた前記音声情報を含むグループを選択し、
選択した前記グループに含まれる前記音声情報及び前記第１特徴量の類似度と、前記第２データベースに記憶された前記対象識別情報が対応付けられた前記音声情報及び前記第１特徴量の類似度である対象類似度とを計算し、
計算した前記類似度における、前記対象類似度の順位を計算し、
前記順位が所定の第１順位以内の場合、前記対象話者は本人と判定する、
話者認識方法。
さらに、計算した前記類似度の分散又は標準偏差を計算し、
さらに、前記分散又は前記標準偏差が減少するにつれて前記第１順位を上昇させる、
請求項１記載の話者認識方法。
前記対象識別情報は、前記対象話者により入力された前記識別情報である、
請求項１又は２記載の話者認識方法。
前記対象音声信号は、前記対象話者が本人と主張する発話内容を含み、
前記対象識別情報は、前記対象音声信号を音声認識することで得られる前記発話内容である、
請求項１又は２記載の話者認識方法。
さらに、前記対象話者が本人であるか否かの判定結果を提示する、
請求項１～４のいずれかに記載の話者認識方法。
前記第１データベースが記憶する前記音声情報は、前記不特定話者の音声信号を含み、
前記第２データベースが記憶する前記音声情報は、前記登録話者の前記音声信号を含み、
さらに、前記不特定話者の前記音声信号と前記第２データベースに記憶された前記対象識別情報に対応する前記音声信号とのそれぞれの特徴量を第２特徴量として計算し、
前記類似度の計算では、前記第１特徴量と前記第２特徴量との前記類似度を計算する、
請求項１～５のいずれかに記載の話者認識方法。
前記第１データベースが記憶する前記音声情報は、前記不特定話者の音声信号の特徴量を含み、
前記第２データベースが記憶する前記音声情報は、前記登録話者の前記音声信号の前記特徴量である、
請求項１～５のいずれかに記載の話者認識方法。
前記第１データベースは、前記複数の登録話者のそれぞれについて、前記複数の不特定
話者に対する前記類似度の前記順位が所定の第２順位以内の前記音声情報を抽出することでグルーピングされたものであり、
前記第２順位は、誤り率を最小化するために予め決定された前記不特定話者の最少人数である、
請求項１～７のいずれかに記載の話者認識方法。
複数の不特定話者の音声を示す音声情報を記憶する第１データベースと、複数の登録話者の識別情報及び前記音声情報を対応付けて記憶する第２データベースとを用いて話者を認識する話者認識装置であって、
前記第１データベースは、前記複数の登録話者のそれぞれについて、音声の特徴が類似する不特定話者の前記音声情報が、対応する登録話者の前記識別情報と予め対応付けられてグルーピングされおり、
対象話者が発話した音声を示す対象音声信号を取得する音声取得部と、
前記対象話者が本人と主張する人物の前記識別情報である対象識別情報を取得する識別情報取得部と、
前記対象音声信号の特徴量である第１特徴量を計算する特徴量計算部と、
前記第１データベースから前記対象識別情報が対応付けられた前記音声情報を含むグループを選択する選択部と、
選択した前記グループに含まれる前記音声情報及び前記第１特徴量の類似度と、前記第２データベースに記憶された前記対象識別情報が対応付けられた前記音声情報及び前記第１特徴量の前記類似度である対象類似度とを計算する類似度計算部と、
計算した前記類似度における、前記対象類似度の順位を計算する順位計算部と、
前記順位が所定の第１順位以内の場合、前記対象話者は本人と判定する判定部とを備える、
話者認識装置。
請求項１～８のいずれかに記載の話者認識方法をコンピュータに実行させるための話者認識プログラム。