[go: up one dir, main page]

JP5681811B2 - 話者認識のためのモデリング・デバイスおよび方法、ならびに話者認識システム - Google Patents

話者認識のためのモデリング・デバイスおよび方法、ならびに話者認識システム Download PDF

Info

Publication number
JP5681811B2
JP5681811B2 JP2013542329A JP2013542329A JP5681811B2 JP 5681811 B2 JP5681811 B2 JP 5681811B2 JP 2013542329 A JP2013542329 A JP 2013542329A JP 2013542329 A JP2013542329 A JP 2013542329A JP 5681811 B2 JP5681811 B2 JP 5681811B2
Authority
JP
Japan
Prior art keywords
anchor
model
speaker
cluster
target speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013542329A
Other languages
English (en)
Other versions
JP2014502374A (ja
Inventor
ハイフォン シェン
ハイフォン シェン
ロン マー
ロン マー
ビンチー チャン
ビンチー チャン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Panasonic Intellectual Property Corp of America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Corp of America filed Critical Panasonic Intellectual Property Corp of America
Publication of JP2014502374A publication Critical patent/JP2014502374A/ja
Application granted granted Critical
Publication of JP5681811B2 publication Critical patent/JP5681811B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Stereophonic System (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Toys (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Description

本開示は、音声(オーディオ)処理および音声認識技術に関し、また、話者照合、電話会議、およびデジタル・ネットワーク・オーディオ・ビジュアルの技術に関する。
話者認識技術は、多くのアプリケーション、例えば、話者追跡、オーディオ・インデックス(audio index)、およびセグメンテーションにとって非常に有用である。近年、複数のアンカー(話者)モデルを使用して話者をモデル化することが提案されている。話者音声は、アンカー・モデル上に投影され、話者の音響特性を表すベクトルを構成する。
図1は、話者認識のための従来のデバイスのブロック図を示している。図1に示されているように、アンカー空間は、多数の一般話者からの音声を学習することによって作成される。参照アンカー集合生成ユニット(reference anchor set generation unit)102において、アンカー空間(anchor space)から、クラスタの重心である多数の仮想アンカー話者(virtual anchor speakers)が選択され、参照アンカー集合(reference anchor set)を形成するか、または各クラスタの重心に最も近いアンカー話者が選択され、参照アンカー集合を形成する。フロント・エンド101は、目標話者による登録音声を受け取り、その登録音声を特徴パラメータに変換し、それらの特徴パラメータを声紋生成ユニット103に送る。声紋生成ユニット103は、フロント・エンド101から送られてきた特徴パラメータおよび参照アンカー集合生成ユニット102によって生成された参照アンカー集合に基づいて声紋を生成する。次いで、話者認識にさらに使用するために、生成された声紋を声紋データベース104に格納する。
図1からわかるように、デバイス100によって生成された参照アンカー集合は、アンカー空間それ自体のみの分布を反映することができる。したがって、目標話者をよりよく表現するために、より多数のアンカーが必要であり、そのため、計算量が増大し、組み込み型システムでは使用するのが困難である。
本開示の一態様において、話者認識のためのモデリング・デバイスが実現され、これは、第1目標話者の第1音声を受信するフロント・エンドと、受信した第1音声の音響特性を表す第1目標話者アンカー・モデルと、それぞれ話者の音響特性を表す複数のアンカー・モデルとを、複数のアンカー・モデルを含む空間であるアンカー空間において比較し、複数のアンカー・モデルから第1目標話者アンカー・モデルとの距離が最も近いアンカー・モデルを主アンカー・モデルとして生成する、主アンカー生成ユニットと、アンカー空間を、複数のクラスタに分割し、複数のクラスタのうち、主アンカー・モデルを含まないクラスタについて、当該クラスタの重心と当該クラスタに含まれるアンカー・モデルとの距離を比較して、当該クラスタの重心から最も近いアンカー・モデルを同伴アンカー・モデルとして生成する、同伴アンカー生成ユニットと、主アンカー・モデルと同伴アンカー・モデルとを組み合わせて、主アンカー・モデルと同伴アンカー・モデルとを含む参照アンカー集合を生成する、組み合わせユニットと、参照アンカー集合および受信した第1音声に基づいて第1目標話者の声紋を生成する声紋生成ユニットとを備える。
本開示の別の態様において、話者認識のためのモデリング方法が提供され、これは、第1目標話者から第1音声を受信するステップと、受信した第1音声の音響特性を表す第1目標話者アンカー・モデルと、それぞれ話者の音響特性を表す複数のアンカー・モデルとを、複数のアンカー・モデルを含む空間であるアンカー空間において比較し、複数のアンカー・モデルから第1目標話者アンカー・モデルとの距離が最も近いアンカー・モデルを主アンカー・モデルとして生成するステップと、アンカー空間を、複数のクラスタに分割し、複数のクラスタのうち、主アンカー・モデルを含まないクラスタについて、当該クラスタの重心と当該クラスタに含まれるアンカー・モデルとの距離を比較して、当該クラスタの重心から最も近いアンカー・モデルを同伴アンカー・モデルとして生成するステップと、主アンカー・モデルと同伴アンカー・モデルとを組み合わせて、主アンカー・モデルと同伴アンカー・モデルとを含む参照アンカー集合を生成するステップと、参照アンカー集合および受信した音声に基づいて第1目標話者の声紋を生成するステップとを含む。
本開示の別のさらなる態様において、話者認識システムが実現され、これはモデリング・デバイスおよび認識デバイスを備え、モデリング・デバイスは、第1目標話者の第1音声を受信する第1フロント・エンドと、受信した第1音声の音響特性を表す第1目標話者アンカー・モデルと、それぞれ話者の音響特性を表す複数のアンカー・モデルとを、複数のアンカー・モデルを含む空間であるアンカー空間において比較し、複数のアンカー・モデルから第1目標話者アンカー・モデルとの距離が最も近いアンカー・モデルを主アンカー・モデルとして生成する、主アンカー生成ユニットと、アンカー空間を、複数のクラスタに分割し、複数のクラスタのうち、主アンカー・モデルを含まないクラスタについて、当該クラスタの重心と当該クラスタに含まれるアンカー・モデルとの距離を比較して、当該クラスタの重心から最も近いアンカー・モデルを同伴アンカー・モデルとして生成する、同伴アンカー生成ユニットと、主アンカー・モデルと同伴アンカー・モデルとを組み合わせて、主アンカー・モデルと同伴アンカー・モデルとを含む参照アンカー集合を生成する、組み合わせユニットと、参照アンカー集合および受信した第1音声に基づいて第1目標話者の声紋を生成する第1声紋生成ユニットと、生成された第1目標話者の声紋を格納するデータベースと、を備え、認識デバイスは、第2目標話者から第2音声を受信する第2フロント・エンドと、モデリング・デバイスにおいて生成された参照アンカー集合を参照して、参照アンカー集合および受信した第2音声に基づいて第2目標話者の声紋を生成する第2声紋生成ユニットと、第1目標話者の声紋と、第2目標話者の声紋とを比較する照合ユニットと、照合ユニットの比較結果に基づいて第1目標話者と第2目標話者との同一人性を判断する判断ユニットと、をさらに備える。
本開示のモデリング・デバイス、方法、および話者認識システムを使用することで、登録音声および話者適応技術を考慮することによって、より小さなサイズのアンカー・モデルを生成することができ、より小さなサイズの参照アンカー集合を有する信頼性の高いロバストな話者認識が可能になる。これは、計算速度の改善および大幅なメモリ削減を行ううえで非常に有利であり、したがって計算量が少なく、参照アンカー集合が小さいことから、組み込み型アプリケーションにより適している。
前記は、概要であり、したがって、当然のことながら、簡素化、一般化、および詳細の省略を含み、そのため、概要は単に例示しているだけであり、いかなる形でも制限する意図はないことを、当業者なら理解するであろう。本明細書に記載のデバイスおよび/またはプロセスおよび/または他の主題の他の態様、特徴、および利点は、本明細書で述べられている教示において明らかにされるであろう。この「発明の概要」は、以下の「発明を実施するための形態」でさらに説明される簡素化された形式の概念の選択を導入するために設けられている。この「発明の概要」は、特許請求されている主題の鍵となる特徴または本質的特徴を明示することを意図しておらず、また特許請求されている主題の範囲を決定する補助として使用されることも意図していない。
本開示の前記の特徴および他の特徴は、添付の図面を参照することで、以下の説明および付属の請求項からより完全に明らかになるであろう。これらの図面は本開示による複数の実施形態のみを示し、したがって本開示の範囲を制限するものであると考えるべきでないことを理解してもらいそのうえで、添付の図面を用いてさらに具体的に、詳細に本開示を説明する。
話者認識のための従来のデバイスのブロック図である。 本開示の一実施形態による話者認識のためのモデリング・デバイスのブロック図である。 本開示の一実施形態による参照アンカー集合生成ユニットのブロック図である。 本開示の一実施形態によるアンカー空間の略図である。 本開示の別の実施形態による参照アンカー集合生成ユニットのブロック図である。 本開示のさらなる実施形態による参照アンカー集合生成ユニットのブロック図である。 本開示の一実施形態による話者認識のためのモデリング方法の流れ図である。 本開示の別の実施形態による参照アンカー集合を生成するためのモデリング方法の流れ図である。 本開示の一実施形態による話者認識システムのブロック図である。 異なるサイズの参照アンカー集合との性能比較に関する実験データを示す図である。
以下の詳細な説明では、詳細な説明の一部をなす、添付の図面が参照される。図面中の類似の記号は、典型的には、文脈上別のものを示していない限り類似のコンポーネントを明示する。詳細な説明、図面、および請求項で説明されている例示的な実施形態は、制限することを意図されていない。他の実施形態も利用することができ、また本明細書に提示されている主題の精神または範囲から逸脱することなく、他の変更を加えることができる。本明細書で一般的に説明され、また図に例示されているような本開示の態様は、さまざまな異なる構成による配置、置換、組み合わせ、設計が可能であり、すべて明示的に考察され、本開示の一部をなすことは容易に理解されるであろう。
本開示で使用される主要な用語を以下で紹介する。
1)アンカー・データベース
一般に、学習コーパスには、数百もしくは数千の話者からの音声データが入っている。各話者の音響特性を表すアンカー・モデル(例えば、ガウス混合モデル)を学習することができる。すべてのアンカー・モデルがまとめられるのであれば、アンカー・データベースが構築される。
2)参照アンカー集合
参照アンカー集合は、話者照合/識別システムに使用される、特定の生成規則に従ってアンカー・データベースから生成されるものとして定義される。
3)アンカー空間
各アンカー・モデルが空間の1つの次元を表す場合、アンカー空間は、アンカー・データベース内のすべてのアンカー・モデルが使用されるときに構築されうる。アンカー空間の次元は、アンカー・データベース内のアンカー・モデルの総数に等しい。
4)主アンカー・モデル(Principal anchor model)
主アンカー・モデルは、1人の話者の登録音声に関して最も近いモデルとして定義される。
5)同伴アンカー・モデル(Associate anchor model)
主アンカーを除き、参照アンカー集合内の残りのモデルは、同伴アンカー・モデルとして定義される。
図2は、本開示の一実施形態による話者認識のためのモデリング・デバイスのブロック図を示す。
図2に示されているように、本開示の一実施形態による話者認識のためのモデリング・デバイス200は、フロント・エンド201と、参照アンカー集合生成ユニット202と、声紋生成ユニット203と、声紋データベース204とを備える。例えば、上記の構造では、声紋生成ユニット203は、フロント・エンド201、参照アンカー集合生成ユニット202、および声紋データベース204に接続される。フロント・エンド201も、参照アンカー集合生成ユニット202に接続される。
本開示の一実施形態によれば、モデリング・デバイス200において、フロント・エンド201は、目標話者から登録音声を受け取り、参照アンカー集合生成ユニット202は、アンカー空間に基づいて登録音声を使用して参照アンカー集合を生成し、声紋生成ユニット203は、参照アンカー集合および登録音声に基づいて声紋を生成する。
これ以降、本開示の実施形態によるモデリング・デバイス200の上記のそれぞれのユニットのオペレーションについて説明する。
最初に、一般話者からの多数の音声を学習することによってアンカー空間が作成され、アンカー空間は、それらの一般話者の音響特性を表す複数のアンカー・モデルを含む。アンカー空間は、アンカー・データベースの形態でデータベース内に格納することができる。フロント・エンド201は、目標話者による登録音声を受け取り、その登録音声を特徴パラメータに変換し、それらの特徴パラメータを参照アンカー集合生成ユニット202および声紋生成ユニット203に送る。参照アンカー集合生成ユニット202は、目標話者による登録音声に基づいてアンカー空間から参照アンカー集合を生成する。声紋生成ユニット203は、登録音声から抽出され、フロント・エンド201から送られてきた特徴パラメータを参照アンカー集合生成ユニット202によって生成された参照アンカー集合のアンカー・モデルに適用することによって声紋を生成し、話者認識にさらに使用するために、生成された声紋を声紋データベース204に格納する。
フロント・エンド201および声紋生成ユニット203のオペレーションは当業者によく知られているので、本開示の要点を混乱させないため、その詳細を省く。以下では、参照アンカー集合生成ユニット202のオペレーションについて詳細に説明する。
本開示の別の実施形態によれば、参照アンカー集合生成ユニット202によって生成される参照アンカー集合は、少なくとも1つの主アンカーと少なくとも1つの同伴アンカーとからなり、参照アンカー集合生成ユニット202は、アンカー空間に基づいて登録音声を使用することによって主アンカーを生成し、主アンカーに基づいて少なくとも1つの同伴アンカーを生成する。
「n」人の目標話者の登録音声がある場合に、生成される主アンカーの数は1からnまでとすることが可能であると仮定され、n個の主アンカーが、n人の目標話者からの登録音声に基づいて生成されることが好ましい。
図3は、本開示の一実施形態による参照アンカー集合生成ユニットのブロック図を示している。参照アンカー集合生成ユニット302の機能は、図2に示されているような参照アンカー集合生成ユニット202の機能と同じである。図3に示されているように、参照アンカー集合生成ユニット302は、主アンカー生成ユニット3021、同伴アンカー生成ユニット3022、および組み合わせユニット3023を備える。
具体的には、主アンカー生成ユニット3021は、アンカー空間から目標話者の登録音声のモデルまでの距離が最も近いアンカー・モデルを見つけることによって主アンカーを生成する。ここで、登録音声のモデルは、目標話者の音響特性を表すGMM(ガウス混合モデル)であってもよく、目標話者の登録音声の特徴パラメータを用いてフロント・エンド201または参照アンカー集合生成ユニット302によって計算されうる。少なくとも1つの主アンカーが、目標話者の人数に応じて生成される。同伴アンカー生成ユニット3022は、主アンカーに基づいてアンカー空間を複数のクラスタに分割し、主アンカーを含まない複数のクラスタの重心までの距離が最も近いアンカー・モデルを見つけることによって同伴アンカーを生成する。ここで、距離は尤度値であってよい。組み合わせユニット3023は、生成された主アンカーと同伴アンカーとを組み合わせて参照アンカー集合とする。
これ以降、本開示の一実施形態による参照アンカー集合生成ユニット302の上記のそれぞれのユニットのオペレーションについて説明する。
最初に、主アンカー生成ユニット3021において、目標話者による登録音声を使用することによって主アンカーを生成する。具体的には、1人の目標話者に対する主アンカーは、アンカー空間内の目標話者の登録音声のGMMモデルまでの距離が最も近いアンカー・モデルを見つけることによって得ることができる。より具体的には、本開示の一実施形態により、尤度距離を上記の距離として使用することができる。
例えば、目標話者とアンカー空間内に存在する各一般話者との間の尤度距離は、目標話者からの登録音声を用いて計算される。最初に、アンカー空間内の各話者iは、パラメータを{pij,μij,Σij}、j=1,2,...,MiとするGMM(ガウス混合モデル)Λiなどの確率モデルによってモデル化されると仮定するが、ただし、式中、Miは混合成分の個数を表し、pijは混合利得を表し、μij、Σijは各ガウス混合成分の、それぞれ、平均ベクトルおよび対角共分散行列である。目標話者の登録音声Xは、音声フレーム[x1,x2,x3,...,xT]を有し、式中、Tは、総フレーム数である。したがって、尤度距離は、以下の式(1)として得られる。
Figure 0005681811
その後、一般話者の最近話者モデルは、例えばarg maxiP(X|Λi)を計算することによって主アンカーとして求められる。複数の目標話者が存在する場合、上記のオペレーションを繰り返して複数の主アンカーを得ることができることに留意されたい。したがって、生成された主アンカーの数は、本開示の範囲の制限要因とならない。また、距離は、尤度距離に限定されない。
次いで、同伴アンカー生成ユニット3022において、主アンカー生成ユニット3021によって生成された主アンカーに基づいて同伴アンカーが生成される。
本開示の一実施形態によれば、アンカー空間を複数のクラスタに分割するプロセスは以下のとおりである。最初に、アンカー空間をN個のクラスタに分割するが、ここで、Nは主アンカーの個数に等しい。N個のクラスタのうち最大のクラス内距離を持つ1つのクラスタがさらに分割されることがわかり、ここで、クラスタが主アンカーを有する場合、クラスタは、主アンカーとクラスタ内の主アンカーまで最も遠い距離にあるアンカーとに基づいて2つのサブクラスタに分割されるが、クラスタが主アンカーを有しない場合には、クラスタは、より遠い距離にある主アンカーに関してクラスタ内で最も遠い2つのアンカーに基づいて2つのサブクラスタに分割される。複数のクラスタが得られるまで上記のプロセスを繰り返す。
具体的には、アンカー空間は、最初に、アンカー空間内の各アンカーと生成された主アンカーとの間の距離に従ってN個のクラスタ(Nは主アンカーの個数に等しい)に分割される。得られたN個のクラスタのそれぞれは、主アンカー生成ユニット3021によって生成される1つの主アンカーを含む。ここで、距離は尤度値であってよい。例えば、カルバック・ライブラー(KL)ダイバージェンス距離またはユークリッド距離を上記の距離として使用することができる。ユークリッド距離を例にとると、2つのGMM Λ1およびΛ2の間のユークリッド距離は、以下の式(2)として与えられる。
Figure 0005681811
ただし、式中、
Figure 0005681811
ここで、k、m=1、2は2つのGMMのインデックスを表すだけである。
次に、さらに分割すべき最大のクラス内距離を持つ1つのクラスタを見つけるオペレーションを、全部のクラスタが満たされるまで繰り返す。クラスタの個数は、実用的なアプリケーションの要件により予め決定されうる。分割するステップは、以下の規則に基づく。
・分割対象として選択されたクラスタが主アンカーを有する場合、このクラスタ内の主アンカーまで最も遠い距離にあるアンカーを見つけ、このクラスタ内の残りのアンカーのそれぞれを分類のため2つのアンカー(最も遠い距離にあるアンカーと主アンカー)と比較し、比較結果に基づいてこのクラスタを2つのサブクラスタに分割する。そうでない場合
・分割対象として選択されたクラスタが主アンカーを有しない場合、より遠い主アンカーに関して最も遠い、クラスタ内の2つのアンカー、つまり、クラスタが分割されるより遠いクラスタに含まれる主アンカーを見つけ、このクラスタ内の残りのアンカーのそれぞれを分類のためこれら2つのアンカーと比較し、比較結果に基づいてこのクラスタを2つのサブクラスタに分割する。
例えば、上述のように2つのアンカーの間の距離に従って比較を実行する。上述のように上記のオペレーションを繰り返した後にアンカー空間を所望の数のクラスタに分割する。
その後、主アンカーを含むクラスタ以外のクラスタの重心に最も近いアンカーが同伴アンカーとして見つけられる。本開示の一実施形態によれば、重心は、縮尺バッタチャリャ距離に従って得ることができる。例えば、各クラスタ内で各重心を得るためにGMMを組み合わせる距離尺度は、以下で式(4)として与えられる縮尺バッタチャリャ距離に基づく。
Figure 0005681811
重心に最も近いアンカーの選択では、例えば、上記のKL/ユークリッド距離を使用することができる。
最後に、組み合わせユニット3023において、主アンカー生成ユニット3021によって生成された主アンカーおよび同伴アンカー生成ユニット3022によって生成された同伴アンカーを、話者認識にさらに使用するため参照アンカー集合として組み合わせる。
図4は、本開示の一実施形態によるアンカー空間400の略図を示す。図4において、2人の目標話者の場合を例にとると、図3の参照アンカー集合生成ユニット302による処理の後の結果が図示されている。図4に示されているように、アンカー空間400内には、全部で6つの分割されたクラスタ401、402、403、404、405、および406がある。クラスタ401および404内にそれぞれ配置されている2つの主アンカー4011および4041は、上述のように話者1および話者2の登録音声データ4012および4042に基づいて主アンカー生成ユニット3021によって生成される。2つの主アンカー4011および4041に基づく上記の分割オペレーションによって、同伴アンカー生成ユニット3022は、主アンカーを含まないクラスタ402、403、405、および406にそれぞれ配置される4つの同伴アンカー4021、4031、4051、および4061を生成する。2つの主アンカー4011および4041さらには4つの同伴アンカー4021、4031、4051、および4061の組み合わせは、参照アンカー集合生成ユニット302によって生成される参照アンカー集合である。分割クラスタの総数は、6つに限定されないことに留意し、また当業者なら、クラスタの総数は他の任意の数値に適宜設定することができることを理解すべきである。
本開示の一実施形態によれば、参照アンカー集合生成ユニットは、適応ユニットをさらに備えることができる。図5は、本開示の一実施形態によるモデリング・デバイス200内の参照アンカー集合生成ユニット502のブロック図を示す。
図5からわかるように、参照アンカー集合生成ユニット502は、主アンカー生成ユニット3021と同伴アンカー生成ユニット3022との間に適応ユニット5024が追加されるという点で図3の参照アンカー集合生成ユニット302と異なる。
具体的には、主アンカー生成ユニット3021によって生成される主アンカーは、適応ユニット5024に入力される。適応ユニット5024において、MLLR(最大尤度直線回帰)/MAP(最大事後確率)などの話者適応技術を、適応が同伴アンカー生成ユニット3022に出力された後に、生成された主アンカーおよび精密化された主アンカー上で使用することができる。同伴アンカー生成ユニット3022において、精密化された主アンカーは、アンカー空間を分割し、前に説明されているオペレーションを持つ同伴アンカーを見つけるように誘導される。適応技術は一般的な技術なので、その詳細についてはこれ以降説明しない。
つまり、適応ユニット5024におけるMAPまたはMLLRなどの適応方法によって登録音声により主アンカーを適応させることができ、同伴アンカー生成ユニット3022における適応の後に主アンカーに基づいて同伴アンカーを生成することができる。
適応は生成された主アンカー上で使用することに限定されず、その代わりに、生成された参照アンカー集合上で使用することができることに留意されたい。
図6は、本開示の別の実施形態によるモデリング・デバイス200内の参照アンカー集合生成ユニットのブロック図を示す。適応ユニットは、主アンカー生成ユニットと参照アンカー集合生成ユニットの組み合わせユニットとの間に直接配置されうる。
図6からわかるように、参照アンカー集合生成ユニット602は、主アンカー生成ユニット3021と組み合わせユニット3023との間に適応ユニット5024および同伴アンカー生成ユニット3022が平行に配置されるという点で図5の参照アンカー集合生成ユニット502と異なる。
具体的には、図6に示されているそれぞれのユニットのオペレーションは以下のとおりである。主アンカーが主アンカー生成ユニット3021によって生成された後、得られた主アンカーは、適応ユニット5024および同伴アンカー生成ユニット3022にそれぞれ入力される。適応ユニット5024において、適応処理のためMLLR/MAPなどのいくつかの話者適応技術を主アンカー上で使用することができる。同伴アンカー生成ユニット3022において、生成された主アンカーは、アンカー空間を分割し、図3を参照しつつ前に説明されているようなオペレーションを持つ同伴アンカーを見つけるように誘導される。次いで、適応ユニット5024から出力された適応された主アンカーおよび同伴アンカー生成ユニット3022から出力された同伴アンカーは、組み合わせ処理のため組み合わせユニット3023に入力され、精密化された参照アンカー集合が、適応された主アンカーおよび同伴アンカーを組み合わせることで得られ、目標話者の声紋を生成するために、また話者認識にさらに使用するために声紋生成ユニット203に入力される。
図7は、本開示の一実施形態による話者認識のための方法の流れ図を示す。
図7に示されているように、本開示の実施形態による話者認識のための方法は、以下のステップを含むことができる。ステップS701で、目標話者から登録音声を受け取る。ステップS702で、アンカー空間に基づいて登録音声を使用することによって参照アンカー集合を生成する。ステップS703で、目標話者の声紋を、参照アンカー集合および登録音声に基づいて生成する。本発明の実施形態によれば、ステップS701は、フロント・エンド201によって実行され、ステップS702は、上述のように参照アンカー集合生成ユニット202、302、502、および602のうちのどれか1つによって実行され、ステップS703は、声紋生成ユニット203によって実行されうる。
図8は、本開示の一実施形態により参照アンカー集合を生成するための方法の流れ図を示す。上述のように、参照アンカー集合は、主アンカーと同伴アンカーとからなり、同伴アンカーは、主アンカーに基づいて生成される。
具体的には、図7に示されているような参照アンカー集合を生成するステップS702は、図8に示されているようなサブステップをさらに含むことができる。図8に示されているように、ステップS801で、主アンカーを、アンカー空間に基づいて登録音声を使用することによって生成する。ステップS802で、同伴アンカーを、生成された主アンカーに基づいて生成する。ステップS803で、主アンカーおよび同伴アンカーを参照アンカー集合として組み合わせる。実施形態によれば、ステップS801からS803はそれぞれ、上述のように主アンカー生成ユニット3021、同伴アンカー生成ユニット3022、および組み合わせユニット3023によって実行されうる。
本開示の別の実施形態によれば、ステップS801は、アンカー空間から登録音声のモデルまでの距離が最も近いアンカー・モデルを見つけることによって主アンカーを生成するステップをさらに含む。
本開示の別の実施形態によれば、ステップS802は、主アンカーに基づいてアンカー空間を複数のクラスタに分割し、主アンカーを含まない複数のクラスタの重心までの距離が最も近いアンカー・モデルを見つけることによって同伴アンカーを生成するステップをさらに含む。
本開示の別の実施形態によれば、ステップS802は、最初に、Nを主アンカーの個数に等しい値としてアンカー空間をN個のクラスタに分割するステップと、さらに分割すべきN個のクラスタのうち最大のクラス内距離を持つ1つのクラスタを見つけるステップであって、クラスタが主アンカーを有する場合、クラスタは、主アンカーとクラスタ内の主アンカーまで最も遠い距離にあるアンカーとに基づいて2つのサブクラスタに分割されるが、クラスタが主アンカーを有しない場合には、クラスタは、より遠い距離にある主アンカーに関してクラスタ内で最も遠い2つのアンカーに基づいて2つのサブクラスタに分割されるステップと、複数のクラスタが得られるまで上記のプロセスを繰り返すステップとをさらに含む。
本開示の一実施形態によれば、図8に示されているような参照アンカー集合を生成する方法は、ステップS801の後に適応プロセスを追加するステップをさらに含むことができる。一方で、ステップS801で生成される主アンカーは、ステップS802で同伴アンカーを生成するために使用される前にMAPおよびMLLRなどの適応技術を使用することによって登録音声で適応することができ、同伴アンカーは、ステップS802の適応の後に主アンカーに基づいて生成される。他方で、MAPおよびMLLRなどの適応技術は、ステップS801で生成された主アンカー上で使用することができ、同伴アンカーは、ステップS802の適応なしで主アンカーに基づいて生成され、したがって、組み合わせユニット3023は、同伴アンカーと適応された主アンカーとを組み合わせて1つにし、参照アンカー集合を得る。本開示の実施形態によれば、適応のステップは、上述のように適応ユニット5024によって実行されうる。
この方法の上記のステップの実行は、上記の順序に限定されず、これらのステップは、逐次実行および/または並列実行することができる。図示されているステップのすべてが実行される必要があるとは限らない可能性もある。
図9は、本開示の一実施形態による話者認識システムのブロック図を示す。
図9に示されているように、話者認識システム900全体は2つのフェーズからなり、一方は登録フェーズであり、他方はテスト・フェーズである。登録フェーズの構造は、図2を参照しつつ説明されているものと同じであり、したがってその詳細は、これ以降省く。テスト・フェーズは、フロント・エンド901、声紋生成ユニット902、照合ユニット903、および判断ユニット904を含む。フロント・エンド901は、目標話者によるテスト音声を受け取り、テスト音声から特徴パラメータを抽出し、特徴パラメータを声紋生成ユニット902に送る。フロント・エンド901およびフロント・エンド201は、一体で動作させることができるが、これは上記の構成に限定されない。声紋生成ユニット902は、上述のようにフロント・エンド901から送られてきた特徴パラメータおよび参照アンカー集合生成ユニット202によって生成された参照アンカー集合に基づいて声紋を生成する。フロント・エンド901および201と同様に、声紋生成ユニット902および声紋生成ユニット203は、一体で動作させることができるが、これは上記の構成に限定されない。照合ユニット903は、テスト・フェーズから生成された声紋を登録フェーズから生成された声紋と比較し、比較の結果を判断ユニット904に送る。判断ユニット904は、結果に基づいて目標話者の同一人性を認識する、つまり、比較の結果が所定の閾値より大きい場合には、目標話者の同一人性が認識され、比較の結果が所定の閾値より小さい場合には、目標話者の同一人性が否認される。
これにより、本開示の実施形態による話者認識システム900は、目標話者から登録音声および/またはテスト音声を受け取るフロント・エンド201または901と、アンカー空間に基づいて登録音声を使用することによって参照アンカー集合を生成する参照アンカー集合生成ユニット202と、参照アンカー集合および登録音声および/またはテスト音声に基づいて声紋を生成する声紋生成ユニット203または902と、テスト音声から生成された声紋を登録音声から生成された声紋と比較する照合ユニット903と、比較の結果に基づいて目標話者の同一人性を認識する判断ユニット904とを備えるものとして構成されうる。
本開示の別の実施形態によれば、話者認識システム900は、モデリング・デバイスおよび認識デバイスを備え、モデリング・デバイスは、目標話者から登録音声を受け取る第1のフロント・エンド201と、アンカー空間に基づいて登録音声を使用することによって参照アンカー集合を生成する参照アンカー集合生成ユニット202と、参照アンカー集合および登録音声に基づいて第1の声紋を生成する第1の声紋生成ユニット203とを備え、認識デバイスは、目標話者からテスト音声を受け取る第2のフロント・エンド901と、参照アンカー集合およびテスト音声に基づいて第2の声紋を生成する第2の声紋生成ユニット902と、第1の声紋を第2の声紋と比較する照合ユニット903と、比較の結果に基づいて目標話者の同一人性を認識する判断ユニット904とを備えるものとして構成されうる。
このようにして、登録音声および話者適応技術を考慮することによって、より小さなサイズのアンカー・モデルを生成することができ、したがって、より小さなサイズの参照アンカー集合を有する信頼性の高いロバストな話者認識が可能になる。これは、計算速度の改善および大幅なメモリ削減を行ううえで非常に有利であり、計算量が少なく、参照アンカー集合が小さいことから、組み込み型アプリケーションにより適している。
本開示の有効性を確認するために、いくつかの実験を行う。第1の実験では、特定のサイズの参照アンカー集合に対する話者識別および照合の実験を使用する。表1に示されているように、本開示は従来の方法に勝る可能性がある。
Figure 0005681811
次の実験では、話者識別システムに対する参照アンカー集合のサイズの影響をチェックする。本開示は、参照アンカー集合のサイズが小さいという点で従来の方法に大きく勝っており、話者適応は性能を高めることができることが、図10から見て取れる。さらに、システムの性能に影響を及ぼす要因が2つあることも示されている。1つの要因は、目標話者に関するアンカー・モデルの弁別能力である。従来の方法の初期性能は、その弁別能力が弱いためよくない。実施形態により、アンカー生成プロセスにおいて弁別能力が考慮されるため性能が改善される。さらに、アンカー上の話者適応は、この能力を高めることも可能であり、性能は、さらに改善される。主アンカーのほかに、同伴アンカーも、特に拒否を目的として、追加の弁別能力を備えうる。これは、適応なしでアンカーのサイズが増大するときに性能が改善するからであり、これは図10の従来の方法および実施形態の曲線から示される。弁別能力を改善する適応のプラスの効果は、アンカーが小さい場合に最大となる。別の要因として、登録データのサイズの影響を受けるが、生成される話者声紋ベクトルがどれほど安定しているかということも挙げられる。図10の適応がある実施形態の曲線から、性能が低下するが、それは、アンカーのサイズが増大するときに安定したより高次元の話者声紋ベクトルを生成するためにかなり多くの登録データを必要とするからである。
アンカーのサイズが小さい場合、話者声紋生成に必要な登録データは少なくて済むため、この適応は支配的である。そのアンカーのサイズが大きくなるにつれ、安定した話者声紋ベクトルを生成するために必要な登録データはかなり大量となり、適応の効果は減少する。要するに、声紋の次元が多いほど、拒否能力が大きくなり、声紋の次元が少ないほど、必要な登録データは少なくて済む。次元が少ない場合の効果は、次元が多い場合の効果に勝るが、それは、より少ない次元の状態でこのような高める効果が加わるからである。
前記の詳細な説明は、ブロック図、流れ図、および/または実施例を使用することで、デバイスおよび/またはプロセスのさまざまな実施形態について述べている。このようなブロック図、流れ図、および/または実施例が、1つまたは複数の機能および/または演算を含んでいる限り、そのようなブロック図、流れ図、または実施例内の各機能および/またはオペレーションは、各種のハードウェア、ソフトウェア、ファームウェア、またはこれらの実質的に任意の組み合わせによって、個別におよび/またはまとめて実装することができることを、当業者なら理解するであろう。一実施形態では、本明細書に記載の主題のいくつかの部分は、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲート・アレイ(FPGA)、デジタル・シグナル・プロセッサ(DSP)、または他の集積回路形態を介して実装されうる。しかし、本明細書で開示されている実施形態のいくつかの態様は、全部または一部、1つまたは複数のコンピュータ上で実行される1つまたは複数のコンピュータ・プログラムとして(例えば、1つまたは複数のコンピュータ・システム上で実行される1つまたは複数のプログラムとして)、1つまたは複数のプロセッサ上で実行される1つまたは複数のプログラムとして(例えば、1つまたは複数のマイクロプロセッサ上で実行される1つまたは複数のプログラムとして)、ファームウェアとして、またはこれらの実質的に任意の組み合わせとして、集積回路内に等価な構成で実装されうること、またソフトウェアおよび/またはファームウェア用に回路を設計し、および/またはコードを書くことは、本開示に照らして十分に当業者の技能の範囲内にあることを、当業者なら理解するであろう。さらに、本明細書に記載の主題のメカニズムは、さまざまな形態のプログラム製品として配給することができること、また本明細書に記載の主題の例示的な一実施形態は、配給を実際に実行するために使用される特定の種類の信号伝送媒体に関係なく適用されることを、当業者なら理解するであろう。信号伝送媒体の例としては、限定はしないが、フロッピー(登録商標)・ディスク、ハードディスク・ドライブ、コンパクト・ディスク(CD)、デジタル・ビデオ・ディスク(DVD)、デジタル・テープ、コンピュータ・メモリなど記録可能型の媒体、およびデジタルおよび/またはアナログ通信媒体など送信型の媒体(例えば、光ファイバ・ケーブル、導波管、有線通信リンク、ワイヤレス通信リンクなど)が挙げられる。
本明細書に記載の主題は、ときには、異なる他のコンポーネント内に収納されるか、または接続される異なるコンポーネントを例示する。このように示されているアーキテクチャは単に例示的であること、また実際に、同じ機能を達成する他の多くのアーキテクチャを実装できることは理解されるべきである。概念的な意味において、同じ機能を達成するためにコンポーネントをどのように配置しても、所望の機能が達成されるように実際に「関連付けられる」。したがって、特定の機能を達成するように組み合わされた本明細書の任意の2つのコンポーネントは、アーキテクチャまたは中間コンポーネントに関係なく所望の機能が達成されるように互いに「関連付けられている」ものとみなせる。同様に、そのように関連付けられている任意の2つのコンポーネントは、さらに、所望の機能を達成するように互いに「動作可能なように接続される」か、または「動作可能なように結合される」とみなせ、またそのように関連付けることができる任意の2つのコンポーネントは、さらに、所望の機能を達成するように互いに「動作可能なように結合可能である」とみなせる。動作可能なように結合可能であることの特定の例としては、限定はしないが、物理的に嵌合可能である、および/または物理的に相互にやり取りするコンポーネント、および/または無線で相互にやり取りすることが可能である、および/または無線で相互にやり取りするコンポーネント、および/または論理的に相互にやり取りする、および/または論理的に相互にやり取り可能なコンポーネントが挙げられる。
本明細書における実質的に複数形および/または単数形の語の使用に関して、当業者なら、背景状況および/または用途に応じて適切に、複数形を単数形に、および/または単数形を複数形に変えることができる。さまざまな単数形/複数形の置き換えは、本明細書ではわかりやすくするために明示的に述べる場合がある。
一般に、本明細書で使用されている、また特に付属の請求項(例えば、付属の請求項の本文)で使用されている言い回しは、「制約のない」言い回し(例えば、「含むこと」という言い回しは、「限定はしないが、含むこと」と解釈すべきであり、「有する」という言い回しは、「少なくとも有する」と解釈すべきであり、「含む」という言い回しは、「限定はしないが、含む」と解釈すべきである、など)として一般的に意図されていることを、当業者なら理解するであろう。さらに、導入される請求項列挙の特定の数が意図されている場合、そのような意図は、請求項内で明示的に記載され、そのような列挙がない場合は、そのような意図は存在しないことを、当業者なら理解するであろう。例えば、理解の助けとして、以下の付属の請求項に、導入句「少なくとも1つの」および「1つまたは複数の」を入れて請求項列挙を導入することができる。しかし、このような語句を使用したとしても、不定冠詞「a」または「an」による請求項列挙の導入によって、たとえその請求項が導入句「1つまたは複数の」または「少なくとも1つの」、および「a」または「an」などの不定冠詞を含むとしても、そのような導入される請求項列挙を含む特定の請求項がそのような列挙を1つしか含まない開示に制限されることを意味すると解釈すべきではなく(例えば、「a」および/または「an」は、典型的には、「少なくとも1つの」または「1つまたは複数の」を意味すると解釈されるべきである)、請求項列挙を導入するために使用される定冠詞の使用についても同じことが成り立つ。さらに、特定の数の導入される請求項列挙が明示的に記載されるとしても、そのような列挙は、典型的には、少なくとも記載されている数を意味するものと解釈すべきであることを、当業者なら理解するであろう(例えば、ほかに修飾語を付けない「2つの列挙」という飾りのない列挙は、典型的には、少なくとも2つの列挙、または2つ以上の列挙を意味する)。「A、B、またはCなどのうちの少なくとも1つ」に類似の慣例的言い回しが使用される場合、一般的に、このような構文は、当業者がこの慣例的言い回しを理解するという意味で意図されたものである(例えば、「A、B、またはCのうちの少なくとも1つを有するシステム」は、限定はしないが、Aだけ、Bだけ、Cだけ、AおよびBを一緒に、AおよびCを一緒に、BおよびCを一緒に、および/またはA、B、およびCを一緒に、などを有するシステムを含む)。さらに、説明中であろうと、請求項中であろうと、図面中であろうと2つ以上の代替語を示す実質的に任意の離接語および/または語句は、複数の語のうちの1つ、複数の語のいずれか、または両方の語を含む可能性を考えるものと理解されるべきであることを、当業者なら理解するであろう。例えば、語句「AまたはB」は、「A」または「B」または「AおよびB」の可能性を含むと理解されるであろう。
本明細書ではさまざまな態様および実施形態が開示されているが、他の態様および実施形態も当業者には明らかであろう。本明細書で開示されているさまざまな態様および実施形態は、例示することを目的としており、制限することを意図しておらず、真の範囲および精神は以下の請求項によって示される。

Claims (13)

  1. 話者認識のためのモデリング・デバイスであって、
    第1目標話者の第1音声を受信するフロント・エンドと、
    前記受信した第1音声の音響特性を表す第1目標話者アンカー・モデルと、それぞれ話者の音響特性を表す複数のアンカー・モデルとを、前記複数のアンカー・モデルを含む空間であるアンカー空間において比較し、前記複数のアンカー・モデルから前記第1目標話者アンカー・モデルとの距離が最も近いアンカー・モデルを主アンカー・モデルとして生成する、主アンカー生成ユニットと、
    前記アンカー空間を、複数のクラスタに分割し、前記複数のクラスタのうち、前記主アンカー・モデルを含まないクラスタについて、当該クラスタの重心と当該クラスタに含まれるアンカー・モデルとの距離を比較して、当該クラスタの重心から最も近いアンカー・モデルを同伴アンカー・モデルとして生成する、同伴アンカー生成ユニットと、
    前記主アンカー・モデルと前記同伴アンカー・モデルとを組み合わせて、前記主アンカー・モデルと前記同伴アンカー・モデルとを含む参照アンカー集合を生成する、組み合わせユニットと、
    前記参照アンカー集合および前記受信した第1音声に基づいて前記第1目標話者の声紋を生成する声紋生成ユニットと、を備える、
    話者認識のためのモデリング・デバイス。
  2. 前記アンカー空間は、前記同伴アンカー生成ユニットにおいて、
    (A)Nを前記主アンカー・モデルの個数に等しい値として前記アンカー空間をN個のクラスタに分割するプロセスと、
    (B)前記N個のクラスタのうち最大のクラス内距離を持つのクラスタを抽出するプロセスと、
    (C)前記一のクラスタが主アンカー・モデルを有する場合、前記クラスタ、前記主アンカー・モデルと前記クラスタ内の前記主アンカー・モデルまで最も遠い距離にあるアンカー・モデルとに基づいて2つのサブクラスタに分割、前記クラスタが主アンカー・モデルを有しない場合には、前記クラスタ、より遠い距離にある前記主アンカー・モデルに関して前記クラスタ内で最も遠い2つのアンカー・モデルに基づいて2つのサブクラスタに分割するプロセスと、
    (D)前記複数のクラスタが得られるまで(A)〜(C)のプロセスを繰り返すプロセスと、
    によって前記複数のクラスタに分割される、
    請求項に記載の話者認識のためのモデリング・デバイス。
  3. 前記距離は、尤度値である、
    請求項に記載の話者認識のためのモデリング・デバイス。
  4. 前記主アンカー・モデルは、MAPまたはMLLRの適応方法によって前記第1音声により適応され、前記同伴アンカー・モデルは、適応後に前記主アンカー・モデルに基づいて生成される、
    請求項に記載の話者認識のためのモデリング・デバイス。
  5. 前記主アンカー・モデルは、MAPまたはMLLRの適応方法によって前記第1音声により適応され、前記同伴アンカー・モデルおよび前記適応された主アンカー・モデルは、前記参照アンカー集合として組み合わされる、
    請求項に記載の話者認識のためのモデリング・デバイス。
  6. 前記フロント・エンドは、第2目標話者から第2音声をさらに受信し、
    前記声紋生成ユニットは、前記参照アンカー集合および前記受信した第2音声に基づいて前記第2目標話者の声紋をさらに生成し、
    前記生成した第1目標話者の声紋を格納するデータベースと、
    前記第1目標話者の声紋と、前記第2目標話者の声紋とを比較する照合ユニットと、
    前記照合ユニットの比較結果に基づいて前記第1目標話者と前記第2目標話者との同一人性を判断する判断ユニットと、をさらに備える、
    請求項1に記載の話者認識のためのモデリング・デバイス。
  7. 話者認識のためのモデリング方法であって、
    第1目標話者から第1音声を受信するステップと、
    前記受信した第1音声の音響特性を表す第1目標話者アンカー・モデルと、それぞれ話者の音響特性を表す複数のアンカー・モデルとを、前記複数のアンカー・モデルを含む空間であるアンカー空間において比較し、前記複数のアンカー・モデルから前記第1目標話者アンカー・モデルとの距離が最も近いアンカー・モデルを主アンカー・モデルとして生成するステップと、
    前記アンカー空間を、複数のクラスタに分割し、前記複数のクラスタのうち、前記主アンカー・モデルを含まないクラスタについて、当該クラスタの重心と当該クラスタに含まれるアンカー・モデルとの距離を比較して、当該クラスタの重心から最も近いアンカー・モデルを同伴アンカー・モデルとして生成するステップと、
    前記主アンカー・モデルと前記同伴アンカー・モデルとを組み合わせて、前記主アンカー・モデルと前記同伴アンカー・モデルとを含む参照アンカー集合を生成するステップと、
    前記参照アンカー集合および前記受信した音声に基づいて前記第1目標話者の声紋を生成するステップとを含む、
    話者認識のためのモデリング方法。
  8. 前記アンカー空間は、前記同伴アンカー・モデルを生成するステップにおいて、
    (A)Nを前記主アンカー・モデルの個数に等しい値として前記アンカー空間をN個のクラスタに分割するプロセスと、
    (B)前記N個のクラスタのうち最大のクラス内距離を持つ一のクラスタを抽出するプロセスと、
    (C)前記一のクラスタが主アンカー・モデルを有する場合、前記クラスタを、前記主アンカー・モデルと前記クラスタ内の前記主アンカー・モデルまで最も遠い距離にあるアンカー・モデルとに基づいて2つのサブクラスタに分割し、前記クラスタが主アンカー・モデルを有しない場合には、前記クラスタを、より遠い距離にある前記主アンカー・モデルに関して前記クラスタ内で最も遠い2つのアンカー・モデルに基づいて2つのサブクラスタに分割するプロセスと、
    (D)前記複数のクラスタが得られるまで(A)〜(C)のプロセスを繰り返すプロセスと、
    によって前記複数のクラスタに分割される、
    請求項7に記載の話者認識のためのモデリング方法。
  9. 前記距離は、尤度値である、
    請求項に記載の話者認識のためのモデリング方法。
  10. 前記主アンカー・モデルを、MAPまたはMLLRの適応方法によって前記第1音声により適応するステップと、
    前記同伴アンカー・モデルを、適応後に前記主アンカー・モデルに基づいて生成するステップと、をさらに含む、
    請求項に記載の話者認識のためのモデリング方法。
  11. 前記主アンカー・モデルを、MAPまたはMLLRの適応方法によって前記第1音声により適応するステップと、
    前記同伴アンカー・モデルおよび前記適応された主アンカー・モデルを、前記参照アンカー集合として組み合わせるステップとをさらに含む、
    請求項に記載の話者認識のためのモデリング方法。
  12. 前記生成した第1目標話者の声紋をデータベースに格納するステップと、
    第2目標話者から第2音声を受信するステップと、
    前記参照アンカー集合および前記受信した第2音声に基づいて前記第2目標話者の声紋を生成するステップと、
    前記第1目標話者の声紋と、前記第2目標話者の声紋とを比較するステップと、
    前記比較するステップの比較結果に基づいて前記第1目標話者と前記第2目標話者との同一人性を判断するステップと、をさらに含む、
    請求項7に記載の話者認識のためのモデリング方法。
  13. モデリング・デバイスおよび認識デバイスを備える話者認識システムであって、
    前記モデリング・デバイスは、
    第1目標話者の第1音声を受信する第1フロント・エンドと、
    前記受信した第1音声の音響特性を表す第1目標話者アンカー・モデルと、それぞれ話者の音響特性を表す複数のアンカー・モデルとを、前記複数のアンカー・モデルを含む空間であるアンカー空間において比較し、前記複数のアンカー・モデルから前記第1目標話者アンカー・モデルとの距離が最も近いアンカー・モデルを主アンカー・モデルとして生成する、主アンカー生成ユニットと、
    前記アンカー空間を、複数のクラスタに分割し、前記複数のクラスタのうち、前記主アンカー・モデルを含まないクラスタについて、当該クラスタの重心と当該クラスタに含まれるアンカー・モデルとの距離を比較して、当該クラスタの重心から最も近いアンカー・モデルを同伴アンカー・モデルとして生成する、同伴アンカー生成ユニットと、
    前記主アンカー・モデルと前記同伴アンカー・モデルとを組み合わせて、前記主アンカー・モデルと前記同伴アンカー・モデルとを含む参照アンカー集合を生成する、組み合わせユニットと、
    前記参照アンカー集合および前記受信した第1音声に基づいて前記第1目標話者の声紋を生成する第1声紋生成ユニットと、
    前記生成された前記第1目標話者の声紋を格納するデータベースと、を備え、
    前記認識デバイスは、
    第2目標話者から第2音声を受信する第2フロント・エンドと、
    前記モデリング・デバイスにおいて生成された参照アンカー集合を参照して、前記参照アンカー集合および前記受信した第2音声に基づいて前記第2目標話者の声紋を生成する第2声紋生成ユニットと、
    前記第1目標話者の声紋と、前記第2目標話者の声紋とを比較する照合ユニットと、
    前記照合ユニットの比較結果に基づいて前記第1目標話者と前記第2目標話者との同一人性を判断する判断ユニットと、をさらに備える、
    話者認識システム。
JP2013542329A 2010-12-10 2010-12-10 話者認識のためのモデリング・デバイスおよび方法、ならびに話者認識システム Active JP5681811B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2010/079650 WO2012075640A1 (en) 2010-12-10 2010-12-10 Modeling device and method for speaker recognition, and speaker recognition system

Publications (2)

Publication Number Publication Date
JP2014502374A JP2014502374A (ja) 2014-01-30
JP5681811B2 true JP5681811B2 (ja) 2015-03-11

Family

ID=46206543

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013542329A Active JP5681811B2 (ja) 2010-12-10 2010-12-10 話者認識のためのモデリング・デバイスおよび方法、ならびに話者認識システム

Country Status (4)

Country Link
US (1) US9595260B2 (ja)
JP (1) JP5681811B2 (ja)
CN (1) CN103229233B (ja)
WO (1) WO2012075640A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102332263B (zh) * 2011-09-23 2012-11-07 浙江大学 一种基于近邻原则合成情感模型的说话人识别方法
JP6350148B2 (ja) * 2014-09-09 2018-07-04 富士通株式会社 話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム
US9892726B1 (en) * 2014-12-17 2018-02-13 Amazon Technologies, Inc. Class-based discriminative training of speech models
JP6596376B2 (ja) * 2015-04-22 2019-10-23 パナソニック株式会社 話者識別方法及び話者識別装置
CN106205610B (zh) * 2016-06-29 2019-11-26 联想(北京)有限公司 一种语音信息识别方法和设备
CN106296302B (zh) * 2016-08-18 2019-07-09 中国联合网络通信集团有限公司 一种语音数据处理方法、装置、用具和系统
US10522154B2 (en) 2017-02-13 2019-12-31 Google Llc Voice signature for user authentication to electronic device
GB201802309D0 (en) * 2017-11-14 2018-03-28 Cirrus Logic Int Semiconductor Ltd Enrolment in speaker recognition system
CN108074576B (zh) * 2017-12-14 2022-04-08 讯飞智元信息科技有限公司 审讯场景下的说话人角色分离方法及系统
US11593610B2 (en) 2018-04-25 2023-02-28 Metropolitan Airports Commission Airport noise classification method and system
US11222641B2 (en) * 2018-10-05 2022-01-11 Panasonic Intellectual Property Corporation Of America Speaker recognition device, speaker recognition method, and recording medium
CN109378006B (zh) 2018-12-28 2022-09-16 三星电子(中国)研发中心 一种跨设备声纹识别方法及系统
CN109800299B (zh) * 2019-02-01 2021-03-09 浙江核新同花顺网络信息股份有限公司 一种说话人聚类方法及相关装置
CN112420057B (zh) * 2020-10-26 2022-05-03 四川长虹电器股份有限公司 基于距离编码的声纹识别方法、装置、设备及存储介质
CN112599137B (zh) * 2020-12-16 2024-12-06 康键信息技术(深圳)有限公司 验证声纹模型识别效果的方法、装置和计算机设备
US12327564B1 (en) * 2021-09-06 2025-06-10 Amazon Technologies, Inc. Voice-based user recognition

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2554623B1 (fr) * 1983-11-08 1986-08-14 Texas Instruments France Procede d'analyse de la parole independant du locuteur
US5895447A (en) 1996-02-02 1999-04-20 International Business Machines Corporation Speech recognition using thresholded speaker class model selection or model adaptation
US6058363A (en) * 1997-01-02 2000-05-02 Texas Instruments Incorporated Method and system for speaker-independent recognition of user-defined phrases
US6073096A (en) * 1998-02-04 2000-06-06 International Business Machines Corporation Speaker adaptation system and method based on class-specific pre-clustering training speakers
US6107935A (en) * 1998-02-11 2000-08-22 International Business Machines Corporation Systems and methods for access filtering employing relaxed recognition constraints
US6389393B1 (en) * 1998-04-28 2002-05-14 Texas Instruments Incorporated Method of adapting speech recognition models for speaker, microphone, and noisy environment
JP4738606B2 (ja) * 2001-01-29 2011-08-03 株式会社アニモ データ照合システム及び方法
JP2002358095A (ja) * 2001-03-30 2002-12-13 Sony Corp 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体
US20020178004A1 (en) * 2001-05-23 2002-11-28 Chienchung Chang Method and apparatus for voice recognition
AU2002311452B2 (en) * 2001-06-19 2008-06-19 Speech Sentinel Limited Speaker recognition system
CN1453767A (zh) * 2002-04-26 2003-11-05 日本先锋公司 语音识别装置以及语音识别方法
CN1188804C (zh) 2002-11-15 2005-02-09 郑方 一种声纹识别方法
US7457745B2 (en) * 2002-12-03 2008-11-25 Hrl Laboratories, Llc Method and apparatus for fast on-line automatic speaker/environment adaptation for speech/speaker recognition in the presence of changing environments
US20040122672A1 (en) * 2002-12-18 2004-06-24 Jean-Francois Bonastre Gaussian model-based dynamic time warping system and method for speech processing
US20040186724A1 (en) 2003-03-19 2004-09-23 Philippe Morin Hands-free speaker verification system relying on efficient management of accuracy risk and user convenience
US20040260550A1 (en) * 2003-06-20 2004-12-23 Burges Chris J.C. Audio processing system and method for classifying speakers in audio data
EP1639579A1 (fr) * 2003-07-01 2006-03-29 France Telecom Procede et systeme d'analyse de signaux vocaux pour la representation compacte de locuteurs
JP2005321530A (ja) * 2004-05-07 2005-11-17 Sony Corp 発話識別装置および発話識別方法
JP2005345683A (ja) * 2004-06-02 2005-12-15 Toshiba Tec Corp 話者認識装置、プログラム及び話者認識方法
CN100570712C (zh) * 2005-12-13 2009-12-16 浙江大学 基于锚模型空间投影序数比较的快速说话人确认方法
US20070219801A1 (en) * 2006-03-14 2007-09-20 Prabha Sundaram System, method and computer program product for updating a biometric model based on changes in a biometric feature of a user
JP5052449B2 (ja) * 2008-07-29 2012-10-17 日本電信電話株式会社 発話区間話者分類装置とその方法と、その装置を用いた音声認識装置とその方法と、プログラムと記録媒体

Also Published As

Publication number Publication date
US20130253931A1 (en) 2013-09-26
WO2012075640A1 (en) 2012-06-14
CN103229233A (zh) 2013-07-31
JP2014502374A (ja) 2014-01-30
CN103229233B (zh) 2015-11-25
US9595260B2 (en) 2017-03-14

Similar Documents

Publication Publication Date Title
JP5681811B2 (ja) 話者認識のためのモデリング・デバイスおよび方法、ならびに話者認識システム
CN112204657B (zh) 利用提前停止聚类的讲话者分离
Zheng et al. Black-box adversarial attacks on commercial speech platforms with minimal information
CN108417217B (zh) 说话人识别网络模型训练方法、说话人识别方法及系统
US10629185B2 (en) Statistical acoustic model adaptation method, acoustic model learning method suitable for statistical acoustic model adaptation, storage medium storing parameters for building deep neural network, and computer program for adapting statistical acoustic model
Chen et al. Query-by-example keyword spotting using long short-term memory networks
Martınez et al. Language recognition in ivectors space
JP5853029B2 (ja) 話者照合のためのパスフレーズ・モデリングのデバイスおよび方法、ならびに話者照合システム
US9653093B1 (en) Generative modeling of speech using neural networks
CN106328127B (zh) 语音识别设备,语音识别方法和电子装置
CN112825249B (zh) 语音处理方法和设备
CN108766445A (zh) 声纹识别方法及系统
Tachioka et al. Discriminative methods for noise robust speech recognition: A CHiME challenge benchmark
CN112700778B (zh) 语音识别方法和语音识别设备
EP3682443B1 (en) Voice-controlled management of user profiles
KR20200012963A (ko) 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체
CN111524527A (zh) 话者分离方法、装置、电子设备和存储介质
US11355102B1 (en) Wakeword detection
US9142211B2 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium
Yu et al. Cam: Context-aware masking for robust speaker verification
EP3682444A1 (en) Voice-controlled management of user profiles
CN111816164A (zh) 用于语音识别的方法及设备
US9892726B1 (en) Class-based discriminative training of speech models
Wong et al. Student-teacher training with diverse decision tree ensembles
Sethu et al. GMM based speaker variability compensated system for interspeech 2013 compare emotion challenge.

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20140606

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140924

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150109

R150 Certificate of patent or registration of utility model

Ref document number: 5681811

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150