[go: up one dir, main page]

JP2009527798A5 - - Google Patents

Download PDF

Info

Publication number
JP2009527798A5
JP2009527798A5 JP2008556366A JP2008556366A JP2009527798A5 JP 2009527798 A5 JP2009527798 A5 JP 2009527798A5 JP 2008556366 A JP2008556366 A JP 2008556366A JP 2008556366 A JP2008556366 A JP 2008556366A JP 2009527798 A5 JP2009527798 A5 JP 2009527798A5
Authority
JP
Japan
Prior art keywords
average
training
determining
similarity score
background
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008556366A
Other languages
English (en)
Other versions
JP2009527798A (ja
JP4876134B2 (ja
Filing date
Publication date
Priority claimed from US11/358,302 external-priority patent/US7539616B2/en
Application filed filed Critical
Publication of JP2009527798A publication Critical patent/JP2009527798A/ja
Publication of JP2009527798A5 publication Critical patent/JP2009527798A5/ja
Application granted granted Critical
Publication of JP4876134B2 publication Critical patent/JP4876134B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Claims (12)

  1. ユーザにより生成された音声信号を受け取ることと、
    前記音声信号に基づいて複数の混合成分のそれぞれの背景平均を含む背景モデルを適合させることによって、前記複数の混合成分のそれぞれの適合平均を形成することと、
    公称ユーザ識別を受け取ることと、
    前記複数の混合成分について判定された関数の合計を判定することによって前記公称ユーザにより提供されたトレーニング音声信号と前記受け取られた音声信号との間の類似性スコアを判定することであって、各関数は、前記受け取った音声信号に基づく混合成分の事後確率と、適合平均と背景平均との間の差との積を含む、前記判定することと、
    前記受け取った音声信号が前記公称ユーザにより生成されたかどうかを判定するために前記類似性スコアを使用することと、
    を含むことを特徴とする方法。
  2. ユーザからのトレーニング音声信号に基づいて前記背景モデルを適合させることによって、前記複数の混合成分のそれぞれのトレーニング平均を形成することをさらに含むことを特徴とする請求項1に記載の方法。
  3. 前記各関数は、前記トレーニング音声信号に基づく混合成分の事後確率と、トレーニング平均と背景平均との間の差との積をさらに含むことを特徴とする請求項2に記載の方法。
  4. 前記公称ユーザ識別に基づいて前記関数内で使用されるトレーニング平均(1002)を選択すること、
    をさらに含むことを特徴とする請求項3に記載の方法。
  5. 話者プール内の複数の話者のそれぞれの話者プール平均を形成することをさらに含み、話者の前記話者プール平均は、前記話者からの音声に基づいて前記背景モデルを適合させることによって形成されることを特徴とする請求項1に記載の方法。
  6. 前記各関数は、対応するしきい値をさらに含み、各しきい値は、前記話者プール内の前記話者のサブセットの話者プール平均に基づくことを特徴とする請求項5に記載の方法。
  7. 前記話者プール平均および前記適合平均から判定された類似性スコアに基づいて前記話者プールから話者の前記サブセットを選択することをさらに含むことを特徴とする請求項6に記載の方法。
  8. ユーザからのトレーニング音声信号に基づいて前記背景モデルを適合させることによって前記複数の混合成分のそれぞれのトレーニング平均を形成することと、
    前記話者プール内の前記話者の第2サブセットの話者プール平均に基づいて公称ユーザしきい値を判定することであって、前記第2サブセットは、前記話者プール平均および前記トレーニング平均から判定された類似性スコアに基づいて前記話者プールから選択される、判定することと
    をさらに含むことを特徴とする請求項7に記載の方法。
  9. 前記各関数は、第2しきい値をさらに含むことを特徴とする請求項8に記載の方法。
  10. コンピュータ実行可能命令を記憶したコンピュータ可読記録媒体であって、前記コンピュータ実行可能命令はプロセッサにより実行されると以下のステップを前記プロセッサに実行させる前記コンピュータ可読記録媒体において、
    第1適合平均を形成するためにテスト発話に基づいて背景平均を含む背景モデルを適合することと、
    第2適合平均を形成するために格納されたユーザ発話に基づいて前記背景モデルを適合することと、
    類似性スコアの第1セットを形成するために前記第1適合平均に基づいて前記テスト発話とトレーニング発話のセットのそれぞれとの間の類似性スコアを判定することと、
    前記テスト発話の集団としてトレーニング発話の前記セットのサブセットを選択するために前記類似性スコアの第1セットを使用することと、
    類似性スコアの第2セットを形成するために前記第2適合平均に基づいて格納された前記テスト発話とトレーニング発話の前記セットのそれぞれとの間の類似性スコアを判定することと、
    格納された前記ユーザ発話の集団としてトレーニング発話の前記セットのサブセットを選択するために前記類似性スコアの第2セットを使用することと、
    第1しきい値を計算するために前記テスト発話の集団を使用することと、
    第2しきい値を計算するために前記格納されたユーザ発話の集団を使用することと、
    前記テスト発話と前記格納されたユーザ発話との間の認証類似性スコアを計算するために前記第1しきい値、前記第2しきい値、前記第1適合平均と前記背景平均との間の差、及び前記第2適合平均と前記背景平均との間の差を使用することと
    を含むステップを有することを特徴とするコンピュータ可読記録媒体。
  11. 前記テスト発話とトレーニング発話との間の類似性スコアを判定することは、前記背景モデルの前記背景平均と前記第1適合平均との間の差を判定することと、前記類似性スコアを判定するために前記差を使用することとを含むことを特徴とする請求項10に記載のコンピュータ可読記録媒体。
  12. 前記テスト発話とトレーニング発話との間の類似性スコアを判定することは、前記テスト発話に基づいて混合成分の確率を判定することと、前記類似性スコアを判定するために、前記混合成分の前記確率と前記適合平均と前記背景平均との間の差との積を使用することとをさらに含むことを特徴とする請求項11に記載のコンピュータ可読記録媒体。
JP2008556366A 2006-02-20 2007-02-13 話者認証 Expired - Fee Related JP4876134B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/358,302 US7539616B2 (en) 2006-02-20 2006-02-20 Speaker authentication using adapted background models
US11/358,302 2006-02-20
PCT/US2007/004137 WO2007098039A1 (en) 2006-02-20 2007-02-13 Speaker authentication

Publications (3)

Publication Number Publication Date
JP2009527798A JP2009527798A (ja) 2009-07-30
JP2009527798A5 true JP2009527798A5 (ja) 2010-01-28
JP4876134B2 JP4876134B2 (ja) 2012-02-15

Family

ID=38429414

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008556366A Expired - Fee Related JP4876134B2 (ja) 2006-02-20 2007-02-13 話者認証

Country Status (11)

Country Link
US (1) US7539616B2 (ja)
EP (2) EP1989701B1 (ja)
JP (1) JP4876134B2 (ja)
KR (1) KR101323061B1 (ja)
CN (2) CN101385074B (ja)
AU (1) AU2007217884A1 (ja)
CA (2) CA2643481C (ja)
MX (1) MX2008010478A (ja)
NO (1) NO20083580L (ja)
RU (1) RU2008134112A (ja)
WO (1) WO2007098039A1 (ja)

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7877255B2 (en) * 2006-03-31 2011-01-25 Voice Signal Technologies, Inc. Speech recognition using channel verification
KR20080090034A (ko) * 2007-04-03 2008-10-08 삼성전자주식회사 음성 화자 인식 방법 및 시스템
AU2012200605B2 (en) * 2008-09-05 2014-01-23 Auraya Pty Ltd Voice authentication system and methods
CA2736133C (en) 2008-09-05 2016-11-08 Auraya Pty Ltd Voice authentication system and methods
RU2422920C2 (ru) * 2009-02-24 2011-06-27 Государственное образовательное учреждение высшего профессионального образования "Казанский государственный университет им. В.И. Ульянова-Ленина" Способ аутентификации диктора по парольной фразе
RU2422921C2 (ru) * 2009-08-11 2011-06-27 Государственное образовательное учреждение высшего профессионального образования "Казанский государственный университет им. В.И. Ульянова-Ленина" Способ аутентификации диктора по парольной фразе
CN101833951B (zh) * 2010-03-04 2011-11-09 清华大学 用于说话人识别的多背景模型建立方法
US8645136B2 (en) * 2010-07-20 2014-02-04 Intellisist, Inc. System and method for efficiently reducing transcription error using hybrid voice transcription
US9224388B2 (en) * 2011-03-04 2015-12-29 Qualcomm Incorporated Sound recognition method and system
US9159324B2 (en) 2011-07-01 2015-10-13 Qualcomm Incorporated Identifying people that are proximate to a mobile device user via social graphs, speech models, and user context
US9489950B2 (en) * 2012-05-31 2016-11-08 Agency For Science, Technology And Research Method and system for dual scoring for text-dependent speaker verification
US9036890B2 (en) 2012-06-05 2015-05-19 Outerwall Inc. Optical coin discrimination systems and methods for use with consumer-operated kiosks and the like
CN102737633B (zh) * 2012-06-21 2013-12-25 北京华信恒达软件技术有限公司 一种基于张量子空间分析的说话人识别方法及其装置
EP2713367B1 (en) * 2012-09-28 2016-11-09 Agnitio, S.L. Speaker recognition
US20140095161A1 (en) * 2012-09-28 2014-04-03 At&T Intellectual Property I, L.P. System and method for channel equalization using characteristics of an unknown signal
US9240184B1 (en) * 2012-11-15 2016-01-19 Google Inc. Frame-level combination of deep neural network and gaussian mixture models
US8739955B1 (en) * 2013-03-11 2014-06-03 Outerwall Inc. Discriminant verification systems and methods for use in coin discrimination
US9443367B2 (en) 2014-01-17 2016-09-13 Outerwall Inc. Digital image coin discrimination for use with consumer-operated kiosks and the like
US9542948B2 (en) 2014-04-09 2017-01-10 Google Inc. Text-dependent speaker identification
US9384738B2 (en) * 2014-06-24 2016-07-05 Google Inc. Dynamic threshold for speaker verification
US9653093B1 (en) * 2014-08-19 2017-05-16 Amazon Technologies, Inc. Generative modeling of speech using neural networks
JP6239471B2 (ja) * 2014-09-19 2017-11-29 株式会社東芝 認証システム、認証装置および認証方法
CN105513588B (zh) * 2014-09-22 2019-06-25 联想(北京)有限公司 一种信息处理方法及电子设备
CN106384587B (zh) * 2015-07-24 2019-11-15 科大讯飞股份有限公司 一种语音识别方法及系统
CN105096941B (zh) * 2015-09-02 2017-10-31 百度在线网络技术(北京)有限公司 语音识别方法以及装置
US10311219B2 (en) * 2016-06-07 2019-06-04 Vocalzoom Systems Ltd. Device, system, and method of user authentication utilizing an optical microphone
US10141009B2 (en) 2016-06-28 2018-11-27 Pindrop Security, Inc. System and method for cluster-based audio event detection
US20180018973A1 (en) * 2016-07-15 2018-01-18 Google Inc. Speaker verification
US9824692B1 (en) 2016-09-12 2017-11-21 Pindrop Security, Inc. End-to-end speaker recognition using deep neural network
WO2018053531A1 (en) * 2016-09-19 2018-03-22 Pindrop Security, Inc. Dimensionality reduction of baum-welch statistics for speaker recognition
US10347256B2 (en) 2016-09-19 2019-07-09 Pindrop Security, Inc. Channel-compensated low-level features for speaker recognition
WO2018053537A1 (en) 2016-09-19 2018-03-22 Pindrop Security, Inc. Improvements of speaker recognition in the call center
FR3058558B1 (fr) * 2016-11-07 2020-01-10 Pw Group Procede et systeme d'authentification par biometrie vocale d'un utilisateur
CN106782564B (zh) * 2016-11-18 2018-09-11 百度在线网络技术(北京)有限公司 用于处理语音数据的方法和装置
US10397398B2 (en) 2017-01-17 2019-08-27 Pindrop Security, Inc. Authentication using DTMF tones
US10950243B2 (en) * 2017-11-29 2021-03-16 ILLUMA Labs Inc. Method for reduced computation of t-matrix training for speaker recognition
US10950244B2 (en) * 2017-11-29 2021-03-16 ILLUMA Labs LLC. System and method for speaker authentication and identification
US10832683B2 (en) * 2017-11-29 2020-11-10 ILLUMA Labs LLC. System and method for efficient processing of universal background models for speaker recognition
WO2019129511A1 (en) * 2017-12-26 2019-07-04 Robert Bosch Gmbh Speaker identification with ultra-short speech segments for far and near field voice assistance applications
US11893999B1 (en) * 2018-05-13 2024-02-06 Amazon Technologies, Inc. Speech based user recognition
US10762905B2 (en) * 2018-07-31 2020-09-01 Cirrus Logic, Inc. Speaker verification
WO2020159917A1 (en) 2019-01-28 2020-08-06 Pindrop Security, Inc. Unsupervised keyword spotting and word discovery for fraud analytics
WO2020163624A1 (en) 2019-02-06 2020-08-13 Pindrop Security, Inc. Systems and methods of gateway detection in a telephone network
WO2020198354A1 (en) 2019-03-25 2020-10-01 Pindrop Security, Inc. Detection of calls from voice assistants
US12015637B2 (en) 2019-04-08 2024-06-18 Pindrop Security, Inc. Systems and methods for end-to-end architectures for voice spoofing detection
CN110379433B (zh) * 2019-08-02 2021-10-08 清华大学 身份验证的方法、装置、计算机设备及存储介质
US11158325B2 (en) * 2019-10-24 2021-10-26 Cirrus Logic, Inc. Voice biometric system
CN111564152B (zh) * 2020-07-16 2020-11-24 北京声智科技有限公司 语音转换方法、装置、电子设备及存储介质
US12482472B2 (en) * 2020-11-11 2025-11-25 Adeia Guides Inc. Systems and methods for detecting a mimicked voice input signal

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5625748A (en) * 1994-04-18 1997-04-29 Bbn Corporation Topic discriminator using posterior probability or confidence scores
US5864810A (en) * 1995-01-20 1999-01-26 Sri International Method and apparatus for speech recognition adapted to an individual speaker
US5839103A (en) * 1995-06-07 1998-11-17 Rutgers, The State University Of New Jersey Speaker verification system using decision fusion logic
US5787394A (en) * 1995-12-13 1998-07-28 International Business Machines Corporation State-dependent speaker clustering for speaker adaptation
WO1998014934A1 (en) * 1996-10-02 1998-04-09 Sri International Method and system for automatic text-independent grading of pronunciation for language instruction
US5897616A (en) 1997-06-11 1999-04-27 International Business Machines Corporation Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases
US6807537B1 (en) * 1997-12-04 2004-10-19 Microsoft Corporation Mixtures of Bayesian networks
US6141644A (en) * 1998-09-04 2000-10-31 Matsushita Electric Industrial Co., Ltd. Speaker verification and speaker identification based on eigenvoices
ES2239650T3 (es) * 2000-07-05 2005-10-01 Matsushita Electric Industrial Co., Ltd. Identificacion y verificacion de interlocutores.
MXPA03010751A (es) * 2001-05-25 2005-03-07 Dolby Lab Licensing Corp Segmentacion de senales de audio en eventos auditivos.
EP1497935B1 (en) * 2002-04-05 2008-02-20 International Business Machines Corporation Feature-based audio content identification
KR100611562B1 (ko) 2003-09-17 2006-08-11 (주)한국파워보이스 음성 암호를 이용한 컴퓨터 보안 방법

Similar Documents

Publication Publication Date Title
JP2009527798A5 (ja)
JP2012047924A5 (ja)
US10839822B2 (en) Multi-channel speech separation
RU2008134112A (ru) Аутентификация говорящего
US10109276B2 (en) Promoting voice actions to hotwords
WO2008047339A3 (en) Method and apparatus for large population speaker identification in telephone interactions
JP5621783B2 (ja) 音声認識システム、音声認識方法および音声認識プログラム
WO2006023631A3 (en) Document transcription system training
EP1933301A3 (en) Speech recognition method and system with intelligent speaker identification and adaptation
WO2008117626A1 (ja) 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム
WO2006069381A3 (en) Turn-taking confidence
JP2011527030A5 (ja)
JP2016075740A (ja) 音声処理装置、音声処理方法、およびプログラム
CN107995360A (zh) 通话处理方法及相关产品
Kinoshita et al. Tackling real noisy reverberant meetings with all-neural source separation, counting, and diarization system
CN103680500B (zh) 一种语音识别的方法和装置
JP2018197855A (ja) 複数の音声認識装置間の調整
WO2007095277A3 (en) Communication device having speaker independent speech recognition
CN108417201A (zh) 单信道多说话人身份识别方法及系统
CN112908302B (zh) 一种音频处理方法、装置、设备及可读存储介质
JP2006251147A5 (ja)
WO2023158444A3 (en) Hybrid multilingual text-dependent and text-independent speaker verification
GB2581675A (en) Enrolment in speaker recognition system
JP2012073364A (ja) 音声対話装置、方法、プログラム
WO2013028518A1 (en) Reducing false positives in speech recognition systems