JP2009527798A5 - - Google Patents
Download PDFInfo
- Publication number
- JP2009527798A5 JP2009527798A5 JP2008556366A JP2008556366A JP2009527798A5 JP 2009527798 A5 JP2009527798 A5 JP 2009527798A5 JP 2008556366 A JP2008556366 A JP 2008556366A JP 2008556366 A JP2008556366 A JP 2008556366A JP 2009527798 A5 JP2009527798 A5 JP 2009527798A5
- Authority
- JP
- Japan
- Prior art keywords
- average
- training
- determining
- similarity score
- background
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims 10
- 230000005236 sound signal Effects 0.000 claims 5
- 239000000203 mixture Substances 0.000 claims 3
Claims (12)
- ユーザにより生成された音声信号を受け取ることと、
前記音声信号に基づいて複数の混合成分のそれぞれの背景平均を含む背景モデルを適合させることによって、前記複数の混合成分のそれぞれの適合平均を形成することと、
公称ユーザ識別を受け取ることと、
前記複数の混合成分について判定された関数の合計を判定することによって前記公称ユーザにより提供されたトレーニング音声信号と前記受け取られた音声信号との間の類似性スコアを判定することであって、各関数は、前記受け取った音声信号に基づく混合成分の事後確率と、適合平均と背景平均との間の差との積を含む、前記判定することと、
前記受け取った音声信号が前記公称ユーザにより生成されたかどうかを判定するために前記類似性スコアを使用することと、
を含むことを特徴とする方法。 - ユーザからのトレーニング音声信号に基づいて前記背景モデルを適合させることによって、前記複数の混合成分のそれぞれのトレーニング平均を形成することをさらに含むことを特徴とする請求項1に記載の方法。
- 前記各関数は、前記トレーニング音声信号に基づく混合成分の事後確率と、トレーニング平均と背景平均との間の差との積をさらに含むことを特徴とする請求項2に記載の方法。
- 前記公称ユーザ識別に基づいて前記関数内で使用されるトレーニング平均(1002)を選択すること、
をさらに含むことを特徴とする請求項3に記載の方法。 - 話者プール内の複数の話者のそれぞれの話者プール平均を形成することをさらに含み、話者の前記話者プール平均は、前記話者からの音声に基づいて前記背景モデルを適合させることによって形成されることを特徴とする請求項1に記載の方法。
- 前記各関数は、対応するしきい値をさらに含み、各しきい値は、前記話者プール内の前記話者のサブセットの話者プール平均に基づくことを特徴とする請求項5に記載の方法。
- 前記話者プール平均および前記適合平均から判定された類似性スコアに基づいて前記話者プールから話者の前記サブセットを選択することをさらに含むことを特徴とする請求項6に記載の方法。
- ユーザからのトレーニング音声信号に基づいて前記背景モデルを適合させることによって前記複数の混合成分のそれぞれのトレーニング平均を形成することと、
前記話者プール内の前記話者の第2サブセットの話者プール平均に基づいて公称ユーザしきい値を判定することであって、前記第2サブセットは、前記話者プール平均および前記トレーニング平均から判定された類似性スコアに基づいて前記話者プールから選択される、判定することと
をさらに含むことを特徴とする請求項7に記載の方法。 - 前記各関数は、第2しきい値をさらに含むことを特徴とする請求項8に記載の方法。
- コンピュータ実行可能命令を記憶したコンピュータ可読記録媒体であって、前記コンピュータ実行可能命令はプロセッサにより実行されると以下のステップを前記プロセッサに実行させる前記コンピュータ可読記録媒体において、
第1適合平均を形成するためにテスト発話に基づいて背景平均を含む背景モデルを適合することと、
第2適合平均を形成するために格納されたユーザ発話に基づいて前記背景モデルを適合することと、
類似性スコアの第1セットを形成するために前記第1適合平均に基づいて前記テスト発話とトレーニング発話のセットのそれぞれとの間の類似性スコアを判定することと、
前記テスト発話の集団としてトレーニング発話の前記セットのサブセットを選択するために前記類似性スコアの第1セットを使用することと、
類似性スコアの第2セットを形成するために前記第2適合平均に基づいて格納された前記テスト発話とトレーニング発話の前記セットのそれぞれとの間の類似性スコアを判定することと、
格納された前記ユーザ発話の集団としてトレーニング発話の前記セットのサブセットを選択するために前記類似性スコアの第2セットを使用することと、
第1しきい値を計算するために前記テスト発話の集団を使用することと、
第2しきい値を計算するために前記格納されたユーザ発話の集団を使用することと、
前記テスト発話と前記格納されたユーザ発話との間の認証類似性スコアを計算するために前記第1しきい値、前記第2しきい値、前記第1適合平均と前記背景平均との間の差、及び前記第2適合平均と前記背景平均との間の差を使用することと
を含むステップを有することを特徴とするコンピュータ可読記録媒体。 - 前記テスト発話とトレーニング発話との間の類似性スコアを判定することは、前記背景モデルの前記背景平均と前記第1適合平均との間の差を判定することと、前記類似性スコアを判定するために前記差を使用することとを含むことを特徴とする請求項10に記載のコンピュータ可読記録媒体。
- 前記テスト発話とトレーニング発話との間の類似性スコアを判定することは、前記テスト発話に基づいて混合成分の確率を判定することと、前記類似性スコアを判定するために、前記混合成分の前記確率と前記適合平均と前記背景平均との間の差との積を使用することとをさらに含むことを特徴とする請求項11に記載のコンピュータ可読記録媒体。
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US11/358,302 US7539616B2 (en) | 2006-02-20 | 2006-02-20 | Speaker authentication using adapted background models |
| US11/358,302 | 2006-02-20 | ||
| PCT/US2007/004137 WO2007098039A1 (en) | 2006-02-20 | 2007-02-13 | Speaker authentication |
Publications (3)
| Publication Number | Publication Date |
|---|---|
| JP2009527798A JP2009527798A (ja) | 2009-07-30 |
| JP2009527798A5 true JP2009527798A5 (ja) | 2010-01-28 |
| JP4876134B2 JP4876134B2 (ja) | 2012-02-15 |
Family
ID=38429414
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2008556366A Expired - Fee Related JP4876134B2 (ja) | 2006-02-20 | 2007-02-13 | 話者認証 |
Country Status (11)
| Country | Link |
|---|---|
| US (1) | US7539616B2 (ja) |
| EP (2) | EP1989701B1 (ja) |
| JP (1) | JP4876134B2 (ja) |
| KR (1) | KR101323061B1 (ja) |
| CN (2) | CN101385074B (ja) |
| AU (1) | AU2007217884A1 (ja) |
| CA (2) | CA2643481C (ja) |
| MX (1) | MX2008010478A (ja) |
| NO (1) | NO20083580L (ja) |
| RU (1) | RU2008134112A (ja) |
| WO (1) | WO2007098039A1 (ja) |
Families Citing this family (49)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7877255B2 (en) * | 2006-03-31 | 2011-01-25 | Voice Signal Technologies, Inc. | Speech recognition using channel verification |
| KR20080090034A (ko) * | 2007-04-03 | 2008-10-08 | 삼성전자주식회사 | 음성 화자 인식 방법 및 시스템 |
| AU2012200605B2 (en) * | 2008-09-05 | 2014-01-23 | Auraya Pty Ltd | Voice authentication system and methods |
| CA2736133C (en) | 2008-09-05 | 2016-11-08 | Auraya Pty Ltd | Voice authentication system and methods |
| RU2422920C2 (ru) * | 2009-02-24 | 2011-06-27 | Государственное образовательное учреждение высшего профессионального образования "Казанский государственный университет им. В.И. Ульянова-Ленина" | Способ аутентификации диктора по парольной фразе |
| RU2422921C2 (ru) * | 2009-08-11 | 2011-06-27 | Государственное образовательное учреждение высшего профессионального образования "Казанский государственный университет им. В.И. Ульянова-Ленина" | Способ аутентификации диктора по парольной фразе |
| CN101833951B (zh) * | 2010-03-04 | 2011-11-09 | 清华大学 | 用于说话人识别的多背景模型建立方法 |
| US8645136B2 (en) * | 2010-07-20 | 2014-02-04 | Intellisist, Inc. | System and method for efficiently reducing transcription error using hybrid voice transcription |
| US9224388B2 (en) * | 2011-03-04 | 2015-12-29 | Qualcomm Incorporated | Sound recognition method and system |
| US9159324B2 (en) | 2011-07-01 | 2015-10-13 | Qualcomm Incorporated | Identifying people that are proximate to a mobile device user via social graphs, speech models, and user context |
| US9489950B2 (en) * | 2012-05-31 | 2016-11-08 | Agency For Science, Technology And Research | Method and system for dual scoring for text-dependent speaker verification |
| US9036890B2 (en) | 2012-06-05 | 2015-05-19 | Outerwall Inc. | Optical coin discrimination systems and methods for use with consumer-operated kiosks and the like |
| CN102737633B (zh) * | 2012-06-21 | 2013-12-25 | 北京华信恒达软件技术有限公司 | 一种基于张量子空间分析的说话人识别方法及其装置 |
| EP2713367B1 (en) * | 2012-09-28 | 2016-11-09 | Agnitio, S.L. | Speaker recognition |
| US20140095161A1 (en) * | 2012-09-28 | 2014-04-03 | At&T Intellectual Property I, L.P. | System and method for channel equalization using characteristics of an unknown signal |
| US9240184B1 (en) * | 2012-11-15 | 2016-01-19 | Google Inc. | Frame-level combination of deep neural network and gaussian mixture models |
| US8739955B1 (en) * | 2013-03-11 | 2014-06-03 | Outerwall Inc. | Discriminant verification systems and methods for use in coin discrimination |
| US9443367B2 (en) | 2014-01-17 | 2016-09-13 | Outerwall Inc. | Digital image coin discrimination for use with consumer-operated kiosks and the like |
| US9542948B2 (en) | 2014-04-09 | 2017-01-10 | Google Inc. | Text-dependent speaker identification |
| US9384738B2 (en) * | 2014-06-24 | 2016-07-05 | Google Inc. | Dynamic threshold for speaker verification |
| US9653093B1 (en) * | 2014-08-19 | 2017-05-16 | Amazon Technologies, Inc. | Generative modeling of speech using neural networks |
| JP6239471B2 (ja) * | 2014-09-19 | 2017-11-29 | 株式会社東芝 | 認証システム、認証装置および認証方法 |
| CN105513588B (zh) * | 2014-09-22 | 2019-06-25 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
| CN106384587B (zh) * | 2015-07-24 | 2019-11-15 | 科大讯飞股份有限公司 | 一种语音识别方法及系统 |
| CN105096941B (zh) * | 2015-09-02 | 2017-10-31 | 百度在线网络技术(北京)有限公司 | 语音识别方法以及装置 |
| US10311219B2 (en) * | 2016-06-07 | 2019-06-04 | Vocalzoom Systems Ltd. | Device, system, and method of user authentication utilizing an optical microphone |
| US10141009B2 (en) | 2016-06-28 | 2018-11-27 | Pindrop Security, Inc. | System and method for cluster-based audio event detection |
| US20180018973A1 (en) * | 2016-07-15 | 2018-01-18 | Google Inc. | Speaker verification |
| US9824692B1 (en) | 2016-09-12 | 2017-11-21 | Pindrop Security, Inc. | End-to-end speaker recognition using deep neural network |
| WO2018053531A1 (en) * | 2016-09-19 | 2018-03-22 | Pindrop Security, Inc. | Dimensionality reduction of baum-welch statistics for speaker recognition |
| US10347256B2 (en) | 2016-09-19 | 2019-07-09 | Pindrop Security, Inc. | Channel-compensated low-level features for speaker recognition |
| WO2018053537A1 (en) | 2016-09-19 | 2018-03-22 | Pindrop Security, Inc. | Improvements of speaker recognition in the call center |
| FR3058558B1 (fr) * | 2016-11-07 | 2020-01-10 | Pw Group | Procede et systeme d'authentification par biometrie vocale d'un utilisateur |
| CN106782564B (zh) * | 2016-11-18 | 2018-09-11 | 百度在线网络技术(北京)有限公司 | 用于处理语音数据的方法和装置 |
| US10397398B2 (en) | 2017-01-17 | 2019-08-27 | Pindrop Security, Inc. | Authentication using DTMF tones |
| US10950243B2 (en) * | 2017-11-29 | 2021-03-16 | ILLUMA Labs Inc. | Method for reduced computation of t-matrix training for speaker recognition |
| US10950244B2 (en) * | 2017-11-29 | 2021-03-16 | ILLUMA Labs LLC. | System and method for speaker authentication and identification |
| US10832683B2 (en) * | 2017-11-29 | 2020-11-10 | ILLUMA Labs LLC. | System and method for efficient processing of universal background models for speaker recognition |
| WO2019129511A1 (en) * | 2017-12-26 | 2019-07-04 | Robert Bosch Gmbh | Speaker identification with ultra-short speech segments for far and near field voice assistance applications |
| US11893999B1 (en) * | 2018-05-13 | 2024-02-06 | Amazon Technologies, Inc. | Speech based user recognition |
| US10762905B2 (en) * | 2018-07-31 | 2020-09-01 | Cirrus Logic, Inc. | Speaker verification |
| WO2020159917A1 (en) | 2019-01-28 | 2020-08-06 | Pindrop Security, Inc. | Unsupervised keyword spotting and word discovery for fraud analytics |
| WO2020163624A1 (en) | 2019-02-06 | 2020-08-13 | Pindrop Security, Inc. | Systems and methods of gateway detection in a telephone network |
| WO2020198354A1 (en) | 2019-03-25 | 2020-10-01 | Pindrop Security, Inc. | Detection of calls from voice assistants |
| US12015637B2 (en) | 2019-04-08 | 2024-06-18 | Pindrop Security, Inc. | Systems and methods for end-to-end architectures for voice spoofing detection |
| CN110379433B (zh) * | 2019-08-02 | 2021-10-08 | 清华大学 | 身份验证的方法、装置、计算机设备及存储介质 |
| US11158325B2 (en) * | 2019-10-24 | 2021-10-26 | Cirrus Logic, Inc. | Voice biometric system |
| CN111564152B (zh) * | 2020-07-16 | 2020-11-24 | 北京声智科技有限公司 | 语音转换方法、装置、电子设备及存储介质 |
| US12482472B2 (en) * | 2020-11-11 | 2025-11-25 | Adeia Guides Inc. | Systems and methods for detecting a mimicked voice input signal |
Family Cites Families (12)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5625748A (en) * | 1994-04-18 | 1997-04-29 | Bbn Corporation | Topic discriminator using posterior probability or confidence scores |
| US5864810A (en) * | 1995-01-20 | 1999-01-26 | Sri International | Method and apparatus for speech recognition adapted to an individual speaker |
| US5839103A (en) * | 1995-06-07 | 1998-11-17 | Rutgers, The State University Of New Jersey | Speaker verification system using decision fusion logic |
| US5787394A (en) * | 1995-12-13 | 1998-07-28 | International Business Machines Corporation | State-dependent speaker clustering for speaker adaptation |
| WO1998014934A1 (en) * | 1996-10-02 | 1998-04-09 | Sri International | Method and system for automatic text-independent grading of pronunciation for language instruction |
| US5897616A (en) | 1997-06-11 | 1999-04-27 | International Business Machines Corporation | Apparatus and methods for speaker verification/identification/classification employing non-acoustic and/or acoustic models and databases |
| US6807537B1 (en) * | 1997-12-04 | 2004-10-19 | Microsoft Corporation | Mixtures of Bayesian networks |
| US6141644A (en) * | 1998-09-04 | 2000-10-31 | Matsushita Electric Industrial Co., Ltd. | Speaker verification and speaker identification based on eigenvoices |
| ES2239650T3 (es) * | 2000-07-05 | 2005-10-01 | Matsushita Electric Industrial Co., Ltd. | Identificacion y verificacion de interlocutores. |
| MXPA03010751A (es) * | 2001-05-25 | 2005-03-07 | Dolby Lab Licensing Corp | Segmentacion de senales de audio en eventos auditivos. |
| EP1497935B1 (en) * | 2002-04-05 | 2008-02-20 | International Business Machines Corporation | Feature-based audio content identification |
| KR100611562B1 (ko) | 2003-09-17 | 2006-08-11 | (주)한국파워보이스 | 음성 암호를 이용한 컴퓨터 보안 방법 |
-
2006
- 2006-02-20 US US11/358,302 patent/US7539616B2/en not_active Expired - Fee Related
-
2007
- 2007-02-13 WO PCT/US2007/004137 patent/WO2007098039A1/en not_active Ceased
- 2007-02-13 EP EP07750936A patent/EP1989701B1/en not_active Not-in-force
- 2007-02-13 CN CN200780005880XA patent/CN101385074B/zh not_active Expired - Fee Related
- 2007-02-13 AU AU2007217884A patent/AU2007217884A1/en not_active Abandoned
- 2007-02-13 EP EP11008117.1A patent/EP2410514B1/en not_active Not-in-force
- 2007-02-13 CN CN201210055759.0A patent/CN102646416B/zh not_active Expired - Fee Related
- 2007-02-13 CA CA2643481A patent/CA2643481C/en active Active
- 2007-02-13 CA CA2861876A patent/CA2861876C/en active Active
- 2007-02-13 RU RU2008134112/09A patent/RU2008134112A/ru not_active Application Discontinuation
- 2007-02-13 MX MX2008010478A patent/MX2008010478A/es not_active Application Discontinuation
- 2007-02-13 KR KR1020087020272A patent/KR101323061B1/ko active Active
- 2007-02-13 JP JP2008556366A patent/JP4876134B2/ja not_active Expired - Fee Related
-
2008
- 2008-08-19 NO NO20083580A patent/NO20083580L/no not_active Application Discontinuation
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2009527798A5 (ja) | ||
| JP2012047924A5 (ja) | ||
| US10839822B2 (en) | Multi-channel speech separation | |
| RU2008134112A (ru) | Аутентификация говорящего | |
| US10109276B2 (en) | Promoting voice actions to hotwords | |
| WO2008047339A3 (en) | Method and apparatus for large population speaker identification in telephone interactions | |
| JP5621783B2 (ja) | 音声認識システム、音声認識方法および音声認識プログラム | |
| WO2006023631A3 (en) | Document transcription system training | |
| EP1933301A3 (en) | Speech recognition method and system with intelligent speaker identification and adaptation | |
| WO2008117626A1 (ja) | 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム | |
| WO2006069381A3 (en) | Turn-taking confidence | |
| JP2011527030A5 (ja) | ||
| JP2016075740A (ja) | 音声処理装置、音声処理方法、およびプログラム | |
| CN107995360A (zh) | 通话处理方法及相关产品 | |
| Kinoshita et al. | Tackling real noisy reverberant meetings with all-neural source separation, counting, and diarization system | |
| CN103680500B (zh) | 一种语音识别的方法和装置 | |
| JP2018197855A (ja) | 複数の音声認識装置間の調整 | |
| WO2007095277A3 (en) | Communication device having speaker independent speech recognition | |
| CN108417201A (zh) | 单信道多说话人身份识别方法及系统 | |
| CN112908302B (zh) | 一种音频处理方法、装置、设备及可读存储介质 | |
| JP2006251147A5 (ja) | ||
| WO2023158444A3 (en) | Hybrid multilingual text-dependent and text-independent speaker verification | |
| GB2581675A (en) | Enrolment in speaker recognition system | |
| JP2012073364A (ja) | 音声対話装置、方法、プログラム | |
| WO2013028518A1 (en) | Reducing false positives in speech recognition systems |