JP7266448B2 - 話者認識方法、話者認識装置、及び話者認識プログラム - Google Patents
話者認識方法、話者認識装置、及び話者認識プログラム Download PDFInfo
- Publication number
- JP7266448B2 JP7266448B2 JP2019076058A JP2019076058A JP7266448B2 JP 7266448 B2 JP7266448 B2 JP 7266448B2 JP 2019076058 A JP2019076058 A JP 2019076058A JP 2019076058 A JP2019076058 A JP 2019076058A JP 7266448 B2 JP7266448 B2 JP 7266448B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- target
- similarity
- database
- identification information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/65—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computer Security & Cryptography (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
近年、本人のなりすましを防止するために、対象者が発話した音声を用いる技術が注目されている。例えば、ネットバンキングにおいては、対象者に対して識別情報を入力させると共に音声を発話させ、識別情報と発話された音声の特徴とが所定の条件を満たした場合に対象者を本人と識別するサービスが開始されている。さらに、部屋の入退室システムにおいて、例えば、カードに記録された識別情報をカードリーダに読み取らせた上で、対象者に発話をさせ、識別情報と発話された音声を示す音声信号の特徴量とが所定の条件を満たした場合に入退室を許可する運用も検討され始めている。
図3は、本開示の実施の形態に係る話者認識装置1の構成の一例を示すブロック図である。話者認識装置1は、プロセッサ10、メモリ20、及び出力装置50を含む。プロセッサ10には、入力装置30及び収音装置40が接続されている。話者認識装置1は、入力装置30及び収音装置40を含んでもよいし、含んでいなくてもよい。
2 :データベース作成装置
10 :プロセッサ
11 :音声取得部
12 :識別情報取得部
13 :特徴量計算部
14 :選択部
15 :類似度計算部
16 :順位計算部
17 :判定部
18 :補正部
20 :メモリ
21 :第1データベース
22 :第2データベース
23 :第1順位記憶部
50 :出力装置
100 :プロセッサ
101 :第1取得部
102 :第2取得部
103 :類似度計算部
104 :抽出部
105 :作成部
200 :メモリ
201 :第2順位記憶部
Claims (10)
- コンピュータが、複数の不特定話者の音声を示す音声情報を記憶する第1データベースと、複数の登録話者の識別情報及び前記音声情報を対応付けて記憶する第2データベースとを用いて話者を認識する話者認識方法であって、
前記第1データベースは、前記複数の登録話者のそれぞれについて、音声の特徴が類似する不特定話者の前記音声情報が、対応する登録話者の前記識別情報と予め対応付けられてグルーピングされており、
対象話者が発話した音声を示す対象音声信号を取得し、
前記対象話者が本人と主張する人物の前記識別情報である対象識別情報を取得し、
前記対象音声信号の特徴量である第1特徴量を計算し、
前記第1データベースから前記対象識別情報が対応付けられた前記音声情報を含むグループを選択し、
選択した前記グループに含まれる前記音声情報及び前記第1特徴量の類似度と、前記第2データベースに記憶された前記対象識別情報が対応付けられた前記音声情報及び前記第1特徴量の類似度である対象類似度とを計算し、
計算した前記類似度における、前記対象類似度の順位を計算し、
前記順位が所定の第1順位以内の場合、前記対象話者は本人と判定する、
話者認識方法。 - さらに、計算した前記類似度の分散又は標準偏差を計算し、
さらに、前記分散又は前記標準偏差が減少するにつれて前記第1順位を上昇させる、
請求項1記載の話者認識方法。 - 前記対象識別情報は、前記対象話者により入力された前記識別情報である、
請求項1又は2記載の話者認識方法。 - 前記対象音声信号は、前記対象話者が本人と主張する発話内容を含み、
前記対象識別情報は、前記対象音声信号を音声認識することで得られる前記発話内容である、
請求項1又は2記載の話者認識方法。 - さらに、前記対象話者が本人であるか否かの判定結果を提示する、
請求項1~4のいずれかに記載の話者認識方法。 - 前記第1データベースが記憶する前記音声情報は、前記不特定話者の音声信号を含み、
前記第2データベースが記憶する前記音声情報は、前記登録話者の前記音声信号を含み、
さらに、前記不特定話者の前記音声信号と前記第2データベースに記憶された前記対象識別情報に対応する前記音声信号とのそれぞれの特徴量を第2特徴量として計算し、
前記類似度の計算では、前記第1特徴量と前記第2特徴量との前記類似度を計算する、
請求項1~5のいずれかに記載の話者認識方法。 - 前記第1データベースが記憶する前記音声情報は、前記不特定話者の音声信号の特徴量を含み、
前記第2データベースが記憶する前記音声情報は、前記登録話者の前記音声信号の前記特徴量である、
請求項1~5のいずれかに記載の話者認識方法。 - 前記第1データベースは、前記複数の登録話者のそれぞれについて、前記複数の不特定
話者に対する前記類似度の前記順位が所定の第2順位以内の前記音声情報を抽出することでグルーピングされたものであり、
前記第2順位は、誤り率を最小化するために予め決定された前記不特定話者の最少人数である、
請求項1~7のいずれかに記載の話者認識方法。 - 複数の不特定話者の音声を示す音声情報を記憶する第1データベースと、複数の登録話者の識別情報及び前記音声情報を対応付けて記憶する第2データベースとを用いて話者を認識する話者認識装置であって、
前記第1データベースは、前記複数の登録話者のそれぞれについて、音声の特徴が類似する不特定話者の前記音声情報が、対応する登録話者の前記識別情報と予め対応付けられてグルーピングされおり、
対象話者が発話した音声を示す対象音声信号を取得する音声取得部と、
前記対象話者が本人と主張する人物の前記識別情報である対象識別情報を取得する識別情報取得部と、
前記対象音声信号の特徴量である第1特徴量を計算する特徴量計算部と、
前記第1データベースから前記対象識別情報が対応付けられた前記音声情報を含むグループを選択する選択部と、
選択した前記グループに含まれる前記音声情報及び前記第1特徴量の類似度と、前記第2データベースに記憶された前記対象識別情報が対応付けられた前記音声情報及び前記第1特徴量の前記類似度である対象類似度とを計算する類似度計算部と、
計算した前記類似度における、前記対象類似度の順位を計算する順位計算部と、
前記順位が所定の第1順位以内の場合、前記対象話者は本人と判定する判定部とを備える、
話者認識装置。 - 請求項1~8のいずれかに記載の話者認識方法をコンピュータに実行させるための話者認識プログラム。
Priority Applications (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2019076058A JP7266448B2 (ja) | 2019-04-12 | 2019-04-12 | 話者認識方法、話者認識装置、及び話者認識プログラム |
| US16/843,595 US11315573B2 (en) | 2019-04-12 | 2020-04-08 | Speaker recognizing method, speaker recognizing apparatus, recording medium recording speaker recognizing program, database making method, database making apparatus, and recording medium recording database making program |
| CN202410118466.5A CN117953900A (zh) | 2019-04-12 | 2020-04-09 | 数据库生成方法、数据库生成装置以及记录介质 |
| CN202010272602.8A CN111816184B (zh) | 2019-04-12 | 2020-04-09 | 讲话人识别方法、识别装置以及记录介质 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2019076058A JP7266448B2 (ja) | 2019-04-12 | 2019-04-12 | 話者認識方法、話者認識装置、及び話者認識プログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2020173381A JP2020173381A (ja) | 2020-10-22 |
| JP7266448B2 true JP7266448B2 (ja) | 2023-04-28 |
Family
ID=72748127
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2019076058A Active JP7266448B2 (ja) | 2019-04-12 | 2019-04-12 | 話者認識方法、話者認識装置、及び話者認識プログラム |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US11315573B2 (ja) |
| JP (1) | JP7266448B2 (ja) |
| CN (2) | CN117953900A (ja) |
Families Citing this family (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP7376985B2 (ja) * | 2018-10-24 | 2023-11-09 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 情報処理方法、情報処理装置、及び、プログラム |
| JP7540489B2 (ja) * | 2020-07-27 | 2024-08-27 | 日本電気株式会社 | 音声登録装置、制御方法、プログラム及び記憶媒体 |
| CN113178196B (zh) * | 2021-04-20 | 2023-02-07 | 平安国际融资租赁有限公司 | 音频数据提取方法、装置、计算机设备和存储介质 |
| CN114969257A (zh) * | 2022-05-26 | 2022-08-30 | 平安普惠企业管理有限公司 | 标准语音识别数据库的构建方法、装置、计算机设备 |
| CN115410554B (zh) * | 2022-08-31 | 2025-11-18 | 出门问问(武汉)信息科技有限公司 | 语音识别方法、装置、电子设备及存储介质 |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010113167A (ja) | 2008-11-06 | 2010-05-20 | Neikusu:Kk | 有害顧客検知システム、その方法及び有害顧客検知プログラム |
| JP2017223848A (ja) | 2016-06-16 | 2017-12-21 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 話者認識装置 |
Family Cites Families (25)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2991288B2 (ja) * | 1997-01-30 | 1999-12-20 | 日本電気株式会社 | 話者認識装置 |
| WO2006087799A1 (ja) * | 2005-02-18 | 2006-08-24 | Fujitsu Limited | 音声認証システム |
| JP5008269B2 (ja) * | 2005-04-08 | 2012-08-22 | キヤノン株式会社 | 情報処理装置、情報処理方法 |
| JP4897040B2 (ja) * | 2007-03-14 | 2012-03-14 | パイオニア株式会社 | 音響モデル登録装置、話者認識装置、音響モデル登録方法及び音響モデル登録処理プログラム |
| JP5024154B2 (ja) * | 2008-03-27 | 2012-09-12 | 富士通株式会社 | 関連付け装置、関連付け方法及びコンピュータプログラム |
| DE102008058883B4 (de) * | 2008-11-26 | 2023-07-27 | Lumenvox Corporation | Verfahren und Anordnung zur Steuerung eines Nutzerzugriffs |
| US9685159B2 (en) * | 2009-11-12 | 2017-06-20 | Agnitio Sl | Speaker recognition from telephone calls |
| GB2517952B (en) * | 2013-09-05 | 2017-05-31 | Barclays Bank Plc | Biometric verification using predicted signatures |
| US20170287472A1 (en) * | 2014-12-18 | 2017-10-05 | Mitsubishi Electric Corporation | Speech recognition apparatus and speech recognition method |
| US9704488B2 (en) * | 2015-03-20 | 2017-07-11 | Microsoft Technology Licensing, Llc | Communicating metadata that identifies a current speaker |
| JP6596376B2 (ja) * | 2015-04-22 | 2019-10-23 | パナソニック株式会社 | 話者識別方法及び話者識別装置 |
| US9940934B2 (en) * | 2015-11-18 | 2018-04-10 | Uniphone Software Systems | Adaptive voice authentication system and method |
| JP2017097188A (ja) * | 2015-11-25 | 2017-06-01 | 日本電信電話株式会社 | 話者らしさ評価装置、話者識別装置、話者照合装置、話者らしさ評価方法、プログラム |
| US9691392B1 (en) * | 2015-12-09 | 2017-06-27 | Uniphore Software Systems | System and method for improved audio consistency |
| GB2552723A (en) * | 2016-08-03 | 2018-02-07 | Cirrus Logic Int Semiconductor Ltd | Speaker recognition |
| WO2018106971A1 (en) * | 2016-12-07 | 2018-06-14 | Interactive Intelligence Group, Inc. | System and method for neural network based speaker classification |
| GB2563952A (en) * | 2017-06-29 | 2019-01-02 | Cirrus Logic Int Semiconductor Ltd | Speaker identification |
| US10325602B2 (en) * | 2017-08-02 | 2019-06-18 | Google Llc | Neural networks for speaker verification |
| JP7197259B2 (ja) * | 2017-08-25 | 2022-12-27 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 情報処理方法、情報処理装置およびプログラム |
| US11449587B2 (en) * | 2017-11-20 | 2022-09-20 | Ppip, Llc | Systems and methods for biometric identity and authentication |
| US11264037B2 (en) * | 2018-01-23 | 2022-03-01 | Cirrus Logic, Inc. | Speaker identification |
| KR20190102509A (ko) * | 2018-02-26 | 2019-09-04 | 삼성전자주식회사 | 음성 명령을 수행하는 방법 및 시스템 |
| US11210375B2 (en) * | 2018-03-07 | 2021-12-28 | Private Identity Llc | Systems and methods for biometric processing with liveness |
| US20190311261A1 (en) * | 2018-04-10 | 2019-10-10 | Assured Information Security, Inc. | Behavioral biometric feature extraction and verification |
| EP3851985A4 (en) * | 2018-09-12 | 2022-04-20 | Maxell, Ltd. | INFORMATION PROCESSING DEVICE, USER AUTHENTICATION NETWORK SYSTEM AND USER AUTHENTICATION METHOD |
-
2019
- 2019-04-12 JP JP2019076058A patent/JP7266448B2/ja active Active
-
2020
- 2020-04-08 US US16/843,595 patent/US11315573B2/en active Active
- 2020-04-09 CN CN202410118466.5A patent/CN117953900A/zh active Pending
- 2020-04-09 CN CN202010272602.8A patent/CN111816184B/zh active Active
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2010113167A (ja) | 2008-11-06 | 2010-05-20 | Neikusu:Kk | 有害顧客検知システム、その方法及び有害顧客検知プログラム |
| JP2017223848A (ja) | 2016-06-16 | 2017-12-21 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 話者認識装置 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN111816184B (zh) | 2024-02-23 |
| CN111816184A (zh) | 2020-10-23 |
| US20200327894A1 (en) | 2020-10-15 |
| CN117953900A (zh) | 2024-04-30 |
| US11315573B2 (en) | 2022-04-26 |
| JP2020173381A (ja) | 2020-10-22 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7266448B2 (ja) | 話者認識方法、話者認識装置、及び話者認識プログラム | |
| EP3327720B1 (en) | User voiceprint model construction method and apparatus | |
| CN110956966B (zh) | 声纹认证方法、装置、介质及电子设备 | |
| US6691089B1 (en) | User configurable levels of security for a speaker verification system | |
| US7447632B2 (en) | Voice authentication system | |
| WO2018049313A1 (en) | End-to-end speaker recognition using deep neural network | |
| TW201905675A (zh) | 資料更新方法、客戶端及電子設備 | |
| CN108269575B (zh) | 更新声纹数据的语音识别方法、终端装置及存储介质 | |
| US9530417B2 (en) | Methods, systems, and circuits for text independent speaker recognition with automatic learning features | |
| JPH0354600A (ja) | 不明人物の同一性検証方法 | |
| CN114255766A (zh) | 用于说话者验证的广义负对数似然损失 | |
| CN109473105A (zh) | 与文本无关的声纹验证方法、装置和计算机设备 | |
| CN113870865A (zh) | 一种声纹特征更新方法、装置、电子设备及存储介质 | |
| US11081115B2 (en) | Speaker recognition | |
| JP2022523921A (ja) | 生体(liveness)検出検証方法、生体検出検証システム、記録媒体、及び生体検出検証システムの訓練方法 | |
| CA3179942A1 (en) | Methods and systems for training a machine learning model and authenticating a user with the model | |
| US20070219792A1 (en) | Method and system for user authentication based on speech recognition and knowledge questions | |
| CN113936668A (zh) | 用于智能语音设备的方法、装置、设备和介质 | |
| CN109688271A (zh) | 联系人信息输入的方法、装置及终端设备 | |
| CN109545226A (zh) | 一种语音识别方法、设备及计算机可读存储介质 | |
| JP7737976B2 (ja) | 話者識別装置、話者識別方法、及び、プログラム | |
| CN109065026B (zh) | 一种录音控制方法及装置 | |
| Gupta et al. | Text dependent voice based biometric authentication system using spectrum analysis and image acquisition | |
| EP4506838A1 (en) | Methods and systems for authenticating users | |
| US20250046317A1 (en) | Methods and systems for authenticating users |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211105 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221004 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221215 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230404 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230418 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7266448 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |