CN110970020A - 一种利用声纹提取有效语音信号的方法 - Google Patents
一种利用声纹提取有效语音信号的方法 Download PDFInfo
- Publication number
- CN110970020A CN110970020A CN201811149356.6A CN201811149356A CN110970020A CN 110970020 A CN110970020 A CN 110970020A CN 201811149356 A CN201811149356 A CN 201811149356A CN 110970020 A CN110970020 A CN 110970020A
- Authority
- CN
- China
- Prior art keywords
- voice
- voiceprint
- signal
- recognition
- awakening
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000007613 environmental effect Effects 0.000 claims abstract description 8
- 230000002401 inhibitory effect Effects 0.000 claims abstract description 4
- 230000002093 peripheral effect Effects 0.000 abstract description 2
- 230000001755 vocal effect Effects 0.000 abstract 1
- 230000005236 sound signal Effects 0.000 description 11
- 238000004519 manufacturing process Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Abstract
一种利用声纹提取有效语音信号的方法,包括如下步骤:步骤1.设备未唤醒状态下,首先识别唤醒词,分析并记录唤醒词的声纹特征;步骤2.设备进入唤醒状态后,收集环境语音并将采集到的有人语音声音信号进行声纹识别处理,识别处理过程为:对识别出声纹信息与唤醒词声纹特征符合的目标信号进行保留,对不符合唤醒词声纹特征的非目标信号进行抑制;进行声纹识别处理后的声音信号进入下一步继续识别。本发明通过提取唤醒词的声纹特征甄别设备的控制用户声源和其他声源,可以在识别控制命令词时,准确的从外围复杂声音环境中找出控制用户的语音信号,提升了对在复杂声音环境中的语音控制命令的识别准确率。
Description
技术领域
本发明属于人工智能领域,涉及语音识别技术,具体涉及一种利用声纹提取有效语音信号的方法。
背景技术
近年来,智能语音识别相关技术在人工智能、智能硬件、可穿戴设备、无人驾驶等领域得到深入广泛的运用,让人类真正解决双手、双眼不再是遥不可及的事情;但消费者期望的理想的语音识别距离技术实现仍然有一定差距,特别是语音应用环境的复杂和噪音极易造成设备的误操作,目前的语音识别设备采用进行语音识别控制的做法通常都是先由用户讲述唤醒词,唤醒设备,再向设备讲述语音控制命令词或句子,设备进行语音识别后执行对应的功能。在实际应用中,需要设备先通过各类降噪技术提取用户的语音信号,再进行识别确定对应的功能。由于设备所处的环境往往比较复杂,如在客厅或汽车内,用户在对设备控制时可能同时会有其他人在讲话,这样传统的语音降噪是根据声音的特征对环境噪音进行抑制,但对于同样的人声抑制效果较差,控制用户的有效语音会混叠在周围人讲话的声音中,很难被准确的提取出,造成语音识别效果变差,降低了用户的体验感。
发明内容
为克服现有技术存在的缺陷,本发明公开了一种利用声纹提取有效语音信号的方法。
本发明所述利用声纹提取有效语音信号的方法,包括如下步骤:
步骤1:设备未唤醒状态下,首先识别唤醒词,分析并记录唤醒词的声纹特征;设备进入唤醒状态;
步骤2:设备进入唤醒状态后,收集环境语音并将采集到的有人语音声音信号进行声纹识别处理,识别处理过程为:
对识别出声纹信息与唤醒词声纹特征符合的目标信号进行保留,对不符合唤醒词声纹特征的非目标信号进行抑制;
进行声纹处理识别后的声音信号进入下一步继续识别。
优选的,所述识别处理过程中,按照声源空间方位将声音信号划分为若干个子信号,对每一子信号进行声纹识别。
进一步的,所述设备具备多个麦克风,对每一子信号进行声源识别的具体方式为:采用定向拾音通过多个麦克风波束成形的方法采集到不同方位角度的声源。
优选的,所述抑制为对非目标信号进行数字衰减。
本发明通过提取唤醒词的声纹特征甄别设备的控制用户声源和其他声源,可以在识别控制命令词时,准确的从外围复杂声音环境中准确找出控制用户的语音信号,提升了对在复杂声音环境中的语音控制命令的识别准确率,且不增加硬件成本,具有效果明显、方便易用的优点。
附图说明
图1给出本发明所述利用声纹提取有效语音信号的方法的一种具体实施方式流程示意图。
具体实施方式
下面对本发明的具体实施方式作进一步的详细说明。
本发明所述利用声纹提取有效语音信号的方法,包括如下步骤:
步骤1:设备未唤醒状态下,首先识别唤醒词,分析并记录唤醒词的声纹特征;设备进入唤醒状态;
步骤2:设备进入唤醒状态后,收集环境语音并将采集到的有人语音声音信号进行声纹识别处理,识别处理过程为:
对识别出声纹信息与唤醒词声纹特征符合的目标信号进行保留,对不符合唤醒词声纹特征的非目标信号进行抑制;
进行声纹处理识别后的声音信号进入下一步继续识别。
语音识别的基本原理是通过麦克风收集命令词的声音信号并将其转化为电学信号后,与已经存储的数据模型进行解码计算,通过计算识别出声音信号并调用该声音信号对应的指令对设备进行相应的操作。
本发明所述唤醒词,是启动语音识别设备中的语音识别模块的特殊命令词,语音识别设备在没有被唤醒词唤醒之前,处于常规待机工作状态,语音识别模块通常除对唤醒词进行反应外,对其他命令词在未唤醒前不回应。
控制用户发出唤醒词后,设备检测到唤醒词进入唤醒状态,并计算记录唤醒词的声纹。
设备进入唤醒状态,在较为复杂的语音环境下,设备很可能同时接收到控制用户的发声、其他人员的发声和环境噪声,由于声纹的独一无二性,在已经存储了唤醒词声纹特征的情况下,通过寻找环境中仅符合唤醒词声纹的声源。这样在确定控制用户的声源后,抑制其它不符合唤醒词声纹的声源和环境噪声。抑制其它声源和环境噪声的方法可以采用数字衰减方式,具体为:将已提取出控制用户声源的其余包含了其它声源和环境噪声的声音信号的电信号,用衰减算法直接将不具备唤醒词声纹特征的信号衰减到与衰减前能量差别多个数量级以上的信号,使其对控制用户的声源不可能造成干扰影响。
实际操作中,可以一次性针对全空间方位采集声音信号,应用上述方法进行处理。同时考虑到环境的复杂性,针对采用两个及以上麦克风的设备,还可以采用先将空间方位按角度进行分区,遍历每个分区进行分别识别的方式,即按照声源空间方位将声音信号划分为若干个和空间方位角度相关的子信号,对每一子信号进行声纹识别。优选可以对唤醒词初始发声方位或上一次控制用户的发声方位进行识别,识别符合则进行后续语音识别,识别不符合则选择按照距离远近,以上一次控制用户发声方位从近到远对各个方位开始识别。这样可以实现更高的准确性和即时性。
设备对各个角度的声源进行分区,具体实现方式和识别原理为: 当设备具备两个及以上麦克风时,可以采用麦克风阵列进行定向拾音,定向拾音是按照声音来源方向,在混杂的信号中进行目标信号的拾取,即只拾取特定方向传播来的声音信号,而对其他方向的噪声、干扰信号不拾取或屏蔽,从而达到目标语音增强的效果。采用定向拾音通过多个麦克风波束成形的方法采集到不用方位角度的声源, 将各个麦克风的拾音信号进行加权合成,得到某个方向的音频信号。
前文所述的为本发明的各个优选实施例,各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提,各个优选实施方式都可以任意叠加组合使用,所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程,并非用以限制本发明的专利保护范围,本发明的专利保护范围仍然以其权利要求书为准,凡是运用本发明的说明书内容所作的等同结构变化,同理均应包含在本发明的保护范围内。
Claims (4)
1.一种利用声纹提取有效语音信号的方法,其特征在于,包括如下步骤:
步骤1.设备未唤醒状态下,首先识别唤醒词,分析并记录唤醒词的声纹特征;设备进入唤醒状态;
步骤2.设备进入唤醒状态后,收集环境语音并将采集到的有人语音声音信号进行声纹识别处理,识别处理过程为:
对识别出声纹信息与唤醒词声纹特征符合的目标信号进行保留,对不符合唤醒词声纹特征的非目标信号进行抑制;
进行声纹处理识别后的声音信号进入下一步继续识别。
2.如权利要求1所述的利用声纹提取有效语音信号的方法,其特征在于,所述识别处理过程中,按照声源空间方位将声音信号划分为若干个子信号,对每一子信号进行声纹识别。
3.如权利要求2所述的利用声纹提取有效语音信号的方法,其特征在于,所述设备具备多个麦克风,对每一子信号进行声源识别的具体方式为:采用定向拾音通过多个麦克风波束成形的方法采集到不用方位角度的声源。
4.如权利要求1所述的利用声纹提取有效语音信号的方法,其特征在于,所述抑制为对非目标信号进行数字衰减。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201811149356.6A CN110970020A (zh) | 2018-09-29 | 2018-09-29 | 一种利用声纹提取有效语音信号的方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201811149356.6A CN110970020A (zh) | 2018-09-29 | 2018-09-29 | 一种利用声纹提取有效语音信号的方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN110970020A true CN110970020A (zh) | 2020-04-07 |
Family
ID=70028074
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN201811149356.6A Pending CN110970020A (zh) | 2018-09-29 | 2018-09-29 | 一种利用声纹提取有效语音信号的方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN110970020A (zh) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN112017649A (zh) * | 2020-09-02 | 2020-12-01 | 上海仙视电子科技有限公司 | 音频处理方法、装置、电子设备及可读存储介质 |
| CN112770224A (zh) * | 2020-12-30 | 2021-05-07 | 上海移远通信技术股份有限公司 | 车内音源采集系统及方法 |
| CN113921016A (zh) * | 2021-10-15 | 2022-01-11 | 阿波罗智联(北京)科技有限公司 | 语音处理方法、装置、电子设备以及存储介质 |
| WO2024051199A1 (zh) * | 2022-09-09 | 2024-03-14 | 青岛海尔空调器有限总公司 | 用于控制语音控制设备的方法及装置、控制语音控制设备 |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20160035349A1 (en) * | 2014-07-29 | 2016-02-04 | Samsung Electronics Co., Ltd. | Electronic apparatus and method of speech recognition thereof |
| CN105575395A (zh) * | 2014-10-14 | 2016-05-11 | 中兴通讯股份有限公司 | 语音唤醒方法及装置、终端及其处理方法 |
| CN108062949A (zh) * | 2017-12-11 | 2018-05-22 | 广州朗国电子科技有限公司 | 语音控制跑步机的方法及装置 |
| CN108159702A (zh) * | 2017-12-06 | 2018-06-15 | 广东欧珀移动通信有限公司 | 基于多人语音游戏处理方法和装置 |
| CN108447471A (zh) * | 2017-02-15 | 2018-08-24 | 腾讯科技(深圳)有限公司 | 语音识别方法及语音识别装置 |
-
2018
- 2018-09-29 CN CN201811149356.6A patent/CN110970020A/zh active Pending
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20160035349A1 (en) * | 2014-07-29 | 2016-02-04 | Samsung Electronics Co., Ltd. | Electronic apparatus and method of speech recognition thereof |
| CN105575395A (zh) * | 2014-10-14 | 2016-05-11 | 中兴通讯股份有限公司 | 语音唤醒方法及装置、终端及其处理方法 |
| CN108447471A (zh) * | 2017-02-15 | 2018-08-24 | 腾讯科技(深圳)有限公司 | 语音识别方法及语音识别装置 |
| CN108159702A (zh) * | 2017-12-06 | 2018-06-15 | 广东欧珀移动通信有限公司 | 基于多人语音游戏处理方法和装置 |
| CN108062949A (zh) * | 2017-12-11 | 2018-05-22 | 广州朗国电子科技有限公司 | 语音控制跑步机的方法及装置 |
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN112017649A (zh) * | 2020-09-02 | 2020-12-01 | 上海仙视电子科技有限公司 | 音频处理方法、装置、电子设备及可读存储介质 |
| CN112017649B (zh) * | 2020-09-02 | 2024-12-31 | 上海仙视电子科技有限公司 | 音频处理方法、装置、电子设备及可读存储介质 |
| CN112770224A (zh) * | 2020-12-30 | 2021-05-07 | 上海移远通信技术股份有限公司 | 车内音源采集系统及方法 |
| CN112770224B (zh) * | 2020-12-30 | 2022-07-05 | 上海移远通信技术股份有限公司 | 车内音源采集系统及方法 |
| CN113921016A (zh) * | 2021-10-15 | 2022-01-11 | 阿波罗智联(北京)科技有限公司 | 语音处理方法、装置、电子设备以及存储介质 |
| WO2024051199A1 (zh) * | 2022-09-09 | 2024-03-14 | 青岛海尔空调器有限总公司 | 用于控制语音控制设备的方法及装置、控制语音控制设备 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN102298443B (zh) | 结合视频通道的智能家居语音控制系统及其控制方法 | |
| CN107799126B (zh) | 基于有监督机器学习的语音端点检测方法及装置 | |
| EP3923273B1 (en) | Voice recognition method and device, storage medium, and air conditioner | |
| CN113205803B (zh) | 一种具有自适应降噪能力的语音识别方法及装置 | |
| CN108597505B (zh) | 语音识别方法、装置及终端设备 | |
| CN106599866A (zh) | 一种多维度用户身份识别方法 | |
| CN109272991B (zh) | 语音交互的方法、装置、设备和计算机可读存储介质 | |
| CN107172018A (zh) | 公共背景噪声下激活式的声纹密码安全控制方法及系统 | |
| CN110970020A (zh) | 一种利用声纹提取有效语音信号的方法 | |
| CN113077812B (zh) | 语音信号生成模型训练方法、回声消除方法和装置及设备 | |
| CN110021307A (zh) | 音频校验方法、装置、存储介质及电子设备 | |
| CN101393660A (zh) | 一种基于脚步声识别的智能门禁系统 | |
| CN106531179A (zh) | 一种基于语义先验的选择性注意的多通道语音增强方法 | |
| CN112420063A (zh) | 一种语音增强方法和装置 | |
| CN115775564B (zh) | 音频处理方法、装置、存储介质及智能眼镜 | |
| CN109215634A (zh) | 一种多词语音控制通断装置的方法及其系统 | |
| CN112908310A (zh) | 一种智能电器中的语音指令识别方法及识别系统 | |
| CN108091340B (zh) | 声纹识别方法、声纹识别系统和计算机可读存储介质 | |
| CN117672228A (zh) | 基于机器学习的智能语音交互误唤醒系统及方法 | |
| CN112420056A (zh) | 基于变分自编码器的说话人身份鉴别方法、系统及无人机 | |
| CN109065026B (zh) | 一种录音控制方法及装置 | |
| CN111192569B (zh) | 双麦语音特征提取方法、装置、计算机设备和存储介质 | |
| CN117014761B (zh) | 交互式脑控耳机控制方法及装置、脑控耳机、存储介质 | |
| CN119851688A (zh) | 一种基于调度电话声纹识别的来电人员身份鉴别方法及系统 | |
| CN114155850B (zh) | 基于麦克风阵列的语音欺骗攻击检测系统与方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| RJ01 | Rejection of invention patent application after publication | ||
| RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200407 |