CN110970020A

CN110970020A - 一种利用声纹提取有效语音信号的方法

Info

Publication number: CN110970020A
Application number: CN201811149356.6A
Authority: CN
Inventors: 何云鹏; 高君效; 张来; 刘兵; 余杰
Original assignee: Chipintelli Technology Co Ltd
Current assignee: Chipintelli Technology Co Ltd
Priority date: 2018-09-29
Filing date: 2018-09-29
Publication date: 2020-04-07

Abstract

一种利用声纹提取有效语音信号的方法,包括如下步骤:步骤1.设备未唤醒状态下，首先识别唤醒词，分析并记录唤醒词的声纹特征；步骤2.设备进入唤醒状态后，收集环境语音并将采集到的有人语音声音信号进行声纹识别处理，识别处理过程为：对识别出声纹信息与唤醒词声纹特征符合的目标信号进行保留，对不符合唤醒词声纹特征的非目标信号进行抑制；进行声纹识别处理后的声音信号进入下一步继续识别。本发明通过提取唤醒词的声纹特征甄别设备的控制用户声源和其他声源,可以在识别控制命令词时，准确的从外围复杂声音环境中找出控制用户的语音信号，提升了对在复杂声音环境中的语音控制命令的识别准确率。

Description

一种利用声纹提取有效语音信号的方法

技术领域

本发明属于人工智能领域，涉及语音识别技术，具体涉及一种利用声纹提取有效语音信号的方法。

背景技术

近年来，智能语音识别相关技术在人工智能、智能硬件、可穿戴设备、无人驾驶等领域得到深入广泛的运用，让人类真正解决双手、双眼不再是遥不可及的事情；但消费者期望的理想的语音识别距离技术实现仍然有一定差距，特别是语音应用环境的复杂和噪音极易造成设备的误操作，目前的语音识别设备采用进行语音识别控制的做法通常都是先由用户讲述唤醒词，唤醒设备，再向设备讲述语音控制命令词或句子，设备进行语音识别后执行对应的功能。在实际应用中，需要设备先通过各类降噪技术提取用户的语音信号，再进行识别确定对应的功能。由于设备所处的环境往往比较复杂，如在客厅或汽车内，用户在对设备控制时可能同时会有其他人在讲话，这样传统的语音降噪是根据声音的特征对环境噪音进行抑制，但对于同样的人声抑制效果较差，控制用户的有效语音会混叠在周围人讲话的声音中，很难被准确的提取出，造成语音识别效果变差，降低了用户的体验感。

发明内容

为克服现有技术存在的缺陷，本发明公开了一种利用声纹提取有效语音信号的方法。

本发明所述利用声纹提取有效语音信号的方法,包括如下步骤:

步骤1：设备未唤醒状态下，首先识别唤醒词，分析并记录唤醒词的声纹特征；设备进入唤醒状态；

步骤2：设备进入唤醒状态后，收集环境语音并将采集到的有人语音声音信号进行声纹识别处理，识别处理过程为：

对识别出声纹信息与唤醒词声纹特征符合的目标信号进行保留，对不符合唤醒词声纹特征的非目标信号进行抑制；

进行声纹处理识别后的声音信号进入下一步继续识别。

优选的，所述识别处理过程中，按照声源空间方位将声音信号划分为若干个子信号，对每一子信号进行声纹识别。

进一步的，所述设备具备多个麦克风,对每一子信号进行声源识别的具体方式为：采用定向拾音通过多个麦克风波束成形的方法采集到不同方位角度的声源。

优选的，所述抑制为对非目标信号进行数字衰减。

本发明通过提取唤醒词的声纹特征甄别设备的控制用户声源和其他声源,可以在识别控制命令词时，准确的从外围复杂声音环境中准确找出控制用户的语音信号，提升了对在复杂声音环境中的语音控制命令的识别准确率，且不增加硬件成本，具有效果明显、方便易用的优点。

附图说明

图1给出本发明所述利用声纹提取有效语音信号的方法的一种具体实施方式流程示意图。

具体实施方式

下面对本发明的具体实施方式作进一步的详细说明。

进行声纹处理识别后的声音信号进入下一步继续识别。

语音识别的基本原理是通过麦克风收集命令词的声音信号并将其转化为电学信号后，与已经存储的数据模型进行解码计算，通过计算识别出声音信号并调用该声音信号对应的指令对设备进行相应的操作。

本发明所述唤醒词,是启动语音识别设备中的语音识别模块的特殊命令词,语音识别设备在没有被唤醒词唤醒之前，处于常规待机工作状态，语音识别模块通常除对唤醒词进行反应外，对其他命令词在未唤醒前不回应。

控制用户发出唤醒词后,设备检测到唤醒词进入唤醒状态,并计算记录唤醒词的声纹。

设备进入唤醒状态，在较为复杂的语音环境下，设备很可能同时接收到控制用户的发声、其他人员的发声和环境噪声，由于声纹的独一无二性，在已经存储了唤醒词声纹特征的情况下，通过寻找环境中仅符合唤醒词声纹的声源。这样在确定控制用户的声源后，抑制其它不符合唤醒词声纹的声源和环境噪声。抑制其它声源和环境噪声的方法可以采用数字衰减方式，具体为：将已提取出控制用户声源的其余包含了其它声源和环境噪声的声音信号的电信号，用衰减算法直接将不具备唤醒词声纹特征的信号衰减到与衰减前能量差别多个数量级以上的信号，使其对控制用户的声源不可能造成干扰影响。

实际操作中，可以一次性针对全空间方位采集声音信号，应用上述方法进行处理。同时考虑到环境的复杂性，针对采用两个及以上麦克风的设备，还可以采用先将空间方位按角度进行分区，遍历每个分区进行分别识别的方式，即按照声源空间方位将声音信号划分为若干个和空间方位角度相关的子信号，对每一子信号进行声纹识别。优选可以对唤醒词初始发声方位或上一次控制用户的发声方位进行识别，识别符合则进行后续语音识别，识别不符合则选择按照距离远近，以上一次控制用户发声方位从近到远对各个方位开始识别。这样可以实现更高的准确性和即时性。

设备对各个角度的声源进行分区,具体实现方式和识别原理为: 当设备具备两个及以上麦克风时，可以采用麦克风阵列进行定向拾音，定向拾音是按照声音来源方向,在混杂的信号中进行目标信号的拾取,即只拾取特定方向传播来的声音信号，而对其他方向的噪声、干扰信号不拾取或屏蔽，从而达到目标语音增强的效果。采用定向拾音通过多个麦克风波束成形的方法采集到不用方位角度的声源, 将各个麦克风的拾音信号进行加权合成，得到某个方向的音频信号。

前文所述的为本发明的各个优选实施例，各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提，各个优选实施方式都可以任意叠加组合使用，所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程，并非用以限制本发明的专利保护范围，本发明的专利保护范围仍然以其权利要求书为准，凡是运用本发明的说明书内容所作的等同结构变化，同理均应包含在本发明的保护范围内。

Claims

1.一种利用声纹提取有效语音信号的方法,其特征在于,包括如下步骤:

步骤1.设备未唤醒状态下，首先识别唤醒词，分析并记录唤醒词的声纹特征；设备进入唤醒状态；

步骤2.设备进入唤醒状态后，收集环境语音并将采集到的有人语音声音信号进行声纹识别处理，识别处理过程为：

进行声纹处理识别后的声音信号进入下一步继续识别。

2.如权利要求1所述的利用声纹提取有效语音信号的方法，其特征在于，所述识别处理过程中，按照声源空间方位将声音信号划分为若干个子信号，对每一子信号进行声纹识别。

3.如权利要求2所述的利用声纹提取有效语音信号的方法，其特征在于，所述设备具备多个麦克风,对每一子信号进行声源识别的具体方式为:采用定向拾音通过多个麦克风波束成形的方法采集到不用方位角度的声源。

4.如权利要求1所述的利用声纹提取有效语音信号的方法，其特征在于，所述抑制为对非目标信号进行数字衰减。