WO2017166495A1

WO2017166495A1 - 一种语音信号处理方法及装置

Info

Publication number: WO2017166495A1
Application number: PCT/CN2016/088981
Authority: WO
Inventors: 赵宪浩; 刘子超
Original assignee: Le Holdings Beijing Co Ltd; Leshi Zhixin Electronic Technology Tianjin Co Ltd
Current assignee: Le Holdings Beijing Co Ltd; Leshi Zhixin Electronic Technology Tianjin Co Ltd
Priority date: 2016-03-28
Filing date: 2016-07-06
Publication date: 2017-10-05
Anticipated expiration: 2018-09-28
Also published as: CN105847497A

Abstract

本发明提供一种语音信号处理方法及装置，用于解决现有技术存在采集得到的语音信号噪声较大的问题，可以给用户带来更好的声音体验。语音信号处理方式方法包括：通过所述至少两个语音采集设备采集第一语音信号；确定所述至少两个语音采集设备中每个语音采集设备采集到的第一语音信号的声源特征值；根据预设的第一对应关系确定所述至少两个语音采集设备采集到的第一语音信号的声源特征值对应的语音处理方式，所述预设的第一对应的关系包括所述至少两个语音采集设备所对应的声源特征值范围与语音处理方式之间的对应关系；根据所述确定的语音处理方式对所述至少两个语音采集设备采集的第一语音信号进行处理。

Description

一种语音信号处理方法及装置

本申请要求在2016年3月28日提交中国专利局、申请号为201610184725.X、发明名称为“一种语音信号处理方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明实施例涉及信号处理技术领域，尤其涉及一种语音信号处理方法及装置。

背景技术

为了提高手机的语音应用的质量，许多手机厂商都通过增加麦克风数量来增加语音应用的质量，现有的多麦克风终端主要包括两麦克风终端、三麦克风终端以及四麦克风终端，而无论是两麦克风终端、三麦克风终端还是四麦克风终端，通常都是设置一个麦克风作为主麦克风，其他麦克风作为辅麦克风。通过主麦克风主要采集人声信号，其他麦克风主要采集噪音信号来进行语音处理的，达到降噪的效果。

但是现有的两麦克风终端、三麦克风终端以及四麦克风终端，针对不同语音应用(APP)，采用终端预先设定好的麦克风作为主麦克风。比如针对微信语音时，采用设置在底部的麦克风作为主麦克风，其他的麦克风作为辅麦克风。

发明人在实现本发明的过程中发现：现在大多数用户不确定针对具体APP所设置的主麦克风，这样会导致用户可能会将终端预先设定的辅麦克风作为主麦克风进行通信，但是该辅麦克风主要负责采集环境噪声，从而会造成采集到的用户用于通信的语音信号噪声较大。

发明内容

本发明实施例提供一种语音信号处理方法及装置，用于解决现有技术存在采集得到的语音信号噪声较大的问题。

本发明实施例提供了一种语音信号处理方法，所述方法应用包括至少两个语音采集设备的终端，包括：

通过所述至少两个语音采集设备采集第一语音信号；

确定所述至少两个语音采集设备中每个语音采集设备采集到的第一语音信号的声源特征值；

根据预设的第一对应关系确定所述至少两个语音采集设备采集到的第一语音信号的声源特征值对应的语音处理方式，所述预设的第一对应的关系包括所述至少两个语音采集设备所对应的声源特征值范围与语音处理方式之间的对应关系；

根据所述确定的语音处理方式对所述至少两个语音采集设备采集的第一语音信号进行处理。

本发明实施例还提供了一种语音信号处理装置，包括：

至少两个语音采集模块，分别用于采集第一语音信号，所述至少两个语音采集设备模块在所述第一语音信号处理装置的位置不同；

计算模块，用于确定所述至少两个语音采集模块中每个语音采集模块采集到的第一语音信号的声源特征值；

处理方式确定模块，用于根据预设的第一对应关系确定所述计算模块确定的所述至少两个语音采集模块采集到的第一语音信号的声源特征值对应的语音处理方式，所述预设的第一对应的关系包括所述至少两个语音采集模块所对应的声源特征值范围与语音处理方式之间的对应关系；

信号处理模块，用于根据所述确定模块确定的语音处理方式对所述至少两个语音采集模块采集的第一语音信号进行处理。

本发明实施例提供一种语音信号处理装置，包括存储器、处理器以及语音采集设备，其中，处理器可以用于读取存储器中的程序，执行下列过程：通过所述至少两个语音采集设备采集第一语音信号；确定所述至少两个语音采集设备中每个语音采集设备采集到的第一语音信号的声源特征值；根据预设的第一对应关系确定所述至少两个语音采集设备采集到的第一语音信号的声源特征值对应的语音处理方式，所述预设的第一对应的关系包括所述至少两个语音采集设备所对应的声源特征值范围与语音处理方式之间的对应关系；根据所述确定的语音处理方式对所述至少两个语音采集设备采集的第一语音信号进行处理。

本发明实施例提供了语音信号处理方法及装置，通过确定的所述至少两个语音采集设备中每个语音采集设备采集到的第一语音信号的声源特征值；然后所述至少两个语音采集设备采集到的第一语音信号的声源特征值对应的语音处理方式，根据所述确定的语音处理方式对所述至少两个语音采集设备采集的第一语音信号进行处理。由于预先设置好所述至少两个语音采集模块所对应的声源特征值范围与语音处理方式之间的对应关系，通过声源特征值来匹配最佳的语音处理方式，切换最佳的输入输出设备，达到了很好的降噪效果，可以给用户带来更好的声音体验。减少了用户对终端的主麦克风所在位置的情况下所带来的误操作。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种语音信号处理方法流程图；

图2为本发明提供的一种语音信号处理装置流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

由于装配两或者三或者四个麦克风的手机的降噪技术针对通话场景提出的或者基于语音的各种应用提出的，例如各种手机上安装的APP，如微信、QQ里的语音聊天、对讲机应用、语音录制应用、语音记事本等，不同的APP对应一种主麦克风，其他的麦克风用于降噪。但是针对某一个应用使用确定的主麦风，如果用户不确定该应用的主麦克风的情况，这样会导致用户可能会将终端预先设定的辅麦克风作为主麦克风进行通信，但是该辅麦克风主要负责采集环境噪声，使得降噪的有效性降低了，因此提出了如下面所描述的技术方案，但不仅限于下面所描述的各实施例。

本发明实施例提供一种语音信号处理方法及装置，用于解决现有技术存在采集得到的语音信号噪声较大的问题。其中，方法和装置是基于同一发明构思的，由于方法及装置解决问题的原理相似，因此装置与方法的实施可以相互参见，重复之处不再赘述。

本发明实施例提供了一种语音信号处理方法，所述方法应用包括至少两个语音采集设备的终端，所述至少两个语音采集设备设置在所述终端的位置不同。语音采集设备可以为麦克风，但本发明实施例中不限定麦克风的形式，例如耳麦。

如图1所示，该方法包括：

S101，通过所述至少两个语音采集设备采集第一语音信号。

S102，确定所述至少两个语音采集设备中每个语音采集设备采集到的第一语音信号的声源特征值。

S103，根据预设的第一对应关系确定所述至少两个语音采集设备采集到的第一语音信号的声源特征值对应的语音处理方式。

所述预设的第一对应的关系包括所述至少两个语音采集设备所对应的声源特征值范围与语音处理方式之间的对应关系。

S104，根据所述确定的语音处理方式对所述至少两个语音采集设备采集的第一语音信号进行处理。

可选地，在确定所述至少两个语音采集设备中每个语音采集设备采集到的第一语音信号的声源特征值时，可以周期性的确定所述至少两个语音采集设备中每个语音采集设备采集到的第一语音信号的声源特征值。从而每周期根据预设的第一对应关系确定所述至少两个语音采集设备采集到的第一语音信号的声源特征值对应的语音处理方式，从而避免频繁的切换语音处理方式。

可选地，根据预设的第一对应关系确定所述至少两个语音采集设备采集到的第一语音信号的声源特征值对应的语音处理方式，可以但不仅限于通过如下方式实现：

第一种实现方式

选择所述至少两个语音采集设备中采集到的第一语音信号的声源特征值最大的语音采集设备采集主声源的语音信号，其他的语音采集设备采集外部环境噪音。

以两个语音采集设备为例，两个语音采集设备的声源特征值分别通过MKF1、MKF2表示，第一对应关系可以设置如表1所示。

表1

在该技术方案中，至少两个语音采集设备可以是多个麦克风，用户在进行正常语音通话时，使用位于终端下端的麦克风进行通话，则终端下端的麦克风主要获取的是人的说话声音，而终端的其他位置上的麦克风主要获取的是外部环境的噪音，这样，从终端下端的麦克风采集的声音中过滤掉终端的其他位置的麦克风采集的外部环境噪音，就可以获取到清晰的人声，从而达到降噪的目的。

第二种实现方式

选择所述至少两个语音采集设备中采集到的第一语音信号的声源特征值最大的两个语音采集设备采集主声源的语音信号，其他的语音采集设备采集外部环境噪音。

第二种实现方式适用于包括三个或者三个以上的语音采集设备的终端。

可选地，在根据所述确定的语音处理方式对所述至少两个语音采集设备采集的第一语音信号进行处理时，可以通过如下方式实现：

确定本次确定的语音处理方式与上一次确定的语音处理方式不同且采用上一次确定的语音处理方式的时长达到预设时长阈值时，根据本次确定的语音处理方式对所述至少两个语音采集设备采集的第一语音信号进行处理。

比如用户使用微信过程中，一开始使用终端下端的麦克风作为主麦克风，用于获取用户发出的声音，其他麦克风用于获取环境噪声，但是用户使用过程中更换了说话姿势，对准终端上端的麦克风说话的时长达到预设时长阈值时，则可以更换将终端上端的麦克风作为主麦克风，用于获取用户发出的声音，其他麦克风用于获取环境噪声。

可选地，在确定本次确定的语音处理方式与上一次确定的语音处理方式不同且采用上一次确定的语音处理方式的时长未达到预设时长阈值时，根据上一次确定的语音处理方式对所述至少两个语音采集设备采集的第一语音信号进行处理。

通过上述实现方式，可以避免频繁的切换语音处理方式。例如，用户在打电话过程中，路过一个嘈杂的环境，但是在嘈杂环境中的时间较短，则可以不切换语音处理方式。

可选的，在确定所述至少两个语音采集设备中每个语音采集设备采集到的第一语音信号的声源特征值之前，所述方法包括：

确定用于指示自动选择语音处理方式的语音处理模式为开启状态。

在确定用于指示自动选择语音处理方式的语音处理模式为关闭状态时，则不再确定第一语音信号的声源特征值，不再通过本发明实施例提供的方式来确定语音处理方式，则可以采用现有技术提供的方式，例如针对不同的应用采用对应的语音处理方式。

可选地，本发明实施例还可以应用于语音输出设备。终端包括至少一个语音输出设备。

在至少一个语音输出设备输出第二语音信号时，通过所述至少两个语音采集设备采集第三语音信号，所述第三语音信号至少包括所述第二语音信号；

确定所述至少两个语音采集设备中每个语音采集设备采集到的第三语音信号的声源特征值；

根据预设的第二对应关系确定所述至少两个语音采集设备采集到的第三语音信号的声源特征值对应的语音输出方式，所述预设的第二对应的关系包括所述至少两个语音采集设备所对应的声源特征值范围与语音输出方式之间的对应关系；

根据所述确定的语音输出方式控制所述至少一个语音输出设备输出所述第二语音信号。

在本发明实施例中，语音输出设备可以是喇叭。比如在喇叭播放音乐的过程中，所述至少两个语音采集设备采集到的除所述音乐之外的其他声音较大时，则可以调高音量来播放音乐。比如终端包括两个喇叭，终端预先存储有至少两个语音采集设备与所述两个喇叭的距离，则在播放音乐时，所述至少两个语音采集设备采集到的除所述音乐之外的噪声较大时，但是距离左声道的语音采集设备采集到的噪声较大时，则可以调高右声道的音量，调低左声道的音量。

通过本发明实施例提供的方式，通过语音采集设备采集到的语音信号的特征值匹配最佳的语音处理方式，切换最佳的输入输出设备，达到了很好的降噪效果，可以给用户带来更好的声音体验。减少了用户对终端的主麦克风所在位置的情况下所带来的误操作。

基于同一发明构思，本发明实施例中还提供了一种语音信号处理装置，由于装置解决问题的原理与方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

本发明实施例还提供了一种语音信号处理装置，所述语音信号处理装置应用于终端。如图2所示，该装置包括：

至少两个语音采集模块，本发明实施例以两个为例，分别为第一语音采集模块201a和第二语音采集模块201b。第一语音采集模块201a和第二语音采集模块201b分别用于采集第一语音信号。

所述第一语音采集模块和第二语音采集模块在终端的位置不同。

计算模块202，用于确定第一语音采集模块201a和第二语音采集模块201b分别采集到的第一语音信号的声源特征值。

处理方式确定模块203，用于根据预设的第一对应关系确定所述计算模块202确定的第一语音采集模块201a和第二语音采集模块201b分别采集到的第一语音信号的声源特征值对应的语音处理方式，所述预设的第一对应的关系包括第一语音采集模块201a和第二语音采集模块201b所对应的声源特征值范围与语音处理方式之间的对应关系。

信号处理模块204，用于根据所述处理方式确定模块203确定的语音处理方式对第一语音采集模块201a和第二语音采集模块201b采集的第一语音信号进行处理。

可选的，所述处理方式确定模块203，具体用于：在第一语音采集模块201a和第二语音采集模块201b中选择声源特征值最大的语音采集模块作为用于采集主声源语音信号的主设备，其他语音采集模块作为用于采集环境噪声的辅设备。

可选地，所述计算模块202，具体用于：

周期性的确定所述至少两个语音采集设备中每个语音采集设备采集到的第一语音信号的声源特征值。

可选地，所述信号处理模块204，具体用于：

确定本次确定的语音处理方式与上一次确定的语音处理方式不同且采用上一次确定的语音处理方式的时长达到预设时长阈值时，根据本次确定的语音处理方式对第一语音采集模块201a和第二语音采集模块201b采集的第一语音信号进行处理。

可选地，所述装置还包括：

状态确定模块205，用于在所述计算模块202确定所述第一语音采集模块201a和第二语音采集模块201b采集到的第一语音信号的声源特征值之前，确定用于指示自动选择语音处理方式的语音处理模式为开启状态。

所述装置还可以包括：

至少一个语音输出模块206，用于输出第二语音信号；

第一语音采集模块201a和第二语音采集模块201b，还用于在所述至少一个语音输出模块输出第二语音信号时，采集第三语音信号，所述第三语音信号至少包括所述第二语音信号；

所述计算模块202，还用于确定所述第一语音采集模块201a和第二语音采集模块201b采集到的第三语音信号的声源特征值；

输出方式确定模块207，用于根据预设的第二对应关系确定所述第一语音采集模块201a和第二语音采集模块201b采集到的第三语音信号的声源特征值对应的语音输出方式，所述预设的第二对应的关系包括所述第一语音采集模块201a和第二语音采集模块201b所对应的声源特征值范围与语音输出方式之间的对应关系；

控制模块，用于根据所述确定的语音输出方式控制所述至少一个语音输出模块206输出所述第二语音信号。

为了描述的方便，以上各部分按照功能划分为各模块(或单元)分别描述。当然，在实施本发明时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。具体实施时，上述设备识别装置可以设置于服务器中。

本发明实施例中可以通过硬件处理器(hardware processor)来实现图2所示的除语音采集模块以外的相关功能模块。具体的，一种语音信号处理装置，包括存储器、处理器以及语音采集设备，其中，处理器可以用于读取存储器中的程序，执行下列过程：通过所述至少两个语音采集设备采集第一语音信号；确定所述至少两个语音采集设备中每个语音采集设备采集到的第一语音信号的声源特征值；根据预设的第一对应关系确定所述至少两个语音采集设备采集到的第一语音信号的声源特征值对应的语音处理方式，所述预设的第一对应的关系包括所述至少两个语音采集设备所对应的声源特征值范围与语音处理方式之间的对应关系；根据所述确定的语音处理方式对所述至少两个语音采集设备采集的第一语音信号进行处理。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

一种语音信号处理方法，其特征在于，所述方法应用包括至少两个语音采集设备的终端，所述至少两个语音采集设备设置在所述终端的位置不同，包括：

通过所述至少两个语音采集设备采集第一语音信号；

确定所述至少两个语音采集设备中每个语音采集设备采集到的第一语音信号的声源特征值；

根据预设的第一对应关系确定所述至少两个语音采集设备采集到的第一语音信号的声源特征值对应的语音处理方式，所述预设的第一对应的关系包括所述至少两个语音采集设备所对应的声源特征值范围与语音处理方式之间的对应关系；

根据所述确定的语音处理方式对所述至少两个语音采集设备采集的第一语音信号进行处理。
根据权利要求1所述的方法，其特征在于，所述根据预设的第一对应关系确定所述至少两个语音采集设备采集到的第一语音信号的声源特征值对应的语音处理方式，包括：

在所述至少两个语音采集设备中选择声源特征值最大的语音采集设备作为用于采集主声源语音信号的主设备，其他语音采集设备作为用于采集环境噪声的辅设备。
根据权利要求1或2所述的方法，其特征在于，所述根据所述确定的语音处理方式对所述至少两个语音采集设备采集的第一语音信号进行处理，包括：

确定本次确定的语音处理方式与上一次确定的语音处理方式不同且采用上一次确定的语音处理方式的时长达到预设时长阈值时，根据本次确定的语音处理方式对所述至少两个语音采集设备采集的第一语音信号进行处理。
根据权利要求1所述的方法，其特征在于，所述确定所述至少两个语音采集设备中每个语音采集设备采集到的第一语音信号的声源特征值之前，包括：

确定用于指示自动选择语音处理方式的语音处理模式为开启状态。
根据权利要求1所述的方法，其特征在于，还包括：

在至少一个语音输出设备输出第二语音信号时，通过所述至少两个语音采集设备采集第三语音信号，所述第三语音信号至少包括所述第二语音信号；

确定所述至少两个语音采集设备中每个语音采集设备采集到的第三语音信号的声源特征值；

根据预设的第二对应关系确定所述至少两个语音采集设备采集到的第三语音信号的声源特征值对应的语音输出方式，所述预设的第二对应的关系包括所述至少两个语音采集设备所对应的声源特征值范围与语音输出方式之间的对应关系；

根据所述确定的语音输出方式控制所述至少一个语音输出设备输出所述第二语音信号。
一种语音信号处理装置，其特征在于，包括：

至少两个语音采集模块，分别用于采集第一语音信号，所述至少两个语音采集设备模块在所述第一语音信号处理装置的位置不同；

计算模块，用于确定所述至少两个语音采集模块中每个语音采集模块采集到的第一语音信号的声源特征值；

处理方式确定模块，用于根据预设的第一对应关系确定所述计算模块确定的所述至少两个语音采集模块采集到的第一语音信号的声源特征值对应的语音处理方式，所述预设的第一对应的关系包括所述至少两个语音采集模块所对应的声源特征值范围与语音处理方式之间的对应关系；

信号处理模块，用于根据所述确定模块确定的语音处理方式对所述至少两个语音采集模块采集的第一语音信号进行处理。
根据权利要求6所述的装置，其特征在于，所述处理方式确定模块，具体用于：在所述至少两个语音采集模块中选择声源特征值最大的语音采集模块作为用于采集主声源语音信号的主设备，其他语音采集模块作为用于采集环境噪声的辅设备。
根据权利要求6或7所述的装置，其特征在于，所述信号处理模块，具体用于：

确定本次确定的语音处理方式与上一次确定的语音处理方式不同且采用上一次确定的语音处理方式的时长达到预设时长阈值时，根据本次确定的语音处理方式对所述至少两个语音采集模块采集的第一语音信号进行处理。
根据权利要求6所述的装置，其特征在于，还包括：

状态确定模块，用于在所述计算模块确定所述至少两个语音采集模块中每个语音采集设备采集到的第一语音信号的声源特征值之前，确定用于指示自动选择语音处理方式的语音处理模式为开启状态。
根据权利要求6所述的装置，其特征在于，还包括：

至少一个语音输出模块，用于输出第二语音信号；

所述至少两个语音采集模块，还用于在所述至少一个语音输出模块输出第二语音信号时，采集第三语音信号，所述第三语音信号至少包括所述第二语音信号；

所述计算模块，还用于确定所述至少两个语音采集模块中每个语音采集模块采集到的第三语音信号的声源特征值；

输出方式确定模块，用于根据预设的第二对应关系确定所述至少两个语音采集模块采集到的第三语音信号的声源特征值对应的语音输出方式，所述预设的第二对应的关系包括所述至少两个语音采集模块所对应的声源特征值范围与语音输出方式之间的对应关系；

控制模块，用于根据所述确定的语音输出方式控制所述至少一个语音输出模块输出所述第二语音信号。