WO2018107810A1

WO2018107810A1 - 声纹识别方法、装置、电子设备及介质

Info

Publication number: WO2018107810A1
Application number: PCT/CN2017/099707
Authority: WO
Inventors: 王健宗; 郭卉; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2016-12-15
Filing date: 2017-08-30
Publication date: 2018-06-21
Anticipated expiration: 2019-06-15
Also published as: CN107610707A; CN107610707B

Abstract

提供了适用于身份认证技术领域的声纹识别方法、装置、电子设备及介质。方法包括：对输入的语音进行预处理，获取语音中的有效语音；提取语音的MFCC声学特征，输出包含MFCC维度及语音分帧数的第一和第二特征矩阵；构建长短时递归神经网络模型，并将第一特征矩阵作为输入；利用神经网络模型的训练参数及语音的说话人特征训练特征提取矩阵，每个特征提取矩阵对应一个说话人模型；选取出匹配第二特征矩阵的说话人模型，匹配的说话人模型对应的说话人输出为声纹识别结果。能够从训练语音中挖掘出更合适的声学特征，从而能够更准确地辨别说话人的差异性特征，学习到鲁棒性更强的说话人模型，获取更好的声纹识别效果。

Description

声纹识别方法、装置、电子设备及介质

技术领域

本申请属于身份认证技术领域，尤其涉及一种声纹识别方法、装置、电子设备及介质。

背景技术

声纹识别也称为说话人识别，用于判断某段语音是若干人中的哪一个所说的或者用于确认某段语音是否是指定的某个人所说的，是一项根据语音波形反映说话人生理和行为特征的语音参数，自动识别说话人身份的技术。目前，声纹识别广泛应用于互联网、银行系统、公安司法等领域。声纹，是用电声学仪器显示的携带言语信息的声波频谱。每个人的语音声学特征既有相对稳定性，又有变异性，不是绝对的、一成不变的。这种变异可来自生理、病理、心理、模拟、伪装，也与环境干扰有关。

业界主流的声纹识别方法一般需要先对说话人的声纹进行建模，通常是对全局背景模型预先进行训练。现有的声纹模型中，主要采用混合高斯模型来训练通用的背景模型。由于基于无监督训练的混合高斯背景模型中并没有样本数据的类别信息，仅用以代表说话人空间中所有说话人的特征，是一个单一的说话人无关的背景模型，因此难以准确地辨别说话人的差异性特征，最终导致对说话人的声纹进行识别时，识别准确率低。

技术问题

本发明实施例提供了一种声纹识别方法、装置、电子设备及介质，以解决现有技术难以准确地辨别说话人的差异性特征，从而导致声纹识别准确率较低的问题。

技术解决方案

本发明实施例的第一方面，提供了一种声纹识别方法，包括：

分别对输入的K条语音进行预处理，以获取所述每条语音中的有效语音，所述语音包括训练语音及待识别语音；

提取所述每条训练语音中有效语音的梅尔频率倒谱系数声学特征，输出包含所述梅尔频率倒谱系数的维度及所述每条训练语音的分帧数的第一特征矩阵；

构建长短时递归神经网络模型，并将所述第一特征矩阵输入所述神经网络模型，以获取所述神经网络模型的输出参数；

利用所述神经网络模型的输出参数及所述每条训练语音对应的说话人特征，分别训练得出N条训练语音的N个特征提取矩阵，所述每个特征提取矩阵对应一个所述训练语音的说话人模型；

提取所述待识别语音中有效语音的梅尔频率倒谱系数声学特征，输出包含所述梅尔频率倒谱系数的维度及所述待识别语音的分帧数的第二特征矩阵；

在所述N个说话人模型中，根据预设的相似性度量算法，选取出与所述第二特征矩阵相匹配的说话人模型，所述选取出的说话人模型对应的说话人输出为所述待识别语音的声纹识别结果；

其中，所述K和N为大于零的整数，且K大于N。

本发明实施例的第二方面，提供了一种声纹识别装置，包括：

预处理模块，用于分别对输入的K条语音进行预处理，以获取所述每条语音中的有效语音，所述语音包括训练语音及待识别语音；

第一提取模块，用于提取所述每条训练语音中有效语音的梅尔频率倒谱系数声学特征，输出包含所述梅尔频率倒谱系数的维度及所述每条训练语音的分帧数的第一特征矩阵；

构建模块，用于构建长短时递归神经网络模型，并将所述第一特征矩阵输入所述神经网络模型，以获取所述神经网络模型的输出参数；

训练模块，用于利用所述神经网络模型的输出参数及所述每条训练语音对应的说话人特征，分别训练得出N条训练语音的N个特征提取矩阵，所述每个特征提取矩阵对应一个所述训练语音的说话人模型；

第二提取模块，用于提取所述待识别语音中有效语音的梅尔频率倒谱系数声学特征，输出包含所述梅尔频率倒谱系数的维度及所述待识别语音的分帧数的第二特征矩阵；

识别模块，用于在所述N个说话人模型中，根据预设的相似性度量算法，选取出与所述第二特征矩阵相匹配的说话人模型，所述选取出的说话人模型对应的说话人输出为所述待识别语音的声纹识别结果；

其中，所述K和N为大于零的整数，且K大于N。

本发明实施例的第三方面，提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机序时实现如下步骤：

其中，所述K和N为大于零的整数，且K大于N。

本发明实施例的第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被至少一个处理器执行时实现如下步骤：

其中，所述K和N为大于零的整数，且K大于N。

有益效果

在本发明实施例中，采用监督学习的方式来训练声纹背景模型，通过结合说话人的特征，能够从原始训练语音数据中挖掘出更合适的声学特征集，从而能够更准确地辨别说话人的差异性特征，在语音交叠的场景下能获取更好的声纹识别效果。由于识别的主要过程是基于深度神经网络模型来实现，因此能够学习到鲁棒性更强的说话人模型，解决现有声纹识别方法识别准确率低的问题。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的声纹识别方法的实现流程图；

图2是本发明实施例提供的声纹识别方法中步骤S101的具体实现流程图；

图3是本发明实施例提供的声纹识别方法中步骤S102的具体的实现流程图；

图4是本发明实施例提供的声纹识别方法中步骤S103的具体的实现流程图；

图5是本发明实施例提供的声纹识别方法中步骤S104的具体的实现流程图；

图6是本发明实施例提供的声纹识别装置的结构框图；

图7是本发明实施例提供的电子设备的示意图。

本发明的实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

本发明实施例基于时间递归深度神经网络来实现，对说话人模型的训练依靠训练语音的声学特征来对模型的参数进行估计及优化调整，以不同的说话人模型表示不同的说话人个性特征，获得待识别语音的特征提取矩阵后，依次与多个说话人模型进行匹配对比，将不符合匹配条件的说话人模型淘汰，最终，接收符合匹配条件的说话人模型对应的说话人作为声纹识别的结果。

图1示出了本发明实施例提供的声纹识别方法的实现流程，详述如下：

在S101中，分别对输入的K条语音进行预处理，以获取所述每条语音中的有效语音，所述语音包括训练语音及待识别语音。

在本实施例中，通过输入数量足够多的训练语音来建立不同的说话人模型，该训练语音为已知说话人身份的标记语音样本，用于调整说话人模型的参数，使该模型能够基于监督学习，在实际应用中达到所要求的识别性能。

当需要判断某段语音是若干人中的哪一个所说的或者用于确认某段语音是否是指定的某个人所说的时，该段语音即为待识别语音。训练语音与待识别语音的作用不同，可以是不同或相同的语音数据。当二者相同时，所述待识别语音可用以检验最终得出的说话人模型的性能，测试其是否能够准确地识别出待识别语音的说话人身份。

对所述语音进行预处理，以降低每段连续语音信号中的背景噪声水平，输出含有实际分析意义的有效语音，为后续说话人模型训练提供高信噪比的训练集，提高了模型训练的速度，达到更为准确的模型训练效果。

作为本发明的另一个实施例，图2示出了本发明实施例提供的声纹识别方法S101的具体实现流程，详述如下：

S201，分别对输入的K条语音进行预加重处理，以提升所述每条语音中的高频信号频段。

在本实施例中，为了降低口唇辐射的影响，突出高频的共振峰，分别将每条语音信号通过一个高通滤波器来对语音中的高频部分进行加重，使语音信号的频谱变得更平滑。

S202，采用分帧加窗算法，分别将所述预加重处理后的每条语音转化为短时平稳信号。

选择适当数量的采样点，对所述预加重处理后的每条语音进行分帧，以使每条语音转化为多帧短时语音信号。其中，每一帧信号可视为一个平稳过程，即统计特性平稳。

在本实施例中，所述加窗过程表示将原来的短时语音信号作为被积函数，并使其与特定的窗函数做积。窗函数是一种除在给定区间之外取值均为零的实函数，包含但不限于矩形窗、三角窗、汉宁窗和海明窗等窗函数。

优选地，在本实施例中该窗函数为汉宁窗。

S203，基于端点检测算法区分所述短时平稳信号中的噪声与语音，并将所述短时平稳信号中的语音输出为所述每条语音的有效语音。

首先，在短时语音信号对应的短时功率谱轮廓中选取一个较高的短时能量判决门限值，并进行第一次粗判。有效语音信号的起止点位于所述门限值与短时能量包络交点所对应的时间间隔之外。

根据背景噪声的平均能量，选取一个较低的短时能量判决门限值，语音短时能量包络与该门限相交的两个点作为有效语音信号的起止点，可将上述有效语音提取并输出。

本发明实施例通过对输入的多条语音进行预加重处理，避免高频段的输出信噪比明显下降，通过提取语音信号中的有效语音，过滤所述短时平稳信号中的噪声，能够减少说话人模型训练过程中的计算量和缩短后续多个步骤的语音处理时间，能够排除无声段的噪声干扰，提高语音识别的正确率。

在S102中，提取所述每条训练语音中有效语音的梅尔频率倒谱系数(MFCC)声学特征，输出包含所述梅尔频率倒谱系数的维度及所述每条训练语音的分帧数的第一特征矩阵。

基于人耳听觉特性提出来的梅尔Mel频率与Hz频率成非线性对应关系，利用所述非线性的关系，计算得到Hz频谱特征。

Hz频率与Mel频率的转换公式为：F_mel＝2595*lg(1+f_HZ/700)

作为本发明的另一个实施例，图3示出了本发明实施例提供的声纹识别方法S102的具体实现流程，如下所述：

在S301中，通过快速傅利叶变换分析所述每条训练语音中的有效语音，获取所述有效语音的功率谱。

从上述实施例中提取出的有效语音经过快速傅里叶变换后，得到各帧有效语音的频谱，对所述频谱取模后，再进行平方计算，得到各帧有效语音的功率谱。功率谱上表征出来的不同能量分布，代表语音的不同特性。

在S302中，采用梅尔尺度的滤波器组对所述功率谱进行滤波处理，所述滤波器组包含M个三角滤波器，并获取所述每个三角滤波器输出的对数能量。

所述M个三角滤波器的中心频率分别为f(m)，m＝1，2，……，k，其中，k优选取值为22至26。

在S303中，将所述对数能量进行离散余弦变换后，输出所述有效语音的梅尔频率倒谱系数声学特征。

在S304中，根据所述梅尔频率倒谱系数声学特征，输出包含所述梅尔频率倒谱系数的维度及所述每条训练语音的分帧数的第一特征矩阵。

每帧有效语音信号的能量加上所述对数能量，构建了二维的MFCC声学特征。在此过程中加入多种声学特征，例如音高、过零率以及共振峰等，使得输出的第一特征矩阵能以“MFCC维度×分帧数”来表示，所述分帧数为原始输入的每条语音信号在分帧加窗处理过程中的分帧数目。

本发明实施例将有效语音的功率谱经过三角滤波器过滤，实现了每帧有效语音频谱的平滑化，消除了谐波的作用，突显出每帧有效语音对应的原始语音信号的共振峰。以包含MFCC声学特征维度的第一特征矩阵作为神经网络模型的输入，能够使得神经网络模型的训练不会受到输入语音的音调影响，降低了运算量。

在S103中，构建长短时递归神经网络模型，并将所述第一特征矩阵输入所述神经网络模型，以获取所述神经网络模型的输出参数。

作为本发明的另一个实施例，图4示出了本发明实施例提供的声纹识别方法S103的具体实现流程，详述如下：

在S401中，初始化一个长短时递归神经网络模型，所述神经网络模型包含输入层、含有长短期记忆单元的递归层以及输出层。

在本实施例中，神经网络模型包含多个层次，不同层的作用有差异。在此，以五层网络为例，对长短时递归神经网络的网络结构进行阐述，可以理解的是，在实际应用的网络结构中，神经网络的层数不局限于五层。

本实施例使用开源深度学习工具CNTK初始化一个五层长短时递归神经网络模型，该神经网络模型(DNN)的网络结构为：一个输入层，三个含有长短期记忆单元(LSTM)的递归层和一个输出层。其中，每个递归层包含有1024个节点，且包含有两级层次结构，其中一级为具有512个节点的映射层。

LSTM递归层输入的参数是83维的语音特征向量，基于当前帧、前五帧以及后五帧有效语音的前后信息，每次只移动一帧有效语音进行迭代计算，故总共有913维(11帧×83维)的特征向量作为LSTM的输入，该913维特征向量进入LSTM递归层后，依次通过1024个隐含层记忆单元。因此，LSTM递归层的输入与输出特征向量维度相同。

对于该神经网络结构的训练可以使用随机梯度下降的优化方法。

在S402中，将所述第一特征矩阵输入所述神经网络模型。

在S403中，采用Softmax分类器对所述第一特征矩阵中的帧特征向量进行分类，并根据分类结果进行状态聚类，得到多类帧特征向量。

在S404中，分别计算所述各类帧特征向量的后验概率，所述各类帧特征向量的后验概率为所述神经网络模型的输出参数。

DNN输出参数为：

其中，所述i表示第i帧有效语音；所述θ表示语音对应的文本信息；所述f_i表示深度神经网络输入的第一特征矩阵；所述k表示输出的第k个类，对应于传统混合高斯模型中混合高斯的数量。

在S104中，利用所述神经网络模型的输出参数及所述每条训练语音对应的说话人特征，分别训练得出N条训练语音的N个特征提取矩阵，所述每个特征提取矩阵对应一个所述训练语音的说话人模型。

作为本发明的另一个实施例，图5示出了本发明实施例提供的声纹识别方法S104的具体实现流程，详述如下：

在S501中，获取所述神经网络模型的训练参数，所述训练参数为所述输出参数的混合权重、均值及方差。

基于上述实施例中的DNN输出参数，所述三个训练参数的计算公式分别为：

混合权重：

均值：

方差：

在S502中，根据所述训练参数及所述训练语音对应的说话人特征，利用前向-后向算法计算所述每条训练语音对应说话人的特征向量。

在本实施例中，训练语音对应的说话人特征表示训练语音的说话人身份标记信息，根据上述DNN输出参数的混合权重、均值、方差以及训练语音的标记信息，使用基于前向-后向算法原理的Baum-Welch算法，迭代估计每条训练语音所对应说话人的特征向量。

在S503中，将所述神经网络模型的训练参数及所述每条训练语音对应说话人的特征向量迭代至收敛，得出所述每条训练语音的特征提取矩阵。

在S105中，提取所述待识别语音中有效语音的梅尔频率倒谱系数声学特征，输出包含所述梅尔频率倒谱系数的维度及所述待识别语音的分帧数的第二特征矩阵。

对于本文中S102所述具体实施例中的内容，在S105中也同样适用，区别在于本步骤中处理的原始语音信号为待识别语音，S102中处理的原始语音信号为训练语音，其余实现原理均相同，在此不一一赘述。

在S106中，在所述N个说话人模型中，根据预设的相似性度量算法，选取出与所述第二特征矩阵相匹配的说话人模型，所述选取出的说话人模型对应的说话人输出为所述待识别语音的声纹识别结果。

相似性度量算法包含但不限于距离测度、相似测度和匹配测度等算法，用以衡量所述第二特征矩阵与所述说话人模型在特征客观表征形式上的相近程度。

作为本发明的另一个实施例，通过相似测度算法中的余弦测度法来获取与所述第二特征矩阵相匹配的说话人模型。

在本实施例中，用向量空间中两个向量夹角的余弦值来衡量第二特征矩阵与N个说话人模型个体间差异的大小。通过比较输入的两个i-vector低维向量的余弦距离并设定一定的阈值，进行两个向量(代表待识别语音的第二特征矩阵与说话人模型)的相似度判断。其中，连接代表特征点与原点的直线相交于原点，夹角越小代表两个特征越相似，夹角越大代表两个特征的相似度越小。

在所述N个说话人模型中，选取相似度最大的一个说话人模型，该说话人模型的原始说话人即为待识别语音的说话人，从而得到待识别语音的声纹识别结果。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

对应于上文实施例所述的声纹识别方法，图6示出了本发明实施例提供的声纹识别装置的结构框图，所述声纹识别装置可以是软件模块、硬件模块或者是软硬结合的模块。为了便于说明，仅示出了与本实施例相关的部分。

参照图6，该装置包括：

预处理模块61，用于分别对输入的K条语音进行预处理，以获取所述每条语音中的有效语音，所述语音包括训练语音及待识别语音。

第一提取模块62，用于提取所述每条训练语音中有效语音的梅尔频率倒谱系数声学特征，输出包含所述梅尔频率倒谱系数的维度及所述每条训练语音的分帧数的第一特征矩阵。

构建模块63，用于构建长短时递归神经网络模型，并将所述第一特征矩阵输入所述神经网络模型，以获取所述神经网络模型的输出参数。

训练模块64，用于利用所述神经网络模型的输出参数及所述每条训练语音对应的说话人特征，分别训练得出N条训练语音的N个特征提取矩阵，所述每个特征提取矩阵对应一个所述训练语音的说话人模型。

第二提取模块65，用于提取所述待识别语音中有效语音的梅尔频率倒谱系数声学特征，输出包含所述梅尔频率倒谱系数的维度及所述待识别语音的分帧数的第二特征矩阵。

识别模块66，用于在所述N个说话人模型中，根据预设的相似性度量算法，选取出与所述第二特征矩阵相匹配的说话人模型，所述选取出的说话人模型对应的说话人输出为所述待识别语音的声纹识别结果。

其中，所述K和N为大于零的整数，且K大于N。

可选地，所述预处理模块61包括：

预加重子模块，用于分别对输入的K条语音进行预加重处理，以提升所述每条语音中的高频信号频段；

转化子模块，用于采用分帧加窗算法，分别将所述预加重处理后的每条语音转化为短时平稳信号；

检测子模块，用于基于端点检测算法区分所述短时平稳信号中的噪声与语音，并将所述短时平稳信号中的语音输出为所述每条语音的有效语音。

可选地，所述第一提取模块62包括：

获取子模块，用于通过快速傅利叶变换分析所述每条训练语音中的有效语音，获取所述有效语音的功率谱；

滤波子模块，用于采用梅尔尺度的滤波器组对所述功率谱进行滤波处理，所述滤波器组包含M个三角滤波器，并获取所述每个三角滤波器输出的对数能量，所述M为大于零的整数；

变换子模块，用于将所述对数能量进行离散余弦变换后，输出所述有效语音的梅尔频率倒谱系数声学特征；

输出子模块，用于根据所述梅尔频率倒谱系数声学特征，输出包含所述梅尔频率倒谱系数的维度及所述每条训练语音的分帧数的第一特征矩阵。

可选地，所述构建模块63包括：

初始化子模块，用于初始化一个长短时递归神经网络模型，所述神经网络模型包含输入层、含有长短期记忆单元的递归层以及输出层；

输入子模块，用于将所述第一特征矩阵输入所述神经网络模型；

分类子模块，用于采用Softmax分类器对所述第一特征矩阵中的帧特征向量进行分类，并根据分类结果进行状态聚类，得到多类帧特征向量；

计算子模块，用于分别计算所述各类帧特征向量的后验概率，所述各类帧特征向量的后验概率为所述神经网络模型的输出参数。

可选地，所述训练模块64包括：

参数获取子模块，用于获取所述神经网络模型的训练参数，所述训练参数为所述输出参数的混合权重、均值及方差；

特征获取子模块，用于根据所述训练参数及所述训练语音对应的说话人特征，利用前向-后向算法计算所述每条训练语音对应说话人的特征向量；

迭代子模块，用于将所述神经网络模型的训练参数及所述每条训练语音对应说话人的特征向量迭代至收敛，得出所述每条训练语音的特征提取矩阵

图7是本发明实施例提供的电子设备的示意图。如图7所示，该实施例的电子设备7包括：处理器70、存储器71以及存储在所述存储器71中并可在所述处理器70上运行的计算机程序72，例如声纹识别程序。所述处理器70执行所述计算机程序72时实现上述各个文件管理方法实施例中的步骤，例如图1所示的步骤101至106。或者，所述处理器70执行所述计算机程序72时实现上述各装置实施例中各模块/单元的功能，例如图6所示模块61至66的功能。

示例性的，所述计算机程序72可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器71中，并由所述处理器70执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序72在所述电子设备7中的执行过程。

所述电子设备7可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述电子设备7可包括，但不仅限于，处理器70、存储器71。本领域技术人员可以理解，图7仅仅是电子设备7的示例，并不构成对电子设备7的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述电子设备7还可以包括输入输出设备、网络接入设备、总线等。

所称处理器70可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器71可以是所述电子设备7的内部存储单元，例如电子设备7的硬盘或内存。所述存储器71也可以是所述电子设备7的外部存储设备，例如所述电子设备7上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器71还可以既包括所述电子设备7的内部存储单元也包括外部存储设备。所述存储器71用于存储所述计算机程序以及所述电子设备7所需的其他程序和数据。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能模块、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块、模块完成，即将所述装置的内部结构划分成不同的功能模块或模块，以完成以上描述的全部或者部分功能。实施例中的各功能模块、模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中，上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。另外，各功能模块、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中模块、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，所述模块或模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或模块的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明实施例各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

一种声纹识别方法，其特征在于，包括：

分别对输入的K条语音进行预处理，以获取所述每条语音中的有效语音，所述语音包括训练语音及待识别语音；

提取所述每条训练语音中有效语音的梅尔频率倒谱系数声学特征，输出包含所述梅尔频率倒谱系数的维度及所述每条训练语音的分帧数的第一特征矩阵；

构建长短时递归神经网络模型，并将所述第一特征矩阵输入所述神经网络模型，以获取所述神经网络模型的输出参数；

利用所述神经网络模型的输出参数及所述每条训练语音对应的说话人特征，分别训练得出N条训练语音的N个特征提取矩阵，所述每个特征提取矩阵对应一个所述训练语音的说话人模型；

提取所述待识别语音中有效语音的梅尔频率倒谱系数声学特征，输出包含所述梅尔频率倒谱系数的维度及所述待识别语音的分帧数的第二特征矩阵；

在所述N个说话人模型中，根据预设的相似性度量算法，选取出与所述第二特征矩阵相匹配的说话人模型，所述选取出的说话人模型对应的说话人输出为所述待识别语音的声纹识别结果；

其中，所述K和N为大于零的整数，且K大于N。
根据权利要求1所述的声纹识别方法，其特征在于，所述分别对输入的K条语音进行预处理，以获取所述每条语音中的有效语音包括：

分别对输入的K条语音进行预加重处理，以提升所述每条语音中的高频信号频段；

采用分帧加窗算法，分别将所述预加重处理后的每条语音转化为短时平稳信号；

基于端点检测算法区分所述短时平稳信号中的噪声与语音，并将所述短时平稳信号中的语音输出为所述每条语音的有效语音。
根据权利要求2所述的声纹识别方法，其特征在于，所述提取所述每条训练语音中有效语音的梅尔频率倒谱系数声学特征，输出包含所述梅尔频率倒谱系数的维度及所述每条训练语音的分帧数的第一特征矩阵包括：

通过快速傅利叶变换分析所述每条训练语音中的有效语音，获取所述有效语音的功率谱；

采用梅尔尺度的滤波器组对所述功率谱进行滤波处理，所述滤波器组包含M个三角滤波器，并获取所述每个三角滤波器输出的对数能量，所述M为大于零的整数；

将所述对数能量进行离散余弦变换后，输出所述有效语音的梅尔频率倒谱系数声学特征；

根据所述梅尔频率倒谱系数声学特征，输出包含所述梅尔频率倒谱系数的维度及所述每条训练语音的分帧数的第一特征矩阵。
根据权利要求1所述的声纹识别方法，其特征在于，所述构建长短时递归神经网络模型，并将所述第一特征矩阵输入所述神经网络模型，以获取所述神经网络模型的输出参数包括：

初始化一个长短时递归神经网络模型，所述神经网络模型包含输入层、含有长短期记忆单元的递归层以及输出层；

将所述第一特征矩阵输入所述神经网络模型；

采用Softmax分类器对所述第一特征矩阵中的帧特征向量进行分类，并根据分类结果进行状态聚类，得到多类帧特征向量；

分别计算所述各类帧特征向量的后验概率，所述各类帧特征向量的后验概率为所述神经网络模型的输出参数。
根据权利要求1所述的声纹识别方法，其特征在于，所述利用所述神经网络模型的输出参数及所述每条训练语音对应的说话人特征，分别训练得出N条训练语音的N个特征提取矩阵包括：

获取所述神经网络模型的训练参数，所述训练参数为所述输出参数的混合权重、均值及方差；

根据所述训练参数及所述训练语音对应的说话人特征，利用前向-后向算法计算所述每条训练语音对应说话人的特征向量；

将所述神经网络模型的训练参数及所述每条训练语音对应说话人的特征向量迭代至收敛，得出所述每条训练语音的特征提取矩阵。
一种声纹识别装置，其特征在于，包括：

预处理模块，用于分别对输入的K条语音进行预处理，以获取所述每条语音中的有效语音，所述语音包括训练语音及待识别语音；

第一提取模块，用于提取所述每条训练语音中有效语音的梅尔频率倒谱系数声学特征，输出包含所述梅尔频率倒谱系数的维度及所述每条训练语音的分帧数的第一特征矩阵；

构建模块，用于构建长短时递归神经网络模型，并将所述第一特征矩阵输入所述神经网络模型，以获取所述神经网络模型的输出参数；

训练模块，用于利用所述神经网络模型的输出参数及所述每条训练语音对应的说话人特征，分别训练得出N条训练语音的N个特征提取矩阵，所述每个特征提取矩阵对应一个所述训练语音的说话人模型；

第二提取模块，用于提取所述待识别语音中有效语音的梅尔频率倒谱系数声学特征，输出包含所述梅尔频率倒谱系数的维度及所述待识别语音的分帧数的第二特征矩阵；

识别模块，用于在所述N个说话人模型中，根据预设的相似性度量算法，选取出与所述第二特征矩阵相匹配的说话人模型，所述选取出的说话人模型对应的说话人输出为所述待识别语音的声纹识别结果；

其中，所述K和N为大于零的整数，且K大于N。
根据权利要求6所述的声纹识别装置，其特征在于，所述预处理模块包括：

预加重子模块，用于分别对输入的K条语音进行预加重处理，以提升所述每条语音中的高频信号频段；

转化子模块，用于采用分帧加窗算法，分别将所述预加重处理后的每条语音转化为短时平稳信号；

检测子模块，用于基于端点检测算法区分所述短时平稳信号中的噪声与语音，并将所述短时平稳信号中的语音输出为所述每条语音的有效语音。
根据权利要求7所述的声纹识别装置，其特征在于，所述第一提取模块包括：

获取子模块，用于通过快速傅利叶变换分析所述每条训练语音中的有效语音，获取所述有效语音的功率谱；

滤波子模块，用于采用梅尔尺度的滤波器组对所述功率谱进行滤波处理，所述滤波器组包含M个三角滤波器，并获取所述每个三角滤波器输出的对数能量，所述M为大于零的整数；

变换子模块，用于将所述对数能量进行离散余弦变换后，输出所述有效语音的梅尔频率倒谱系数声学特征；

输出子模块，用于根据所述梅尔频率倒谱系数声学特征，输出包含所述梅尔频率倒谱系数的维度及所述每条训练语音的分帧数的第一特征矩阵。
根据权利要求6所述的声纹识别装置，其特征在于，所述构建模块包括：

初始化子模块，用于初始化一个长短时递归神经网络模型，所述神经网络模型包含输入层、含有长短期记忆单元的递归层以及输出层；

输入子模块，用于将所述第一特征矩阵输入所述神经网络模型；

分类子模块，用于采用Softmax分类器对所述第一特征矩阵中的帧特征向量进行分类，并根据分类结果进行状态聚类，得到多类帧特征向量；

计算子模块，用于分别计算所述各类帧特征向量的后验概率，所述各类帧特征向量的后验概率为所述神经网络模型的输出参数。
根据权利要求6所述的声纹识别装置，其特征在于，所述训练模块包括：

参数获取子模块，用于获取所述神经网络模型的训练参数，所述训练参数为所述输出参数的混合权重、均值及方差；

特征获取子模块，用于根据所述训练参数及所述训练语音对应的说话人特征，利用前向-后向算法计算所述每条训练语音对应说话人的特征向量；

迭代子模块，用于将所述神经网络模型的训练参数及所述每条训练语音对应说话人的特征向量迭代至收敛，得出所述每条训练语音的特征提取矩阵。
一种电子设备，其特征在于，包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机序时实现如下步骤：

分别对输入的K条语音进行预处理，以获取所述每条语音中的有效语音，所述语音包括训练语音及待识别语音；

提取所述每条训练语音中有效语音的梅尔频率倒谱系数声学特征，输出包含所述梅尔频率倒谱系数的维度及所述每条训练语音的分帧数的第一特征矩阵；

构建长短时递归神经网络模型，并将所述第一特征矩阵输入所述神经网络模型，以获取所述神经网络模型的输出参数；

利用所述神经网络模型的输出参数及所述每条训练语音对应的说话人特征，分别训练得出N条训练语音的N个特征提取矩阵，所述每个特征提取矩阵对应一个所述训练语音的说话人模型；

提取所述待识别语音中有效语音的梅尔频率倒谱系数声学特征，输出包含所述梅尔频率倒谱系数的维度及所述待识别语音的分帧数的第二特征矩阵；

在所述N个说话人模型中，根据预设的相似性度量算法，选取出与所述第二特征矩阵相匹配的说话人模型，所述选取出的说话人模型对应的说话人输出为所述待识别语音的声纹识别结果；

其中，所述K和N为大于零的整数，且K大于N。
根据权利要求11所述的电子设备，其特征在于，所述分别对输入的K条语音进行预处理，以获取所述每条语音中的有效语音包括：

分别对输入的K条语音进行预加重处理，以提升所述每条语音中的高频信号频段；

采用分帧加窗算法，分别将所述预加重处理后的每条语音转化为短时平稳信号；

基于端点检测算法区分所述短时平稳信号中的噪声与语音，并将所述短时平稳信号中的语音输出为所述每条语音的有效语音。
根据权利要求12所述的电子设备，其特征在于，所述提取所述每条训练语音中有效语音的梅尔频率倒谱系数声学特征，输出包含所述梅尔频率倒谱系数的维度及所述每条训练语音的分帧数的第一特征矩阵包括：

通过快速傅利叶变换分析所述每条训练语音中的有效语音，获取所述有效语音的功率谱；

采用梅尔尺度的滤波器组对所述功率谱进行滤波处理，所述滤波器组包含M个三角滤波器，并获取所述每个三角滤波器输出的对数能量，所述M为大于零的整数；

将所述对数能量进行离散余弦变换后，输出所述有效语音的梅尔频率倒谱系数声学特征；

根据所述梅尔频率倒谱系数声学特征，输出包含所述梅尔频率倒谱系数的维度及所述每条训练语音的分帧数的第一特征矩阵。
根据权利要求11所述的电子设备，其特征在于，所述构建长短时递归神经网络模型，并将所述第一特征矩阵输入所述神经网络模型，以获取所述神经网络模型的输出参数包括：

初始化一个长短时递归神经网络模型，所述神经网络模型包含输入层、含有长短期记忆单元的递归层以及输出层；

将所述第一特征矩阵输入所述神经网络模型；

采用Softmax分类器对所述第一特征矩阵中的帧特征向量进行分类，并根据分类结果进行状态聚类，得到多类帧特征向量；

分别计算所述各类帧特征向量的后验概率，所述各类帧特征向量的后验概率为所述神经网络模型的输出参数。
根据权利要求11所述的电子设备，其特征在于，所述利用所述神经网络模型的输出参数及所述每条训练语音对应的说话人特征，分别训练得出N条训练语音的N个特征提取矩阵包括：

获取所述神经网络模型的训练参数，所述训练参数为所述输出参数的混合权重、均值及方差；

根据所述训练参数及所述训练语音对应的说话人特征，利用前向-后向算法计算所述每条训练语音对应说话人的特征向量；

将所述神经网络模型的训练参数及所述每条训练语音对应说话人的特征向量迭代至收敛，得出所述每条训练语音的特征提取矩阵。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被至少一个处理器执行时实现如下步骤：

分别对输入的K条语音进行预处理，以获取所述每条语音中的有效语音，所述语音包括训练语音及待识别语音；

提取所述每条训练语音中有效语音的梅尔频率倒谱系数声学特征，输出包含所述梅尔频率倒谱系数的维度及所述每条训练语音的分帧数的第一特征矩阵；

构建长短时递归神经网络模型，并将所述第一特征矩阵输入所述神经网络模型，以获取所述神经网络模型的输出参数；

利用所述神经网络模型的输出参数及所述每条训练语音对应的说话人特征，分别训练得出N条训练语音的N个特征提取矩阵，所述每个特征提取矩阵对应一个所述训练语音的说话人模型；

提取所述待识别语音中有效语音的梅尔频率倒谱系数声学特征，输出包含所述梅尔频率倒谱系数的维度及所述待识别语音的分帧数的第二特征矩阵；

在所述N个说话人模型中，根据预设的相似性度量算法，选取出与所述第二特征矩阵相匹配的说话人模型，所述选取出的说话人模型对应的说话人输出为所述待识别语音的声纹识别结果；

其中，所述K和N为大于零的整数，且K大于N。
根据权利要求16所述的计算机可读存储介质，其特征在于，所述分别对输入的K条语音进行预处理，以获取所述每条语音中的有效语音包括：

分别对输入的K条语音进行预加重处理，以提升所述每条语音中的高频信号频段；

采用分帧加窗算法，分别将所述预加重处理后的每条语音转化为短时平稳信号；

基于端点检测算法区分所述短时平稳信号中的噪声与语音，并将所述短时平稳信号中的语音输出为所述每条语音的有效语音。
根据权利要求17所述的计算机可读存储介质，其特征在于，所述提取所述每条训练语音中有效语音的梅尔频率倒谱系数声学特征，输出包含所述梅尔频率倒谱系数的维度及所述每条训练语音的分帧数的第一特征矩阵包括：

通过快速傅利叶变换分析所述每条训练语音中的有效语音，获取所述有效语音的功率谱；

采用梅尔尺度的滤波器组对所述功率谱进行滤波处理，所述滤波器组包含M个三角滤波器，并获取所述每个三角滤波器输出的对数能量，所述M为大于零的整数；

将所述对数能量进行离散余弦变换后，输出所述有效语音的梅尔频率倒谱系数声学特征；

根据所述梅尔频率倒谱系数声学特征，输出包含所述梅尔频率倒谱系数的维度及所述每条训练语音的分帧数的第一特征矩阵。
根据权利要求16所述的计算机可读存储介质，其特征在于，所述构建长短时递归神经网络模型，并将所述第一特征矩阵输入所述神经网络模型，以获取所述神经网络模型的输出参数包括：

初始化一个长短时递归神经网络模型，所述神经网络模型包含输入层、含有长短期记忆单元的递归层以及输出层；

将所述第一特征矩阵输入所述神经网络模型；

采用Softmax分类器对所述第一特征矩阵中的帧特征向量进行分类，并根据分类结果进行状态聚类，得到多类帧特征向量；

分别计算所述各类帧特征向量的后验概率，所述各类帧特征向量的后验概率为所述神经网络模型的输出参数。
根据权利要求16所述的计算机可读存储介质，其特征在于，所述利用所述神经网络模型的输出参数及所述每条训练语音对应的说话人特征，分别训练得出N条训练语音的N个特征提取矩阵包括：

获取所述神经网络模型的训练参数，所述训练参数为所述输出参数的混合权重、均值及方差；

根据所述训练参数及所述训练语音对应的说话人特征，利用前向-后向算法计算所述每条训练语音对应说话人的特征向量；

将所述神经网络模型的训练参数及所述每条训练语音对应说话人的特征向量迭代至收敛，得出所述每条训练语音的特征提取矩阵。