CN105976812B

CN105976812B - 一种语音识别方法及其设备

Info

Publication number: CN105976812B
Application number: CN201610272292.3A
Authority: CN
Inventors: 钱柄桦; 吴富章; 李为; 李科; 吴永坚; 黄飞跃
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-04-28
Filing date: 2016-04-28
Publication date: 2019-04-26
Anticipated expiration: 2036-04-28
Also published as: CN105976812A

Abstract

本发明实施例公开一种语音识别方法及其设备，其中方法包括如下步骤：获取基于交互应用所输入的目标音频数据；提取所述目标音频数据中的目标Filter bank特征；将所述目标音频数据中的目标Filter bank特征作为训练后的DNN模型的输入数据，获取所述训练后的DNN模型输出的所述目标音频数据的目标音素状态上的后验概率特征；创建与所述目标音频数据相关联的音素解码网络，并采用训练后的HMM的音素转换概率和所述目标音频数据的目标音素状态上的后验概率特征在所述解码网络中获取所述目标音频数据对应的目标词序列数据。采用本发明，可以满足各种实际应用环境以及发音习惯的语音识别，提升语音识别的准确性。

Description

一种语音识别方法及其设备

技术领域

本发明涉及计算机技术领域，尤其涉及一种语音识别方法及其设备。

背景技术

随着计算机技术不断的开发和完善，针对声音识别的应用场景也逐渐增多，例如：通过用户输入的音频提取终端中的联系人信息、通过用户输入的音频生成对应的聊天内容、通过用户输入的音频进行用户验证等，声音识别技术方便了用户在操作手机、电脑等终端时的操作，提升了用户体验。

现有的声音识别技术是基于高斯混合模型(Gaussian Mixture Model，GMM)以及隐马尔科夫模型(Hidden Markov Model，HMM)进行声学模型的建立，在实际应用过程中，需要提取目标音频中的梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)特征，将MFCC特征输入至声学模型中，最终输出对目标音频的语音识别结果。由于GMM-HMM的声学建模是一种区分性的建模方式，用于解决发音音素状态的区分性问题，因此其需要具备特征维度之间的独立性的MFCC特征作为声学模型的输入数据，无法满足各种实际应用环境以及发音习惯的语音识别，降低了语音识别的准确性。

发明内容

本发明实施例提供一种语音识别方法及其设备，可以满足各种实际应用环境以及发音习惯的语音识别，提升语音识别的准确性。

本发明实施例第一方面提供了一种语音识别方法，可包括：

获取基于交互应用所输入的目标音频数据；

提取所述目标音频数据中的目标Filter bank(滤波器组)特征；

将所述目标音频数据中的目标Filter bank特征作为训练后的深层神经网络(Deep Neural Networks，DNN)模型的输入数据，获取所述训练后的DNN模型输出的所述目标音频数据的目标音素状态上的后验概率特征；

创建与所述目标音频数据相关联的音素解码网络，并采用训练后的HMM的音素转换概率和所述目标音频数据的目标音素状态上的后验概率特征在所述解码网络中获取所述目标音频数据对应的目标词序列数据。

本发明实施例第二方面提供了一种语音识别设备，可包括：

音频数据获取单元，用于获取基于交互应用所输入的目标音频数据；

特征提取单元，用于提取所述目标音频数据中的目标Filter bank特征；

特征获取单元，用于将所述目标音频数据中的目标Filter bank特征作为训练后的DNN模型的输入数据，获取所述训练后的DNN模型输出的所述目标音频数据的目标音素状态上的后验概率特征；

词序列数据获取单元，用于创建与所述目标音频数据相关联的音素解码网络，并采用训练后的HMM的音素转换概率和所述目标音频数据的目标音素状态上的后验概率特征在所述解码网络中获取所述目标音频数据对应的目标词序列数据。

在本发明实施例中，在获取到基于交互应用输入的目标音频数据时，通过获取目标音频数据中的目标Filter bank特征，并基于训练后的DNN模型以及训练后的HMM，对目标音频数据进行语音识别得到目标词序列数据。通过DNN模型和HMM所建立的声学模型实现语音识别的功能，并结合Filter bank特征作为声学模型的输入数据，无需去除特征维度间的相关性，可以满足各种实际应用环境以及发音习惯的语音识别，提升了语音识别的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种语音识别方法的流程示意图；

图2是本发明实施例提供的另一种语音识别方法的流程示意图；

图3是本发明实施例提供的一种语音识别设备的结构示意图；

图4是本发明实施例提供的另一种语音识别设备的结构示意图；

图5是本发明实施例提供的特征提取单元的结构示意图；

图6是本发明实施例提供的特征获取单元的结构示意图；

图7是本发明实施例提供的又一种语音识别设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的语音识别方法可以应用于对终端用户输入的目标音频数据(例如：包含数字的音频、包含文字的音频等)进行识别并生成相应词序列(例如：数字串、词句等)的场景，例如：语音识别设备获取基于交互应用所输入的目标音频数据，所述语音识别设备提取所述目标音频数据中的目标Filter bank特征，所述语音识别设备将所述目标音频数据中的目标Filter bank特征作为训练后的DNN模型的输入数据，获取所述训练后的DNN模型输出的所述目标音频数据的目标音素状态上的后验概率特征，所述语音识别设备创建与所述目标音频数据相关联的音素解码网络，并采用训练后的HMM的音素转换概率和所述目标音频数据的目标音素状态上的后验概率特征在所述解码网络中获取所述目标音频数据对应的目标词序列数据的场景等。通过DNN模型和HMM所建立的声学模型实现语音识别的功能，并结合Filter bank特征作为声学模型的输入数据，无需去除特征维度间的相关性，可以满足各种实际应用环境以及发音习惯的语音识别，提升了语音识别的准确性。

本发明实施例涉及的应用资源加载设备可以为包括平板电脑、智能手机、掌上电脑、车载终端、PC(个人计算机)以及移动互联网设备(MID)等具备语音识别功能的终端设备，也可以为交互应用对应的具备语音识别功能的服务器设备；所述交互应用可以为需要结合用户输入的音频进行相应的交互功能实现的终端应用，例如：交易应用、即时通信应用等，可以通过本发明实施例提供的语音识别方法进行验证码输入、密码输入、通信内容输入等。

下面将结合附图1和附图2，对本发明实施例提供的一种语音识别方法进行详细介绍。

请参见图1，为本发明实施例提供了一种语音识别方法的流程示意图。如图1所示，本发明实施例的所述方法可以包括以下步骤S101-步骤S104。

S101，获取基于交互应用所输入的目标音频数据；

具体的，语音识别设备获取用户基于交互应用所输入的目标音频数据，所述目标音频数据具体可以为用户基于当前需要进行语音输入的所述交互应用的应用界面所输入的语音，并且为当前需要进行语音识别的音频数据。

S102，提取所述目标音频数据中的目标Filter bank特征；

具体的，所述语音识别设备可以在所述目标音频数据中提取目标Filter bank特征，需要说明的是，所述语音识别设备需要将所述目标音频数据拆分成多帧音频数据，并分别对每帧音频数据的Filter bank特征进行提取以输入至下述训练后的DNN模型中，即分帧输入进行音素状态的后验概率特征的计算。因此所述语音识别设备可以对所述目标音频数据进行数据分帧，获取所述目标音频数据中的至少一帧音频数据，所述语音识别设备获取所述至少一帧音频数据中每帧第一音频数据对应的第一目标Filter bank特征，所述目标Filter bank特征表示为属于所述目标音频数据的Filter bank特征，所述第一音频数据为所述目标音频数据中当前实际需要进行后验概率特征计算的语音数据，所述第一目标Filter bank特征表示为属于所述第一目标音频数据的Filter bank特征。

S103，将所述目标音频数据中的目标Filter bank特征作为训练后的DNN模型的输入数据，获取所述训练后的DNN模型输出的所述目标音频数据的目标音素状态上的后验概率特征；

具体的，所述语音识别设备可以将所述目标音频数据中的目标Filter bank特征作为训练后的DNN模型的输入数据，获取所述训练后的DNN模型输出的所述目标音频数据的目标音素状态上的后验概率特征，优选的，音素状态即为音标，所述目标音素状态为所述目标音频数据中存在的音素状态，所述DNN模型在训练过程中可以得到输出层节点间的矩阵权重值和矩阵偏置值，所述输出层节点可以为至少一个节点，输出层节点的数量与音素状态的数量相关(例如：相等)，一个输出层节点即表示一个音素状态的特征向量。

S104，创建与所述目标音频数据相关联的音素解码网络，并采用训练后的HMM的音素转换概率和所述目标音频数据的目标音素状态上的后验概率特征在所述解码网络中获取所述目标音频数据对应的目标词序列数据；

具体的，所述语音识别设备可以创建与所述目标音频数据相关联的音素解码网络，优选的，所述音素解码网络可以为以带权有限状态转换器(Weighted Finite-StateTransducer，WFST)为框架，音素状态序列为输入，词序列数据为输出的词图解码网络，可以理解的是，所述音素解码网络也可以在对DNN模型和HMM进行训练时预先进行创建。

所述语音识别设备采用训练后的HMM的音素转换概率和所述目标音频数据的目标音素状态上的后验概率特征在所述解码网络中获取所述目标音频数据对应的目标词序列数据，所述训练后的HMM的音素转换概率包括每个音素状态跳转至自身的音素转换概率以及所述每个音素状态跳转至自身的下一个音素状态的音素转换概率，可以理解的是，所述语音识别设备可以根据训练后的HMM的音素转换概率以及所有的所述第一目标Filterbank特征的目标音素状态上的后验概率特征，在所述音素解码网络中设置每条网络路径的概率值，并根据所述每条网络路径的概率值筛选出最优路径，并将所述最优路径指示的识别结果作为所述目标音频数据对应的目标词序列数据。

请参见图2，为本发明实施例提供了另一种语音识别方法的流程示意图。如图2所示，本发明实施例的所述方法可以包括以下步骤S201-步骤S211。

S201，采用训练音频语料对GMM和HMM进行训练，获取训练后的GMM输出的至少一个音素状态中每个音素状态的似然概率特征，并获取训练后的HMM的音素转换概率；

具体的，在对DNN模型进行训练之前，需要先训练出一个GMM和HMM的声学模型，所述语音识别设备可以采用训练音频语料对GMM和HMM进行训练，获取训练后的GMM输出的至少一个音素状态中每个音素状态的似然概率特征，并获取训练后的HMM的音素转换概率，所述训练音频语料可以尽量包含不同噪声环境、不同语速、不同字词间停顿等场景下的音频数据。

需要说明的是，所述语音识别设备可以对训练音频语料进行数据预处理，所述数据预处理可以包括：对训练音频语料进行数据分帧、数据预加重、数据加窗操作等以得到时域上的至少一帧音频数据；进行快速傅里叶变换，将所述至少一帧音频数据转换到频域，得到所述至少一帧音频数据在频域上对应的至少一个功率谱数据；将频域上的至少一个功率谱数据通过具有三角滤波特性的梅尔频率滤波器，得到至少一个梅尔功率频谱数据；对至少一个梅尔功率频谱数据取对数能量，得到至少一个梅尔对数能量谱数据，此时所得到的至少一个梅尔对数能量谱数据(即Filter bank特征)，采用DCT去除至少一个梅尔对数能量谱数据的数据相关性以得到MFCC特征，所述语音识别设备将所述MFCC特征作为GMM的输入数据，以对GMM和HMM进行训练，并获取训练后的GMM输出的至少一个音素状态中每个音素状态的似然概率特征，以及训练后的HMM的音素转换概率。可以理解的是，针对训练音频语料中的同一帧音频数据的Filter bank特征与MFCC特征存在一一对应的关系。

S202，采用强制对齐操作将所述每个音素状态的似然概率特征转换为所述每个音素状态的后验概率特征；

具体的，所述语音识别设备可以采用强制对齐操作将所述每个音素状态的似然概率特征转换为所述每个音素状态的后验概率特征，可以理解的是，由于似然概率特征是属于发散性的概率特征，因此针对所述训练音频语料中的一帧音频数据，其在每个音素状态上的似然概率特征的特征值总和不为1，而针对所述训练音频语料中的一帧音频数据，其在每个音素状态上的后验概率特征的特征值总和为1，因此需要选取似然概率特征的特征值最大的音素状态，将该音素状态上的后验概率特征的特征值设置为1，而对于该帧音频数据的其它音素状态上的后验概率特征的特征值则设置为0，以此类推，转换所述训练音频语料中每帧音频数据在音素状态上的似然概率特征，获得所述训练音频语料中每帧音频数据在音素状态上的后验概率特征。

S203，根据在所述训练音频语料中所提取的训练Filter bank特征以及所述每个音素状态的后验概率特征，计算DNN模型中输出层节点间的矩阵权重值和矩阵偏置值；

S204，将所述矩阵权重值和所述矩阵偏置值添加至所述DNN模型中，生成训练后的DNN模型；

具体的，所述语音识别设备可以根据在所述训练音频语料中所提取的训练Filterbank特征以及所述每个音素状态的后验概率特征，计算DNN模型中输出层节点间的矩阵权重值和矩阵偏置值，优选的，所述语音识别设备可以基于上述方法提取所述训练音频语料中每帧音频数据对应的训练Filter bank特征，并将所述训练Filter bank特征与对应的后验概率特征作为训练样本对，则所述训练音频语料可以存在多个训练样本对，基于所述多个训练样本对，并采用最大似然准则的后向传递算法计算DNN模型中输出层节点间的矩阵权重值和矩阵偏置值。所述语音识别设备将所述矩阵权重值和所述矩阵偏置值添加至所述DNN模型中，生成训练后的DNN模型。

S205，在训练词序列语料中获取训练词序列数据的出现概率，并根据所述训练词序列数据的出现概率生成N-Gram语言模型；

具体的，所述语音识别设备在训练DNN模型和HMM的声学模型的同时，还可以对语言模型进行训练，所述语音识别设备可以在训练词序列语料中获取训练词序列数据的出现概率，并根据所述训练词序列数据的出现概率生成N-Gram语言模型，N-Gram语言模型是基于一种假设，第K个词的出现只与前面的K-1个词相关，而与其它任何词都不相关，一个字词串的概率为各个词的出现概率的乘积。

S206，获取基于交互应用所输入的目标音频数据；

具体的，所述语音识别设备获取用户基于交互应用所输入的目标音频数据，所述目标音频数据具体可以为用户基于当前需要进行语音输入的所述交互应用的应用界面所输入的语音，并且为当前需要进行语音识别的音频数据。

S207，对所述目标音频数据进行数据分帧，获取所述目标音频数据中的至少一帧音频数据；

S208，获取所述至少一帧音频数据中每帧第一音频数据对应的第一目标Filterbank特征；

具体的，所述语音识别设备需要将所述目标音频数据拆分成多帧音频数据，并分别对每帧音频数据的Filter bank特征进行提取以输入至下述训练后的DNN模型中，即分帧输入进行音素状态的后验概率特征的计算。因此所述语音识别设备可以对所述目标音频数据进行数据分帧，获取所述目标音频数据中的至少一帧音频数据，所述语音识别设备获取所述至少一帧音频数据中每帧第一音频数据对应的第一目标Filter bank特征，所述目标Filter bank特征表示为属于所述目标音频数据的Filter bank特征，所述第一音频数据为所述目标音频数据中当前实际需要进行后验概率特征计算的语音数据，所述第一目标Filter bank特征表示为属于所述第一目标音频数据的Filter bank特征。

进一步的，所述语音识别设备可以对所述目标音频数据进行数据预处理，所述数据预处理可以包括：数据分帧、数据预加重、数据加窗操作等以得到时域上的至少一帧音频数据；进行快速傅里叶变换，将所述至少一帧音频数据转换到频域，得到所述至少一帧音频数据在频域上对应的至少一个功率谱数据；将频域上的至少一个功率谱数据通过具有三角滤波特性的梅尔频率滤波器，得到至少一个梅尔功率频谱数据；对至少一个梅尔功率频谱数据取对数能量，得到至少一个梅尔对数能量谱数据，此时所得到的至少一个梅尔对数能量谱数据的集合即为所述目标Filter bank特征，可以理解的是，Filter bank特征在不同特征维度之间存在数据相关性，而MFCC特征则是采用离散余弦变换(Discrete CosineTransform，DCT)去除Filter bank特征的数据相关性所得到的特征。

优选的，所述语音识别设备还会进一步对所述目标Filter bank特征进行特征后处理，所述特征后处理可以包括特征扩展和特征规整，特征扩展可以为求取所述目标Filter bank特征的一阶差分和二阶差分特征，得到所述每帧第一音频数据对应的预设维数特征的目标Filter bank特征，特征规整可以为采用倒谱均值减(Cepstrum MeanSubtraction，CMS)技术对所述每帧第一音频数据对应的预设维数特征的目标Filter bank特征进行规整，得到所述每帧第一音频数据对应的第一目标Filter bank特征，优选的，所述预设维数可以为72维。

S209，按照所述至少一帧音频数据的时间排序，获取所述每帧第一音频数据的前后预设帧数的第二音频数据；

S210，将所述第一目标Filter bank特征以及所述第二音频数据对应的第二目标Filter bank特征作为训练后的DNN模型的输入数据，获取所述训练后的DNN模型输出的所述第一目标Filter bank特征的目标音素状态上的后验概率特征；

具体的，所述语音识别设备可以按照所述至少一帧音频数据的时间排序，获取所述每帧第一音频数据的前后预设帧数的第二音频数据，所述语音识别设备将所述第一目标Filter bank特征以及所述第二音频数据对应的第二目标Filter bank特征作为训练后的DNN模型的输入数据，获取所述训练后的DNN模型输出的所述第一目标Filter bank特征的目标音素状态上的后验概率特征，可以理解的是，所述第二音频数据为与所述第一音频数据具备维度关联性的数据。

假设所述目标音频数据中存在N帧音频数据，第i帧第一音频数据对应的第一目标Filter bank特征为F_i，i＝1,2,3…N，前后预设帧数为前后8帧，则输入数据可以包括F_i以及第i帧第一音频数据前后8帧的第二目标Filter bank特征，基于上述优选的预设维数，则所述输入数据在所述训练后的DNN模型中对应的输入层节点的数量为(8+1+8)*72＝1224个节点，所述训练后的DNN模型的输出层节点的节点数量等于所有音素状态的个数P，输入层与输出层之间存在预设数量的隐藏层，隐藏层个数优选为3层，每个隐藏层均存在1024个节点，所述训练后的DNN模型中第M-1层输出层节点与第M层输出层节点间的矩阵权重值和矩阵偏置值可以分别表示为W_M和b_M，M＝1,2,3…P，则第i帧第一音频数据在第M层输出层节点对应的音素状态的特征向量满足其中f(x)为激活函数，优选为Relu函数，则所述训练后的DNN模型输出的F_i的第M个音素状态上的后验概率特征为：

S211，创建与所述目标音频数据相关联的音素解码网络，并采用训练后的HMM的音素转换概率和所述目标音频数据的目标音素状态上的后验概率特征在所述解码网络中获取所述目标音频数据对应的目标词序列数据；

具体的，所述语音识别设备可以创建与所述目标音频数据相关联的音素解码网络，优选的，所述音素解码网络可以为以WFST为框架，音素状态序列为输入，词序列数据为输出的词图解码网络，可以理解的是，所述音素解码网络也可以在对DNN模型和HMM进行训练时预先进行创建。

进一步的，所述语音识别设备可以采用训练后的HMM的音素转换概率、所述第一目标Filter bank特征的目标音素状态上的后验概率特征以及所述N-Gram语言模型，在所述解码网络中获取所述目标音频数据对应的目标词序列数据，由于N-Gram语言模型可以自行推断下一个词出现的概率，因此可以结合出现概率对每条网络路径的概率值进行加权，增加网络路径的可能性，通过结合N-Gram语言模型获取目标音频数据对应的目标词序列数据，可以进一步提升语音识别的准确性。

在本发明实施例中，在获取到基于交互应用输入的目标音频数据时，通过获取目标音频数据中的目标Filter bank特征，并基于训练后的DNN模型以及训练后的HMM，对目标音频数据进行语音识别得到目标词序列数据。通过DNN模型和HMM所建立的声学模型实现语音识别的功能，并结合Filter bank特征作为声学模型的输入数据，无需去除特征维度间的相关性，可以满足各种实际应用环境以及发音习惯的语音识别，提升了语音识别的准确性；通过融合了Filter bank特征提取的方法以及DNN-HMM声学模型的训练方法，实现了完整的训练到识别的过程；通过结合N-Gram语言模型获取目标音频数据对应的目标词序列数据，由于N-Gram语言模型可以自行推断下一个词出现的概率，因此可以结合出现概率对每条网络路径的概率值进行加权，增加网络路径的可能性，进一步提升了语音识别的准确性。

下面将结合附图3-附图6，对本发明实施例提供的语音识别设备进行详细介绍。需要说明的是，附图3-附图6所示的语音识别设备，用于执行本发明图1和图2所示实施例的方法，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明图1和图2所示的实施例。

请参见图3，为本发明实施例提供了一种语音识别设备的结构示意图。如图3所示，本发明实施例的所述语音识别设备1可以包括：音频数据获取单元11、特征提取单元12、特征获取单元13和词序列数据获取单元14。

音频数据获取单元11，用于获取基于交互应用所输入的目标音频数据；

具体实现中，所述音频数据获取单元11获取用户基于交互应用所输入的目标音频数据，所述目标音频数据具体可以为用户基于当前需要进行语音输入的所述交互应用的应用界面所输入的语音，并且为当前需要进行语音识别的音频数据。

特征提取单元12，用于提取所述目标音频数据中的目标Filter bank特征；

具体实现中，所述特征提取单元12可以在所述目标音频数据中提取目标Filterbank特征，需要说明的是，所述特征提取单元12需要将所述目标音频数据拆分成多帧音频数据，并分别对每帧音频数据的Filter bank特征进行提取以输入至下述训练后的DNN模型中，即分帧输入进行音素状态的后验概率特征的计算。因此所述特征提取单元12可以对所述目标音频数据进行数据分帧，获取所述目标音频数据中的至少一帧音频数据，所述特征提取单元12获取所述至少一帧音频数据中每帧第一音频数据对应的第一目标Filter bank特征，所述目标Filter bank特征表示为属于所述目标音频数据的Filter bank特征，所述第一音频数据为所述目标音频数据中当前实际需要进行后验概率特征计算的语音数据，所述第一目标Filter bank特征表示为属于所述第一目标音频数据的Filter bank特征。

特征获取单元13，用于将所述目标音频数据中的目标Filter bank特征作为训练后的DNN模型的输入数据，获取所述训练后的DNN模型输出的所述目标音频数据的目标音素状态上的后验概率特征；

具体实现中，所述特征获取单元13可以将所述目标音频数据中的目标Filterbank特征作为训练后的DNN模型的输入数据，获取所述训练后的DNN模型输出的所述目标音频数据的目标音素状态上的后验概率特征，优选的，音素状态即为音标，所述目标音素状态为所述目标音频数据中存在的音素状态，所述DNN模型在训练过程中可以得到输出层节点间的矩阵权重值和矩阵偏置值，所述输出层节点可以为至少一个节点，输出层节点的数量与音素状态的数量相关(例如：相等)，一个输出层节点即表示一个音素状态的特征向量。

词序列数据获取单元14，用于创建与所述目标音频数据相关联的音素解码网络，并采用训练后的HMM的音素转换概率和所述目标音频数据的目标音素状态上的后验概率特征在所述解码网络中获取所述目标音频数据对应的目标词序列数据；

具体实现中，所述词序列数据获取单元14可以创建与所述目标音频数据相关联的音素解码网络，优选的，所述音素解码网络可以为以WFST为框架，音素状态序列为输入，词序列数据为输出的词图解码网络，可以理解的是，所述音素解码网络也可以在对DNN模型和HMM进行训练时预先进行创建。

所述词序列数据获取单元14采用训练后的HMM的音素转换概率和所述目标音频数据的目标音素状态上的后验概率特征在所述解码网络中获取所述目标音频数据对应的目标词序列数据，所述训练后的HMM的音素转换概率包括每个音素状态跳转至自身的音素转换概率以及所述每个音素状态跳转至自身的下一个音素状态的音素转换概率，可以理解的是，所述词序列数据获取单元14可以根据训练后的HMM的音素转换概率以及所有的所述第一目标Filter bank特征的目标音素状态上的后验概率特征，在所述音素解码网络中设置每条网络路径的概率值，并根据所述每条网络路径的概率值筛选出最优路径，并将所述最优路径指示的识别结果作为所述目标音频数据对应的目标词序列数据。

请参见图4，为本发明实施例提供了另一种语音识别设备的结构示意图。如图4所示，本发明实施例的所述语音识别设备1可以包括：音频数据获取单元11、特征提取单元12、特征获取单元13、词序列数据获取单元14、声学模型训练单元15、特征转换单元16、参数计算单元17、声学模型生成单元18和语言模型生成单元19。

声学模型训练单元15，用于采用训练音频语料对GMM和HMM进行训练，获取训练后的GMM输出的至少一个音素状态中每个音素状态的似然概率特征，并获取训练后的HMM的音素转换概率；

具体实现中，在对DNN模型进行训练之前，需要先训练出一个GMM和HMM的声学模型，所述声学模型训练单元15可以采用训练音频语料对GMM和HMM进行训练，获取训练后的GMM输出的至少一个音素状态中每个音素状态的似然概率特征，并获取训练后的HMM的音素转换概率，所述训练音频语料可以尽量包含不同噪声环境、不同语速、不同字词间停顿等场景下的音频数据。

需要说明的是，所述声学模型训练单元15可以对训练音频语料进行数据预处理，所述数据预处理可以包括：对训练音频语料进行数据分帧、数据预加重、数据加窗操作等以得到时域上的至少一帧音频数据；进行快速傅里叶变换，将所述至少一帧音频数据转换到频域，得到所述至少一帧音频数据在频域上对应的至少一个功率谱数据；将频域上的至少一个功率谱数据通过具有三角滤波特性的梅尔频率滤波器，得到至少一个梅尔功率频谱数据；对至少一个梅尔功率频谱数据取对数能量，得到至少一个梅尔对数能量谱数据，此时所得到的至少一个梅尔对数能量谱数据(即Filter bank特征)，采用DCT去除至少一个梅尔对数能量谱数据的数据相关性以得到MFCC特征，所述声学模型训练单元15将所述MFCC特征作为GMM的输入数据，以对GMM和HMM进行训练，并获取训练后的GMM输出的至少一个音素状态中每个音素状态的似然概率特征，以及训练后的HMM的音素转换概率。可以理解的是，针对训练音频语料中的同一帧音频数据的Filter bank特征与MFCC特征存在一一对应的关系。

特征转换单元16，用于采用强制对齐操作将所述每个音素状态的似然概率特征转换为所述每个音素状态的后验概率特征；

具体实现中，所述特征转换单元16可以采用强制对齐操作将所述每个音素状态的似然概率特征转换为所述每个音素状态的后验概率特征，可以理解的是，由于似然概率特征是属于发散性的概率特征，因此针对所述训练音频语料中的一帧音频数据，其在每个音素状态上的似然概率特征的特征值总和不为1，而针对所述训练音频语料中的一帧音频数据，其在每个音素状态上的后验概率特征的特征值总和为1，因此需要选取似然概率特征的特征值最大的音素状态，将该音素状态上的后验概率特征的特征值设置为1，而对于该帧音频数据的其它音素状态上的后验概率特征的特征值则设置为0，以此类推，转换所述训练音频语料中每帧音频数据在音素状态上的似然概率特征，获得所述训练音频语料中每帧音频数据在音素状态上的后验概率特征。

参数计算单元17，用于根据在所述训练音频语料中所提取的训练Filter bank特征以及所述每个音素状态的后验概率特征，计算DNN模型中输出层节点间的矩阵权重值和矩阵偏置值；

声学模型生成单元18，用于将所述矩阵权重值和所述矩阵偏置值添加至所述DNN模型中，生成训练后的DNN模型；

具体实现中，所述参数计算单元17可以根据在所述训练音频语料中所提取的训练Filter bank特征以及所述每个音素状态的后验概率特征，计算DNN模型中输出层节点间的矩阵权重值和矩阵偏置值，优选的，所述参数计算单元17可以基于上述方法提取所述训练音频语料中每帧音频数据对应的训练Filter bank特征，并将所述训练Filter bank特征与对应的后验概率特征作为训练样本对，则所述训练音频语料可以存在多个训练样本对，基于所述多个训练样本对，并采用最大似然准则的后向传递算法计算DNN模型中输出层节点间的矩阵权重值和矩阵偏置值。所述声学模型生成单元18将所述矩阵权重值和所述矩阵偏置值添加至所述DNN模型中，生成训练后的DNN模型。

语言模型生成单元19，用于在训练词序列语料中获取训练词序列数据的出现概率，并根据所述训练词序列数据的出现概率生成N-Gram语言模型；

具体实现中，在训练DNN模型和HMM的声学模型的同时，所述语言模型生成单元19可以对语言模型进行训练，所述语言模型生成单元19可以在训练词序列语料中获取训练词序列数据的出现概率，并根据所述训练词序列数据的出现概率生成N-Gram语言模型，N-Gram语言模型是基于一种假设，第K个词的出现置于前面的K-1个词相关，而与其它任何词都不相关，一个字词串的概率为各个词的出现概率的乘积。

具体的，请一并参见图5，为本发明实施例提供了特征提取单元的结构示意图。如图5所示，所述特征提取单元12可以包括：

第一数据获取子单元121，用于对所述目标音频数据进行数据分帧，获取所述目标音频数据中的至少一帧音频数据；

第一特征获取子单元122，用于获取所述至少一帧音频数据中每帧第一音频数据对应的第一目标Filter bank特征；

具体实现中，所述第一数据获取子单元121需要将所述目标音频数据拆分成多帧音频数据，并分别对每帧音频数据的Filter bank特征进行提取以输入至下述训练后的DNN模型中，即分帧输入进行音素状态的后验概率特征的计算。因此所述第一数据获取子单元121可以对所述目标音频数据进行数据分帧，获取所述目标音频数据中的至少一帧音频数据，所述第一特征获取子单元122获取所述至少一帧音频数据中每帧第一音频数据对应的第一目标Filter bank特征，所述目标Filter bank特征表示为属于所述目标音频数据的Filter bank特征，所述第一音频数据为所述目标音频数据中当前实际需要进行后验概率特征计算的语音数据，所述第一目标Filter bank特征表示为属于所述第一目标音频数据的Filter bank特征。

进一步的，所述第一数据获取子单元121可以对所述目标音频数据进行数据预处理，所述数据预处理可以包括：数据分帧、数据预加重、数据加窗操作等以得到时域上的至少一帧音频数据；进行快速傅里叶变换，将所述至少一帧音频数据转换到频域，得到所述至少一帧音频数据在频域上对应的至少一个功率谱数据；将频域上的至少一个功率谱数据通过具有三角滤波特性的梅尔频率滤波器，得到至少一个梅尔功率频谱数据；对至少一个梅尔功率频谱数据取对数能量，得到至少一个梅尔对数能量谱数据，此时所得到的至少一个梅尔对数能量谱数据的集合即为所述目标Filter bank特征，可以理解的是，Filter bank特征在不同特征维度之间存在数据相关性，而MFCC特征则是采用DCT去除Filter bank特征的数据相关性所得到的特征。

优选的，所述第一特征获取子单元122还会进一步对所述目标Filter bank特征进行特征后处理，所述特征后处理可以包括特征扩展和特征规整，特征扩展可以为求取所述目标Filter bank特征的一阶差分和二阶差分特征，得到所述每帧第一音频数据对应的预设维数特征的目标Filter bank特征，特征规整可以为采用CMS技术对所述每帧第一音频数据对应的预设维数特征的目标Filter bank特征进行规整，得到所述每帧第一音频数据对应的第一目标Filter bank特征，优选的，所述预设维数可以为72维。

具体的，请一并参见图6，为本发明实施例提供了特征获取单元的结构示意图。如图6所示，所述特征获取单元13可以包括：

第二数据获取子单元131，用于按照所述至少一帧音频数据的时间排序，获取所述每帧第一音频数据的前后预设帧数的第二音频数据；

第二特征获取子单元132，用于将所述第一目标Filter bank特征以及所述第二音频数据对应的第二目标Filter bank特征作为训练后的DNN模型的输入数据，获取所述训练后的DNN模型输出的所述第一目标Filter bank特征的目标音素状态上的后验概率特征；

具体实现中，所述第二数据获取子单元131可以按照所述至少一帧音频数据的时间排序，获取所述每帧第一音频数据的前后预设帧数的第二音频数据，所述第二特征获取子单元132将所述第一目标Filter bank特征以及所述第二音频数据对应的第二目标Filter bank特征作为训练后的DNN模型的输入数据，获取所述训练后的DNN模型输出的所述第一目标Filter bank特征的目标音素状态上的后验概率特征，可以理解的是，所述第二音频数据为与所述第一音频数据具备维度关联性的数据。

进一步的，所述词序列数据获取单元14可以采用训练后的HMM的音素转换概率、所述第一目标Filter bank特征的目标音素状态上的后验概率特征以及所述N-Gram语言模型，在所述解码网络中获取所述目标音频数据对应的目标词序列数据，由于N-Gram语言模型可以自行推断下一个词出现的概率，因此可以结合出现概率对每条网络路径的概率值进行加权，增加网络路径的可能性，通过结合N-Gram语言模型获取目标音频数据对应的目标词序列数据，可以进一步提升语音识别的准确性。

请参见图7，为本发明实施例提供了又一种语音识别设备的结构示意图。如图7所示，所述语音识别设备1000可以包括：至少一个处理器1001，例如CPU，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图7所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及语音识别应用程序。

在图7所示的语音识别设备1000中，用户接口1003主要用于为用户提供输入的接口，获取用户输入的数据；而处理器1001可以用于调用存储器1005中存储的语音识别应用程序，并具体执行以下操作：

获取基于交互应用所输入的目标音频数据；

提取所述目标音频数据中的目标Filter bank特征；

将所述目标音频数据中的目标Filter bank特征作为训练后的DNN模型的输入数据，获取所述训练后的DNN模型输出的所述目标音频数据的目标音素状态上的后验概率特征；

在一个实施例中，所述处理器1001在执行获取基于交互应用所输入的目标音频数据之前，还执行以下操作：

采用训练音频语料对GMM和HMM进行训练，获取训练后的GMM输出的至少一个音素状态中每个音素状态的似然概率特征，并获取训练后的HMM的音素转换概率；

采用强制对齐操作将所述每个音素状态的似然概率特征转换为所述每个音素状态的后验概率特征；

根据在所述训练音频语料中所提取的训练Filter bank特征以及所述每个音素状态的后验概率特征，计算DNN模型中输出层节点间的矩阵权重值和矩阵偏置值；

将所述矩阵权重值和所述矩阵偏置值添加至所述DNN模型中，生成训练后的DNN模型。

在训练词序列语料中获取训练词序列数据的出现概率，并根据所述训练词序列数据的出现概率生成N-Gram语言模型。

在一个实施例中，所述处理器1001在执行提取所述目标音频数据中的目标Filterbank特征时，具体执行以下操作：

对所述目标音频数据进行数据分帧，获取所述目标音频数据中的至少一帧音频数据；

获取所述至少一帧音频数据中每帧第一音频数据对应的第一目标Filter bank特征。

在一个实施例中，所述处理器1001在执行将所述目标音频数据中的目标Filterbank特征作为训练后的DNN模型的输入数据，获取所述训练后的DNN模型输出的所述目标音频数据的目标音素状态上的后验概率特征时，具体执行以下操作：

按照所述至少一帧音频数据的时间排序，获取所述每帧第一音频数据的前后预设帧数的第二音频数据；

将所述第一目标Filter bank特征以及所述第二音频数据对应的第二目标Filterbank特征作为训练后的DNN模型的输入数据，获取所述训练后的DNN模型输出的所述第一目标Filter bank特征的目标音素状态上的后验概率特征；

其中，所述第一音频数据为当前需要进行后验概率特征计算的数据，所述第二音频数据为与所述第一音频数据具备维度关联性的数据。

在一个实施例中，所述处理器1001在执行创建与所述目标音频数据相关联的音素解码网络，并采用训练后的HMM的音素转换概率和所述目标音频数据的目标音素状态上的后验概率特征在所述解码网络中获取所述目标音频数据对应的目标词序列数据时，具体执行以下操作：

创建与所述目标音频数据相关联的音素解码网络，并采用训练后的HMM的音素转换概率、所述第一目标Filter bank特征的目标音素状态上的后验概率特征以及所述N-Gram语言模型，在所述解码网络中获取所述目标音频数据对应的目标词序列数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种语音识别方法，其特征在于，包括：

采用训练音频语料对高斯混合模型GMM和HMM进行训练，获取训练后的GMM输出的至少一个音素状态中每个音素状态的似然概率特征，并获取训练后的HMM的音素转换概率；

所述训练音频语料包含不同噪声环境、不同语速、不同字词间停顿的场景下的音频数据；

将所述矩阵权重值和所述矩阵偏置值添加至所述DNN模型中，生成训练后的DNN模型；

获取基于交互应用所输入的目标音频数据；

提取所述目标音频数据中的目标滤波器组Filter bank特征；

将所述目标音频数据中的目标Filter bank特征作为训练后的深层神经网络DNN模型的输入数据，获取所述训练后的DNN模型输出的所述目标音频数据的目标音素状态上的后验概率特征；

创建与所述目标音频数据相关联的音素解码网络，并采用训练后的隐马尔科夫模型HMM的音素转换概率和所述目标音频数据的目标音素状态上的后验概率特征在所述解码网络中获取所述目标音频数据对应的目标词序列数据。

2.根据权利要求1所述的方法，其特征在于，所述获取基于交互应用所输入的目标音频数据之前，还包括：

3.根据权利要求2所述的方法，其特征在于，所述提取所述目标音频数据中的目标Filter bank特征，包括：

4.根据权利要求3所述的方法，其特征在于，所述将所述目标音频数据中的目标Filterbank特征作为训练后的DNN模型的输入数据，获取所述训练后的DNN模型输出的所述目标音频数据的目标音素状态上的后验概率特征，包括：

5.根据权利要求4所述的方法，其特征在于，所述创建与所述目标音频数据相关联的音素解码网络，并采用训练后的HMM的音素转换概率和所述目标音频数据的目标音素状态上的后验概率特征在所述解码网络中获取所述目标音频数据对应的目标词序列数据，包括：

6.一种语音识别设备，其特征在于，包括：

词序列数据获取单元，用于创建与所述目标音频数据相关联的音素解码网络，并采用训练后的HMM的音素转换概率和所述目标音频数据的目标音素状态上的后验概率特征在所述解码网络中获取所述目标音频数据对应的目标词序列数据；

声学模型训练单元，用于采用训练音频语料对GMM和HMM进行训练，获取训练后的GMM输出的至少一个音素状态中每个音素状态的似然概率特征，并获取训练后的HMM的音素转换概率；所述训练音频语料包含不同噪声环境、不同语速、不同字词间停顿的场景下的音频数据；

特征转换单元，用于采用强制对齐操作将所述每个音素状态的似然概率特征转换为所述每个音素状态的后验概率特征；

参数计算单元，用于根据在所述训练音频语料中所提取的训练Filter bank特征以及所述每个音素状态的后验概率特征，计算DNN模型中输出层节点间的矩阵权重值和矩阵偏置值；

声学模型生成单元，用于将所述矩阵权重值和所述矩阵偏置值添加至所述DNN模型中，生成训练后的DNN模型。

7.根据权利要求6所述的设备，其特征在于，还包括：

语言模型生成单元，用于在训练词序列语料中获取训练词序列数据的出现概率，并根据所述训练词序列数据的出现概率生成N-Gram语言模型。

8.根据权利要求7所述的设备，其特征在于，所述特征提取单元包括：

第一数据获取子单元，用于对所述目标音频数据进行数据分帧，获取所述目标音频数据中的至少一帧音频数据；

第一特征获取子单元，用于获取所述至少一帧音频数据中每帧第一音频数据对应的第一目标Filter bank特征。

9.根据权利要求8所述的设备，其特征在于，所述特征获取单元包括：

第二数据获取子单元，用于按照所述至少一帧音频数据的时间排序，获取所述每帧第一音频数据的前后预设帧数的第二音频数据；

第二特征获取子单元，用于将所述第一目标Filter bank特征以及所述第二音频数据对应的第二目标Filter bank特征作为训练后的DNN模型的输入数据，获取所述训练后的DNN模型输出的所述第一目标Filter bank特征的目标音素状态上的后验概率特征；

10.根据权利要求9所述的设备，其特征在于，所述词序列数据获取单元具体用于创建与所述目标音频数据相关联的音素解码网络，并采用训练后的HMM的音素转换概率、所述第一目标Filter bank特征的目标音素状态上的后验概率特征以及所述N-Gram语言模型，在所述解码网络中获取所述目标音频数据对应的目标词序列数据。