CN110706692B

CN110706692B - 儿童语音识别模型的训练方法及系统

Info

Publication number: CN110706692B
Application number: CN201911000370.4A
Authority: CN
Inventors: 钱彦旻; 吴松泽; 俞凯; 盛佩瑶; 杨卓林; 李晨达
Original assignee: Sipic Technology Co Ltd
Current assignee: AI Speech Ltd
Priority date: 2019-10-21
Filing date: 2019-10-21
Publication date: 2021-12-14
Anticipated expiration: 2039-10-21
Also published as: CN110706692A

Abstract

本发明实施例提供一种儿童语音识别模型的训练方法。该方法包括：获取训练数据；通过基线声学模型训练得到无条件生成对抗网络；将随机噪声数据输入无条件生成对抗网络，得到噪声增强声学特征；将噪声增强声学特征输入至基线声学模型，得到每一帧噪声增强声学特征对应的后验概率软标签；至少将噪声增强声学特征和软标签以及儿童语音训练数据和硬标签作为样本训练数据训练儿童语音增强声学识别模型。本发明实施例还提供一种儿童语音识别模型的训练系统。本发明实施例在儿童语音有限的情况下，改变了儿童语音的发音本质，生成多样化的儿童语音，提高儿童语音识别模型的识别准确率。

Description

儿童语音识别模型的训练方法及系统

技术领域

本发明涉及语音识别领域，尤其涉及一种儿童语音识别模型的训练方法及系统。

背景技术

随着智能语音的发展，不但为成年用户提供了大量语音交互产品，还为兼顾到了儿童，为儿童提供了许多智能产品，例如，智能故事机、智能机器人。但是由于儿童声音与成人声音的差异，现有的语音识别系统对于儿童声音的识别效果并不佳。

对于上述问题，通常会使用加入噪音的方法：在数据预处理上，对干净的童声音频中的每一句话，用FaNT工具以20dB的信噪比加入115种噪音的随机一种，以增加童声数据量；或者，采用随机特征映射方法：随机特征映射通过学习一个仿射变换，将训练集外说话人的特征变换为童声说话人，来达到数据增强的目的；或者，采用自适应方法：该方法使用成年人数据预训练模型，再用童声数据进行自适应，自适应时只更新输出层参数，将较低层的参数进行冻结。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

自适应方法缺陷在于系统性能受到真实童声数据量的限制，该方法需要引入额外的真实童声数据，因此童声数据量的大小必然会影响系统的性能。

加入噪音方法本质上是将噪音和干净语音进行结合来生成新的数据，增强的数据高度依赖于噪音和干净语音，同时增强数据量也会受到噪音种类和干净语音数据量的影响，并且它们本质上说话的内容还是一样的，多样化也会受限。

随机特征映射方法同加入噪音方法，需要依赖外部语音来增强数据，对数据量有较大影响。

而上述方法中需要的童声数据本身就不好获得，均会影响这些方法的效果。

发明内容

为了至少解决现有技术中由于童声数据量不足，使得儿童语音识别模型效果不佳的问题。

第一方面，本发明实施例提供一种儿童语音识别模型的训练方法，包括：

获取训练数据，所述训练数据包括儿童语音训练数据、所述儿童语音训练数据对应的硬标签、随机噪声数据；

通过基线声学模型训练得到无条件生成对抗网络；

将所述随机噪声数据输入所述无条件生成对抗网络，以得到噪声增强声学特征；

将所述噪声增强声学特征输入至所述基线声学模型，得到每一帧所述噪声增强声学特征对应的后验概率软标签；

至少将所述噪声增强声学特征和所述软标签以及所述儿童语音训练数据和所述硬标签作为样本训练数据训练儿童语音增强声学识别模型。

第二方面，本发明实施例提供一种儿童语音识别模型的训练系统，包括：

数据获取程序模块，用于获取训练数据，所述训练数据包括儿童语音训练数据、所述儿童语音训练数据对应的硬标签、随机噪声数据；

对抗网络生成程序模块，用于通过基线声学模型训练得到无条件生成对抗网络；

声学特征确定程序模块，用于将所述随机噪声数据输入所述无条件生成对抗网络，以得到噪声增强声学特征；

标签确定程序模块，用于将所述噪声增强声学特征输入至所述基线声学模型，得到每一帧所述噪声增强声学特征对应的后验概率软标签；

识别模型训练程序模块，用于至少将所述噪声增强声学特征和所述软标签以及所述儿童语音训练数据和所述硬标签作为样本训练数据训练儿童语音增强声学识别模型。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的儿童语音识别模型的训练方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的儿童语音识别模型的训练方法的步骤。

本发明实施例的有益效果在于：在儿童语音训练数据有限的情况下，使用无条件对抗网络确定不需要采集成本的随机分布采样的增强声学特征，通过增强声学特征与有限的儿童语音训练数据进行增强声学模型的训练，改变了有限的儿童语音训练数据的发音本质，从而生成更多具有多样化儿童语音，训练出识别准确率更高的儿童语音识别模型。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种儿童语音识别模型的训练方法的流程图；

图2是本发明一实施例提供的一种儿童语音识别模型的训练方法的对于儿童ASR数据增强框架的结构图；

图3是本发明一实施例提供的一种儿童语音识别模型的训练方法的声学建模与不同训练数据的比较列表示意图；

图4是本发明一实施例提供的一种儿童语音识别模型的训练方法的不同训练阶段的儿童语音特征示意图；

图5是本发明一实施例提供的一种儿童语音识别模型的训练方法的不同数据量的系统平均单词错误率的比较列表示意图；

图6是本发明一实施例提供的一种儿童语音识别模型的训练系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种儿童语音识别模型的训练方法的流程图，包括如下步骤：

S11：获取训练数据，所述训练数据包括儿童语音训练数据、所述儿童语音训练数据对应的硬标签、随机噪声数据；

S12：通过基线声学模型训练得到无条件生成对抗网络；

S13：将所述随机噪声数据输入所述无条件生成对抗网络，以得到噪声增强声学特征；

S14：将所述噪声增强声学特征输入至所述基线声学模型，得到每一帧所述噪声增强声学特征对应的后验概率软标签；

S15：至少将所述噪声增强声学特征和所述软标签以及所述儿童语音训练数据和所述硬标签作为样本训练数据训练儿童语音增强声学识别模型。

在本实施方式中，针对儿童语音数据量不足的问题，通常会考虑使用传统的数据增强方法，对语音进行调整。而使用生成模型直接从随机变量中生成新的数据在该任务上是较为新颖的尝试，相比传统的数据增强方法在操作上也具有较高的难度。

对于步骤S11，获取现有的儿童语音训练数据，以及所述儿童语音训练数据对应的概率硬标签，以及生成的随机噪声数据；

作为一种实施方式，其中，所述随机噪声数据包括随机分布采样。在本实施方式中，所述随机噪声数据并非常识理解的环境“噪音、杂音”，而是一个随机变量，例如，是一个从均值为0，方差为1的高斯分布中采样的100维特征向量。将这种随机分布采样，作为用于训练数据增强模型的噪声数据。这样的噪声数据输入到生成器，生成器输出增强的数据，这个增强的数据本身并不包含“噪音”。

对于步骤S12，通过基线声学模型训练得到无条件生成对抗网络。使用基线做出预测，既简单又易于理解。而基线模型也为性能提供了可接受的最低标准。而生成对抗网络需要有一个“生成器(Generator)”：其实就是一个神经网络，或者是更简单的理解，他就是一个函数(Function)。输入一组向量，经由生成器，产生一组目标矩阵(如果需要生成儿童语音，那么矩阵就是儿童语音的音素集合)。它的目的就是使得自己造样本的能力尽可能强，强到判别网络没法判断是真样本还是假样本。

同时还有一个“鉴别器(Discriminator)”：判别器的目的就是能判别出一段儿童语音它是来自真实样本集还是假样本集。假如输入的是真样本，网络输出就接近1，输入的是假样本，网络输出接近0，达到了很好判别的目的。而本方法训练的无条件生成对抗网络中，不需要使用所述鉴别器，仅仅使用生成器即可。

对于步骤S13，将所述随机噪声数据输入至在步骤S12中训练的无条件生成对抗网络，通过所述无条件生成对抗网络中的生成器，得到了数量更多的噪声增强声学特征。所述噪声增强声学特征可以为一个矩阵，第一维是时间维度，第二维是声学特征维度。

对于步骤S14，将所述噪声增强声学特征输入至所述基线声学模型，通过所述基线声学模型确定出，每一帧噪声音频的噪声增强特征对应的后验概率的软标签。

对于步骤S15，至少将所述噪声增强声学特征和所述噪声增强声学特征对应的软标签以及儿童语音训练数据和所述儿童语音训练数据对应的硬标签，作为训练的样本来训练用于数据增强的儿童语音增强声学识别模型。由于多加入了噪声增强声学特征和所述噪声增强声学特征对应的软标签，由于加入的噪声是随机生成的，每次的输入噪声随机采样都会发生变化，生成的数据会有多种不同的数据，从而使儿童语音增强声学识别模型学习到了数量更多，种类更丰富的儿童语音数据。例如在发‘a’这个音，是有多种不同的发音方法的。更确切的说，不同的人、每次发出的‘a’音，都是会有所区别的，考虑到这一特点，通过随机的噪声增强特征，以及儿童语音训练数据，来模拟出同样内容的‘a’，但是发音却是各不相同的这种场景，改变了发音的本质，并且生成的儿童语音数据不含有“噪音、杂音”，使其更加具有多样化。这种显著的改进，是“现有加入噪音、杂音方法”完全实现不了的。有了种类更丰富的儿童语音数据进行训练，从而提高了儿童语音识别模型的识别效果。

通过该实施方式可以看出，在儿童语音训练数据有限的情况下，使用无条件对抗网络确定不需要采集成本的随机分布采样的增强声学特征，通过增强声学特征与有限的儿童语音训练数据进行儿童语音增强声学识别模型的训练，改变了有限的儿童语音训练数据的发音本质，从而学习到更多具有多样化儿童语音，训练出识别准确率更高的儿童语音识别模型。

作为一种实施方式，在本实施例中，所述方法还包括：

基于所述儿童语音训练数据和所述儿童语音训练数据对应的硬标签训练条件生成对抗网络，并获取所述条件生成对抗网络的生成器所确定的增强声学特征以及所述增强声学特征对应的条件标签；

所述至少将所述噪声增强声学特征和所述软标签以及所述儿童语音训练数据和所述硬标签作为样本训练数据训练儿童语音增强声学识别模型包括：

至少将所述噪声增强声学特征和所述软标签，所述儿童语音训练数据和所述硬标签，所述增强声学特征和所述条件标签作为样本训练数据训练儿童语音增强声学识别模型。

在本实施方式中，还可以基于所述儿童语音数据和所述儿童语音训练数据对应的硬标签来训练条件生成对抗网络，在所述条件生成对抗网络中，相较于无条件生成对抗网络既需要生成器，又需要鉴别器。通过生成器以及鉴别器的不断训练，提高生成器的数据增强效果。进而通过训练好的条件生成对抗网络所确定的增强声学特征以及所述增强声学特征对应的条件标签；

新增了增强声学特征以及所述增强声学特征对应的条件标签，那么也可以将其与噪声增强声学特征和所述软标签以及所述儿童语音训练数据和所述硬标签一并对儿童语音增强声学识别模型进行训练，加入了更多的儿童训练数据，如果随机的噪声增强声学特征和所述软标签与增强声学特征以及所述增强声学特征对应的条件标签相匹配，在这种情况下可以进一步提高儿童语音识别模型的识别效果。

考虑到无法使用基线声学模型训练无条件生成对抗网络时，也可以仅用条件生成对抗网络确定是增强声学特征和所述增强声学特征对应的条件标签以及所述儿童语音训练数据和所述硬标签作为训练样本对儿童语音增强声学识别模型进行训练，相对提高儿童语音识别模型的识别效果。

作为一种实施方式，所述无条件生成对抗网络以及所述条件生成对抗网络的类型包括Wasserstein生成对抗网络。

最开始的GANs训练是不稳定的，许多研究试图提出新的训练准则来提高GANs训练的稳定性和收敛性。最近，Wasserstein生成对抗网络(WGAN)和改进的Wasserstein GAN(WGAN-GP)训练，利用了Wasserstein在两个分布之间的距离。Wasserstein距离(也称为推土距离)被用作鉴别器以梯度罚分损失形式计算的距离估计量，这是由于其理想的性质是在温和的假设下几乎在任何地方都是连续且可微的。具体而言，使用以下目标函数改进了WGAN：

其中α是0到1之间的随机数。梯度罚分(GP)项强制执行D到1的梯度范数。此公式可以提供更稳定的GAN训练过程。

对本方法进行进一步具体的说明，GAN(generative adversarial network，生成对抗网络)通过利用两种模型的对抗学习过程：生成器(G)和鉴别器(D)，在各种生成任务中取得了许多最新进展。整个过程可以看作是鉴别器D与生成器G的竞争：生成器G的目的是将高斯噪声

转换为伪样本

使得样本

不能与真实样本区分开。鉴别器D对数据样本进行识别。鉴别器经过训练，可以区分假样本和真实样本。鉴别器的目标函数是：

鉴别器D被训练以预测每个数据的有效性1(真)和0(假)。对于发生器G的目标函数为：

因此，G指在生成被鉴别器归类为真的样本。

为了将条件信息嵌入GAN的训练过程中，条件GAN(cGAN)是原始GAN的扩展，在生成器和鉴别器中都利用了条件信息。通过集成其他条件信息，cGAN可以在所需条件下生成数据。cGAN中的目标函数可编写如下

为了将条件信息嵌入GAN的培训过程中，本方法将条件信息视为歧视者中间特征和条件标签之间的投影。

在本方法中，探索了两个生成框架：无条件GAN和条件GAN(cGAN)。两者都在帧级上实现。具体来说，滤波器组(FBANK)功能用作鉴别器的输入和生成器的输出。输入和生成的基本单位是帧的上下文序列，帧的连接大约是一个音节的大小。

基于上述步骤中描述的生成模型，本方法研究了两种类型的数据增强框架，即无条件GAN和有条件GAN(cGAN)。两者都在帧级上实现，这是从语音波形中提取的儿童语音频谱上的特征图。具体来说，滤波器组(FBANK)功能用作鉴别器的输入和生成器的输出。输入和生成的基本单位是帧的上下文序列，帧的连接大约是一个音节的大小。给定这些K维FBANK特征，将其中m个堆叠起来以形成m*K矩阵。在下述实验中，设定将K＝40和m＝20。

如图2对于儿童ASR数据增强框架的结构图所示，使用原始真实数据，首先将训练不同的生成模型，以生成额外的扩充数据。对于无条件的生成实验，由于缺少用于生成数据的标签，因此开发了一种无监督的学习策略，其中利用基线声学模型为每个帧生成后验概率，这在以后称为软标签。假设真实数据和增强数据之间的分布生成了训练有素的GAN模型具有高度相似性，则将KL(Kullback-Leibler，相对熵)散度用作声学模型的训练准则，从而可以得出优化函数：

其中O_t是输入要素，S是声学状态，P_ref是原始标签作为参考。将生成的数据集和真实语音数据集表示为D_g和D_r。来自基线声学模型和增强声学模型的后验概率表示为P基线(S|O_t)和P_aug(S|O_t)，称为软标签。

对于有条件的cGAN，声学状态(即预先训练的声学系统中的聚类senone标签)将用作特定的条件信息，作为网络训练和数据生成的指南。对于生成器，状态信息仍准备好成为一个热连接向量。对于鉴别器，需要在嵌入的条件向量和特征向量之间取内积，以将条件信息引入模型。与无条件GAN相比，无条件GAN的生成过程中的信息只是一个随机噪声矢量，当导出cGAN中由生成器生成的增强数据的标签时，这些声学状态也可以直接使用。使用这些数据和标签，可以通过使用实际数据和生成的数据进行联合训练来获得新的增强声学模型。

对上述方法进行实验，使用了三种类型的数据集：(1)100小时手动转录的普通话成年语料库，包括120K语音，平均持续时间为3秒。(2)一个40小时的手工转录普通话儿童语料库，包括47k语音。(3)一个测试集，包含四个孩子的语音子集，总计16k语音，和两个子集的成人语音子集，总计8k语音。对于儿童测试数据集，它包含从不同环境采样的4个不同子数据集(A，B，C，D)，而在成人测试数据集中包含2个子数据集(A，B)。这些数据集(包括收集设备，域)之间存在明显的差异。

基于高斯混合模型的隐马尔可夫模型(GMM-HMM)首先是使用Kaldi工具包使用标准配方构建的，该配方由使用最大似然估计训练的9663个聚簇状态组成。使用训练有素的GMM-HMM模型，可以通过对100小时真实成人语音和40小时真实儿童语音进行强制对齐来得出状态级别标签。使用交叉熵准则和基于ASGD(asynchronous stochastic gradientdescent，异步随机梯度下降)的BP(back propagation，反向传播)算法，使用Kaldi构建所有DNN(deep neural network，深度神经网络)声学模型。95％的训练数据用于训练，其余5％用于验证。Kaldi配方中的标准测试管道用于解码和评分。

本方法实验中的基准模型包含5个隐藏层，每层包含2048个单位，每层之后都使用ReLU激活功能；由于使用具有△和△△的40维滤波器组特征以及每侧5帧的上下文扩展，因此输入层具有1320个单位。输出层由对应于GMM-HMM群集状态的9663个单元组成。为了更好地进行比较，对具有两个实验设置(B-01和B-02)的两个基线模型进行了相同的体系结构但不同的训练集训练。B-01仅接受儿童的语音训练，B-02受儿童和成人的语音训练。如图3声学建模与不同训练数据的比较列表示意图所示，列出了两个基线模型的WER(Word errorrate，单词错误率)。可以观察到：

(1)仅在系统构建的儿童语音受限的情况下，无论对于儿童还是成年人的语音，其性能都非常差。

(2)添加更多成人数据可以大大提高成人语音的准确性，但对儿童语音的影响仍然有限(甚至在某些情况下甚至会降低效果)。在常规ASR中，儿童语音比成人语音更难以识别。

此处使用的所有用于数据增强的GAN模型都是通过PyTorch(Pytorch是基于python的科学计算包，为两类受众提供服务，可以使用GPU的算力，作为一个深度学习计算平台提供最大的计算灵活性与速度)实现的。对于无条件的GAN(G-01和G-03)，本方法使用具有ReLU激活功能的4层全连接网络结构(800→1024→768→256→1)。同样，发生器使用反向，该反向也包含四个完全连接的层以及一个S型函数来输出。在G-02中，还引入了卷积层以更好地分析结构配置：对于鉴别器，存在三个卷积层，其通道为{128，256，512}，步幅为{(1，2)，(3，3)，(3，3)}，然后在每层之后有Leaky ReLU激活功能，最后是完全连接的层。与鉴别器相似，存在一个完全连接的层来传输输入的随机噪声，然后生成器使用三个转置的卷积层来生成特征图。发生器的输入是从中心各向同性多元高斯采样的256维随机噪声。

基于G-01和G-03的体系结构，本方法的cGANs模型将条件信息作为单输入矢量形式的额外输入，并通过完全连接的层投影到256维矢量V_c。同时，原始特征输入还将通过另一个完全连接的层投影到256维向量V_f。此后，其余网络将使用V_f来计算对抗损失，将V_c和V_f的内积作为条件损失。

在CG-01的实验中，将条件信息用作cGAN训练的直接标签。对于CG-02，通过分配超参数β[0,1]将软标签和条件硬标签的线性组合用作训练标签。更具体地说，新标签可以按以下方式派生：

p_comb＝λp_baseline(s|o_t)+(1-β)p_condition

在训练过程中，对鉴别器D进行5次更新，然后对每个微型批处理中的G发生器进行一次更新。梯度惩罚参数λ设置为10。使用Adam训练网络，并且最小批量大小设置为64。

生成数据的可视化为了更好地理解从GAN生成的特征样本，将真实儿童语音数据样本的特征图与图4中模型训练过程生成的样本进行可视化和比较。根据该图可以找到随着训练时间的增加，相同噪声向量产生的特征质量随着模型的收敛而逐渐提高，最终产生的样本与儿童真实特征样本具有高度相似性。比较生成的特征图中的不同单位，可以看出，很好收敛的模型可以使用不同的随机噪声生成具有多样性的特征。

探索生成模型为了研究生成模型如何影响生成的特征的质量以及它们可以为ASR系统带来的改进，首先使用基本GAN或条件GAN测试具有不同网络架构的生成模型。使用建议的方法的结果如图3所示的声学建模与不同训练数据的比较列表示意图。(1)仅在原始训练集中使用儿童语音的设置#1：在添加与真实数据相同数量的生成儿童数据后，与B-01相比，G-01可以显著降低儿童测试集上相对

的WER。在G-02的GAN模型中使用卷积层可以进一步改善结果。通过这种数据受限的设置，生成的儿童语音也非常有助于识别成年人的语音。(2)在原始训练集中包含成人和儿童语音的设置#2：很明显，可以大幅降低针对儿童的语音的WER，而使儿童语音的性能变差，并且成人的数据似乎对识别儿童没有用处言语。使用建议的基于GAN或cGAN的儿童数据扩充方法，仍然可以在儿童测试集上获得较大的WER降低，这也与设置1中的观察结果一致。此外，生成的儿童数据对于成年人的语音也很有帮助，即使成年人的语音也略有改善。GAN(G-03)和cGAN(CG-01，CG-02)生成的数据都可以改善声学模型，从而在儿童测试集上获得更好的结果，这表明软标签和条件标签都可以成功地指导模型训练和它们的组合可以实现更好的性能。

探索数据量在实验中，还探索了增强数据量是否会对声学建模产生较大影响。在第二种设置中，使用固定的40小时儿童语音+100小时成人语音，比较了使用不同数量的增强儿童数据(即20小时至80小时)的系统，结果如图5所示的不同数据量的系统平均单词错误率的比较列表示意图。首先，WER随着生成数据的增加而减少，但是当它接近用于训练生成模型的实际子数据大小时，这种改善将接近饱和。

综上所述，在子数据和标签有限的情况下，不受监督和组合的框架能够生成强大的生成模型。通过对各种模型设置进行的实验，发现引入GAN生成的增强数据可以显着增强儿童的ASR系统。最终的系统可以将儿童语音的WER降低20％以上，而且基于GAN的新生成的儿童语音甚至可以在某些条件下改善成年人的语音。

如图6所示为本发明一实施例提供的一种儿童语音识别模型的训练系统的结构示意图，该系统可执行上述任意实施例所述的儿童语音识别模型的训练方法，并配置在终端中。

本实施例提供的一种儿童语音识别模型的训练系统包括：数据获取程序模块11，对抗网络生成程序模块12，声学特征确定程序模块13，标签确定程序模块14，识别模型训练程序模块15。

其中，数据获取程序模块11用于获取训练数据，所述训练数据包括儿童语音训练数据、所述儿童语音训练数据对应的硬标签、随机噪声数据；对抗网络生成程序模块12用于通过基线声学模型训练得到无条件生成对抗网络；声学特征确定程序模块13用于将所述随机噪声数据输入所述无条件生成对抗网络，以得到噪声增强声学特征；标签确定程序模块14用于将所述噪声增强声学特征输入至所述基线声学模型，得到每一帧所述噪声增强声学特征对应的后验概率软标签；识别模型训练程序模块15用于至少将所述噪声增强声学特征和所述软标签以及所述儿童语音训练数据和所述硬标签作为样本训练数据训练儿童语音增强声学识别模型。

进一步地，所述对抗网络生成程序模块还用于：基于所述儿童语音训练数据和所述儿童语音训练数据对应的硬标签训练条件生成对抗网络；

所述标签确定程序模块还用于：获取所述条件生成对抗网络的生成器所确定的增强声学特征以及所述增强声学特征对应的条件标签；

所述识别模型训练程序模块还用于：

进一步地，所述随机噪声数据包括随机生成的音频参数。

进一步地，所述无条件生成对抗网络以及所述条件生成对抗网络的类型包括Wasserstein生成对抗网络。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的儿童语音识别模型的训练方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

通过基线声学模型训练得到无条件生成对抗网络；

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的儿童语音识别模型的训练方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的儿童语音识别模型的训练方法的步骤。

本申请实施例的客户端以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据处理功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种儿童语音识别模型的训练方法，包括：

通过基线声学模型训练得到无条件生成对抗网络；

2.根据权利要求1所述的方法，其中，所述方法还包括：

所述至少将所述噪声增强声学特征和所述软标签以及所述儿童语音训练数据和所述硬标签作为样本训练数据训练增强声学模型包括：

3.根据权利要求1所述的方法，其中，所述随机噪声数据包括随机分布采样。

4.根据权利要求2所述的方法，其中，所述无条件生成对抗网络以及所述条件生成对抗网络的类型包括Wasserstein生成对抗网络。

5.一种儿童语音识别模型的训练系统，包括：

6.根据权利要求5所述的系统，其中，所述对抗网络生成程序模块还用于：基于所述儿童语音训练数据和所述儿童语音训练数据对应的硬标签训练条件生成对抗网络；

所述增强声学模型训练程序模块还用于：

7.根据权利要求5所述的系统，其中，所述随机噪声数据包括随机分布采样。

8.根据权利要求6所述的系统，其中，所述无条件生成对抗网络以及所述条件生成对抗网络的类型包括Wasserstein生成对抗网络。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4中任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-4中任一项所述方法的步骤。