CN111310836B

CN111310836B - 一种基于声谱图的声纹识别集成模型的防御方法及防御装置

Info

Publication number: CN111310836B
Application number: CN202010105807.7A
Authority: CN
Inventors: 陈晋音; 叶林辉; 王雪柯; 郑喆
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-02-20
Filing date: 2020-02-20
Publication date: 2023-08-18
Anticipated expiration: 2040-02-20
Also published as: CN111310836A

Abstract

本发明公开了一种基于声谱图的声纹识别集成模型的防御方法，包括：(1)采集音频文件，并对音频文件转化为声谱图，该声谱图作为良性样本；(2)利用良性样本训练多个声纹识别模型，获得训练好的多个声纹识别模型；(3)采用投票机制从训练好的多个声纹识别模型从筛选获得较优的多个声纹识别模型进行集成，形成声纹识别集成模型，利用良性样本重新训练声纹识别集成模型；(4)采集布谷鸟搜索算法分别攻击多个声纹识别模型，生成对抗样本；(5)利用对抗样本和良性样本对步骤(3)获得的声纹识别集成模型进行再训练，获得能够抵抗攻击的声纹识别集成模型；(6)利用步骤(5)获得的声纹识别集成模型对音频文件对应的声谱图进行防御识别。

Description

一种基于声谱图的声纹识别集成模型的防御方法及防御装置

技术领域

本发明属于信息安全研究领域，具体涉及一种基于声谱图的声纹识别集成模型的防御方法及防御装置。

背景技术

由于每个人的发声器官—舌，牙齿，肺等在尺寸和形态上存在很大差异，因此每个人说话的声音都不同，其声谱图都存在差异，实际上就是每个人的声音都带有独特的身份信息，声纹识别就是利用了声音的这一特性来识别说话人的身份。声纹识别是生物识别技术的一种，分为文本相关和文本无关的声纹识别。文本无关的声纹识别：指声纹识别系统对于语音文本内容是没有任何要求，说话人的说话内容比较自由随意。文本相关的声纹识别：指说话人识别系统，要求用户必须按照事先指定的内容进行发音。文本相关声纹识别模型要求用户按照规定的文本发音，一旦用户的发音有误就会造成身份无法识别的情况，应用面较窄。文本无关的声纹识别模型对用户的发声内容没有要求，识别方便，其应用面较为广泛，但实现难度较高。

深度神经网络可以充分利用语音特征之间的关联性，将连续帧的语音特征合并后进行训练，使声纹识别系统的识别率大幅度提高。基于深度神经网络的声纹识别系统在提高识别准确率为人们带来便利的同时，也带来了相应的风险。深度神经网络容易受到对输入数据添加细微扰动形式的对抗攻击，攻击者在获得某一目标说话人的特征后，可以给某个说话人音频添加精心计算的扰动，使得生成的对抗样本被声纹识别模型错误的识别为目标说话人，这给声纹识别系统以及个人的财产安全带来了极大的安全隐患。

已有的声纹识别攻击方法主要分为白盒和黑盒攻击。白盒攻击是攻击者在已知模型内部参数的情况下进行的，通过反向传播计算模型关于噪声的梯度，通过迭代不断优化所要添加的噪声，以达到生成对抗样本的目的。黑盒攻击是攻击者在未知模型参数的情况下进行的，可以利用遗传算法、粒子群算法等优化算法优化所需要添加的扰动，从而生成对抗样本。白盒攻击和黑盒攻击都可以对声纹识别系统进行攻击，使声纹识别系统错误的将对抗样本识别为目标说话人。

发明内容

针对目前声纹识别系统存在精度不高，鲁棒性差，容易受到对抗样本攻击的安全性问题，本发明提供了一种基于声谱图的声纹识别集成模型的防御方法及防御装置，该防御方法及防御装置可以提高声纹识别的精度及鲁棒性，并抵御对抗样本的攻击，提高了声纹势识别的安全性。

本发明的技术方案为：

一种基于声谱图的声纹识别集成模型的防御方法，包括以下步骤：

(1)采集音频文件，并将音频文件转化为声谱图，该声谱图作为良性样本；

(2)利用良性样本训练多个图像识别模型，使图像识别模型达到声纹识别的效果，从而获得训练好的多个基于图像的声纹识别模型；

(3)采用投票机制将步骤(2)中训练好的多个基于图像的声纹识别模型进行集成，形成声纹识别集成模型，利用良性样本重新训练声纹识别集成模型；

(4)采集布谷鸟搜索算法分别攻击多个声纹识别模型，生成对抗样本，并将对抗样本转化为声谱图，作为恶性样本；

(5)利用恶性样本和良性样本对步骤(3)获得的基于图像的的声纹识别集成模型进行再训练，获得能够抵抗攻击的声纹识别集成模型；

(6)利用步骤(5)获得的声纹识别集成模型对音频文件对应的声谱图进行防御识别。

优选地，将音频文件转化为声谱图的具体步骤为：

对音频进行分帧，并对每帧语音信号加窗处理后进行短时傅里叶变换；

计算短时傅里叶变换结果的功率谱，并对功率谱进行归一化处理，获得声谱图，将声谱图与对应的说话者组成一个良性样本。

优选地，所述图像识别模型采用VGG16或VGG19。

优选地，所述利用良性样本训练多个声纹识别模型的具体过程为：

对声谱图进行预处理，将声谱图大小设置为224×224×3，获得声谱图样本；

声谱图样本x_i经过声纹识别模型输出的置信度为y_ipre，用交叉熵作损失函数，利用损失函数L(x_i)优化声纹识别模型的参数；

L(x_i)＝-[y_ilogy_ipre+(1-y_i)log(1-y_ipre)]

利用测试集中的声谱图测试训练的声纹识别模型的准确率，在识别精度达不到要求时，重新训练声纹识别模型，直到识别精度达到要求为止。

步骤(3)的具体过程为：

利用投票机制将多个基于图像的声纹识别模型进行集成，获得声纹识别集成模型；

投票前先将各声纹识别模型返回的预测置信度转化为预测类别，即最高置信度对应的类别标记作为该声纹识别模型的预测结果；

各个声纹识别模型得到声谱图样本的预测结果后，若某预测类别获得一半以上声纹识别模型投票，则预测类别即为声纹识别集成模型的预测结果；

再用良性样本对声纹识别集成模型进行训练，用测试集进行测试，以提高声纹识别集成模型。

一种基于声谱图的声纹识别集成模型的防御装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，所述计算机处理器执行所述计算机程序时实现上述基于声谱图的声纹识别集成模型的防御方法。

本发明中，基于以上声纹识别系统可能存在的缺陷及已有攻击方法的局限性，研究一种将语音转化为声谱图，利用声谱图训练图像识别模型，使其达到声纹识别的目的。并将多个训练好的图像识别模型集成在一起，在提高模型精度的同时，使该特殊的声纹识别模型能够抵御对抗样本的攻击，并通过对抗训练进一步提高模型的防御能力，实现对白盒或黑盒攻击的防御。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1为实施例提供的基于声谱图的声纹识别集成模型的防御方法的流程图；

图2是实施例提供的获得对抗样本的结构示意图；

图3是实施例提供的对集成声纹识别模型再训练的示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

参加图1～图3，实施例提供的基于声谱图的声纹识别集成模型的防御方法，包括以下步骤：

1)准备用于声纹识别模型训练的数据集，用Librispeech语音数据集中的train-clean-100数据集作为数据集。train-clean-100数据的各个文件存放的是不同说话人的音频，因此一个文件夹对应一个说话人，文件名实际上就是标签；

2)将各个文件夹中的音频文件进行预处理，转化为声谱图，保存在相应的文件夹中，文件名就是声谱图对应的类标，也就是说话人的身份。将其按照一定比例划分为训练集和测试集。其具体过程如下：

Step1：对于train-claen-100数据集中的各个音频文件x(n)，对其进行分帧，每一帧长度为25ms，在该时间段内，语音信号视作稳定状态。对分帧之后的音频信号加窗函数避免高频部分信号泄露。在分帧加窗后，对语音信号进行短时傅里叶变换：

其中k∈{0,1,…N-1}，其中N表示一帧音频文件中的所含有的采样点的个数，w(n-m)是沿时间轴滑动的窗函数。

Step2：根据X(n,k)求得其功率谱为

P(n,k)＝|X(n,k)|² (2)

Step3：由于语音中的静音段中有大量的非零噪声，因此对语谱图进行用最大-最小归一化方法进行处理。归一化处理后使语谱图均值和方差对应的明暗程度和明暗分布情况更加均匀，归一化公式如下：

G(a,b)中，a代表对应的时间，b代表在a时刻的频率，G(a,b)的大小表示在对应a时刻，频率大小为b的音频成分所含有的能量大小。由G(a,b)可画语谱图，用颜色相同，但深浅程度不同的颜色代表各个时刻下，不同频率成分所含有的能量大小。

Step4：将生成的声谱图按相应的说话人存放在相应的文件夹中，文件名就是类标，也就是对应的说话人，按一定的比例把生成的声谱图数据集按一定比例分为训练集和测试集。

3)训练基于声谱图的声纹识别模型：利用生成的声谱图训练VGG16模型，文件名就是声谱图的类标，达到用图像识别实现声纹识别的目的。在训练完后用测试集进行测试，使识别精度达到要求，若达不到要求，则继续训练模型，直到模型精度达到要求。其具体步骤如下：

Step1:对图像进行预处理，将声谱图的大小设置为224×224×3。

Step2:搭建VGG16模型。搭建基于CNN结构的图像识别模型，该结构有13个卷积层，3个全连接层。

Step3:设置相关参数并进行训练。设声谱图样本x_i经过VGG16模型输出的置信度为y_ipre，用交叉熵作损失函数：

L(x_i)＝-[y_ilogy_ipre+(1-y_i)log(1-y_ipre)] (4)

其中y_i表示真实标签。

Step4:用测试数据集测试识别模型的准确率,确保达到预设的识别准确率，否则修改模型的结构和参数重新进行训练。

4)更换模型结构，重复步骤3)，训练多个不同结构的基于声谱图的声纹识别模型。在训练完后用测试集对各个图像识别模型进行测试，使识别精度达到要求，若达不到要求，则更改模型参数继续训练模型，直到各个模型的精度达到要求。从而获得多个基于声谱图的声纹识别模型。

5)将上述获得的多个基于声谱图的声纹识别模型进行集成。则集成后的模型具有多个不同结构的基于声谱图的声纹识别模型，采用投票法对各个模型的输出进行投票。然后再次进行训练，进一步提高模型的识别精度以及鲁棒性。具体步骤为：

Step1：将上述获得的多个基于声谱图的声纹识别模型进行集成，集成后采用投票机制。

Step2：投票前先将各自声纹识别模型返回的预测置信度转化为预测类别，即最高置信度对应的类别标记作为该声纹识别模型的预测结果。

Step3：各个模型得到输入样本x的最终预测后，若某预测类别获得一半以上模型投票，也就是若对于声谱图样本，声纹识别集成模型输出中有一半以上的输出是说话者A，则认为该声谱图样本对应的音频所属说话者A；

Step对声纹识别集成模型再用train-clean-100数据集进行训练，用测试集进行测试，使模型的识别精度以及模型的防御能力进一步提升。

6)攻击基于声谱图的声纹识别模型：采用布谷鸟搜索算法攻击基于声谱图的声纹识别模型。对于步骤4)中获得的多个基于声谱图的声纹识别模型，采用布谷鸟搜索算法对各个模型进行攻击，不断迭代优化寻找最优扰动，叠加到原音频上生成对抗样本。其具体步骤如下：

Step1：初始化适应度函数，定义适应度函数如下：

f＝[y_tilogy_ipre+(1-y_ti)log(1-y_advipre)]+c·||x_advi-x_i，0||₂ (5)(5)其中，x_advi表示对抗样本，x_i，0表示原音频，y_ti表示目标说话人的标签，y_advipre表示对抗样本的输出，该式中用L2函数来衡量对抗样本与原始样本之间的差异，通过参数c控制这个差异的大小。

Step2：初始化鸟巢。设置鸟巢数量为G，初始化与原音频大小相同的随机扰动，叠加到原音频上，形成初始对抗样本。即初始鸟巢，设为：

X＝x₁，x₂，…，x_G (6)

Step3：通过莱维飞行获得新的鸟巢，即通过莱维飞行获得新的对抗样本，莱维飞行更新如下：

x_i＝x_i+α*S*n (7)

其中α是步长缩放因子，n是与x_i维数相同的，由标准正态分布的随机数组成的数组。S为步长：

其中，u，v是两个服从高斯分布的变量，β是常数，σ²由公式下式计算：

其中是伽马函数。

Step4：计算每个个体的适应度，记为F＝f₁，f₂，…，f_G，，找到种群中的最优个体即适应度函数值最小的个体，记为F_global。若迭代次数达到设定的最大迭代次数或者生成的对抗样本能够分类为目标类别，则停止迭代，输出对抗样本。若不满足上述条件，则重复Step1-Step3中的步骤，对种群继续迭代寻优。由此可获得不同模型下生成的对抗样本。

7)对抗训练基于声谱图的集成声纹识别模型：将步骤6)中生成的对抗样本转换为声谱图后加入到训练数据集中，重新训练基于声谱图的集成声纹识别模型，提高集成声纹识别模型的识别精度以及防御能力，提高声纹识别模型的安全性和稳定性。

实施例还提供了一种基于声谱图的声纹识别集成模型的防御装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，所述计算机处理器执行所述计算机程序时实现上述基于声谱图的声纹识别集成模型的防御方法。

由于该防御装置中以及计算机存储器存储的计算机程序主要用于实现上述的基于声谱图的声纹识别集成模型的防御方法，因此其作用于上述防御方法的作用相对应，此处不再赘述。

针对可能存在的对声纹识别系统的白盒或黑盒的攻击，本发明采用将语音信号转换为声谱图，利用图像识别模型达到声纹识别的目的，并将多个图像识别模型集成后，在提高声纹识别准确率的同时，获得对对抗样本的防御能力，实现对白盒或黑盒攻击的防御。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于声谱图的声纹识别集成模型的防御方法，其特征在于，包括以下步骤：

(2)利用良性样本训练多个图像识别模型，使图像识别模型达到声纹识别的效果，从而获得多个基于图像的声纹识别模型；

(3)采用投票机制将步骤(2)中训练好的多个基于图像的声纹识别模型进行集成，形成声纹识别集成模型，利用良性样本重新训练声纹识别集成模型，具体包括：利用投票机制将多个声纹识别模型进行集成，获得声纹识别集成模型；投票前先将各声纹识别模型返回的预测置信度转化为预测类别，即最高置信度对应的类别标记作为该声纹识别模型的预测结果；各个声纹识别模型得到声谱图样本的预测结果后，若某预测类别获得一半以上声纹识别模型投票，则预测类别即为声纹识别集成模型的预测结果；再用良性样本对声纹识别集成模型进行训练，用测试集进行测试，以提高声纹识别集成模型；

(4)采用布谷鸟搜索算法分别攻击多个声纹识别模型，生成对抗样本，并将对抗样本转化为声谱图，作为恶性样本，具体包括：

(4-1)初始化适应度函数，定义适应度函数如下：

f＝[y_tilogy_ipre+(1-y_ti)log(1-y_advipre)]+c·||x_advi-x_i，0||₂

其中，x_advi表示对抗样本，x_i,0表示原音频，y_ti表示目标说话人的标签，y_advipre表示对抗样本的输出，该式中用L2函数来衡量对抗样本与原音频之间的差异，通过参数c控制这个差异的大小，y_ipre表示声纹识别模型输出的置信度；

(4-2)初始化鸟巢，设置鸟巢数量为G，初始化与原音频大小相同的随机扰动，叠加到原音频上，形成初始对抗样本，即初始鸟巢设为：

X＝x₁，x₂，…，x_G

(4-3)通过莱维飞行获得新鸟巢，即通过莱维飞行获得新对抗样本，莱维飞行更新如下：

x_i＝x_i+α*S*n

其中α是步长缩放因子，n是与x_i维数相同的，由标准正态分布的随机数组成的数组，S为步长：

其中，u,v是两个服从高斯分布的变量，β是常数，σ²由公式下式计算：

其中是伽马函数；

(4-4)计算每个个体的适应度，记为F＝f₁,f₂,…,f_G，，找到种群中的最优个体即适应度函数值最小的个体，记为F_global，，若迭代次数达到设定的最大迭代次数或者生成的对抗样本能够分类为目标类别，则停止迭代，输出对抗样本，若不满足上述条件，则重复步骤(4-1)～(4-3)，对种群继续迭代寻优，由此可获得不同声纹识别模型下生成的对抗样本；

(5)利用恶性样本和良性样本对步骤(3)获得的基于图像的声纹识别集成模型进行再训练，获得能够抵抗攻击的声纹识别集成模型；

2.如权利要求1所述的基于声谱图的声纹识别集成模型的防御方法，其特征在于，将音频文件转化为声谱图的具体步骤为：

3.如权利要求1所述的基于声谱图的声纹识别集成模型的防御方法，其特征在于，所述图像识别模型采用VGG16或VGG19。

4.一种基于声谱图的声纹识别集成模型的防御装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，所述计算机处理器执行所述计算机程序时实现权利要求1～3任一项所述的基于声谱图的声纹识别集成模型的防御方法。