WO2019179033A1

WO2019179033A1 - 说话人认证方法、服务器及计算机可读存储介质

Info

Publication number: WO2019179033A1
Application number: PCT/CN2018/102203
Authority: WO
Inventors: 王义文; 王健宗; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-03-23
Filing date: 2018-08-24
Publication date: 2019-09-26
Anticipated expiration: 2020-09-23
Also published as: CN108597523B; CN108597523A

Abstract

一种说话人认证方法，包括：获取预设说话人的语音信息，其中，语音信息不限制内容（S301）；构建3D卷积神经网络架构，将说话人的语音信息输入至3D卷积神经网络架构（S302）；通过3D卷积神经网络架构创建并存储说话人的语音模型（S303）；当接收到测试话语时，将测试话语信息与存储的说话人的语音模型进行对比（S304）；计算测试话语信息与说话人的语音模型的相似度，当相似度大于一预设值时，则说话人认证成功，当相似度小于一预设值时，则说话人认证失败（S305）。还涉及一种服务器及计算机可读存储介质。

Description

说话人认证方法、服务器及计算机可读存储介质

本申请要求于2018年3月23日提交中国专利局，申请号为201810246497.3、发明名称为“说话人认证方法、服务器及计算机可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及身份认证领域，尤其涉及一种说话人认证方法、服务器及计算机可读存储介质。

背景技术

随着互联网信息技术的发展，智能硬件的应用越来越广泛，例如智能电视、智能手机、智能机器人等。在智能硬件中，为了信息安全，大部分智能设备都设置了身份验证密码，通常的身份认证密码为指纹验证或者数字密码或者图形密码作为身份的依据，但是很多时候通过按键或触摸屏不是最有效率的做法，使用语音输入会更方便。目前的语音识别主要是用户输入特定的文本语音，智能设备识别出相应的内容时，则身份验证成功，但是特定语音作为密码，容易被破解，具有安全隐患。

发明内容

有鉴于此，本申请提出一种说话人认证方法、服务器及计算机可读存储介质，通过创建说话人的与文本无关的语音模型作为密码，不易破解，提高服务器使用安全。

首先，为实现上述目的，本申请提出一种说话人认证方法，该方法应用于服务器，所述方法包括：

获取预设说话人的语音信息，其中，所述语音信息不限制内容；

构建3D卷积神经网络架构；

将所述说话人的语音信息输入至所述3D卷积神经网络架构；

通过所述3D卷积神经网络架构创建并存储所述说话人的语音模型；

当接收到测试话语时，将测试话语信息与所述存储的所述说话人的语音模型进行对比；

计算所述测试话语信息与所述说话人的语音模型的相似度，当相似度大于一预设值时，则说话人认证成功，当相似度小于一预设值时，则说话人认证失败。

此外，为实现上述目的，本申请还提供一种服务器，所述服务器包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的说话人认证系统，所述说话人认证系统被所述处理器执行时实现如下步骤：

构建3D卷积神经网络架构；

将所述说话人的语音信息输入至所述3D卷积神经网络架构；

计算所述测试话语信息与所述说话人的语音模型的相似度，当相似度大于一预设值时，则说话人认证成功，当相似度小于一预设值时，则说话人认证失败，其中，所述通过所述3D卷积神经网络架构创建并存储所述说话人的语音模型的步骤，具体包括：

将所述音频堆叠帧的每个词生成一个向量；

根据属于所述说话人的音频堆叠帧的平均向量生成说话人的语音模型。

进一步地，为实现上述目的，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质存储有说话人认证系统，所述说话人认证系统可被至少一个处理器执行，以使所述至少一个处理器执行如上述的说话人认证方法的步骤。

附图说明

图1是本申请服务器一可选的硬件架构的示意图；

图2是本申请说话人认证系统第一实施例的程序模块示意图；

图3本申请将说话人语音解析成音频流堆叠帧的示意图；

图4为本申请说话人认证方法第一实施例的流程示意图；

图5为本申请说话人认证方法第一实施例中步骤S303的具体流程示意图。

附图标记：

服务器	2
存储器	11
处理器	12
网络接口	13
说话人认证系统	200
获取模块	201
构建模块	202
输入模块	203
对比模块	204
计算模块	205
解析模块	206

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在本申请中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

参阅图1所示，是服务器2一可选的硬件架构的示意图。本实施例中，所述服务器2可包括，但不仅限于，可通过系统总线相互通信连接存储器11、处理器12、网络接口13。需要指出的是，图1仅示出了具有组件11-13的服务器2，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

其中，所述存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器11可以是所述服务器2的内部存储单元，例如该服务器2的硬盘或内存。在另一些实施例中，所述存储器11也可以是所述服务器2的外部存储设备，例如该服务器2上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital, SD)卡，闪存卡(Flash Card)等。当然，所述存储器11还可以既包括所述服务器2的内部存储单元也包括其外部存储设备。本实施例中，所述存储器11通常用于存储安装于所述服务器2的操作系统和各类应用软件，例如说话人认证系统200的程序代码等。此外，所述存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器12在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述服务器2的总体操作，例如执行与所述终端设备1进行数据交互或者通信相关的控制和处理等。本实施例中，所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据，例如运行所述的说话人认证系统200等。

所述网络接口13可包括无线网络接口或有线网络接口，该网络接口13通常用于在所述服务器2与其他电子设备之间建立通信连接。

至此，己经详细介绍了本申请各个实施例的应用环境和相关设备的硬件结构和功能。下面，将基于上述应用环境和相关设备，提出本申请的各个实施例。

首先，本申请提出一种说话人认证系统200。

参阅图2所示，是本申请说话人认证系统200第一实施例的程序模块图。

本实施例中，所述说话人认证系统200包括一系列的存储于存储器11上的计算机程序指令，当该计算机程序指令被处理器12执行时，可以实现本申请各实施例的说话人认证操作。在一些实施例中，基于该计算机程序指令各部分所实现的特定的操作，说话人认证系统200可以被划分为一个或多个模块。例如，在图2中，所述说话人认证系统200可以被分割成获取模块201、构建模块202、输入模块203，对比模块204、以及计算模块205。其中：

所述获取模块201，用于获取预设说话人的语音信息，其中，所述语音信息不限制内容。

具体地，采用声学特征作说话人认证身份可以有两种做法：一是对声学特征参数做长时间的统计，一是对几个特定音做分析。对声学特征参数做上时间统计，是不管说话人的内容，也就是它与文本不相关，称之为与文本无关的说话人验证(text-independent speaker recognition)。限制说话的内容，针对特定音作分析，就必须让说话人发出某些特定文字的语音，因此它是与文本相关的，称之为与文本相关的说话人验证(text-dependent speaker recognition)。当使用语音作为服务器2的密码时，若使用特定语音作为密码，容易被破解，具有安全隐患，因此，在本实施例中，采用与文本无关的说话人验证。详细而言，所述服务器2通过所述获取模块201获取说话人的语音信息，该语音信息不限制内容，即与文本无关。以文本有关与文本无关语音密码的应用为例说明：文本有关意味着预先限定了语音的内容，例如，限定内容为：“好好学习”，则用户只有说了“好好学习”才算密码正确。而文本无关因没有限定语音内容，则不管用户说的是“好好学习”还是“天天向上”，只要是与所述服务器存储的说话人的语音模型对应上，则认为密码正确。关于存储说话人的语音模型，将在下文详述。

所述构建模块202，用于构建3D(三维)卷积神经网络架构，并通过所述输入模块203将所述说话人的语音信息输入至所述3D卷积神经网络架构。

具体地，所述服务器2通过所述构建模块202构建3D卷积神经网络架构。在本实施例中，所述3D卷积神经网络架构(3D-CNN)由输入端开始依次包括硬连线层H1(hardwired层)、卷积层、下采样层、卷积层、下采样层、卷积层、全连接层、分类层。所述说话人的语音信息输入至所述3D卷积神经网络的输入端。

所述构建模块202，还用于通过所述3D卷积神经网络架构创建并存储所述说话人的语音模型。

具体地，当服务器2要确认一个人的身份，例如一个服务器确认这个人是否是管理员或者是否具有开启服务器权限的人，则该服务器2的内部存储就必须有存储有该说话人的语音模型。即所述服务器2须收集该说话人的语音，建立他的模型，也称之为目标模型。在本实施例中，所述构建模块203通过所述3D卷积神经网络架构根据获取到的说话人的语音信息创建该说话人的语音模型并存储在所述服务器2的内部存储中。在本实施例中，所述3D卷积神经网络架构通过分析说话人的声纹信息，声纹之所以能被识别，是因为每个人的口腔、鼻腔与声道结构都存在唯一的差异性，根据获取到的说话人的语音信息去分析声纹信息，间接分析发声器官的差异性，从而确定说话人身份。

所述对比模块204，用于当接收到测试话语信息时，将测试话语与所述存储的所述说话人的语音模型进行对比。

具体地，举例而言，当所述服务器2设置了语音密码，只有验证了是管理员或是具有开启服务器权限的人员方可解锁。在本实施例中，当所述服务器2接收到测试话语信息时，例如接收到A的话语信息，服务器2通过所述对比模块204获取A的语音信息，并根据A的语音信息提取声纹信息，进而将A的声纹信息与所述服务器2内部存储的说话人的语音模型进行对比，以验证A是不是管理员或者具有开启服务器权限的人员。

所述计算模块205，用于计算所述测试话语信息与所述说话人的语音模型的相似度，当相似度大于一预设值时，则说话人认证成功，当相似度小于一预设值时，则说话人认证失败。

具体地，所述服务器2通过所述计算模块205计算说话人的语音模型和测试话语信息之间的余弦相似度来获得相似性得分，即相似度。从而根据相似度判断当前说话人是否是管理员或者具有开启服务器权限的人员。

在本实施例中，所述说话人认证系统200还包括及解析模块206，其中：

所述解析模块206，用于将获取到的所述说话人的语音信息解析成音频堆叠帧。

具体地，请一并参阅附图3，附图3为本申请将说话人语音解析成音频流堆叠帧的示意图。如图3所示利用MFCC(Mel频率倒谱系数)特征作为架构语音表达的数据表示，但是最后生成MFCC的DCT1运算会导致这些特征成为非局部特征，与卷积操作中的局部特征形成了鲜明的对比。因此在本实施例中，采用对数能量，即MFEC，MFEC中提取的特征与丢弃DCT运算得到的特征相似，其时间特征时重叠的20ms窗口，跨度为10ms，以生成频谱特征(音频堆叠)。在一个0.8秒的声音样本中，可以从输入语音特征图中获取80个时间特征集合(每个都组成40各MFEC特征)。每张输入特征的维度是nx80x40，它们由80个输入帧和相似的图谱特征组成，n代表在3D卷积神经网络架构用到的语句数量。

所述输入模块203，还用于将所述音频堆叠帧输入至所述3D卷积神经网络架构。

所述构建模块202，还用于将所述音频堆叠帧的每个词生成一个向量，并将属于所述说话人的音频堆叠帧的平均向量生成说话人的语音模型。

具体地，在本实施例中，所述服务器2通过所述解析模块206将获取的说话人语音解析成将音频流的堆叠帧，并通过所述输入模块203将所述音频堆叠帧输入3D-卷积神经网络架构，最后通过所述构建模块202每个话语将直接生成一个d向量，属于说话人的话语的平均d向量来生成说话人模型。

通常地，每个人说话的强调在不同的时间段会有所改变，如，不同的情绪说话的语气不同，生病时说话的语气也会改变。同一个人说的不同的词可能被推断出不是同一个人发出的。因此，在本申请的其他实施例中，所述服务器2还可获取同一个说话人的多个不同的语音信息，进而将所述多个不同的语音信息解析成特征图谱并叠加在一起，最后将叠加在一起的特征图谱转换成向量输入到卷积神经网络架构卷积神经网络架构以生成说话人的语音模型。通过将同一个说话人所说的多个不同的发音的特征图谱叠加在一起，同时使用多个不同的发音的特征图谱叠转换成的向量生成说话人模型，使得该说话人模型能够提取说话人鉴别特征并且能够捕获说话人之间的变化。

在本实施例中，利用以下公式计算其相似度：

其中，D1表示测试话语信息的向量，D2表示说话人的语音模型的向量，分子表示两个向量的点乘积，分母表示两个向量的模的积。

在本实施例中，所述服务器2预设定一预设值，当计算的相似度大于预设值时，则表示说话人验证成功，即A为管理员或者具有开启服务器权限的人员。同理，当计算的相似度小于预设值时，则说话人认证失败。

在本申请的其他实施例中，当说话人认证失败时，所述服务器2锁定或发出警报，提高服务器的使用安全。

通过上述程序模块201-205，本申请所提出的说话人认证系统200，首先，获取预设说话人的语音信息，其中所述语音信息不限制内容；然后，构建3D卷积神经网络架构；进一步地，将所述说话人的语音信息输入至所述3D卷积神经网络架构；接着，通过所述3D卷积神经网络架构创建并存储所述说话人的语音模型；然后，当接收到测试话语时，将测试话语信息与所述存储的所述说话人的语音模型进行对比；最后，计算所述测试话语信息与所述说话人的语音模型的相似度，当相似度大于一预设值时，则说话人认证成功，当相似度小于一预设值时，则说话人认证失败，通过创建说话人的与文本无关的语音模型作为密码，不易破解，提高服务器使用安全。

此外，本申请还提出一种说话人认证方法。

参阅图4所示，是本申请说话人认证方法第一实施例的流程示意图。在本实施例中，根据不同的需求，图4所示的流程图中的步骤的执行顺序可以改变，某些步骤可以省略。

步骤S301，获取预设说话人的语音信息，其中，所述语音信息不限制内容。

具体地，采用声学特征作说话人认证身份可以有两种做法：一是对声学特征参数做长时间的统计，一是对几个特定音做分析。对声学特征参数做上时间统计，是不管说话人的内容，也就是它与文本不相关，称之为与文本无关的说话人验证(text-independent speaker recognition)。限制说话的内容，针对特定音作分析，就必须让说话人发出某些特定文字的语音，因此它是与文本相关的，称之为与文本相关的说话人验证(text-dependent speaker recognition)。当使用语音作为服务器的密码时，若使用特定语音作为密码，容易被破解，具有安全隐患，因此，在本实施例中，采用与文本无关的说话人验证。详细而言，所述服务器2获取说话人的语音信息，该语音信息不限制内容，即与文本无关。以文本有关与文本无关语音密码的应用为例说明：文本有关意味着预先限定了语音的内容，例如，限定内容为：“好好学习”，则用户只有说了“好好学习”才算密码正确。而文本无关因没有限定语音内容，则不管用户说的是“好好学习”还是“天天向上”，只要是与所述服务器存储的说话人的语音模型对应上，则认为密码正确。关于存储说话人的语音模型，将在下文详述。

步骤S302，构建3D卷积神经网络架构，并通过所述输入模块203将所述说话人的语音信息输入至所述3D卷积神经网络架构。

具体地，所述服务器2构建3D卷积神经网络架构。在本实施例中，所述3D卷积神经网络架构(3D-CNN)由输入端开始依次包括硬连线层H1(hardwired层)、卷积层、下采样层、卷积层、下采样层、卷积层、全连接层、分类层。所述说话人的语音信息输入值所述3D卷积神经网络的输入端。

步骤S303，通过所述3D卷积神经网络架构创建并存储所述说话人的语音模型。

具体地，当服务器2要确认一个人的身份，例如一个服务器确认这个人是否是管理员或者是否具有开启服务器权限的人，则该服务器2的内部存储就必须有存储有该说话人的语音模型。即所述服务器2须收集该说话人的语音，建立他的模型，也称之为目标模型。在本实施例中，所述服务器2通过所述3D卷积神经网络架构根据获取到的说话人的语音信息创建该说话人的语音模型并存储在所述服务器2的内部存储中。

请参阅附图5，步骤S303：通过所述3D卷积神经网络架构创建并存储所述说话人的语音模型，具体包括S401-S403。

步骤S401，将获取到的所述说话人的语音信息解析成音频堆叠帧。

具体地，请一并参阅附图3，附图3为本申请将说话人语音解析成音频流堆叠帧的示意图。如图4所示利用MFCC(Mel频率倒谱系数)特征作为架构语音表达的数据表示，但是最后生成MFCC的DCT1运算会导致这些特征成为非局部特征，与卷积操作中的局部特征形成了鲜明的对比。因此在本实施例中，采用对数能量，即MFEC，MFEC中提取的特征与丢弃DCT运算得到的特征相似，其时间特征时重叠的20ms窗口，跨度为10ms，以生成频谱特征(音频堆叠)。在一个0.8秒的声音样本中，可以从输入语音特征图中获取80个时间特征集合(每个都组成40各MFEC特征)。每张输入特征的维度是nx80x40，它们由80个输入帧和相似的图谱特征组成，n代表在3D卷积神经网络架构用到的语句数量。

步骤S402，将所述音频堆叠帧输入至所述3D卷积神经网络架构。

步骤S403，将所述音频堆叠帧的每个词生成一个向量，并将属于所述说话人的音频堆叠帧的平均向量生成说话人的语音模型。

具体地，在本实施例中，所述服务器2将获取的说话人语音解析成将音频流的堆叠帧，进而将所述音频堆叠帧输入3D-卷积神经网络架构，最后将每个话语将直接生成一个d向量，属于说话人的话语的平均d向量来生成说话人模型。

步骤S304，当接收到测试话语信息时，将测试话语与所述存储的所述说话人的语音模型进行对比。

具体地，举例而言，当所述服务器2设置了语音密码，只有验证了是管理员或是具有开启服务器权限的人员方可解锁。在本实施例中，当所述服务器2接收到测试话语信息时，例如接收到A的话语信息，并根据A的语音信息提取声纹信息，进而将A的声纹信息与服务器与所述服务器2内部存储的说话人的语音模型进行对比，以验证A是不是管理员或者具有开启服务器权限的人员。

步骤S305，计算所述测试话语信息与所述说话人的语音模型的相似度，当相似度大于一预设值时，则说话人认证成功，当相似度小于一预设值时，则说话人认证失败。

具体地，所述服务器2计算说话人的语音模型和测试话语信息之间的余弦相似度来获得相似性得分，即相似度。从而根据相似度判断当前说话人是否是管理员或者具有开启服务器权限的人员。在本实施例中，利用以下公式计算其相似度：

通过上述步骤S301-305，本申请所提出的说话人认证方法，首先，获取预设说话人的语音信息，其中所述语音信息不限制内容；然后，构建3D卷积神经网络架构；进一步地，将所述说话人的语音信息输入至所述3D卷积神经网络架构；接着，通过所述3D卷积神经网络架构创建并存储所述说话人的语音模型；然后，当接收到测试话语时，将测试话语信息与所述存储的所述说话人的语音模型进行对比；最后，计算所述测试话语信息与所述说话人的语音模型的相似度，当相似度大于一预设值时，则说话人认证成功，当相似度小于一预设值时，则说话人认证失败，通过创建说话人的与文本无关的语音模型作为密码，不易破解，提高服务器使用安全。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种说话人认证方法，应用于服务器，其特征在于，所述方法包括：

获取预设说话人的语音信息，其中，所述语音信息不限制内容；

构建3D卷积神经网络架构；

将所述说话人的语音信息输入至所述3D卷积神经网络架构；

通过所述3D卷积神经网络架构创建并存储所述说话人的语音模型；

当接收到测试话语时，将测试话语信息与所述存储的所述说话人的语音模型进行对比；

计算所述测试话语信息与所述说话人的语音模型的相似度，当相似度大于一预设值时，则说话人认证成功，当相似度小于一预设值时，则说话人认证失败。
如权利要求1所述的说话人认证方法，其特征在于，所述将所述说话人的语音信息输入至所述3D卷积神经网络架构的步骤，具体包括如下步骤：

将获取到的所述说话人的语音信息解析成音频堆叠帧；

将所述音频堆叠帧输入至所述3D卷积神经网络架构。
如权利要求1所述的说话人认证方法，其特征在于，所述通过所述3D卷积神经网络架构创建并存储所述说话人的语音模型的步骤，具体包括：

将所述音频堆叠帧的每个词生成一个向量；

根据属于所述说话人的音频堆叠帧的平均向量生成说话人的语音模型。
如权利要求2所述的说话人认证方法，其特征在于，所述通过所述3D卷积神经网络架构创建并存储所述说话人的语音模型的步骤，具体包括：

将所述音频堆叠帧的每个词生成一个向量；

根据属于所述说话人的音频堆叠帧的平均向量生成说话人的语音模型。
如权利要求1所述的说话人认证方法，其特征在于，所述通过所述3D卷积神经网络架构创建并存储所述说话人的语音模型的步骤，具体包括：

获取同一个说话人的多个不同的语音信息；

将所述多个不同的语音信息解析成特征图谱并叠加在一起；

将叠加在一起的特征图谱转换成向量输入到卷积神经网络架构卷积神经网络架构以生成说话人的语音模型。
如权利要求2所述的说话人认证方法，其特征在于，所述通过所述3D卷积神经网络架构创建并存储所述说话人的语音模型的步骤，具体包括：

获取同一个说话人的多个不同的语音信息；

将所述多个不同的语音信息解析成特征图谱并叠加在一起；

将叠加在一起的特征图谱转换成向量输入到卷积神经网络架构卷积神经网络架构以生成说话人的语音模型。
如权利要求5或6所述的说话人认证方法，其特征在于，所述计算所述测试话语与所述说话人的语音模型的相似度计算公式为：

其中，D1表示测试话语的向量，D2表示说话人模型的向量，分子表示两个向量的点乘积，分母表示两个向量的模的积。
一种服务器，其特征在于，所述服务器包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的说话人认证系统，所述说话人认证系统被所述处理器执行时实现如下步骤：

获取预设说话人的语音信息，其中，所述语音信息不限制内容；

构建3D卷积神经网络架构；

将所述说话人的语音信息输入至所述3D卷积神经网络架构；

通过所述3D卷积神经网络架构创建并存储所述说话人的语音模型；

当接收到测试话语时，将测试话语信息与所述存储的所述说话人的语音模型进行对比；

计算所述测试话语信息与所述说话人的语音模型的相似度，当相似度大于一预设值时，则说话人认证成功，当相似度小于一预设值时，则说话人认证失败。
如权利要求8所述的服务器，其特征在于，其中，所述将所述说话人的语音信息输入至所述3D卷积神经网络架构的步骤，具体包括如下步骤：

将获取到的所述说话人的语音信息解析成音频堆叠帧；

将所述音频堆叠帧输入至所述3D卷积神经网络架构。
如权利要求8所述的服务器，其特征在于，所述通过所述3D卷积神经网络架构创建并存储所述说话人的语音模型的步骤，具体包括：

将所述音频堆叠帧的每个词生成一个向量；

根据属于所述说话人的音频堆叠帧的平均向量生成说话人的语音模型。
如权利要求9所述的服务器，其特征在于，所述通过所述3D卷积神经网络架构创建并存储所述说话人的语音模型的步骤，具体包括：

将所述音频堆叠帧的每个词生成一个向量；

根据属于所述说话人的音频堆叠帧的平均向量生成说话人的语音模型。
如权利要求8所述的服务器，其特征在于，所述通过所述3D卷积神经网络架构创建并存储所述说话人的语音模型的步骤，具体包括：

获取同一个说话人的多个不同的语音信息；

将所述多个不同的语音信息解析成特征图谱并叠加在一起；

将叠加在一起的特征图谱转换成向量输入到卷积神经网络架构卷积神经网络架构以生成说话人的语音模型。
如权利要求9所述的服务器，其特征在于，所述通过所述3D卷积神经网络架构创建并存储所述说话人的语音模型的步骤，具体包括：

获取同一个说话人的多个不同的语音信息；

将所述多个不同的语音信息解析成特征图谱并叠加在一起；

将叠加在一起的特征图谱转换成向量输入到卷积神经网络架构卷积神经网络架构以生成说话人的语音模型。
如权利要求12或13所述的服务器，其特征在于，所述计算所述测试话语与所述说话人的语音模型的相似度计算公式为：

其中，D1表示测试话语的向量，D2表示说话人模型的向量，分子表示两个向量的点乘积，分母表示两个向量的模的积。
一种计算机可读存储介质，所述计算机可读存储介质存储有说话人认证系统，所述说话人认证系统可被至少一个处理器执行，以使所述至少一个处理器执行如下的步骤：

获取预设说话人的语音信息，其中，所述语音信息不限制内容；

构建3D卷积神经网络架构；

将所述说话人的语音信息输入至所述3D卷积神经网络架构；

通过所述3D卷积神经网络架构创建并存储所述说话人的语音模型；

当接收到测试话语时，将测试话语信息与所述存储的所述说话人的语音模型进行对比；

计算所述测试话语信息与所述说话人的语音模型的相似度，当相似度大于一预设值时，则说话人认证成功，当相似度小于一预设值时，则说话人认证失败。
如权利要求15所述的计算机可读存储介质，其特征在于，所述将所述说话人的语音信息输入至所述3D卷积神经网络架构的步骤，具体包括如下步骤：

将获取到的所述说话人的语音信息解析成音频堆叠帧；

将所述音频堆叠帧输入至所述3D卷积神经网络架构。
如权利要求15所述的计算机可读存储介质，其特征在于，所述通过所述3D卷积神经网络架构创建并存储所述说话人的语音模型的步骤，具体包括：

将所述音频堆叠帧的每个词生成一个向量；

根据属于所述说话人的音频堆叠帧的平均向量生成说话人的语音模型。
如权利要求16所述的计算机可读存储介质，其特征在于，所述通过所述3D卷积神经网络架构创建并存储所述说话人的语音模型的步骤，具体包括：

将所述音频堆叠帧的每个词生成一个向量；

根据属于所述说话人的音频堆叠帧的平均向量生成说话人的语音模型。
如权利要求15或16所述的计算机可读存储介质，其特征在于，所述通过所述3D卷积神经网络架构创建并存储所述说话人的语音模型的步骤，具体包括：

获取同一个说话人的多个不同的语音信息；

将所述多个不同的语音信息解析成特征图谱并叠加在一起；

将叠加在一起的特征图谱转换成向量输入到卷积神经网络架构卷积神经网络架构以生成说话人的语音模型。
如权利要求19所述的计算机可读存储介质，其特征在于，所述计算所述测试话语与所述说话人的语音模型的相似度计算公式为：

其中，D1表示测试话语的向量，D2表示说话人模型的向量，分子表示两个向量的点乘积，分母表示两个向量的模的积。