WO2018113526A1

WO2018113526A1 - 基于人脸识别和声纹识别的交互式认证系统及方法

Info

Publication number: WO2018113526A1
Application number: PCT/CN2017/114928
Authority: WO
Inventors: 刘�东; 李晓冬; 杨震泉; 彭世伟; 孙云松; 孟庆康
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2016-12-20
Filing date: 2017-12-07
Publication date: 2018-06-28
Anticipated expiration: 2019-06-20
Also published as: CN106790054A

Abstract

本发明涉及认证技术。本发明是要解决现有人脸识别认证其检测结果易被冒名顶替的问题，提供了一种基于人脸识别和声纹识别的交互式认证系统及方法，其技术方案可概括为：基于人脸识别和声纹识别的交互式认证系统，包括终端及服务器，终端与服务器通过网络连接，其中，终端用于获取被检测用户的面部视频及采集用户输入的语音音频数据将其发送至服务器，且显示服务器发送来的显示提示信息；服务器用于进行用户面部特征参数进行匹配和用户声纹特征向量进行匹配，并将声纹识别结果与人脸识别结果进行集合取交集，若交集中只有一个结果，则认为验证成功，返回终端验证成功信息。本发明的有益效果是，提升安全性，适用于认证系统。

Description

基于人脸识别和声纹识别的交互式认证系统及方法

技术领域

本发明涉及认证技术，特别涉及人脸识别及声纹识别的认证技术。

背景技术

随着互联网+时代的来临，网络化管理、无纸化办公及电子交易等已经渗透于日常生活的各个部位。虚拟生活和虚拟市场等逐渐成为上班族购物休闲的主要渠道，但互联网在方便人们生活的同时，它也是一把双刃剑，因为一切活动或者交易都在虚拟的网络中进行，没有人与人之间直接的接触，甚至都无须有文字的交流，彼此的信任和凭证都依靠口令、密钥或者短信验证码去实现，而互联网是一个开放网络、一个平等的平台，同时它也是一个不受控制的孩子。凡事在网络中传输的东西都有可能被人窃取，网民平时为了便于记忆方便使用，通常是一个密钥，处处使用，可使用的平台的好坏与安全性却是千差万别，可谓是一处被泄漏，处处被攻破，目前逐渐提出用手机随机验证码来取代传统的固定密钥，然后据统计手机却是最易遗失的个人财产之一。

硬件技术的发展，智能手机、个人电脑的普及，近来生物特征识别技术成为人们日益关注的焦点，生物特征识别技术通过人体的生理特征或行为特征来进行合法身份的认证，比如说指纹、虹膜、面部图像识别及脱氧核糖核酸(DNA)排序匹配识别等。

其中，指纹识别，因为容易被伪造，只需要简单的从被伪造者日常生活用品中获取对方的指纹，就可以进行指纹的伪造，所以指纹识别适用领域也只是安全程度要求不高的日常考勤记录中。

而虹膜识别技术是通过摄像器材采集识别者位于黑色瞳孔和白色巩膜之间的圆环状部分，其包含有很多相互交错的斑点、细丝、冠状、条纹及隐窝等细节特征，所以对摄像硬件设备要求比较高，不易于大规模商用或者向普通用户推广。

单一的图像识别验证(人脸识别验证)，也容易用静态图像(照片)来冒名顶替，而脱氧核糖核酸(DNA)排序匹配识别的门槛较高，需要人体的直接接触所以并不适合“短、平、快”的互联网平台。

人的声音富含了多个维度的信息，如说话内容、说话语气及声音特征等，声纹识别是一种通过人的声音特征来辨别不同说话人的技术，不同的声道结构决定了声纹的唯一性。

发明内容

本发明的目的是要解决目前人脸识别认证其检测结果易被冒名顶替的问题，提供了一种基于人脸识别和声纹识别的交互式认证系统及方法。

本发明解决其技术问题，采用的技术方案是，基于人脸识别和声纹识别的交互式认证系统，包括终端及服务器，终端与服务器通过网络连接，其特征在于，

所述终端用于获取被检测用户的面部视频及采集用户输入的语音音频数据将其发送至服务器，且显示服务器发送来的显示提示信息；

所述服务器用于进行用户面部特征参数进行匹配和用户声纹特征向量进行匹配，并将声纹识别结果与人脸识别结果进行集合取交集，若交集中只有一个结果，则认为验证成功，返回终端验证成功信息。

进一步的，所述进行用户面部特征参数进行匹配和用户声纹特征向量进行匹配是指：服务器从接收到的被检测用户的面部视频获取用户面部特征参数，将获取的用户面部特征参数与服务器预先存储的所有用户面部特征参数进行匹配，匹配成功则得到人脸识别结果，然后向终端发送预设声音口令文本，在接收到终端的语音采集模块发送来的语音音频数据后，将其转换为文本内容，并将该文本内容与之前所发送的声音口令文本进行匹配，匹配成功则提取该语音音频数据中的声纹特征向量，将其与服务器预先存储的所有用户声纹特征向量进行匹配，匹配成功则得到声纹识别结果。

具体的，所述终端包括显示模块、人脸视频采集模块、语音采集模块及第一通讯模块，服务器包括人脸识别模块、语音识别模块、验证模块、数据库及第二通讯模块，所述显示模块、人脸视频采集模块、语音采集模块分别与第一通讯模块连接，人脸识别模块、语音识别模块、验证模块分别与第二通讯模块连接，人脸识别模块、语音识别模块分别与验证模块连接，数据库模块分别与人脸识别模块、语音识别模块及验证模块连接，第一通讯模块与第二通讯模块通过网络连接，

所述人脸视频采集模块用于获取被检测用户的面部视频将其通过第一通讯模块及第二通讯模块发送至人脸识别模块；

所述语音采集模块用于采集用户输入的语音音频数据将其通过第一通讯模块及第二通讯模块发送至语音识别模块；

所述显示模块用于显示服务器发送来的显示提示信息，包括人脸识别失败信息、声音口令输入不正确信息、验证失败信息、声音口令文本及验证成功信息；

所述第一通讯模块及第二通讯模块用于终端与服务器之间的信息交互；

所述人脸识别模块用于接收到被检测用户的面部视频后对其进行过滤及去噪，并提取关键帧，根据关键帧获取用户面部特征参数，选取其中的关键特征参数与数据库中所存储的所有用户面部特征参数进行匹配，若匹配成功则将匹配成功结果发送给验证模块，该匹配成功结果即为人脸识别结果，若匹配失败则将返回终端人脸识别失败信息；

所述语音识别模块用于在接收到验证模块发送来的语音识别请求后，向终端发送预设声音口令文本，令终端通过显示模块显示声音口令文本，在接收到终端的语音采集模块发送来的语音音频数据后，将其转换为文本内容，并将该文本内容与之前所发送的声音口令文本进行匹配，若匹配失败则认为识别失败，返回终端声音口令输入不正确信息，若匹配成功则提取该语音音频数据中的声纹特征向量，将其与数据库中所存储的所有用户声纹特征向量进行匹配，若匹配失败则认为识别失败，返回终端语音识别失败信息，若匹配成功则将匹配成功结果发送给验证模块，该匹配成功结果即为声纹识别结果；

所述验证模块用于接收到人脸识别模块发送来的匹配成功结果后，向语音识别模块发送语音识别请求，在接收到语音识别模块发送来的匹配成功结果后，将其与人脸识别模块发送来的匹配成功结果进行集合取交集，若交集为空，则认为本次用户验证失败，返回终端验证失败信息，若交集中只有一个结果，则认为验证成功，返回终端验证成功信息，若交集中有不止一个结果，则认为声纹特征不明显，向语音识别模块重新发送语音识别请求，若此时已发送过预设数量的语音识别请求则认为本次用户验证失败，返回终端验证失败信息。

再进一步的，所述人脸视频采集模块为摄像模块，所述语音采集模块为拾音器。

具体的，所述人脸识别模块中设置有图像相似度预设值，在选取用户面部特征参数中的关键特征参数与数据库中所存储的用户面部特征参数进行匹配时，若匹配出的结果中各用户面部特征参数相似度阈值小于图像相似度预设值时，判定为匹配成功，否则判定为匹配失败。

再进一步的，所述人脸识别模块的匹配成功结果中包括用户信息，所述用户信息中包括用户年龄信息。

具体的，所述验证模块向语音识别模块发送的语音识别请求中，包含用户年龄信息或请求发送注册时的声音口令文本。

再进一步的，所述验证模块向语音识别模块发送的语音识别请求中，若此次是第预设数量次向语音识别模块发送语音识别请求，则该语音识别请求中包括请求发送注册时的声音口令文本。

具体的，所述语音识别模块中，预设声音口令文本为一段易读文字或一段数字或一段新闻类文字或与用户信息对应的注册时的声音口令文本。

再进一步的，所述语音识别模块中，在向终端发送预设声音口令文本前还根据语音识别请求进行判断，若语音识别请求中有请求发送注册时的声音口令文本则语音识别模块选择的预设声音口令文本为与用户信息对应的注册时的声音口令文本，若语音识别请求中有用户年龄信息，则根据用户年龄信息判断用户年龄，若用户为老年人或未成年人则选择的预设声音口令文本为一段易读文字或一段数字，否则选择的预设声音口令文本为一段新闻类文字。

具体的，所述语音识别模块中，在向终端发送预设声音口令文本后，还开始计时，判断是否在预设时间内接收到终端发送来的语音音频数据，若计时时间达到预设时间仍未收到终端发送来的语音音频数据，则更换预设声音口令文本并重新向终端发送更换后的预设声音口令文本，且重新开始计时，回到判断是否在预设时间内接收到终端发送来的语音音频数据那一步。

基于人脸识别和声纹识别的交互式认证方法，应用于上述基于人脸识别和声纹识别的交互式认证系统，其特征在于，包括以下步骤；

步骤1、用户采用终端向服务器进行用户注册，服务器在数据库中存储用户信息、该用户面部特征参数及该用户声纹特征向量；

步骤2、认证时，终端获取被检测用户的面部视频并发送至服务器；

步骤3、服务器对接收到被检测用户的面部视频进行过滤及去噪，并提取关键帧，根据关键帧获取用户面部特征参数，选取其中的关键特征参数与数据库中所存储的所有用户面部特征参数进行匹配，若匹配成功则得到人脸识别结果并进入步骤5，若匹配失败则进入步骤4；

步骤4、服务器返回终端人脸识别失败信息，终端显示人脸识别失败并提示用户，回到步骤2；

步骤5、服务器生成并向终端发送预设声音口令文本；

步骤6、终端显示声音口令文本，并采集用户输入的语音音频数据上传至服务器；

步骤7、服务器将接收到的语音音频数据后转换为文本内容，并将该文本内容与之前所发送的声音口令文本进行匹配，若匹配失败则认为识别失败，返回终端声音口令输入不正确信息，进入步骤8，若匹配成功则进入步骤9；

步骤8、终端显示声音口令输入不正确信息，回到步骤2；

步骤9、服务器提取该语音音频数据中的声纹特征向量，将其与数据库中所存储的所有用户声纹特征向量进行匹配，若匹配失败则认为识别失败，返回终端语音识别失败信息，进入步骤10，若匹配成功则得到语音识别结果并进入步骤11；

步骤10、终端显示语音识别失败信息，回到步骤2；

步骤11、服务器将人脸识别结果与语音识别结果进行集合取交集，若交集为空，则认为本次用户验证失败，返回终端验证失败信息，进入步骤12，若交集中只有一个结果，则认为验证成功，返回终端验证成功信息，若交集中有不止一个结果，则认为声纹特征不明显，判断本次认证是否已发送预设数量的声音口令文本，若是则认为本次用户验证失败，返回终端验证失败信息，进入步骤12，否则重新生成并向终端发送预设声音口令文本，回到步骤6；

步骤12，终端显示验证失败信息，回到步骤2。

具体的，步骤1包括以下步骤：

步骤101、用户向终端输入用户信息，并通过终端采集人脸视频或多张人脸图像，终端将用户信息及人脸视频或多张人脸图像上传至服务器；

步骤102、服务器从人脸视频中截取多张人脸图像或将接收到的多张图像作为人脸样本，得到该用户面部特征参数，并进行人脸建模，并将其与用户信息关联后存储于数据库中，并随机生成声音口令文本发送给终端；

步骤103、终端显示声音口令文本，并采集用户的语音音频数据，将所采集的语音音频数据上传给服务器；

步骤104、服务器对语音音频数据进行声纹特征向量提取，将提取的声纹特征向量、语音音频数据及对应的声音口令文本与用户信息关联后存储于数据库中。

进一步的，步骤102中，所述随机生成声音口令文本发送给终端中，随机生成至少一段声音口令文本，并按顺序发送给终端；

步骤103中，所述终端显示声音口令文本，并采集用户的语音音频数据，将所采集的语音音频数据上传给服务器中，终端按顺序显示声音口令文本，当一个声音口令文本采集了三次对应的用户的语音音频数据后，再显示下一个声音口令文本，得到所有声音口令文本对应的各三个语音音频数据后，发送给服务器。

具体的，步骤104中，服务器接收到所有语音音频数据后，分别对其进行声纹特征向量提取，针对每一个声音口令文本，选择出其中声纹特征向量最明显的一个语音音频数据，将声音口令文本、所选择的语音音频数据及其声纹特征向量与用信息系关联后存储于数据库中。

再进一步的，步骤11中，所述重新生成并向终端发送预设声音口令文本中，所重新生成的预设声音口令文本为与用户信息对应的注册时的声音口令文本中的一个

具体的，步骤3中，服务器中设置有图像相似度预设值，在选取用户面部特征参数中的关键特征参数与数据库中所存储的用户面部特征参数进行匹配时，若匹配出的结果中各用户面部特征参数相似度阈值小于图像相似度预设值时，判定为匹配成功，否则判定为匹配失败。

再进一步的，步骤5中，所述预设声音口令文本为随机生成的一段易读文字或随机生成的一段数字或随机生成的一段新闻类文字或与用户信息对应的注册时的声音口令文本。

具体的，步骤1中，所述用户信息包括用户年龄信息；

步骤3中，所述人脸识别结果中包括用户信息；

步骤5中，所述服务器生成并向终端发送预设声音口令文本时，若人脸识别结果中的用户信息显示为老年人或未成年人则选择的预设声音口令文本为一段易读文字或一段数字，否则选择的预设声音口令文本为一段新闻类文字。

再进一步的，步骤9中，若匹配失败时，还判断是否已生成过预设数量减一个声音口令文本，若是则认为识别失败，返回终端语音识别失败信息，进入步骤10，否则重新生成并向终端发送预设声音口令文本，回到步骤6，该重新生成并向终端发送的预设声音口令文本为随机生成的一段易读文字或随机生成的一段数字或随机生成的一段新闻类文字，其长度大于上一次生成的预设声音口令文本。

再进一步的，步骤9中，服务器中设置有声纹相似度预设值，在服务器将提取的语音音频数据中的声纹特征向量与数据库中所存储的所有用户声纹特征向量进行匹配时，若匹配出的结果中各用户用户声纹特征向量相似度阈值小于声纹相似度预设值时，判定为匹配成功，否则判定为匹配失败。

具体的，步骤5中，在服务器生成并向终端发送预设声音口令文本后，还开始计时；

和/或，步骤9中，在服务器重新生成并向终端发送预设声音口令文本后，还开始计时；

和/或，步骤11中，在服务器重新生成并向终端发送预设声音口令文本后，还开始计时；

步骤5与步骤7之间，还包括以下步骤：

步骤A、服务器判断是否在预设时间内接收到终端发送来的语音音频数据，若计时时间达到预设时间仍未收到终端发送来的语音音频数据，则进入步骤A，否则进入步骤7；

步骤B、服务器更换预设声音口令文本并重新向终端发送更换后的预设声音口令文本，且重新开始计时，回到步骤A，所述更换后的预设声音口令文本为重新随机生成的一段易读文字或随机生成的一段数字或随机生成的一段新闻类文字。

再进一步的，步骤9中，若匹配失败，返回终端语音识别失败信息后，服务器还进入步骤13；

步骤11中，若认为验证成功，返回终端验证成功信息后，服务器还进入步骤13，若认为本次用户验证失败，返回终端验证失败信息后，服务器还进入步骤13；

步骤13、服务器利用本次认证中接收到的人脸图像对人脸识别结果中的用户信息对应的人脸建模进行优化。

本发明的有益效果是，在本发明方案中，通过上述基于人脸识别和声纹识别的交互式认证系统及方法，利用人脸识别及声纹识别，达到安全性更高的认证，提升安全性。

附图说明

图1为本发明实施例中基于人脸识别和声纹识别的交互式认证系统的系统框图。

具体实施方式

下面结合附图及实施例，详细描述本发明的技术方案。

本发明所述基于人脸识别和声纹识别的交互式认证系统，其系统框图参见图1，包括终端及服务器，终端与服务器通过网络连接，其中，终端用于获取被检测用户的面部视频及采集用户输入的语音音频数据将其发送至服务器，且显示服务器发送来的显示提示信息；服务器用于进行用户面部特征参数进行匹配和用户声纹特征向量进行匹配，并将声纹识别结果与人脸识别结果进行集合取交集，若交集中只有一个结果，则认为验证成功，返回终端验证成功信息。

本发明所述的基于人脸识别和声纹识别的交互式认证方法，应用于上述基于人脸识别和声纹识别的交互式认证系统中，首先用户采用终端向服务器进行用户注册，服务器在数据库中存储用户信息、该用户面部特征参数及该用户声纹特征向量，在认证时，终端获取被检测用户的面部视频并发送至服务器，服务器对接收到被检测用户的面部视频进行过滤及去噪，并提取关键帧，根据关键帧获取用户面部特征参数，选取其中的关键特征参数与数据库中所存储的所有用户面部特征参数进行匹配，若匹配失败则服务器返回终端人脸识别失败信息，终端显示人脸识别失败并提示用户，回到认证时那一步重新认证，若匹配成功则得到人脸识别结果，生成并向终端发送预设声音口令文本，然后终端显示声音口令文本，并采集用户输入的语音音频数据上传至服务器，服务器再将接收到的语音音频数据后转换为文本内容，并将该文本内容与之前所发送的声音口令文本进行匹配，若匹配失败则认为识别失败，返回终端声音口令输入不正确信息，终端显示声音口令输入不正确信息，回到认证时那一步重新认证，若匹配成功则服务器提取该语音音频数据中的声纹特征向量，将其与数据库中所存储的所有用户声纹特征向量进行匹配，若匹配失败则认为识别失败，返回终端语音识别失败信息，终端显示语音识别失败信息，回到认证时那一步重新认证，若匹配成功则得到语音识别结果，服务器将人脸识别结果与语音识别结果进行集合取交集，若交集为空，则认为本次用户验证失败，返回终端验证失败信息，终端显示验证失败信息，回到认证时那一步重新认证，若交集中只有一个结果，则认为验证成功，返回终端验证成功信息，若交集中有不止一个结果，则认为声纹特征不明显，判断本次认证是否已发送预设数量的声音口令文本，若是则认为本次用户验证失败，返回终端验证失败信息，终端显示验证失败信息，回到认证时那一步重新认证，否则重新生成并向终端发送预设声音口令文本，回到终端显示声音口令文本那一步。

实施例

本发明实施例的基于人脸识别和声纹识别的交互式认证系统，其系统框图参见图1，包括终端及服务器，终端与服务器通过网络连接，终端可包括显示模块、人脸视频采集模块、语音采集模块及第一通讯模块，服务器可包括人脸识别模块、语音识别模块、验证模块、数据库及第二通讯模块，显示模块、人脸视频采集模块、语音采集模块分别与第一通讯模块连接，人脸识别模块、语音识别模块、验证模块分别与第二通讯模块连接，人脸识别模块、语音识别模块分别与验证模块连接，数据库模块分别与人脸识别模块、语音识别模块及验证模块连接，第一通讯模块与第二通讯模块通过网络连接。

其中，终端用于获取被检测用户的面部视频及采集用户输入的语音音频数据将其发送至服务器，且显示服务器发送来的显示提示信息。

终端可包括显示模块、人脸视频采集模块、语音采集模块及第一通讯模块。

人脸视频采集模块用于获取被检测用户的面部视频将其通过第一通讯模块及第二通讯模块发送至人脸识别模块；其可以为摄像头等摄像模块。

语音采集模块用于采集用户输入的语音音频数据将其通过第一通讯模块及第二通讯模块发送至语音识别模块；其可以为麦克风等拾音器。

显示模块用于显示服务器发送来的显示提示信息，包括人脸识别失败信息、声音口令输入不正确信息、验证失败信息、声音口令文本及验证成功信息等。

第一通讯模块用于终端与服务器之间的信息交互。

服务器用于进行用户面部特征参数进行匹配和用户声纹特征向量进行匹配，并将声纹识别结果与人脸识别结果进行集合取交集，若交集中只有一个结果，则认为验证成功，返回终端验证成功信息。这里，进行用户面部特征参数进行匹配和用户声纹特征向量进行匹配优选为：服务器从接收到的被检测用户的面部视频获取用户面部特征参数，将获取的用户面部特征参数与服务器预先存储的所有用户面部特征参数进行匹配，匹配成功则得到人脸识别结果，然后向终端发送预设声音口令文本，在接收到终端的语音采集模块发送来的语音音频数据后，将其转换为文本内容，并将该文本内容与之前所发送的声音口令文本进行匹配，匹配成功则提取该语音音频数据中的声纹特征向量，将其与服务器预先存储的所有用户声纹特征向量进行匹配，匹配成功则得到声纹识别结果。

服务器可包括人脸识别模块、语音识别模块、验证模块、数据库及第二通讯模块。

第二通讯模块用于终端与服务器之间的信息交互。

人脸识别模块用于接收到被检测用户的面部视频后对其进行过滤及去噪，并提取关键帧，根据关键帧获取用户面部特征参数，选取其中的关键特征参数与数据库中所存储的所有用户面部特征参数进行匹配，若匹配成功则将匹配成功结果发送给验证模块，该匹配成功结果即为人脸识别结果，若匹配失败则将返回终端人脸识别失败信息。人脸识别模块中可以设置图像相似度预设值，在选取用户面部特征参数中的关键特征参数与数据库中所存储的用户面部特征参数进行匹配时，若匹配出的结果中各用户面部特征参数相似度阈值小于图像相似度预设值时，判定为匹配成功，否则判定为匹配失败。人脸识别模块的匹配成功结果中可以包括用户信息，而用户信息中包括用户年龄信息。

语音识别模块用于在接收到验证模块发送来的语音识别请求后，向终端发送预设声音口令文本，令终端通过显示模块显示声音口令文本，在接收到终端的语音采集模块发送来的语音音频数据后，将其转换为文本内容，并将该文本内容与之前所发送的声音口令文本进行匹配，若匹配失败则认为识别失败，返回终端声音口令输入不正确信息，若匹配成功则提取该语音音频数据中的声纹特征向量，将其与数据库中所存储的所有用户声纹特征向量进行匹配，若匹配失败则认为识别失败，返回终端语音识别失败信息，若匹配成功则将匹配成功结果发送给验证模块，该匹配成功结果即为声纹识别结果。语音识别模块中，预设声音口令文本为一段易读文字或一段数字或一段新闻类文字或与用户信息对应的注册时的声音口令文本等；语音识别模块中，在向终端发送预设声音口令文本前还可以根据语音识别请求进行判断，若语音识别请求中有请求发送注册时的声音口令文本则语音识别模块选择的预设声音口令文本为与用户信息对应的注册时的声音口令文本，若语音识别请求中有用户年龄信息，则根据用户年龄信息判断用户年龄，若用户为老年人或未成年人则选择的预设声音口令文本为一段易读文字或一段数字，否则选择的预设声音口令文本为一段新闻类文字；另外，在语音识别模块中，还可以在向终端发送预设声音口令文本后，还开始计时，判断是否在预设时间(如10秒)内接收到终端发送来的语音音频数据，若计时时间达到预设时间仍未收到终端发送来的语音音频数据，则更换预设声音口令文本并重新向终端发送更换后的预设声音口令文本，且重新开始计时，回到判断是否在预设时间内接收到终端发送来的语音音频数据那一步。

验证模块用于接收到人脸识别模块发送来的匹配成功结果后，向语音识别模块发送语音识别请求，在接收到语音识别模块发送来的匹配成功结果后，将其与人脸识别模块发送来的匹配成功结果进行集合取交集，若交集为空，则认为本次用户验证失败，返回终端验证失败信息，若交集中只有一个结果，则认为验证成功，返回终端验证成功信息，若交集中有不止一个结果，则认为声纹特征不明显，向语音识别模块重新发送语音识别请求，若此时已发送过预设数量的语音识别请求则认为本次用户验证失败，返回终端验证失败信息。验证模块向语音识别模块发送的语音识别请求中，包含用户年龄信息或请求发送注册时的声音口令文本等，且还可以在验证模块向语音识别模块发送的语音识别请求中，若此次是第预设数量次(如预设数量为3，此时为第3次时)向语音识别模块发送语音识别请求，则该语音识别请求中包括请求发送注册时的声音口令文本。

使用时，其处理方法如下：

步骤1、用户采用终端向服务器进行用户注册，服务器在数据库中存储用户信息、该用户面部特征参数及该用户声纹特征向量。

本步骤中，用户信息优选包括用户年龄信息，本步骤具体可包括以下步骤：

步骤101、用户向终端输入用户信息，并通过终端采集人脸视频或多张人脸图像，终端将用户信息及人脸视频或多张人脸图像上传至服务器。

步骤102、服务器从人脸视频中截取多张人脸图像或将接收到的多张图像作为人脸样本，得到该用户面部特征参数，并进行人脸建模，并将其与用户信息关联后存储于数据库中，并随机生成声音口令文本发送给终端。

这里，随机生成声音口令文本发送给终端中，可随机生成至少一段声音口令文本，并按顺序发送给终端，例如随机生成三段声音口令文本，随机对其排序后按顺序发送给终端。其中，随机生成多少段声音口令文本根据业务认证的安全度来确定，一般来说，安全度需求越高的业务认证，在注册时，随机生成的声音口令文本的数量越多。

步骤103、终端显示声音口令文本，并采集用户的语音音频数据，将所采集的语音音频数据上传给服务器。

这里，终端显示声音口令文本，并采集用户的语音音频数据，将所采集的语音音频数据上传给服务器中，若终端是按顺序接收到多段声音口令文本时，按顺序显示声音口令文本，当一个声音口令文本采集了三次对应的用户的语音音频数据后，再显示下一个声音口令文本，得到所有声音口令文本对应的各三个语音音频数据后，发送给服务器。例如终端按顺序接收到两段声音口令文本时，则先显示第一段声音口令文本，采集三次用户按照第一段声音口令文本输入的用户语音音频数据后，再显示第二段声音口令文本，再次采集三次用户按照第二段声音口令文本输入的用户语音音频数据，然后将对应第一段声音口令文本的三个用户语音音频数据及对应第二段声音口令文本的三个用户语音音频数据一起发送给服务器，总共六个用户语音音频数据。

这里，若服务器接收到多个语音音频数据，则服务器在接收到所有语音音频数据后，分别对其进行声纹特征向量提取，针对每一个声音口令文本，选择出其中声纹特征向量最明显的一个语音音频数据，将声音口令文本、所选择的语音音频数据及其声纹特征向量与用信息系关联后存储于数据库中。即一个声音口令文本对应一个语音音频数据，可删除另两个语音音频数据。

步骤2、认证时，终端获取被检测用户的面部视频并发送至服务器。

步骤3、服务器对接收到被检测用户的面部视频进行过滤及去噪，并提取关键帧，根据关键帧获取用户面部特征参数，选取其中的关键特征参数与数据库中所存储的所有用户面部特征参数进行匹配，若匹配成功则得到人脸识别结果并进入步骤5，若匹配失败则进入步骤4。

本步骤中，服务器中可以设置图像相似度预设值，在选取用户面部特征参数中的关键特征参数与数据库中所存储的用户面部特征参数进行匹配时，若匹配出的结果中各用户面部特征参数相似度阈值小于图像相似度预设值时，判定为匹配成功，否则判定为匹配失败。这里，人脸识别结果优选包括用户信息，而用户信息由步骤1可见，其优选包括用户年龄信息。

步骤4、服务器返回终端人脸识别失败信息，终端显示人脸识别失败并提示用户，回到步骤2。

步骤5、服务器生成并向终端发送预设声音口令文本。

本步骤中，预设声音口令文本可以为随机生成的一段易读文字或随机生成的一段数字或随机生成的一段新闻类文字或与用户信息对应的注册时的声音口令文本等。

这里，服务器生成并向终端发送预设声音口令文本时，若人脸识别结果中的用户信息(可根据用户年龄信息判断)显示为老年人或未成年人则选择的预设声音口令文本为一段易读文字或一段数字，其目的就在于保证用户能够看懂且读出声音口令文本，否则选择的预设声音口令文本为一段新闻类文字，此处否则即是指用户信息显示用户为成年人，而成年人一般都能够看懂且读出声音口令文本，因此选择一段新闻类文字，以增加识别精准度。

步骤6、终端显示声音口令文本，并采集用户输入的语音音频数据上传至服务器。

步骤7、服务器将接收到的语音音频数据后转换为文本内容，并将该文本内容与之前所发送的声音口令文本进行匹配，若匹配失败则认为识别失败，返回终端声音口令输入不正确信息，进入步骤8，若匹配成功则进入步骤9。

步骤8、终端显示声音口令输入不正确信息，回到步骤2。

步骤9、服务器提取该语音音频数据中的声纹特征向量，将其与数据库中所存储的所有用户声纹特征向量进行匹配，若匹配失败则认为识别失败，返回终端语音识别失败信息，进入步骤10，若匹配成功则得到语音识别结果并进入步骤11。

本步骤中，若匹配失败时，还可以判断是否已生成过预设数量减一个(例如预设数量为3，则此时即是判断是否已生成过2个声音口令文本)声音口令文本，若是则认为识别失败，返回终端语音识别失败信息，进入步骤10，否则重新生成并向终端发送预设声音口令文本，回到步骤6，该重新生成并向终端发送的预设声音口令文本为随机生成的一段易读文字或随机生成的一段数字或随机生成的一段新闻类文字，其长度大于上一次生成的预设声音口令文本，可见，其可与步骤5中的生成方法相对应。

本步骤中，服务器中还可以设置声纹相似度预设值，在服务器将提取的语音音频数据中的声纹特征向量与数据库中所存储的所有用户声纹特征向量进行匹配时，若匹配出的结果中各用户用户声纹特征向量相似度阈值小于声纹相似度预设值时，判定为匹配成功，否则判定为匹配失败。

步骤10、终端显示语音识别失败信息，回到步骤2。

步骤11、服务器将人脸识别结果与语音识别结果进行集合取交集，若交集为空，则认为本次用户验证失败，返回终端验证失败信息，进入步骤12，若交集中只有一个结果，则认为验证成功，返回终端验证成功信息，若交集中有不止一个结果，则认为声纹特征不明显，判断本次认证是否已发送预设数量的声音口令文本，若是则认为本次用户验证失败，返回终端验证失败信息，进入步骤12，否则重新生成并向终端发送预设声音口令文本，回到步骤6。

本步骤中，重新生成并向终端发送预设声音口令文本中，所重新生成的预设声音口令文本为与用户信息对应的注册时的声音口令文本中的一个，即本例中步骤102中随机生成的声音口令文本中的一个，当其只有一个时，则就直接选择该声音口令文本，若之前未如步骤102那样生成了随机声音口令文本，而是直接采集的用户语音音频数据，再通过用户语音音频数据获取到用户的声纹特征向量，则此时可选择该用户语音音频数据对应的声音口令文本(可通过转换用户语音音频数据为文本数据的方法得到)。

步骤12，终端显示验证失败信息，回到步骤2。

本例中，在服务器生成并向终端发送预设声音口令文本后，还开始计时，这里，服务器可以是本次认证时首次生成并向终端发送预设声音口令文本，也可以是服务器在本次认证时重新生成并向终端发送预设声音口令文本，即是指只要服务器生成并向终端发送预设声音口令文本后，就开始计时。

则步骤5与步骤7之间，还可以包括以下步骤：

本例中，步骤9中，若匹配失败，返回终端语音识别失败信息后，服务器还可以进入步骤13，此时终端仍然进入步骤10；

步骤11中，若认为验证成功，返回终端验证成功信息后，服务器还可以进入步骤13，若认为本次用户验证失败，返回终端验证失败信息后，服务器还可以进入步骤13，此时终端仍然进入步骤12。

则步骤13可以为：服务器利用本次认证中接收到的人脸图像对人脸识别结果中的用户信息对应的人脸建模进行优化。其目的在于：由于人脸识别成功，则说明所用于识别的人脸图像或所采集的人脸视频是正确的，则可利用这些正确的人脸图像信息对人脸建模进行优化，提高人脸识别时的精确度，删除其中无效的用户面部特征参数等，以提高运算效率。

同理，在步骤11中，若认为验证成功，返回终端验证成功信息后，服务器还可利用本次认证中接收到的语音音频数据对人脸识别结果中的用户信息对应的声纹特征数据进行优化。

本例中，参见上述处理可知，优选为人脸识别步骤在前，而声纹识别在后，其原因是：首先，人脸识别经过目前几十年的发展，其技术较为成熟，算法效率高、处理速度快，且声纹识别与其他生理特征识别不同，声纹识别的特征必须是“个性化”特征，而说话人(即需要声纹识别的用户)需要识别的特征针对该说话人必须是有“共性特征”的。虽然目前大部分声纹识别系统采用的都是声学层面的特征，但是表征一个人特点的特征应该是多层面的，包括：1)与人类的发音机制的解剖学结构有关的声学特征(如频谱、倒频谱、共振峰、基音、反射系数等等)、鼻音、带深呼吸音、沙哑音、笑声等；2)受社会经济状况、受教育水平、出生地等影响的语义、修辞、发音、言语习惯等；3)个人特点或受父母影响的韵律、节奏、速度、语调、音量等特征。从利用数学方法可以建模的角度出发，声纹自动识别模型目前可以使用的特征包括：1)声学特征(倒频谱)；2)词法特征(说话人相关的词n-gram，音素n-gram)；3)韵律特征(利用n-gram描述的基音和能量“姿势”)；4)语种、方言和口音信息；5)通道信息(使用何种通道)等。因此，在本发明方案中，其预设声音口令文本可以是基于用户信息来随机生成的。而又由于本发明中提到的人脸识别及声纹识别的具体方式为现有较为成熟的技术，因此本案不再详述。

Claims

基于人脸识别和声纹识别的交互式认证系统，包括终端及服务器，终端与服务器通过网络连接，其特征在于，

所述终端用于获取被检测用户的面部视频及采集用户输入的语音音频数据将其发送至服务器，且显示服务器发送来的显示提示信息；

所述服务器用于进行用户面部特征参数进行匹配和用户声纹特征向量进行匹配，并将声纹识别结果与人脸识别结果进行集合取交集，若交集中只有一个结果，则认为验证成功，返回终端验证成功信息。
如权利要求1所述的基于人脸识别和声纹识别的交互式认证系统，其特征在于，

所述进行用户面部特征参数进行匹配和用户声纹特征向量进行匹配是指：服务器从接收到的被检测用户的面部视频获取用户面部特征参数，将获取的用户面部特征参数与服务器预先存储的所有用户面部特征参数进行匹配，匹配成功则得到人脸识别结果，然后向终端发送预设声音口令文本，在接收到终端的语音采集模块发送来的语音音频数据后，将其转换为文本内容，并将该文本内容与之前所发送的声音口令文本进行匹配，匹配成功则提取该语音音频数据中的声纹特征向量，将其与服务器预先存储的所有用户声纹特征向量进行匹配，匹配成功则得到声纹识别结果。
如权利要求2所述的基于人脸识别和声纹识别的交互式认证系统，其特征在于，所述终端包括显示模块、人脸视频采集模块、语音采集模块及第一通讯模块，服务器包括人脸识别模块、语音识别模块、验证模块、数据库及第二通讯模块，所述显示模块、人脸视频采集模块、语音采集模块分别与第一通讯模块连接，人脸识别模块、语音识别模块、验证模块分别与第二通讯模块连接，人脸识别模块、语音识别模块分别与验证模块连接，数据库模块分别与人脸识别模块、语音识别模块及验证模块连接，第一通讯模块与第二通讯模块通过网络连接，

所述人脸视频采集模块用于获取被检测用户的面部视频将其通过第一通讯模块及第二通讯模块发送至人脸识别模块；

所述语音采集模块用于采集用户输入的语音音频数据将其通过第一通讯模块及第二通讯模块发送至语音识别模块；

所述显示模块用于显示服务器发送来的显示提示信息，包括人脸识别失败信息、声音口令输入不正确信息、验证失败信息、声音口令文本及验证成功信息；

所述第一通讯模块及第二通讯模块用于终端与服务器之间的信息交互；

所述人脸识别模块用于接收到被检测用户的面部视频后对其进行过滤及去噪，并提取关键帧，根据关键帧获取用户面部特征参数，选取其中的关键特征参数与数据库中所存储的所有用户面部特征参数进行匹配，若匹配成功则将匹配成功结果发送给验证模块，该匹配成功结果即为人脸识别结果，若匹配失败则将返回终端人脸识别失败信息；

所述语音识别模块用于在接收到验证模块发送来的语音识别请求后，向终端发送预设声音口令文本，令终端通过显示模块显示声音口令文本，在接收到终端的语音采集模块发送来的语音音频数据后，将其转换为文本内容，并将该文本内容与之前所发送的声音口令文本进行匹配，若匹配失败则认为识别失败，返回终端声音口令输入不正确信息，若匹配成功则提取该语音音频数据中的声纹特征向量，将其与数据库中所存储的所有用户声纹特征向量进行匹配，若匹配失败则认为识别失败，返回终端语音识别失败信息，若匹配成功则将匹配成功结果发送给验证模块，该匹配成功结果即为声纹识别结果；

所述验证模块用于接收到人脸识别模块发送来的匹配成功结果后，向语音识别模块发送语音识别请求，在接收到语音识别模块发送来的匹配成功结果后，将其与人脸识别模块发送来的匹配成功结果进行集合取交集，若交集为空，则认为本次用户验证失败，返回终端验证失败信息，若交集中只有一个结果，则认为验证成功，返回终端验证成功信息，若交集中有不止一个结果，则认为声纹特征不明显，向语音识别模块重新发送语音识别请求，若此时已发送过预设数量的语音识别请求则认为本次用户验证失败，返回终端验证失败信息。
如权利要求3所述的基于人脸识别和声纹识别的交互式认证系统，其特征在于，所述人脸识别模块中设置有图像相似度预设值，在选取用户面部特征参数中的关键特征参数与数据库中所存储的用户面部特征参数进行匹配时，若匹配出的结果中各用户面部特征参数相似度阈值小于图像相似度预设值时，判定为匹配成功，否则判定为匹配失败。
如权利要求3所述的基于人脸识别和声纹识别的交互式认证系统，其特征在于，所述人脸识别模块的匹配成功结果中包括用户信息，所述用户信息中包括用户年龄信息。
如权利要求5所述的基于人脸识别和声纹识别的交互式认证系统，其特征在于，所述验证模块向语音识别模块发送的语音识别请求中，包含用户年龄信息或请求发送注册时的声音口令文本。
如权利要求6所述的基于人脸识别和声纹识别的交互式认证系统，其特征在于，所述验证模块向语音识别模块发送的语音识别请求中，若此次是第预设数量次向语音识别模块发送语音识别请求，则该语音识别请求中包括请求发送注册时的声音口令文本。
如权利要求6所述的基于人脸识别和声纹识别的交互式认证系统，其特征在于，所述语音识别模块中，预设声音口令文本为一段易读文字或一段数字或一段新闻类文字或与用户信息对应的注册时的声音口令文本。
如权利要求8所述的基于人脸识别和声纹识别的交互式认证系统，其特征在于，所述语音识别模块中，在向终端发送预设声音口令文本前还根据语音识别请求进行判断，若语音识别请求中有请求发送注册时的声音口令文本则语音识别模块选择的预设声音口令文本为与用户信息对应的注册时的声音口令文本，若语音识别请求中有用户年龄信息，则根据用户年龄信息判断用户年龄，若用户为老年人或未成年人则选择的预设声音口令文本为一段易读文字或一段数字，否则选择的预设声音口令文本为一段新闻类文字。
如权利要求3-9任一项所述的基于人脸识别和声纹识别的交互式认证系统，其特征在于，所述语音识别模块中，在向终端发送预设声音口令文本后，还开始计时，判断是否在预设时间内接收到终端发送来的语音音频数据，若计时时间达到预设时间仍未收到终端发送来的语音音频数据，则更换预设声音口令文本并重新向终端发送更换后的预设声音口令文本，且重新开始计时，回到判断是否在预设时间内接收到终端发送来的语音音频数据那一步。
基于人脸识别和声纹识别的交互式认证方法，应用于如权利要求1-10任一项所述的基于人脸识别和声纹识别的交互式认证系统，其特征在于，包括以下步骤；

步骤1、用户采用终端向服务器进行用户注册，服务器在数据库中存储用户信息、该用户面部特征参数及该用户声纹特征向量；

步骤2、认证时，终端获取被检测用户的面部视频并发送至服务器；

步骤3、服务器对接收到被检测用户的面部视频进行过滤及去噪，并提取关键帧，根据关键帧获取用户面部特征参数，选取其中的关键特征参数与数据库中所存储的所有用户面部特征参数进行匹配，若匹配成功则得到人脸识别结果并进入步骤5，若匹配失败则进入步骤4；

步骤4、服务器返回终端人脸识别失败信息，终端显示人脸识别失败并提示用户，回到步骤2；

步骤5、服务器生成并向终端发送预设声音口令文本；

步骤6、终端显示声音口令文本，并采集用户输入的语音音频数据上传至服务器；

步骤7、服务器将接收到的语音音频数据后转换为文本内容，并将该文本内容与之前所发送的声音口令文本进行匹配，若匹配失败则认为识别失败，返回终端声音口令输入不正确信息，进入步骤8，若匹配成功则进入步骤9；

步骤8、终端显示声音口令输入不正确信息，回到步骤2；

步骤9、服务器提取该语音音频数据中的声纹特征向量，将其与数据库中所存储的所有用户声纹特征向量进行匹配，若匹配失败则认为识别失败，返回终端语音识别失败信息，进入步骤10，若匹配成功则得到语音识别结果并进入步骤11；

步骤10、终端显示语音识别失败信息，回到步骤2；

步骤11、服务器将人脸识别结果与语音识别结果进行集合取交集，若交集为空，则认为本次用户验证失败，返回终端验证失败信息，进入步骤12，若交集中只有一个结果，则认为验证成功，返回终端验证成功信息，若交集中有不止一个结果，则认为声纹特征不明显，判断本次认证是否已发送预设数量的声音口令文本，若是则认为本次用户验证失败，返回终端验证失败信息，进入步骤12，否则重新生成并向终端发送预设声音口令文本，回到步骤6；

步骤12，终端显示验证失败信息，回到步骤2。
如权利要求11所述的基于人脸识别和声纹识别的交互式认证方法，其特征在于，步骤1包括以下步骤：

步骤101、用户向终端输入用户信息，并通过终端采集人脸视频或多张人脸图像，终端将用户信息及人脸视频或多张人脸图像上传至服务器；

步骤102、服务器从人脸视频中截取多张人脸图像或将接收到的多张图像作为人脸样本，得到该用户面部特征参数，并进行人脸建模，并将其与用户信息关联后存储于数据库中，并随机生成声音口令文本发送给终端；

步骤103、终端显示声音口令文本，并采集用户的语音音频数据，将所采集的语音音频数据上传给服务器；

步骤104、服务器对语音音频数据进行声纹特征向量提取，将提取的声纹特征向量、语音音频数据及对应的声音口令文本与用户信息关联后存储于数据库中。
如权利要求12所述的基于人脸识别和声纹识别的交互式认证方法，其特征在于，步骤102中，所述随机生成声音口令文本发送给终端中，随机生成至少一段声音口令文本，并按顺序发送给终端；

步骤103中，所述终端显示声音口令文本，并采集用户的语音音频数据，将所采集的语音音频数据上传给服务器中，终端按顺序显示声音口令文本，当一个声音口令文本采集了三次对应的用户的语音音频数据后，再显示下一个声音口令文本，得到所有声音口令文本对应的各三个语音音频数据后，发送给服务器。
如权利要求13所述的基于人脸识别和声纹识别的交互式认证方法，其特征在于，步骤104中，服务器接收到所有语音音频数据后，分别对其进行声纹特征向量提取，针对每一个声音口令文本，选择出其中声纹特征向量最明显的一个语音音频数据，将声音口令文本、所选择的语音音频数据及其声纹特征向量与用信息系关联后存储于数据库中。
如权利要求14所述的基于人脸识别和声纹识别的交互式认证方法，其特征在于，步骤11中，所述重新生成并向终端发送预设声音口令文本中，所重新生成的预设声音口令文本为与用户信息对应的注册时的声音口令文本中的一个。
如权利要求11所述的基于人脸识别和声纹识别的交互式认证方法，其特征在于，步骤3中，服务器中设置有图像相似度预设值，在选取用户面部特征参数中的关键特征参数与数据库中所存储的用户面部特征参数进行匹配时，若匹配出的结果中各用户面部特征参数相似度阈值小于图像相似度预设值时，判定为匹配成功，否则判定为匹配失败。
如权利要求11所述的基于人脸识别和声纹识别的交互式认证方法，其特征在于，步骤5中，所述预设声音口令文本为随机生成的一段易读文字或随机生成的一段数字或随机生成的一段新闻类文字或与用户信息对应的注册时的声音口令文本。
如权利要求17所述的基于人脸识别和声纹识别的交互式认证方法，其特征在于，步骤1中，所述用户信息包括用户年龄信息；

步骤3中，所述人脸识别结果中包括用户信息；

步骤5中，所述服务器生成并向终端发送预设声音口令文本时，若人脸识别结果中的用户信息显示为老年人或未成年人则选择的预设声音口令文本为一段易读文字或一段数字，否则选择的预设声音口令文本为一段新闻类文字。
如权利要求11所述的基于人脸识别和声纹识别的交互式认证方法，其特征在于，步骤9中，若匹配失败时，还判断是否已生成过预设数量减一个声音口令文本，若是则认为识别失败，返回终端语音识别失败信息，进入步骤10，否则重新生成并向终端发送预设声音口令文本，回到步骤6，该重新生成并向终端发送的预设声音口令文本为随机生成的一段易读文字或随机生成的一段数字或随机生成的一段新闻类文字，其长度大于上一次生成的预设声音口令文本。
如权利要求11所述的基于人脸识别和声纹识别的交互式认证方法，其特征在于，步骤9中，服务器中设置有声纹相似度预设值，在服务器将提取的语音音频数据中的声纹特征向量与数据库中所存储的所有用户声纹特征向量进行匹配时，若匹配出的结果中各用户用户声纹特征向量相似度阈值小于声纹相似度预设值时，判定为匹配成功，否则判定为匹配失败。
如权利要求11-20任一项所述的基于人脸识别和声纹识别的交互式认证方法，其特征在于，步骤5中，在服务器生成并向终端发送预设声音口令文本后，还开始计时；

和/或，步骤9中，在服务器重新生成并向终端发送预设声音口令文本后，还开始计时；

和/或，步骤11中，在服务器重新生成并向终端发送预设声音口令文本后，还开始计时；

步骤5与步骤7之间，还包括以下步骤：

步骤A、服务器判断是否在预设时间内接收到终端发送来的语音音频数据，若计时时间达到预设时间仍未收到终端发送来的语音音频数据，则进入步骤A，否则进入步骤7；

步骤B、服务器更换预设声音口令文本并重新向终端发送更换后的预设声音口令文本，且重新开始计时，回到步骤A，所述更换后的预设声音口令文本为重新随机生成的一段易读文字或随机生成的一段数字或随机生成的一段新闻类文字。
如权利要求11-20任一项所述的基于人脸识别和声纹识别的交互式认证方法，其特征在于，步骤9中，若匹配失败，返回终端语音识别失败信息后，服务器还进入步骤13；

步骤11中，若认为验证成功，返回终端验证成功信息后，服务器还进入步骤13，若认为本次用户验证失败，返回终端验证失败信息后，服务器还进入步骤13；

步骤13、服务器利用本次认证中接收到的人脸图像对人脸识别结果中的用户信息对应的人脸建模进行优化。