CN110163265A

CN110163265A - 数据处理方法、装置及计算机设备

Info

Publication number: CN110163265A
Application number: CN201910362817.6A
Authority: CN
Inventors: 吴佳祥; 沈鹏程; 李绍欣
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2019-08-23
Anticipated expiration: 2039-04-30
Also published as: CN110163265B

Abstract

本申请提供的一种数据处理方法、装置及计算机设备，通过多源的数据集来挖掘困难样本，具体从第一数据集中的两类图像中，筛选目标正样本对及第一负样本对，从第一数据集与第二数据集中同类图像中，筛选第二负样本对，由于第一数据集和第二数据集中的图像不存在身份交叉的情况，提高了负样本挖掘效率，有利于人脸识别模型性能的提升，进而提高了人脸识别模型的识别准确率。

Description

数据处理方法、装置及计算机设备

技术领域

本申请涉及人脸识别技术领域，具体涉及一种数据处理方法、装置及计算机设备。

背景技术

人脸识别是基于人的脸部特征信息，进行身份识别的一种生物识别技术，目前被广泛应用到各种视频监控场景，且在实际应用中，通常是利用预先训练好的模型，对待识别图像的特征进行处理，得到待识别图像的身份信息。

其中，在模型训练过程中，通常需要先从大量图像中筛选出正负样本，正样本是指同一身份的两个不同图像，负样本是指不同身份的两个图像，之后，将正样本的相似度低于第一阈值，负样本的相似度高于第二阈值的样本记为困难样本，再将困难样本输入网络模型进行训练，得到用于识别图像身份的模型。

然而，本申请的发明人注意到，模型训练所需的困难样本往往是固定不变的，很可能会出现过拟合问题，影响了模型输出结果的准确性，即降低了人脸识别结果的准确性。

发明内容

本申请实施例提供一种数据处理方法、装置及计算机设备，实现了多源数据集的困难样本的挖掘，避免了出现过拟合问题，提高了困难样本挖掘效率及模型性能，进而提高了模型识别准确率。

为实现上述目的，本申请实施例提供如下技术方案：

本申请提供了一种数据处理方法，所述方法包括：

获取第一数据集和第二数据集，所述第一数据集中对应同一身份的图像至少包括两类图像，且所述第一数据集中的图像与所述第二数据集中的图像的身份不同；

从所述第一数据集中的两类图像中，筛选目标正样本对和第一负样本对；

从所述第一数据集与所述第二数据集中同类图像中，筛选第二负样本对，并将所述第二负样本对与所述第一负样本对合并为目标负样本对；

基于神经网络对所述目标正样本对和所述目标负样本对进行模型训练，得到人脸识别模型。

本申请还提供了一种数据处理装置，所述装置包括：

数据获取模块，用于获取第一数据集和第二数据集，所述第一数据集中对应同一身份的图像至少包括两类图像，且所述第一数据集中的图像与所述第二数据集中的图像的身份不同；

第一筛选模块，用于从所述第一数据集中的两类图像中，筛选目标正样本对和第一负样本对；

第二筛选模块，用于从所述第一数据集与所述第二数据集中同类图像中，筛选第二负样本对，并将所述第二负样本对与所述第一负样本对合并为目标负样本对；

模型训练模块，用于基于神经网络对所述目标正样本对和所述目标负样本对进行模型训练，得到人脸识别模型。

本申请还提供了一种计算机设备，所述计算机设备包括：

通信接口；

存储器，用于存储实现如上述的数据处理方法的计算机程序；

处理器，用于记载并执行所述存储器存储的计算机程序，实现如上所述的数据处理方法的各个步骤。

本申请还提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行，实现如上所述的数据处理方法的各个步骤。

基于上述技术方案，本申请提供的一种数据处理方法、装置及计算机设备，通过多源的数据集来挖掘困难样本，具体从第一数据集中的两类图像中，筛选目标正样本对及第一负样本对，从第一数据集与第二数据集中同类图像中，筛选第二负样本对，由于第一数据集和第二数据集中的图像不存在身份交叉的情况，提高了负样本挖掘效率，有利于人脸识别模型性能的提升，进而提高了人脸识别模型的识别准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1示出了本申请实施例提供的一种数据处理系统的结构示意图；

图2示出了本申请实施例提供的一种数据处理方法的流程示意图；

图3示出了本申请实施例提供的一种数据处理方法中困难样本挖掘过程的流程示意图；

图4示出了本申请实施例提供的另一种数据处理方法的流程示意图；

图5示出了本申请实施例提供的一种数据处理装置的结构示意图；

图6示出了本申请实施例提供的另一种数据处理装置的结构示意图；

图7示出了本申请实施例提供的又一种数据处理装置的结构示意图；

图8示出了本申请实施例提供的一种计算机设备的硬件结构示意图。

具体实施方式

结合上文背景技术部分的分析，为了提高训练所得模型输出结果的准确性，本申请的发明人提出动态挖掘困难样本的方案，即在训练过程中，计算本次训练所使用的训练样本中，两两样本之间的相似度，并据此确定出困难样本，完成模型训练。相对于固定的困难样本，这种动态困难样本挖掘方式，在一定程度上能够调整困难样本的分布，减小训练过程中存在的偏差，提高训练所得模型的可靠性及准确性，进而提高其在实际场景中的效果。

但是，这种动态困难样本挖掘方式，只局限于在一个批次的训练样本中挖掘，每次生成的规模较小，且样本来自单一数据集，由此挖掘出的困难样本，尤其是困难负样本往往不是真正的困难样本，对模型训练产生的作用较小，对网络性能提升有限，也就是说，利用这种方式得到的困难样本进行模型训练，所得到的模型的准确性及可靠性并不理想。

为了进一步改善上述问题，在一次训练中能够挖掘到更多更真实的困难样本，本申请的发明人提出扩大样本挖掘范围，不再局限于一个训练批次，提出基于多个数据集，实现困难样本的挖掘，尤其是对困难负样本的挖掘，以提高困难负样本的挖掘效率，提升整个模型性能，进而提高模型输出结果的准确性及可靠性。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参照图1，为实现本申请提供的数据处理方法的系统架构示意图，该系统可以包括服务器11、第一数据存储设备12及第二数据存储设备13，其中：

服务器13可以是提供人脸识别功能的服务设备，在实际应用中，其可以接收用户侧上传的待识别图像，并利用预先训练好的模型对其进行处理，得到别该待识别图像的身份信息。

在申请中，服务器13可以是独立的一个服务器，也可以是多个服务器集成的服务器集，本申请对此不作限定。

第一数据存储设备12和第二数据存储设备13都可以是存储训练数据的数据存储设备，具体可以是数据库服务器等，本申请对该数据存储设备的具体产品结构不作限定。

本申请中，第一数据存储设备12可以是用于存储大量用户身份的身份图像，如用户的证件照等能够准确表明用户身份的图像，本申请对这类图像获取方式不作限定，如从公安系统中获取用户身份证上的人脸图像等等。

第二数据存储设备13可以用于存储终端拍摄得到的图像，如摄像头自拍照等，本申请对这类图像的来源不做限定，可以从本应用平台中提取，还可以从第三应用平台获取等等。

可见，本申请将由第一数据存储设备中的身份图像，以及第二数据存储设备中的拍摄图像共同构成训练数据集，进而按照下文描述的数据处理方法，从中挖掘模型训练所需的困难样本，具体挖掘过程可以参照下文方法实施例相应部分的描述，本实施例不再赘述。

需要说明，对于上述系统架构的组成，并不局限于上文给出的组成部分，根据需要，还可以包括客户端等，本申请在此不再一一详述。

结合图1所示的系统架构，参照图2，为本申请提供的一种数据处理方法的一个实施例的流程示意图，该方法可以应用于服务侧，即该方法可以由服务器执行实现，如图2所示，该方法可以包括但并不局限于以下步骤：

步骤S101，从第一数据集中筛选多个第一身份图像构成第一候选样本集，及多个拍摄图像构成第二候选样本集；

步骤S102，从第二数据集中筛选多个第二身份图像构成第三候选样本集；

本实施例中，第一数据集可以是人脸训练数据集，其可以包括不同身份的身份图像(即ID照，具体可以是证件图像)，以及自拍图像(即拍摄图像，如Camera照)。第二数据集可以包括大量身份的身份图像，其规模可以在百万级别，且第二数据集中的身份图像与第一数据集中的身份图像不重合，即这两个数据集中的身份图像的身份没有交叉，为了区分不同数据集中的身份图像，本实施例可以将第一数据集中的身份图像记为第一身份图像，并将第二数据集中的身份图像记为第二身份图像。

其中，上述第一数据集和第二数据集中的图像，可以经过业务积累和数据采购而来，本申请对其具体来源不作限定。

基于此，本实施例可以从第一数据集中随机筛选出部分身份的ID照构成第一候选样本集Sd，同时筛选出相应身份的拍摄图像构成第二候选样本集Sc；同理，从第二数据集中随机筛选出若干身份图像构成第三候选集Sn，本申请对这三个候选样本集各自的候选样本的筛选过程不做详述。

步骤S103，依次对第一候选样本集、第二候选样本集和第三候选样本集各自的候选样本进行特征提取，得到第一候选样本集的第一特征集、第二候选样本集第二特征集及第三候选样本集第三特征集；

本实施例可以使用深度卷积神经网络，对候选样本(图像)进行特征提取，具体实现过程本实施例不做详述，且针对输入卷积神经网络的每个候选样本，可以得到一个N维特征向量。可见，本实施例得到的各特征集可以由多个N维特征向量组成，N的取值可以基于卷积神经网络的网络结构确定，本申请对其具体数值不做限定。

其中，对于实现特征提取的卷积神经网络，在网络训练过程中，经过一定迭代次数后，可以对其中的网络参数进行更新，以实现对卷积神经网络的优化，提高特征提取结果的准确性。

经过对第一候选样本集、第二候选样本集和第三候选样本集各自包含的候选样本的特征提取，本实施例可以将对应得到的第一特征集记为Fd、第二特征集记为Fc、第三特征集记为Fn。

步骤S104，依据第一特征集中的特征向量与第二特征集中的特征向量之间的相似度，得到目标正样本对及第一负样本对；

本实施例中，可以通过计算第一特征集与第二特征集中相同身份的特征向量之间的相似度，以及不用身份的特征向量的相似度，来确定正负样本，如将身份相同的特征向量中，相似度较低的特征向量对应的候选样本确定为正样本P，将身份不同的特征向量中，相似度较高的特征向量对应的候选样本确定为负样本N1，具体实现过程本实施例不做详述。

应该理解，本实施例在获取正负样本时，是从两个不同的候选样本集中分别筛选一候选样本作为正样本或负样本，所以，每次筛选出的实际是一对候选样本，得到的是正/负样本对。

步骤S105，依据第一特征集中的特征向量与第三特征集中的特征向量之间的相似度，得到第二负样本对；

步骤S106，由第一负样对与第二负样本对组合成目标负样本对；

与上述第一负样本的筛选过程类似，本实施例可以计算第一特征集与第二特征集各自包含的特征向量之间的相似度，并选择若干个相似度较高的特征向量对应的候选样本为第二负样本对N2。

结合上文对第一候选样本集、第二候选样本集及第三候选样本集的获取过程的描述，第一候选样本集与第二候选样本集中的候选样本均来自人脸训练数据集，具体来自该人脸训练数据集中不同类型的图像，使得第一候选样本集中的候选样本是不同用户的身份图像，第二候选样本集中的候选样本是不同用户的拍摄图像，因此，在对第一特征集与第二特征集中的特征向量进行相似度过程中，包括对同一用户的不同类型图像的特征向量之间的相似度，以及不同用户的两类图像的特征向量之间的相似度。

基于此，应该理解，对于同一用户来说，第一特征集与第二特征集中的特征向量之间的相似度越高，说明第二候选样本集中的候选样本身份越容易识别，且在达到一定阈值，可以认为是同一用户的不同候选样本；反之，相似度越低，说明第二候选样本集中的候选样本身份越难识别，这两个候选样本越不可能是同一身份。因此，本实施例在挖掘困难样本过程中，可以将这种情况下，具有同一身份且相似度较低的候选样本对作为正样本对。

同理，对于不同用户来说，来自两个特征集中的特征向量的相似度越高，说明第二候选样本集中的候选样本身份越难识别，但越容易识别这两个候选样本属于不同身份，因此，可以将这种情况下即不同身份，且相似度较高的候选样本对作为负样本对。

同理，由于第三候选样本集与第一候选样本集和第一候选样本集中的候选样本的身份无重合，对于第一特征集与第三特征集中的特征向量，实际上是不同用户的身份图像对应的特征向量，所以，可以通过特征向量的相似度计算，筛选出相似度较高的候选样本对作为负样本对。

综上，本实施例的目标负样本实际上是由两部分组成，且结合上述对各候选样本集的来源的描述可知，该目标负样本实际上是来自不同数据集，也就是说，通过多源数据集实现对困难负样本的挖掘，扩大了困难样本筛选范围及规模，提高了负样本对的挖掘效率，有利于提高模型的性能。

步骤S107，将目标正样本对及目标负样本分别输入神经网络进行模型训练，直至得到的正样本相似度分布与负样本相似度分布满足约束条件，得到人脸识别模型。

本实施例按照上述方法得到目标正/负样本对后，可以输入神经网络进行模型训练，以得到正样本相似度分布及负样本相似度分布，其中，在模型训练过程中，即对神经网络模型的不断优化过程中，可以利用约束条件来调整正样本相似度分布及负样本相似度分布，直至满足约束条件，本申请对该约束条件的内容不做限定。

其中，在将目标正/负样本对依次输入神经网络模型进行训练，得到的目标正样本对的相似度可以记为：S_pos＝(S₁，S₂，…，S_n)，目标负样本对的相似度可以记为并将正样本相似度分布记为P(S_pos)，负样本相似度分布记为P(S_neg)。

可选的，对于神经网络模型的优化，可以利用损失函数实现，该损失函数可以定义为L＝f(S_pos，S_neg)，其形式可以多种多样，比如直接定义为其中，为求平均，α为可调参数，表示目标正样本对与目标负样本对相似度的距离间隔。可见，本实施例可以通过对正样本相似度分布和负样本相似度分布进行收敛，实现对所训练的人脸识别模型的调整，该过程能够抑制目标负样本对的相似度，提高目标正样本对的相似度，达到提高模型识别准确率的目的。本申请对如何利用损失函数，实现模型优化的过程不做详述。

需要说明，关于模型优化方法，并不局限于上文所述的损失函数，还可以利用梯度下降算法，或者各类基于梯度的变种优化方法，如adam,adagrad等，来不断优化神经网络结构，直至满足约束条件。本申请对模型优化方法不做限定，并不局限于本文列举的几种优化方法，本申请可以通过不断优化模型，提高训练得到的人脸识别模型的识别准确率，降低误报率。

作为本申请另一可选实施例中，对于上述模型训练的约束条件，还可以获取正样本相似度分布与负样本相似度分布的重叠度，并通过减少该重叠度区域，来拉开目标正样本对和目标负样本对相似度差距，以提升模型识别能力，其中，重叠度可以采用积分计算方式获得，本申请对此不作限定。

综上，本实施例通过多源的数据集来筛选出对于不同数据来源的候选样本集，不再局限于一个训练批次中的数据，更关注数据集的整体，同时，为了提高困难负样本对的规模，本实施例具体是从身份没有交叉的候选样本集中，筛选用于模型训练的负样本对，相对于现有技术从单一来源的数据集中筛选负样本对，提高了负样本对的挖掘效率，有利于人脸识别模型性能的提升，进而提高了人脸识别模型的识别准确率。

基于上文对本申请提出的数据处理方法的整体构思的描述，下面将主要对困难样本挖掘过程进行描述，该困难样本可以指上文实施例中的目标正样本对和目标负样本对，参照图3所示的流程示意图，本实施例主要对得到多个候选样本集分别对应的特征集后的步骤进行描述，关于如何得到特征集的过程，可以参照上述实施例相应部分的描述，本实施例不再赘述。如图3所示，困难样本的挖掘过程可以包括但并不局限于以下步骤：

步骤S201，获取第一候选样本集的第一特征集、第二候选样本集第二特征集及第三候选样本集第三特征集；

继上文实施例对各候选样本集获取过程的描述，第一候选样本集的候选样本来自人脸训练数据集中的不同身份的ID照，第二候选样本集的候选样本来自人脸训练数据集中不同身份的自拍照，第三候选样本集的候选样本来自人脸注册底库中不同身份的ID照，且该人脸注册底库中的ID照与人脸训练数据集中的ID照的身份不交叉。

步骤S202，计算第一特征集中各特征向量与第二特征集中各特征向量之间的第一相似度；

对于特征向量之间的相似度，可以利用如余弦相似度算法，余弦距离等相似度算法实现，本申请对其具体相似度计算方法不作限定。

步骤S203，按照计算得到的第一相似度大小进行排序，并依据排序结果，确定第一特征集与第二特征集中对应同一身份的特征向量对，以及对应不同身份的特征向量对；

本实施例中，若来自不同特征集中的两个特征向量(即一个特征向量对)的相似度大于一定阈值，可以认为这两个特征向量表示同一用户图像的特征，也就是说，这两个特征向量所对应的候选样本是同一用户的图像，所以，可以确定这两个特征向量对应同一身份(即同一用户)；反之，两个特征向量的相似度小于该阈值，可以认为这两个特征向量是不同用户的图像特征向量，这两个特征向量对应不同身份。本申请对该阈值的数值不做限定。

需要说明，关于对上述第一特征集和第二特征集中的特征向量所对应的身份确认的方法，并不局限于上文描述的相似度计算法方法。

步骤S204，从对应同一身份的特征向量对中，选择第一相似度较小的第一数量个特征向量对所对应的候选样本对作为目标正样本对；

步骤S205，从对应不同身份的特征向量对，选择第一相似度较大的第二数量个特征向量对所对应的候选样本对作为第一负样本对；

结合上文对正负样本的解释，目标正样本对是同一身份的不同候选样本，目标负样本对时不同身份的候选样本，而第一候选样本集和第二候选样本集来自同一人脸训练数据集，两者存在同一身份的候选样本，也存在不同身份的候选样本，因此，本实施例从这两个候选样本集中，挖掘正负样本对之前，需要先确定哪些候选样本对对应同一身份，哪些候选样本对对应不同身份，如上述通过特征向量对的相似度计算方式。

步骤S206，计算第一特征集中各特征向量与第三特征集中各特征向量之间的第二相似度；

其中，步骤S206与上述步骤S202中相似度计算方法类似，本申请不再详述。

步骤S207，按照计算得到的第二相似度大小进行排序，选择第二相似度较大的第三数量个特征向量对所对应的候选样本对作为第二负样本对；

本实施例对基于相似度排序结果，筛选上述目标正样本对、第一负样本对、第二负样本对的具体实现过程不作详细，即对第一数量、第二数量及第三数量的具体数值不做限定，可以是预设数值，此时直接按照排序结果直接筛选相应数量的特征向量对所对应的候选样本对即可，也可以预设相似度阈值，筛选计算得到的相似度达到该相似度阈值的特征向量对所对应的候选样本对，此时上述第一数量、第二数量及第三数量可以基于预设的相似度阈值确定。

需要说明，由于第一特征集和第三特征集中的特征向量所对应的候选样本的身份无交叉，所以，计算得到第二相似度后，可以直接依据相似度大小排序结果，筛选第二负样本对，不需要进行身份确认。

步骤S208，将第一负样本对与第二负样本对合并，得到目标负样本对。

由此可见，本申请从候选样本中挖掘得到的目标负样本对包括两部分组成，一部分来源人脸训练数据集(即上述第一数据集)中不同身份样本图像，另一部分来源人脸训练数据集与人脸注册底库(即上述第二数据集)的样本图像对，且由于人脸训练数据集与人脸注册底库中的样本图像不存在身份交叉，其构建的样本对均是负样本对，相对于传统样本挖掘中，仅使用人脸训练数据集挖掘正负样本，本实施例提供的这种困样本挖掘方法，大大提高了负样本对的基数，提高了负样本对的挖掘效率，进而提高了人脸识别模型的训练效率及识别准确率。

下面将以第一数据集为人脸训练数据集S1，第二数据集为人脸注册底库S2为例，描述困难样本的挖掘及人脸识别模型的训练过程，参照图4所示的流程示意图，可以将整个过程分为数据读取阶段、特征提取阶段、困难样本挖掘阶段及网络训练阶段这四个阶段，其中：

在数据读取阶段，可以准确人脸训练数据集S1和人脸注册底库S2，并从S1中随机选取部分身份的ID照组成第一候选样本集Sd，及对应的自拍照(即Camera照)组成第二候选样本集Sc，从S2中随机选取部分ID照组成第三候选样本集Sn。

在特征提取阶段，可以利用特征提取模型，提取上述获取的Sd、Sc及Sn各自的图像特征，该特征提取模型可以利用训练得到的人脸识别模型得到，如利用优化训练得到的人脸识别模型，更新特征提取模型，将Sd、Sc及Sn各自的候选样本分别输入该更新后的特征提取模型，得到各自候选样本对应的特征向量，即由Sd中的候选样本提取图像特征(即特征向量)构成第一特征集Fd，由Sc中的候选样本提取图像特征(即特征向量)构成第二特征集Fc，由Sn中的候选样本提取图像特征(即特征向量)构成第三特征集Fn。关于特征提取的具体实现过程本实施例不做详述，且该特征提取模型可以是卷积神经网络模型。

在困难样本挖掘阶段，如图4所示，可以分为两部分进行困难样本挖掘，这两部分的执行顺序并不局限于上文实施例描述的顺序，可以根据需要调整，也可以同时进行。具体的，计算Fd和Fc中特征向量的相似度，从身份相同的特征向量对中，筛选第一数量相似度较低的特征向量对所对应的候选样本对为目标正样本对P，并从身份不同的特征向量对中，筛选第二数量个相似度较高的特征向量对所对应的候选样本对为第一负样本对N1；同时，可以通过计算Fd和Fn中特征向量的相似度，筛选第三数量个相似度较高的特征向量对所对应的候选样本对作为第二负样本对N2，将第一负样本对N1和第二负样本对N2的总和记为目标负样本对N。

在网络训练阶段，将挖掘得到的困难样本N和P输入神经网络进行处理，计算P和N在本次训练中的相似度，并通过目标函数的约束来抑制目标负样本对的相似度，提高目标正样本对的相似度，具体实现过程可以参照上文实施例模型训练部分的描述。

其中，在模型的不断训练中，可以判断本次训练结果是否满足约束条件，如果满足，将本次训练得到的模型作为人脸识别模块，若不满足，可以利用本次训练得到模型替换特征提取模型，用于在特征提取阶段实现图像特征的提取。应该理解，若本次训练得到模型与原特征提取模型相同，可以不用替换，直接用原特征提取模型实现图像特征的提取。

由此可见，本实施例利用通过多源数据集挖掘出的困难正负样本，进行人脸识别模型的训练，在模型训练过程中，利用每次训练得到的模型实现图像特征提取，进而用来实现困难样本挖掘，不再局限于一批次训练数据，通过扩大困难样本的挖掘范围，提高负样本对的挖掘效率，达到了提高人脸识别模型性能及识别准确率的效果。

参照图5，为本申请实施例提供的一种数据处理装置的结构示意图，该装置可以应用于服务器，具体可以包括但并不局限于以下虚拟模块：

数据获取模块21，用于获取第一数据集和第二数据集，所述第一数据集中对应同一身份的图像至少包括两类图像，且所述第一数据集中的图像与所述第二数据集中的图像的身份不同；

第一筛选模块22，用于从所述第一数据集中的两类图像中，筛选目标正样本对和第一负样本对；

第二筛选模块23，用于从所述第一数据集与所述第二数据集中同类图像中，筛选第二负样本对，并将所述第二负样本对与所述第一负样本对合并为目标负样本对；

可选的，如图6所示，该第一筛选模块22可以包括：

第一筛选单元221，用于从所述第一数据集中筛选多个第一身份图像构成第一候选样本集，以及对应的拍摄图像构成第二候选样本集；

第一特征提取单元222，用于分别对所述第一候选样本集和所述第二候选样本集进行特征提取，得到所述第一候选样本集的第一特征集，及所述第二候选样本集的第二特征集；

第一相似度计算单元223，用于依据所述第一特征集中的特征向量与所述第二特征集中的特征向量之间的相似度，得到目标正样本对及第一负样本对；

相应地，如图6所示，该第二筛选模块23可以包括：

第二筛选单元231，用于从所述第二数据集中筛选多个第二身份图像构成第三候选样本集；

第二特征提取单元232，用于对所述第三候选样本集进行特征提取，得到第三特征集；

第二相似度计算单元233，用于依据所述第一特征集中的特征向量与所述第三特征集中的特征向量之间的相似度，得到第二负样本对。

模型训练模块24，用于基于神经网络对所述目标正样本对和所述目标负样本对进行模型训练，得到人脸识别模型。

可选的，本实施例还可以包括模型优化模块，用于获取正样本相似度分布及负样本相似度分布，并对正样本相似度分布及负样本相似度分布进行收敛，以调整人脸识别模型的模型参数。

其中，关于模型优化过程可以参照上述方法实施例相应部分的描述，本实施例不作赘述。

可见，本实施例在人脸识别模型训练过程中，动态构建多源数据集中的困难样本，调整困难正样本对与负样本对的相似度距离，抑制负样本对的相似度，提高正样本对的相似度，进而提高了模型识别能力。其中，在获取困难负样本对时，直接利用没有交叉身份的不同来源的数据集直接构建，大大提高了负样本对的基数，有利于困难负样本对的筛选，即提高了负样本对的挖掘效率，进而提高了模型训练效率，且本申请利用传统模型训练无法使用的人脸注册底库，解决了单个数据集，对困难样本挖掘的约束及不利影响。

可选的，如图7所示，该装置还可以包括：

模型更新模块25，用于在本次训练得到的模型未满足约束条件的情况下，利用本次训练得到的模型，更新特征提取模型；

相应地，第一筛选模块22或第二筛选模块23具体用于将候选样本输入更新后的特征提取模型，得到特征向量，由属于同一候选样本集中的候选样本对应的特征向量，构成相应的特征集，所述候选样本是所述第一候选样本集或所述第二候选样本集或所述第三候选样本集中的候选样本。

关于对候选样本的图像特征的提取过程可以参照上述方法实施例的描述，本实施例不再赘述。

本申请实施例还提供了一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行，实现上述数据处理方法的各步骤，关于数据处理方法的具体流程，可以参照上述方法实施例相应部分的描述，本实施例不作赘述。

本申请实施例还提供一种计算机设备，该计算机设备的硬件结构可以如图8所示，在实际应用中，该计算机设备可以是服务器，该计算机设备的硬件结构可以包括：通信接口31、存储器32和处理器33；

在本申请实施例中，通信接口31、存储器32、处理器33可以通过通信总线实现相互间的通信，且该通信接口31、存储器32、处理器33及通信总线的数量可以为至少一个。

可选的，通信接口31可以为通信模块的接口，如GSM模块的接口、WIFI模块的接口、并/串口等，可以用来获取其他设备的数据，如人脸图像等，还可以用来实现计算机设备内部组件之间的数据交互，本申请对该通信接口31包含的接口类型不做限定。

处理器33可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。

存储器32可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

其中，存储器32存储有计算机程序，处理器33调用存储器2所存储的计算机程序，以实现上述应用于计算机设备的数据处理方法的各步骤；

可选的，该计算机程序主要可用于：

可选的，处理器执行计算机程序具体可以用于：

从所述第一数据集中筛选多个第一身份图像构成第一候选样本集，以及对应的拍摄图像构成第二候选样本集；

分别对所述第一候选样本集和所述第二候选样本集进行特征提取，得到所述第一候选样本集的第一特征集，及所述第二候选样本集的第二特征集；

依据所述第一特征集中的特征向量与所述第二特征集中的特征向量之间的相似度，得到目标正样本对及第一负样本对；

从所述第二数据集中筛选多个第二身份图像构成第三候选样本集；

对所述第三候选样本集进行特征提取，得到第三特征集；

依据所述第一特征集中的特征向量与所述第三特征集中的特征向量之间的相似度，得到第二负样本对。

可选的，处理器执行计算机程序还可以用于：

在模型训练过程中，若本次训练得到的模型未满足约束条件，利用本次训练得到的模型，更新特征提取模型；

将候选样本输入更新后的特征提取模型，得到特征向量，所述候选样本是所述第一候选样本集或所述第二候选样本集或所述第三候选样本集中的候选样本；

由属于同一候选样本集中的候选样本对应的特征向量，构成相应的特征集。

可选的，处理器执行计算机程序具体可以用于：

计算所述第一特征集中的特征向量与所述第二特征集中的特征向量之间的第一相似度；

从具有同一身份的特征向量对中，选择第一相似度较小的第一数量个特征向量对所对应的候选样本对作为目标正样本对，并从具有不同身份的特征向量对中，选择第一相似度较大的第二数量个特征向量对所对应的候选样本对作为第一负样本对；

计算所述第一特征集中的特征向量与所述第三特征集中的特征向量之间的第二相似度；

选择第二相似度较大的第三数量个特征向量对所对应的候选样本对作为第二负样本对。

需要说明，关于处理器执行计算机程序，实现数据处理方法的具体过程，可以参照上述方法实施例相应部分的描述，并不局限于本实施例描述的步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、计算机设备而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的核心思想或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述从所述第一数据集中的两类图像中，筛选目标正样本对和第一负样本对，包括：

依据所述第一特征集中的特征向量与所述第二特征集中的特征向量之间的相似度，得到目标正样本对及第一负样本对。

3.根据权利要求2所述的方法，其特征在于，所述从所述第一数据集与所述第二数据集中同类图像中，筛选第二负样本对，包括：

对所述第三候选样本集进行特征提取，得到第三特征集；

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

5.根据权利要求3所述的方法，其特征在于，所述依据所述第一特征集中的特征向量与所述第二特征集中的特征向量之间的相似度，得到目标正样本对及第一负样本对，包括：

所述依据所述第一特征集中的特征向量与所述第三特征集中的特征向量之间的相似度，得到第二负样本对，包括：

6.根据权利要求3所述的方法，其特征在于，所述身份图像包括相应用户的证件照，所述拍摄图像包括相应用户的自拍照。

7.一种数据处理装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述第一筛选模块包括：

第一筛选单元，用于从所述第一数据集中筛选多个第一身份图像构成第一候选样本集，以及对应的拍摄图像构成第二候选样本集；

第一特征提取单元，用于分别对所述第一候选样本集和所述第二候选样本集进行特征提取，得到所述第一候选样本集的第一特征集，及所述第二候选样本集的第二特征集；

第一相似度计算单元，用于依据所述第一特征集中的特征向量与所述第二特征集中的特征向量之间的相似度，得到目标正样本对及第一负样本对；

所述第二筛选模块，包括：

第二筛选单元，用于从所述第二数据集中筛选多个第二身份图像构成第三候选样本集；

第二特征提取单元，用于对所述第三候选样本集进行特征提取，得到第三特征集；

第二相似度计算单元，用于依据所述第一特征集中的特征向量与所述第三特征集中的特征向量之间的相似度，得到第二负样本对。

9.根据权利要求8所述的装置，其特征在于，在模型训练过程中，所述装置还包括：

模型更新模块，用于在本次训练得到的模型未满足约束条件的情况下，利用本次训练得到的模型，更新特征提取模型；

所述第一筛选模块或所述第二筛选模块具体用于将候选样本输入更新后的特征提取模型，得到特征向量，由属于同一候选样本集中的候选样本对应的特征向量，构成相应的特征集，所述候选样本是所述第一候选样本集或所述第二候选样本集或所述第三候选样本集中的候选样本。

10.一种计算机设备，其特征在于，所述计算机设备包括：

通信接口；

存储器，用于存储实现如权利要求1-6任意一项所述的数据处理方法的计算机程序；

处理器，用于记载并执行所述存储器存储的计算机程序，实现如权利要求1-6任意一项所述的数据处理方法的各个步骤。