WO2018108129A1

WO2018108129A1 - 用于识别物体类别的方法及装置、电子设备

Info

Publication number: WO2018108129A1
Application number: PCT/CN2017/116218
Authority: WO
Inventors: 李步宇; 闫俊杰
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2016-12-16
Filing date: 2017-12-14
Publication date: 2018-06-21
Anticipated expiration: 2019-06-16
Also published as: CN108229509B; US10977523B2; US20190279045A1; CN108229509A

Abstract

一种用于识别物体类别的方法及装置、电子设备。其中，用于识别物体类别的方法包括：根据待检测图像的多个物体候选框中M个关键点的位置信息从相应的物体候选框中确定M个关键点邻域区域，其中，M小于或等于N个预设的物体类别的关键点的总个数，M和N均为正整数；根据所述M个关键点邻域区域，采用用于识别图像中物体类别的卷积神经网络模型，确定所述待检测图像中至少一个物体的类别信息。

Description

用于识别物体类别的方法及装置、电子设备

本申请要求在2016年12月16日提交中国专利局、申请号为201611168161.7、申请名称为“用于识别物体类别的方法及装置、电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种用于识别物体类别的方法及装置、电子设备。

背景技术

随着计算机视觉技术的发展，物体检测已成为计算机视觉研究中的一个核心问题。物体检测是检测给定图像中物体的位置并识别该物体的类别。具体可划分为物体定位和物体识别两个过程，其中，物体定位是将图像中包含物体的外接矩形框(即物体候选框)找到。物体识别是在获得物体候选框之后，判断物体候选框中的物体属于哪一类别，或者候选框中无物体而属于背景。

发明内容

本申请实施例提供一种识别物体类别的技术方案。

根据本申请实施例的一方面，提供一种用于识别物体类别的方法，包括：根据待检测图像的多个物体候选框中M个关键点的位置信息从相应的物体候选框中确定M个关键点邻域区域，其中，M小于或等于N个预设的物体类别的关键点的总个数，M和N均为正整数；根据所述M个关键点邻域区域，采用用于识别图像中物体类别的卷积神经网络模型，确定所述待检测图像中至少一个物体的类别信息。

可选地，结合本申请实施例提供的任一种用于识别物体类别的方法，其中，所述卷积神经网络模型包括K个卷积层、池化层和输出层，K为大于或等于2的正整数；所述根据所述M个关键点邻域区域，采用用于识别图像中物体类别的卷积神经网络模型，确定所述待检测图像中至少一个物体的类别信息，包括：从第K-1个卷积层输出与所述M个关键点一一对应的特征图；从第K个卷积层输出每一所述特征图转化后得到的关键点的响应图；分别将所述M个关键点邻域区域映射到相应的关键点的响应图上得到映射区域；从池化层输出对应于M个所述映射区域的池化结果；基于M个所述池化结果从所述输出层获得属于各预设的物体类别的第一置信度，并根据所述属于各预设的物体类别的第一置信度确定所述至少一个物体的类别信息。

可选地，结合本申请实施例提供的任一种用于识别物体类别的方法，其中，所述基于M个所述池化结果从所述输出层获得属于各预设的物体类别的第一置信度，包括：对属于同一预设的物体类别的关键点相应的池化结果求取平均值得到各个预设的物体类别的分数；根据所述各个预设的物体类别的分数从所述输出层获得属于各预设的物体类别的第一置信度。

可选地，结合本申请实施例提供的任一种用于识别物体类别的方法，其中，在所述根据所述M个关键点邻域区域，采用用于识别图像中物体类别的卷积神经网络模型，确定所述待检测图像中至少一个物体的类别信息之前，所述方法还包括：对卷积神经网络模型进行训练；

所述对卷积神经网络模型进行训练，包括：获取含有关键点的位置信息、物体框标注信息以及类别标注信息的样本图像；对所述样本图像进行卷积处理，获取卷积结果；根据所述物体框标注信息以及类别标注信息，判断所述卷积结果中的物体框位置信息和/或类别信息是否满足训练完成条件；若满足，则完成对所述卷积神经网络模型的训练；若不满足，则根据所述卷积结果中物体框位置信息和/或类别信息调整所述卷积神经网络模型的参数，并根据调整后的所述卷积神经网络模型的参数对所述卷积神经网络模型进行迭代训练，直至迭代训练后的物体框位置信息和/或类别信息满足所述训练完成条件。

可选地，结合本申请实施例提供的任一种用于识别物体类别的方法，其中，在所述根据待检测图像的多个物体候选框中M个关键点的位置信息从相应的物体候选框中确定M个关键点邻域区域之前，所述方法还包括：获取所述多个物体候选框的位置；根据所述多个物体候选框的位置获取所述多个物体候选框中M个关键点的位置信息。

可选地，结合本申请实施例提供的任一种用于识别物体类别的方法，其中，所述获取所述多个物体候选框的位置，包括：采用第一卷积神经网络获得所述多个物体候选框的位置信息，或者，采用选择性搜索方法获得所述多个物体候选框的位置信息，或者，采用边缘方块Edge Box方法获得所述多个物体候选框的位置信息。

可选地，结合本申请实施例提供的任一种用于识别物体类别的方法，其中，所述根据所述多个物体候选框的位置获取所述多个物体候选框中M个关键点的位置信息，还包括：根据所述多个物体候选框的位置获取每个关键点相对应的第二置信度，所述第二置信度为表征关键点是否存在于候选框中的可能性的数据；

所述根据所述M个关键点邻域区域，采用用于识别图像中物体类别的卷积神经网络模型，确定所述待检测图像中至少一个物体的类别信息，还包括：将第二置信度低于设定的置信度阈值的关键点对应的响应图的池化结果记为零。

可选地，结合本申请实施例提供的任一种用于识别物体类别的方法，其中，在所述根据待检测图像的多个物体候选框中M个关键点的位置信息从相应的物体候选框中确定M个关键点邻域区域之前，所述方法还包括：采用第二卷积神经网络对所述多个物体候选框位置纠正，获得纠正后的多个物体候选框的位置信息。

可选地，结合本申请实施例提供的任一种用于识别物体类别的方法，其中，当所述物体类别为非背景类时，所述根据待检测图像的多个物体候选框中M个关键点的位置信息从相应的物体候选框中确定M个关键点邻域区域，包括：根据相应的物体候选框的尺寸信息和预设的尺寸倍数，确定分别以所述M个关键点的位置为中心的M个矩形区域作为所述M个关键点邻域区域。

可选地，结合本申请实施例提供的任一种用于识别物体类别的方法，其中，当所述物体类别为背景类时，所述根据待检测图像的多个物体候选框中M个关键点的位置信息从相应的物体候选框中确定M个关键点邻域区域，包括：将与所述M个关键点的位置信息相应的物体候选框的区域确定为所述M个关键点邻域区域。

可选地，结合本申请实施例提供的任一种用于识别物体类别的方法，其中，所述第一卷积神经网络为区域建议网络RPN，和/或，所述第二卷积神经网络为快速区域卷积神经网络Faster R-CNN。

根据本申请实施例的另一方面，还提供一种用于识别物体类别的装置，包括：关键点邻域区域确定模块，用于根据待检测图像的多个物体候选框中M个关键点的位置信息从相应的物体候选框中确定M个关键点邻域区域，其中，M小于或等于N个预设的物体类别的关键点的总个数，M和N均为正整数；类别信息确定模块，用于根据所述M个关键点邻域区域，采用用于识别图像中物体类别的卷积神经网络模型，确定所述待检测图像中至少一个物体的类别信息。

可选地，结合本申请实施例提供的任一种用于识别物体类别的装置，其中，所述卷积神经网络模型包括K个卷积层、池化层和输出层，K为大于或等于2的正整数；

所述类别信息确定模块包括：特征图输出单元，用于从第K-1个卷积层输出与所述M个关键点一一对应的特征图；响应图输出单元，用于从第K个卷积层输出每一所述特征图转化后得到的关键点的响应图；映射区域获取单元，用于分别将所述M个关键点邻域区域映射到相应的关键点的响应图上得到映射区域；池化结果输出单元，用于从池化层输出对应于M个所述映射区域的池化结果；置信度获取及信息确定单元，用于基于M个所述池化结果从所述输出层获得属于各预设的物体类别的第一置信度，并根据所述属于各预设的物体类别的第一置信度确定所述至少一个物体的类别信息。

可选地，结合本申请实施例提供的任一种用于识别物体类别的装置，其中，所述置信度获取及信息确定单元用于对属于同一预设的物体类别的关键点相应的池化结果求取平均值得到各个预设的物体类别的分数；根据所述各个预设的物体类别的分数从所述输出层获得属于各预设的物体类别的第一置信度。

可选地，结合本申请实施例提供的任一种用于识别物体类别的装置，其中，所述装置还包括：模型训练模块，用于对卷积神经网络模型进行训练；

所述模型训练模块用于获取含有关键点的位置信息、物体框标注信息以及类别标注信息的样本图像；对所述样本图像进行卷积处理，获取卷积结果；根据所述物体框标注信息以及类别标注信息，判断所述卷积结果中的物体框位置信息和/或类别信息是否满足训练完成条件；若满足，则完成对所述卷积神经网络模型的训练；若不满足，则根据所述卷积结果中物体框位置信息和/或类别信息调整所述卷积神经网络模型的参数，并根据调整后的所述卷积神经网络模型的参数对所述卷积神经网络模型进行迭代训练，直至迭代训练后的物体框位置信息和/或类别信息满足所述训练完成条件。

可选地，结合本申请实施例提供的任一种用于识别物体类别的装置，其中，所述装置还包括：候选框位置获取模块，用于获取所述多个物体候选框的位置；关键点位置信息获取模块，用于根据所述多个物体候选框的位置获取所述多个物体候选框中M个关键点的位置信息。

可选地，结合本申请实施例提供的任一种用于识别物体类别的装置，其中，所述候选框位置获取模块用于采用第一卷积神经网络获得所述多个物体候选框的位置信息，或者，采用选择性搜索装置获得所述多个物体候选框的位置信息，或者，采用边缘方块Edge Box装置获得所述多个物体候选框的位置信息。

可选地，结合本申请实施例提供的任一种用于识别物体类别的装置，其中，所述关键点位置信息获取模块还用于根据所述多个物体候选框的位置获取每个关键点相对应的第二置信度，所述第二置信度为表征关键点是否存在于候选框中的可能性的数据；

所述类别信息确定模块还包括：池化结果标记单元，用于将第二置信度低于设定的置信度阈值的关键点对应的响应图的池化结果记为零。

可选地，结合本申请实施例提供的任一种用于识别物体类别的装置，其中，所述装置还包括：候选框位置纠正模块，用于采用第二卷积神经网络对所述多个物体候选框位置纠正，获得纠正后的多个物体候选框的位置信息。

可选地，结合本申请实施例提供的任一种用于识别物体类别的装置，其中，当所述物体类别为非背景类时，所述关键点邻域区域确定模块用于根据相应的物体候选框的尺寸信息和预设的尺寸倍数，确定分别以所述M个关键点的位置为中心的M个矩形区域作为所述M个关键点邻域区域。

可选地，结合本申请实施例提供的任一种用于识别物体类别的装置，其中，当所述物体类别为背景类时，所述关键点邻域区域确定模块用于将与所述M个关键点的位置信息相应的物体候选框的区域确定为所述M个关键点邻域区域。

可选地，结合本申请实施例提供的任一种用于识别物体类别的装置，其中，所述第一卷积神经网络为区域建议网络RPN，和/或，所述第二卷积神经网络为快速区域卷积神经网络Faster R-CNN。

根据本申请实施例的又一方面，提供一种电子设备。所述电子设备包括：处理器、存储器、通信元件和通信总线，所述处理器、所述存储器和所述通信元件通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如上述提供的用于识别物体类别的方法对应的操作。

根据本申请实施例的又一方面，还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序包括计算机指令，当所述计算机指令在设备的处理器中运行时，所述处理器执行用于实现任一实施方式的用于识别物体类别的方法中的步骤，例如，所述计算机可读存储介质存储有：用于根据待检测图像的多个物体候选框中M个关键点的位置信息从相应的物体候选框中确定M个关键点邻域区域的可执行指令；以及用于根据所述M个关键点邻域区域，采用用于识别图像中物体类别的卷积神经网络模型，确定所述待检测图像中至少一个物体的类别信息的可执行指令。

根据本申请实施例提供的用于识别物体类别的方法及装置、电子设备，根据物体候选框中关键点的位置信息从相应的物体候选框中确定关键点邻域区域，进一步利用关键点邻域区域以及用于识别图像中物体类别的卷积神经网络模型，确定待检测图像中物体的类别信息。通过利用关键点的位置信息，避免了候选框中的信息较为空泛化，以及为识别过程带来较大的信息损失的缺陷，进而有利于提高单类别或多类别物体的识别的识别准确性。尤其是对于多类别物体识别的情况下，有利于提高识别准确性。

附图说明

构成说明书的一部分的附图描述了本申请的实施例，并且连同描述一起用于解释本申请的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本申请，其中：

图1是示出根据本申请实施例的一用于识别物体类别的方法的流程图；

图2是示出根据本申请实施例的另一用于识别物体类别的方法的流程图；

图3是示出根据本申请实施例的一用于识别物体类别的装置的逻辑框图；

图4是示出根据本申请实施例的另一用于识别物体类别的装置的逻辑框图；

图5是示出根据本申请实施例的电子设备的结构示意图。

具体实施例

下面结合附图详细描述本申请的示例性实施例。

本领域技术人员可以理解，本方法实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

图1是示出根据本申请实施例的一用于识别物体类别的方法的流程图。通过包括用于识别物体类别的装置的设备执行所述方法。

参照图1，在步骤S110，根据待检测图像的多个物体候选框中M个关键点的位置信息从相应的物体候选框中确定M个关键点邻域区域。

这里，物体候选框可以是图像中包含可能是物体的外接矩形框。待检测图像可以是图片、照片、视频中某一帧图像等，但不限于此。例如，利用移动终端上的摄像头拍摄了一张狗的照片，那么该张照片就是待检测图像，在该张照片上包含狗的外接矩形框可以是物体候选框。如果该张照片中还包括如椅子等其他物体，同样地，可以采用物体候选框对椅子等其他物体定位。由此，作为待检测图像的该张照片可以含有多个物体候选框。

其中，M小于或等于N个预设的物体类别的关键点的总个数，例如，M为N个预设的物体类别的关键点的总个数，M和N均为正整数，每个物体候选框中至少有一个物体类别的至少一个关键点，例如，0＜N≤200，200＜M≤4000。

举例来说，以常用物体检测数据集(如PASCAL VOC)为例，预先设定的物体类别有人、狗、火车、椅子等20个类别，可统称为非背景类，此外，在没有这20个类别物体的情况下定义为背景类。由此，物体识别问题转化为一个21类别的分类问题。对于每个类别，定义其关键点的个数，例如，类别为人时，可定义头、左手、右手、左肩、右肩等11个关键点，类别为狗时，可定义头、四肢、尾巴等10个关键点。关键点的位置信息可以是关键点的坐标数据，物体候选框中关键点的位置信息可通过关键点预测技术获得。例如，利用卷积神经网络等方法进行关键点预测。一个可选的例子，本申请可以针对预先设定的每一个物体类别，利用卷积神经网络预测出一组关键点，从而一组关键点对应一个物体类别，且每一组关键点中的每一个关键点都对应有其在待检测图像中的位置信息。

在得到了M个关键点的位置信息之后，需要确定后续做池化处理的关键点邻域区域取多大。本申请中的关键点邻域区域是指包含有关键点以及关键点周边一定范围的区域。

由此，当物体类别为非背景类时，根据本申请示例性实施例，步骤S110可包括：根据相应的物体候选框的尺寸信息和预设的尺寸倍数，确定分别将以M个关键点的位置为中心的M个矩形区域作为M个关键点邻域区域。

当物体类别为背景类时，根据本申请示例性实施例，步骤S110可包括：将与M个关键点的位置信息相应的物体候选框的区域确定为M个关键点邻域区域。

例如，可以选取物体候选框的宽、高的四分之一到十分之一之间的一个数值作为关键点邻域区域的宽、高。假设物体候选框的宽为w，高为h，那么可取以关键点为中心，宽为w/5，高为h/5的区域作为该关键点的关键点邻域区域。而背景类别与上述处理不同，而是取整个物体候选框的区域作为关键点邻域区域。

在步骤S120，根据M个关键点邻域区域，采用用于识别图像中物体类别的卷积神经网络模型，确定待检测图像中至少一个物体的类别信息。

在具体的实现方式中，以200个关键点为例，待检测图像在经过卷积神经网络模型的多个卷积层得到的特征图的基础上，再加一层卷积处理使得200个特征图转化为200个关键点的响应图。200个关键点邻域区域映射到相应的关键点的响应图上得到200个映射区域，然后对这200个映射区域做池化处理得到池化结果，同一类别的各池化结果再等权重投票(即求取平均值)，得到该类别的分数。包括背景类别在内的21个分数做softmax，得到任一物体候选框属于各类别的置信度。一般选取置信度最高的类别，作为物体候选框中物体的类别信息。如果背景类别的置信度最高，则确定物体候选框中没有预设类别的物体。由此，获得了物体候选框中物体的类别信息，即是确定了待检测图像中物体的类别信息。例如，假设某一待检测图像中含有五个物体候选框，其中四个物体候选框属于背景类别的置信度最高，一个物体候选框属于人这一类别的置信度最高，那么，利用本实施例的方法识别出的该图像中物体的类别信息就是人。

通过本实施例提供的用于识别物体类别的方法，通过获得含有多个物体候选框的待检测图像，进一步根据物体候选框中关键点的位置信息从相应的物体候选框中确定关键点邻域区域，最后，利用关键点邻域区域以及用于识别图像中物体类别的卷积神经网络模型，确定待检测图像中物体的类别信息。通过利用关键点的位置信息，避免了候选框中的信息较为空泛化，以及为识别过程带来较大的信息损失的缺陷，进而有利于提高单类别或多类别物体的识别准确性。尤其有利于提高多类别物体的识别的准确性。

可选地，前述卷积神经网络模型具体包括K个卷积层、池化层和输出层，K为正整数(如K为大于或等于2的正整数)。相应地，根据本申请示例性实施例，步骤S120可包括：从第K-1个卷积层输出与M个关键点一一对应的特征图；从第K个卷积层输出每一特征图转化后得到的关键点的响应图；分别将M个关键点邻域区域映射到相应的关键点的响应图上得到映射区域；从池化层输出对应于M个映射区域的池化结果；基于M个池化结果从输出层获得属于各预设的物体类别的第一置信度，并根据属于各预设的物体类别的第一置信度确定至少一个物体的类别信息。

上述过程中，所述基于M个池化结果从输出层获得属于各预设的物体类别的第一置信度的处理包括：对属于同一预设的物体类别的关键点相应的池化结果求取平均值得到各个预设的物体类别的分数；根据各个预设的物体类别的分数从输出层获得属于各预设的物体类别的第一置信度。

由此，本实施例还具有如下技术效果：卷积神经网络模型的最后一层卷积层产生的用于池化的特征图是各类别物体各关键点的响应图，不同类别的特征图数目取决于该类别定义的关键点数目，并且，在特征图上对各类别各关键点邻域区域做池化，可见，池化区域由关键点的位置决定，不同类别的池化区域不同，从而更充分有效地利用了辅助识别信息(即关键点的位置)，进一步有利于提升物体识别的准确率。

可选地，在步骤S120之前，该用于识别物体类别的方法还包括：对卷积神经网络模型进行训练。

上述对卷积神经网络模型的训练的处理可包括：获取含有关键点的位置信息、物体框标注信息以及类别标注信息的样本图像；对所述样本图像进行卷积处理，获取卷积结果；根据所述物体框标注信息以及类别标注信息，判断所述卷积结果中的物体框位置信息和/或类别信息是否满足训练完成条件；若满足，则完成对所述卷积神经网络模型的训练；若不满足，则根据所述卷积结果中物体框位置信息和/或类别信息调整所述卷积神经网络模型的参数，并根据调整后的所述卷积神经网络模型的参数对所述卷积神经网络模型进行迭代训练，直至迭代训练后的物体框位置信息和/或类别信息满足所述训练完成条件。一个可选的具体例子，获取含有关键点的位置信息、物体框标注信息以及类别标注信息的样本图像；根据样本图像中的关键点的位置信息确定各关键点邻域区域；从第K-1个卷积层输出与关键点一一对应的特征图；从第K个卷积层输出每一特征图转化后得到的关键点的响应图；分别将各关键点邻域区域映射到相应的关键点的响应图上得到映射区域；从池化层输出对应于各映射区域的池化结果；基于各池化结果从输出层获得属于各预设的物体类别的第一置信度，并根据属于各预设的物体类别的第一置信度确定样本图像中至少一个物体的类别信息；根据样本图像的物体框标注信息及类别标注信息，判断卷积神经网络模型输出的识别结果信息是否满足训练完成条件(例如，连续预定次数损失函数的计算结果的变化是否小于预设值)；若满足(例如，连续预定次数损失函数的计算结果的变化小于预设值)，则完成对卷积神经网络模型的训练；若不满足(例如，连续预定次数损失函数的计算结果的变化大于或等于预设值)，则根据卷积神经网络模型输出的识别结果信息调整卷积神经网络模型的参数，并根据调整后的卷积神经网络模型的参数对卷积神经网络模型进行迭代训练，直至卷积神经网络模型输出的识别结果信息满足训练完成条件。本申请中的损失函数可以是针对卷积神经网络模型输出的识别结果信息与样本图像中的物体框标注信息和类别标注信息的偏差而构造的偏差函数。

在具体的实现方式中，训练数据可以使用公开数据集如PASCAL VOC的图片。PASCAL VOC中的物体有20个类别。模型训练时，每次迭代输入至少一张图片以及通过如卷积神经网络等方法预测出的可能的各类别的关键点位置，同时，将标注好的表征包含物体的真实区域的标准位置信息(即上述物体框标注信息)和标注好的表征物体真实类别的标准类别信息(即上述类别标注信息)作为监督信息也输入到卷积神经网络模型中。在卷积神经网络的输出层后面接上loss(损失)层来计算损失函数，通过随机梯度下降法不断迭代使得网络参数不断更新直到收敛。Loss层的作用包括以网络输出的物体框位置信息以及标准位置信息为输入，求其欧氏距离或类似的距离作为loss，而分类层(如输出层中的全连接层)把网络分类结果(即各类别的得分)和标准类别信息作为输入，以softmaxloss作为损失函数。

通过对卷积神经网络模型进行上述训练，卷积神经网络模型可以基于关键点邻域区域对待检测图像进行特征提取和物体框中物体分类，从而具有确定待检测图像中物体的类别信息的功能。

图2是示出根据本申请实施例的另一用于识别物体类别的方法的流程图。通过包括用于识别物体类别的装置的设备执行所述方法。

参照图2，在步骤S210，获取多个物体候选框的位置。

具体地，获取物体候选框的位置也就是物体定位，物体定位是把图像中的物体的外接矩形框找到。物体候选框的位置通常采用外接矩形的对角线两个端点的坐标数据来表示。

根据本申请示例性实施例，步骤S210可包括：采用第一卷积神经网络获得多个物体候选框的位置信息，或者，采用选择性搜索(Selective Search)方法获得多个物体候选框的位置信息，或者，采用边缘方块(Edge Box)方法获得多个物体候选框的位置信息。需要说明的是，第一卷积神经网络可以为区域建设网络(Region Proposal Network，RPN)。

通过上述Selective Search、RPN等方法获得的物体候选框的位置为后续关键点预测处理提供了数据基础，同时有利于提高关键点预测结果的精准性。

在步骤S220，采用第二卷积神经网络对多个物体候选框位置纠正，获得纠正后的多个物体候选框的位置信息。

这里，第二卷积神经网络可以为快速区域卷积神经网络(Faster Region Convolutional Neural Network，Faster R-CNN)。利用Faster R-CNN的方法，可以将物体候选框映射到特征图上池化出来再提取特征进行回归。这一步骤的处理可以使得物体候选框的位置更准确地贴合物体。在实际应用中，物体候选框位置的纠正还可以利用R-FCN的方法把候选框化为7*7的格子分别在不同通道池化再进行回归。

在步骤S230，根据多个物体候选框的位置获取多个物体候选框中M个关键点的位置信息。

具体地，根据物体候选框的位置获得物体候选框中关键点的位置信息可以认为是关键点预测的处理。关键点预测的处理可以利用卷积神经网络等方法实现。

在具体的实现方式中，首先，需要定义每一类别的物体的关键点。举例来说，以常用物体检测数据集(如PASCAL VOC)为例，预先设定的物体类别有人、狗、火车、椅子等20个类别，此外，并没有这20个类别物体的情况下定义为背景类。由此，物体识别问题转化为一个21类别的分类问题。对于每个类别，定义其关键点的个数，例如，类别为人时，可定义头、左手、右手、左肩、右肩等11个关键点，类别为狗时，可定义头、四肢、尾巴等10个关键点；其次，可训练一深层卷积神经网络，在所有卷积层之后得到的特征图上，将物体候选框的位置映射到特征图上对应区域，对映射得到的相应区域进行池化，得到卷积神经网络学习出来的关键点分布的特征，关键点分布的特征再通过回归的方式得到物体候选框中的关键点。由于在这一步骤是没有类别信息的，需要对20类物体可能的关键点都进行回归，而背景类直接选取中心作为其关键点，不做回归预测。物体候选框中可能并没有全部的关键点，或者存在关键点被遮挡的问题，但通常仍然会有一个关键点预测的结果。也就是说，假设21个预设的物体类别的关键点的总个数为200，那么根据多个物体候选框的位置就会获得200个关键点的位置信息。

可选地，步骤S230还包括：根据多个物体候选框的位置获取每个关键点相对应的第二置信度，所述第二置信度为表征关键点是否存在于候选框中的可能性的数据。也就是说，在预测关键点位置的同时会预测每个关键点的置信度(如第二置信度)，预测出的第二置信度可以为后续哪些关键点邻域区域做池化处理提供判断依据。

在步骤S240，根据待检测图像的多个物体候选框中M个关键点的位置信息从相应的物体候选框中确定M个关键点邻域区域。

其中，上述步骤S240的步骤内容与上述实施例一中步骤S110的步骤内容相同，在此不再赘述。

在步骤S250，根据M个关键点邻域区域，采用用于识别图像中物体类别的卷积神经网络模型，确定待检测图像中至少一个物体的类别信息。

由于前述步骤S230中除了获得M个关键点的位置信息外，还可根据多个物体候选框的位置获得每个关键点相对应的第二置信度。相应地，步骤S250还可包括：将置信度(如第二置信度)不满足预定要求的关键点对应的响应图的池化结果记为零。对应于上述预测出的第二置信度为后续哪些关键点邻域区域做池化处理提供判断依据的说明，具体地，置信度(如第二置信度)低于设定的置信度阈值的关键点被视为无效，不会对其邻域做后续的池化处理，而是将视为无效的关键点对应的响应图的池化结果直接记为零。这一处理使得根据关键点邻域区域和卷积神经网络模型确定待检测图像中物体的类别信息的处理更加简化，无需所有的关键点邻域区域都做池化处理。

通过本实施例提供的用于识别物体类别的方法，在上述实施例的基础上，还具有如下技术效果：

一方面，利用RPN、Selective Search、Edge Box等方法有利于准确地进行物体定位，从而为后续关键点预测处理提供了数据基础，同时有利于使关键点预测的结果更加精准；

另一方面，利用Faster R-CNN方法进行候选框位置纠正，有利于进一步提高物体定位的准确度；

再一方面，在预测关键点位置的同时还预测每个关键点的置信度，预测出的置信度(如第二置信度)可以为后续哪些关键点邻域区域做池化处理提供判断依据，从而有利于使根据关键点邻域区域和卷积神经网络模型确定待检测图像中物体的类别信息的处理更加简化。

基于相同的技术构思，图3是示出根据本申请实施例的用于识别物体类别的装置的逻辑框图。参照图3，该用于识别物体类别的装置包括关键点邻域区域确定模块310和类别信息确定模块320。

关键点邻域区域确定模块310用于根据待检测图像的多个物体候选框中M个关键点的位置信息从相应的物体候选框中确定M个关键点邻域区域，其中，M小于或等于N个预设的物体类别的关键点的总个数，例如，M为N个预设的物体类别的关键点的总个数，M和N均为正整数。

类别信息确定模块320用于根据所述M个关键点邻域区域，采用用于识别图像中物体类别的卷积神经网络模型，确定所述待检测图像中至少一个物体的类别信息。

本实施例提供的用于识别物体类别的装置，通过根据物体候选框中关键点的位置信息从相应的物体候选框中确定关键点邻域区域，进一步利用关键点邻域区域以及用于识别图像中物体类别的卷积神经网络模型，确定待检测图像中物体的类别信息。通过利用关键点的位置信息，有利于避免候选框中的信息较为空泛化，以及为识别过程带来较大的信息损失的缺陷，进而有利于提高在单类别或多类别物体的识别准确性。尤其是对于多类别物体识别的情况下，有利于提高识别准确性。

基于相同的技术构思，图4是示出根据本申请实施例的用于识别物体类别的装置的逻辑框图。

参照图4，可选地，卷积神经网络模型包括K个卷积层、池化层和输出层，K为正整数(如K为大于或等于2的正整数)；类别信息确定模块320包括：

特征图输出单元3201用于从第K-1个卷积层输出与M个关键点一一对应的特征图。

响应图输出单元3202用于从第K个卷积层输出每一特征图转化后得到的关键点的响应图。

映射区域获取单元3203用于分别将M个关键点邻域区域映射到相应的关键点的响应图上得到映射区域。

池化结果输出单元3204用于从池化层输出对应于M个映射区域的池化结果。

置信度获取及信息确定单元3205用于基于M个池化结果从输出层获得属于各预设的物体类别的第一置信度，并根据属于各预设的物体类别的第一置信度确定至少一个物体的类别信息。

可选地，置信度获取及信息确定单元3205用于对属于同一预设的物体类别的关键点相应的池化结果求取平均值得到各个预设的物体类别的分数；根据各个预设的物体类别的分数从输出层获得属于各预设的物体类别的第一置信度。

可选地，用于识别物体类别的装置还包括：模型训练模块(图中未示出)用于对卷积神经网络模型进行训练。

模型训练模块可用于获取含有关键点的位置信息、物体框标注信息以及类别标注信息的样本图像；对样本图像进行卷积处理，获取卷积结果；根据物体框标注信息以及类别标注信息，判断卷积结果中的物体框位置信息和/或类别信息是否满足训练完成条件；若满足，则完成对卷积神经网络模型的训练；若不满足，则根据卷积结果中物体框位置信息和/或类别信息调整卷积神经网络模型的参数，并根据调整后的卷积神经网络模型的参数对卷积神经网络模型进行迭代训练，直至迭代训练后的物体框位置信息和/或类别信息满足训练完成条件。

可选地，用于识别物体类别的装置还包括：

候选框位置获取模块330用于获取多个物体候选框的位置。

关键点位置信息获取模块340用于根据多个物体候选框的位置获取多个物体候选框中M个关键点的位置信息。

可选地，候选框位置获取模块330用于采用第一卷积神经网络获得多个物体候选框的位置信息，或者，采用选择性搜索装置获得多个物体候选框的位置信息，或者，采用边缘方块Edge Box装置获得多个物体候选框的位置信息。

可选地，关键点位置信息获取模块340还用于根据多个物体候选框的位置获取每个关键点相对应的第二置信度，第二置信度为表征关键点是否存在于候选框中的可能性的数据。

相应地，类别信息确定模块320还可以包括：池化结果标记单元3206用于将第二置信度不满足预定要求的关键点对应的响应图的池化结果记为零。

可选地，用于识别物体类别的装置还包括：候选框位置纠正模块350用于采用第二卷积神经网络对多个物体候选框位置纠正，获得纠正后的多个物体候选框的位置信息。

可选地，当物体类别为非背景类时，关键点邻域区域确定模块310用于根据相应的物体候选框的尺寸信息和预设的尺寸倍数，确定分别以M个关键点的位置为中心的M个矩形区域作为M个关键点邻域区域。

可选地，当物体类别为背景类时，关键点邻域区域确定模块310用于将与M个关键点的位置信息相应的物体候选框的区域确定为M个关键点邻域区域。

可选地，第一卷积神经网络为区域建议网络RPN，和/或，第二卷积神经网络为快速区域卷积神经网络Faster R-CNN。

本实施例用于识别物体类别的装置用于实现前述多个方法实施例中相应的用于识别物体类别的方法，并具有相应的方法实施例的有益效果，在此不再赘述。

此外，本实施例的用于识别物体类别的装置可以设置于适当的电子设备中，包括但不限于移动终端、PC等。

本申请实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图5，其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备500的结构示意图：如图5所示，电子设备500包括一个或多个处理器、通信元件等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)501，和/或一个或多个图像处理器(GPU)513等，处理器可以根据存储在只读存储器(ROM)502中的可执行指令或者从存储部分508加载到随机访问存储器(RAM)503中的可执行指令而执行各种适当的动作和处理。所述通信元件可包括但不限于通信部512和通信部分509。

处理器可与只读存储器502和/或随机访问存储器503中通信以执行可执行指令，通过总线504与通信元件相连、并经通信元件与其他目标设备通信，从而完成本申请实施例提供的任一项方法对应的操作，例如，根据待检测图像的多个物体候选框中M个关键点的位置信息从相应的物体候选框中确定M个关键点邻域区域，其中，M小于或等于N个预设的物体类别的关键点的总个数，例如，M为N个预设的物体类别的关键点的总个数，M和N均为正整数；根据所述M个关键点邻域区域，采用用于识别图像中物体类别的卷积神经网络模型，确定所述待检测图像中至少一个物体的类别信息。

此外，在RAM 503中，还可存储有装置操作所需的各种程序和数据。CPU501、ROM502以及RAM503通过总线504彼此相连。在有RAM503的情况下，ROM502为可选模块。RAM503存储可执行指令，或在运行时向ROM502中写入可执行指令，可执行指令使处理器501执行上述通信方法对应的操作。输入/输出(I/O)接口505也连接至总线504。通信部512可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡。通信部512可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

需要说明的，如图5所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图5的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信部可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本申请公开的保护范围。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令，例如，根据待检测图像的多个物体候选框中M个关键点的位置信息从相应的物体候选框中确定M个关键点邻域区域，其中，M小于或等于N个预设的物体类别的关键点的总个数，例如，M为N个预设的物体类别的关键点的总个数，M和N均为正整数；根据所述M个关键点邻域区域，采用用于识别图像中物体类别的卷积神经网络模型，确定所述待检测图像中至少一个物体的类别信息。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时，执行本申请的方法中限定的上述功能。

可能以许多方式来实现本申请的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本申请的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明，本申请的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本申请实施为记录在记录介质中的程序，这些程序包括用于实现根据本申请的方法的机器可读指令。因而，本申请还覆盖存储用于执行根据本申请的方法的程序的记录介质。

本申请的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本申请限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本申请的原理和实际应用，并且使本领域的普通技术人员能够理解本申请从而设计适于特定用途的带有各种修改的各种实施例。

Claims

一种用于识别物体类别的方法，其特征在于，包括：

根据待检测图像的多个物体候选框中M个关键点的位置信息，从相应的物体候选框中确定M个关键点邻域区域，其中，M小于或等于N个预设的物体类别的关键点的总个数，M和N均为正整数；

根据所述M个关键点邻域区域，采用用于识别图像中物体类别的卷积神经网络模型，确定所述待检测图像中至少一个物体的类别信息。
根据权利要求1所述的方法，其特征在于，所述卷积神经网络模型包括K个卷积层、池化层和输出层，K为大于或等于2的正整数；

所述根据所述M个关键点邻域区域，采用用于识别图像中物体类别的卷积神经网络模型，确定所述待检测图像中至少一个物体的类别信息，包括：

从第K-1个卷积层输出与所述M个关键点一一对应的特征图；

从第K个卷积层输出每一所述特征图转化后得到的关键点的响应图；

分别将所述M个关键点邻域区域映射到相应的关键点的响应图上得到映射区域；

从池化层输出对应于M个所述映射区域的池化结果；

基于M个所述池化结果从所述输出层获得属于各预设的物体类别的第一置信度，并根据所述属于各预设的物体类别的第一置信度确定所述至少一个物体的类别信息。
根据权利要求2所述的方法，其特征在于，所述基于M个所述池化结果从所述输出层获得属于各预设的物体类别的第一置信度，包括：

对属于同一预设的物体类别的关键点相应的池化结果求取平均值得到各个预设的物体类别的分数；

根据所述各个预设的物体类别的分数从所述输出层获得属于各预设的物体类别的第一置信度。
根据权利要求1-3中任一项所述的方法，其特征在于，在所述根据所述M个关键点邻域区域，采用用于识别图像中物体类别的卷积神经网络模型，确定所述待检测图像中至少一个物体的类别信息之前，所述方法还包括：对卷积神经网络模型进行训练；

所述对卷积神经网络模型进行训练，包括：

获取含有关键点的位置信息、物体框标注信息以及类别标注信息的样本图像；

对所述样本图像进行卷积处理，获取卷积结果；

根据所述物体框标注信息以及类别标注信息，判断所述卷积结果中的物体框位置信息和/或类别信息是否满足训练完成条件；

若满足，则完成对所述卷积神经网络模型的训练；

若不满足，则根据所述卷积结果中物体框位置信息和/或类别信息，调整所述卷积神经网络模型的参数，并根据调整后的所述卷积神经网络模型的参数，对所述卷积神经网络模型进行迭代训练，直至迭代训练后的物体框位置信息和/或类别信息满足所述训练完成条件。
根据权利要求1-4中任一项所述的方法，其特征在于，在所述根据待检测图像的多个物体候选框中M个关键点的位置信息，从相应的物体候选框中确定M个关键点邻域区域之前，所述方法还包括：

获取所述多个物体候选框的位置；

根据所述多个物体候选框的位置，获取所述多个物体候选框中M个关键点的位置信息。
根据权利要求5所述的方法，其特征在于，所述获取所述多个物体候选框的位置，包括：

采用第一卷积神经网络获得所述多个物体候选框的位置信息，或者，

采用选择性搜索方法获得所述多个物体候选框的位置信息，或者，

采用边缘方块方法获得所述多个物体候选框的位置信息。
根据权利要求5或6所述的方法，其特征在于，所述根据所述多个物体候选框的位置，获取所述多个物体候选框中M个关键点的位置信息，还包括：根据所述多个物体候选框的位置，获取每个关键点相对应的第二置信度，所述第二置信度为表征关键点是否存在于候选框中的可能性的数据；

所述根据所述M个关键点邻域区域，采用用于识别图像中物体类别的卷积神经网络模型，确定所述待检测图像中至少一个物体的类别信息，还包括：将第二置信度低于设定的置信度阈值的关键点对应的响应图的池化结果记为零。
根据权利要求6或7所述的方法，其特征在于，在所述根据待检测图像的多个物体候选框中M个关键点的位置信息，从相应的物体候选框中确定M个关键点邻域区域之前，所述方法还包括：

采用第二卷积神经网络对所述多个物体候选框位置纠正，获得纠正后的多个物体候选框的位置信息。
根据权利要求1-8中任一项所述的方法，其特征在于，当所述物体类别为非背景类时，所述根据待检测图像的多个物体候选框中M个关键点的位置信息，从相应的物体候选框中确定M个关键点邻域区域，包括：

根据相应的物体候选框的尺寸信息和预设的尺寸倍数，确定分别以所述M个关键点的位置为中心的M个矩形区域作为所述M个关键点邻域区域。
根据权利要求1-8中任一项所述的方法，其特征在于，当所述物体类别为背景类时，所述根据待检测图像的多个物体候选框中M个关键点的位置信息，从相应的物体候选框中确定M个关键点邻域区域，包括：

将与所述M个关键点的位置信息相应的物体候选框的区域，确定为所述M个关键点邻域区域。
根据权利要求8所述的方法，其特征在于，所述第一卷积神经网络为区域建议网络RPN，和/或，所述第二卷积神经网络为快速区域卷积神经网络Faster R-CNN。
一种用于识别物体类别的装置，其特征在于，包括：

关键点邻域区域确定模块，用于根据待检测图像的多个物体候选框中M个关键点的位置信息，从相应的物体候选框中确定M个关键点邻域区域，其中，M小于或等于N个预设的物体类别的关键点的总个数，M和N均为正整数；

类别信息确定模块，用于根据所述M个关键点邻域区域，采用用于识别图像中物体类别的卷积神经网络模型，确定所述待检测图像中至少一个物体的类别信息。
根据权利要求12所述的装置，其特征在于，所述卷积神经网络模型包括K个卷积层、池化层和输出层，K为大于或等于2的正整数；

所述类别信息确定模块包括：

特征图输出单元，用于从第K-1个卷积层输出与所述M个关键点一一对应的特征图；

响应图输出单元，用于从第K个卷积层输出每一所述特征图转化后得到的关键点的响应图；

映射区域获取单元，用于分别将所述M个关键点邻域区域映射到相应的关键点的响应图上得到映射区域；

池化结果输出单元，用于从池化层输出对应于M个所述映射区域的池化结果；

置信度获取及信息确定单元，用于基于M个所述池化结果从所述输出层获得属于各预设的物体类别的第一置信度，并根据所述属于各预设的物体类别的第一置信度确定所述至少一个物体的类别信息。
根据权利要求13所述的装置，其特征在于，所述置信度获取及信息确定单元用于对属于同一预设的物体类别的关键点相应的池化结果求取平均值，得到各个预设的物体类别的分数；根据所述各个预设的物体类别的分数，从所述输出层获得属于各预设的物体类别的第一置信度。
根据权利要求12-14中任一项所述的装置，其特征在于，所述装置还包括：模型训练模块，用于对卷积神经网络模型进行训练；

所述模型训练模块用于获取含有关键点的位置信息、物体框标注信息以及类别标注信息的样本图像；对所述样本图像进行卷积处理，获取卷积结果；根据所述物体框标注信息以及类别标注信息，判断所述卷积结果中的物体框位置信息和/或类别信息是否满足训练完成条件；若满足，则完成对所述卷积神经网络模型的训练；若不满足，则根据所述卷积结果中物体框位置信息和/或类别信息调整所述卷积神经网络模型的参数，并根据调整后的所述卷积神经网络模型的参数，对所述卷积神经网络模型进行迭代训练，直至迭代训练后的物体框位置信息和/或类别信息满足所述训练完成条件。
根据权利要求12-15中任一项所述的装置，其特征在于，所述装置还包括：

候选框位置获取模块，用于获取所述多个物体候选框的位置；

关键点位置信息获取模块，用于根据所述多个物体候选框的位置，获取所述多个物体候选框中M个关键点的位置信息。
根据权利要求16所述的装置，其特征在于，所述候选框位置获取模块用于采用第一卷积神经网络获得所述多个物体候选框的位置信息，或者，采用选择性搜索装置获得所述多个物体候选框的位置信息，或者，采用边缘方块装置获得所述多个物体候选框的位置信息。
根据权利要求16或17所述的装置，其特征在于，所述关键点位置信息获取模块还用于根据所述多个物体候选框的位置，获取每个关键点相对应的第二置信度，所述第二置信度为表征关键点是否存在于候选框中的可能性的数据；

所述类别信息确定模块还包括：池化结果标记单元，用于将第二置信度低于设定的置信度阈值的关键点对应的响应图的池化结果记为零。
根据权利要求17或18所述的装置，其特征在于，所述装置还包括：

候选框位置纠正模块，用于采用第二卷积神经网络对所述多个物体候选框位置纠正，获得纠正后的多个物体候选框的位置信息。
根据权利要求12-19中任一项所述的装置，其特征在于，当所述物体类别为非背景类时，所述关键点邻域区域确定模块用于根据相应的物体候选框的尺寸信息和预设的尺寸倍数，确定分别以所述M个关键点的位置为中心的M个矩形区域作为所述M个关键点邻域区域。
根据权利要求12-19中任一项所述的装置，其特征在于，当所述物体类别为背景类时，所述关键点邻域区域确定模块用于将与所述M个关键点的位置信息相应的物体候选框的区域确定为所述M个关键点邻域区域。
根据权利要求17所述的装置，其特征在于，所述第一卷积神经网络为区域建议网络RPN，和/或，所述第二卷积神经网络为快速区域卷积神经网络Faster R-CNN。
一种电子设备，包括：处理器、存储器、通信元件和通信总线，所述处理器、所述存储器和所述通信元件通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-11中任一项所述的用于识别物体类别的方法中的步骤。
一种计算机程序，包括计算机指令，当所述计算机指令在设备的处理器中运行时，所述处理器执行用于实现权利要求1-11中的任一权利要求所述的用于识别物体类别的方法中的步骤。
一种计算机可读存储介质，存储有计算机程序，所述计算机程序包括计算机指令，当所述计算机指令在电子设备中运行时，所述电子设备中的处理器执行用于实现权利要求1-11中的任一权利要求所述的用于识别物体类别的方法中的步骤。