CN111898566A

CN111898566A - 姿态估计方法、装置、电子设备和存储介质

Info

Publication number: CN111898566A
Application number: CN202010771698.2A
Authority: CN
Inventors: 高联丽; 代燕; 王轩瀚; 宋井宽
Original assignee: Chengdu Jingzhili Technology Co ltd; University of Electronic Science and Technology of China
Current assignee: Chengdu Jingzhili Technology Co ltd; University of Electronic Science and Technology of China
Priority date: 2020-08-04
Filing date: 2020-08-04
Publication date: 2020-11-06
Anticipated expiration: 2040-08-04
Also published as: CN111898566B

Abstract

本发明公开了一种姿态估计方法、装置、电子设备和存储介质，以解决提高拥挤场景下姿态估计准确度的技术问题。该方法包括：从行人检测框所限定的区域图像中提取视觉特征；根据视觉特征识别区域图像中所有关节并建立候选关节集；对候选关节集中所有关节进行评估并获得区域图像中目标行人实例的目标关节信息；根据目标关节信息生成目标关节估计结果进而生成对应目标行人实例的估计姿态。通过提取的视觉特征识别区域图像中所有关节并建立候选关节集，这时，候选关节集中既包括目标关节又干扰关节，然后再对候选关节集中所有关节进行评估并获得区域图像中目标行人实例的目标关节信息，从而提高拥挤场景下姿态估计准确度。

Description

姿态估计方法、装置、电子设备和存储介质

技术领域

本发明涉及图像处理技术领域，具体而言，涉及一种姿态估计方法、装置、电子设备和存储介质。

背景技术

人体姿态估计是计算机视觉中一个基础而又富有挑战性的问题，其目的是从单张RGB图像中，精确地识别出多个人体的位置以及骨架上的稀疏的关节位置。随着深度卷积神经网络 (CNNs)的应用和MSCOCO等大规模数据集的发布，姿态估计方法已经取得了较大的发展。它们大致可以分为bottom-up(即自底向上，下同)和top-down(即自顶向下，下同)的方法。对于bottom-up的方法，首先检测出所有的人体关节，然后将它们分组到不同的人体实例，问题大多集中在如何将候选关节分组到单个人体实例。对于top-down的方法，思路正好相反，首先定位所有人体实例，然后对每个行人做姿态估计，方法主要集中在如何设计更高效的单人姿势估计(SPPE)。相较于不需要检测人体实例的bottom-up方法，top-down方法通常具有更好的姿态估计性能，但推理速度较低。

尽管现有top-down姿态估计方法在简单场景下性能表现较佳，但针对“拥挤场景”仍面临着巨大挑战。所谓“拥挤场景”，就是RGB图像捕捉到具有高度重叠的行人、严重遮挡、不同姿势和多尺度变化的复杂现实场景。针对拥挤场景，现有top-down姿态估计方法会遇到如下两个技术问题：

1)行人检测框包含多个关节。目前top-down的方法假设每个检测到的行人实例仅包含属于目标行人的关节，即目标关节。但拥挤场景通常包含高度遮挡或重叠的行人，这意味着除了目标关节之外，生成的行人检测框还包含属于其他行人实例的关节，即干扰关节。基于上述的假设，传统top-down的方法可能为同一个人的关节分配不同的行人标签，这样一旦将干扰关节确定为目标关节，将导致不可逆的错误。另外，这些干扰关节也将极大可能被视为其他行人的目标关节，所以在增强目标关节响应的同时，本实施例也不能过度抑制干扰关节。由于干扰关节会极大地混淆目标关节的预测，因此如何从给定行人检测中剔除干扰关节是一个非常具有挑战性的技术问题。

2)拥挤场景中的模糊关节。传统的top-down的姿势估计方法高度依赖于姿态视觉特征的提取，因此从区域图像提取的姿态视觉特征仅包含视觉表观，缺乏人体结构的先验知识。当面对拥挤场景导致的模糊关节，比如由于严重遮挡而不可见的关节、或具有高度相似视觉表观的关节，姿势估计器可能会失败。但是，人类可以通过查看周围区域的情况来很好地估计这类模糊关节。例如，基于人类常识的推理能力，人们在看到“头部”和“肩部”后可以轻松推断“颈部”的位置。因此，另一个关键的技术问题是如何将常识知识的建模能力嵌入到当前的姿态估计方法。

发明内容

本发明所要解决的技术问题是：提供一种姿态估计方法、装置、电子设备和存储介质，以提高拥挤场景下姿态估计的准确度。

本发明解决上述技术问题所采用的技术方案是：一种姿态估计方法，包括：从行人检测框所限定的区域图像中提取视觉特征；根据视觉特征识别区域图像中所有关节并建立候选关节集；对候选关节集中所有关节进行评估并获得区域图像中目标行人实例的目标关节信息；根据目标关节信息生成目标关节估计结果进而生成对应目标行人实例的估计姿态。

上述姿态估计方法通过提取的视觉特征识别区域图像中所有关节并建立候选关节集，这时，候选关节集中既包括目标关节又包括干扰关节，然后再对候选关节集中所有关节进行评估并获得区域图像中目标行人实例的目标关节信息，这样就避免了传统top-down的方法可能为同一个人的关节分配不同的行人标签的问题，从而提高拥挤场景下姿态估计准确度。

根据本说明书提供的发明创造的实施例，所述根据目标关节信息生成目标关节估计结果的过程通过借助人类常识建模的目标关节估计器来实现。通过引入借助人类常识建模的目标关节估计器，可以利用人类常识的推理能力来帮助完成目标关节估计，进一步提高拥挤场景下姿态估计准确度。

根据本说明书提供的发明创造的实施例，所述目标关节信息包括通过注意力机制修正所述视觉特征后得到的修正特征，所述注意力机制以通过所述评估后从候选关节集中排除干扰关节而得到的目标关节为关注对象。

根据本说明书提供的发明创造的实施例，所述对候选关节集中所有关节进行评估并获得区域图像中目标行人实例的目标关节信息包括对候选关节集中所有关节的关系进行建模并以此为依据剔除干扰关节进而得到目标行人实例的目标关节信息的过程。

根据本说明书提供的发明创造的一个方面，提供了一种用于姿态估计的装置。该装置构造为人工神经网络，包括：视觉特征提取模块，用于从行人检测框所限定的区域图像中提取视觉特征；候选关节识别模块，用于根据视觉特征识别区域图像中所有关节并建立候选关节集；目标关节信息生成模块，用于对候选关节集中所有关节进行评估并获得区域图像中目标行人实例的目标关节信息；和估计姿态生成模块，用于根据目标关节信息生成目标关节估计结果进而生成对应目标行人实例的估计姿态。

上述用于姿态估计的装置可通过提取的视觉特征识别区域图像中所有关节并建立候选关节集，这时，候选关节集中既包括目标关节又包括干扰关节，然后再对候选关节集中所有关节进行评估并获得区域图像中目标行人实例的目标关节信息，这样就避免了传统top-down的方法可能为同一个人的关节分配不同的行人标签的问题，从而提高拥挤场景下姿态估计准确度。

根据本说明书提供的发明创造的实施例，所述估计姿态生成模块包括借助人类常识建模的目标关节估计器。同样的，通过引入借助人类常识建模的目标关节估计器，可以利用人类常识的推理能力来帮助完成目标关节估计，进一步提高拥挤场景下姿态估计准确度。

根据本说明书提供的发明创造的实施例，所述目标关节信息生成模块包括视觉特征修正装置，所述视觉特征修正装置通过注意力机制修正所述视觉特征后得到的修正特征，所述注意力机制以通过所述评估后从候选关节集中排除干扰关节而得到的目标关节为关注对象。

根据本说明书提供的发明创造的实施例，所述候选关节识别模块包括多关节热力图生成装置，所述多关节热力图生成装置用于根据提取的视觉特征生成所有关节的热力图；所述估计姿态生成模块包括目标关节热力图生成装置，所述目标关节热力图生成装置用于根据目标关节估计结果生成目标关节热力图；则所述用于姿态估计的人工神经网络的训练是通过保证多关节热力图中所有关节处于激活状态的同时增强目标关节热力图中的目标关节响应来实施的。由此，用于姿态估计的装置可实现端到端的训练。

根据本说明书提供的发明创造的一个方面，提供了一种用于姿态估计的电子设备。该设备包括：处理器；存储器，用于储存处理器可执行指令；所述处理器被配置为执行上述任意一种姿态估计方法。

根据本说明书提供的发明创造的一个方面，还提供了一种计算机可读存储介质，包括储存的程序，所述程序运行时执行上述任意一种姿态估计方法。

上述姿态估计方法、用于姿态估计的装置、用于姿态估计的电子设备以及算机可读存储介质储存的程序采取了一种新的策略来实现姿态估计。确切地说，该策略通过提取的视觉特征识别区域图像中所有关节并建立候选关节集，这时，候选关节集中既包括目标关节又包括干扰关节，然后再对候选关节集中所有关节进行评估并获得区域图像中目标行人实例的目标关节信息，这样，就避免了传统top-down的方法可能为同一个人的关节分配不同的行人标签的问题，从而提高拥挤场景下姿态估计准确度。

下面结合附图和具体实施方式对本说明书提供的发明创造的实施例做进一步的说明。本说明书提供的发明创造附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本说明书提供的发明创造的实践了解到。

附图说明

构成本说明书一部分的附图用来辅助对本说明书提供的发明创造的理解，附图中所提供的内容及其在本说明书提供的发明创造有关的说明可用于解释本说明书提供的发明创造，但不构成对本说明书提供的发明创造的不当限定。在附图中：

图1为本说明书提供的姿态估计方法的实施例的流程示意图。

图2为本说明书提供的姿态估计方法实施例对应人工神经网络的框架图。

图3为本说明书提供的姿态估计方法实施例中多关节关系解析环节对应的人工神经网络的框架图。

图4为本说明书提供的姿态估计方法实施例中关节细化环节对应的人工神经网络的框架图。

具体实施方式

下面结合附图对本说明书提供的发明创造进行清楚、完整的说明。本领域普通技术人员在基于这些说明的情况下将能够实现本说明书提供的发明创造。在结合附图对本说明书提供的发明创造进行说明前，需要特别指出的是：

本说明书提供的发明创造中在包括下述说明在内的各部分中所提供的技术方案、技术特征，在不冲突的情况下，这些技术方案、技术特征可以相互组合。

此外，下述说明中涉及到的本说明书提供的发明创造的实施例通常仅是本说明书提供的发明创造的一分部实施例而不是全部实施例，因此，基于本说明书提供的发明创造的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应当属于本说明书提供的发明创造保护的范围。

关于本说明书提供的发明创造中术语和单位：本说明书提供的发明创造的说明书和权利要求书及有关的部分中的术语“包括”、“包含”、“具有”以及它们的任何变形，意图在于覆盖不排他的包含。此外，本说明书提供的发明创造中的其他相关术语和单位，均可基于本说明书提供的发明创造的相关内容得到合理的解释。

图1为本说明书提供的姿态估计方法的实施例的流程示意图。如图1所示，姿态估计方法包括：步骤S001，从行人检测框所限定的区域图像中提取视觉特征；步骤S002，根据视觉特征识别区域图像中所有关节并建立候选关节集；步骤S003，对候选关节集中所有关节进行评估获得区域图像中目标行人实例的目标关节信息；步骤S004，根据目标关节信息生成目标关节估计结果进而生成对应目标行人实例的估计姿态。

上述姿态估计方法借助用于姿态估计的装置实现，该用于姿态估计的装置构造为人工神经网络，其包括：视觉特征提取模块，用于从行人检测框所限定的区域图像中提取视觉特征；候选关节识别模块，用于根据视觉特征识别区域图像中所有关节并建立候选关节集；目标关节信息生成模块，用于对候选关节集中所有关节进行评估并获得区域图像中目标行人实例的目标关节信息；估计姿态生成模块，用于根据目标关节信息生成目标关节估计结果进而生成对应目标行人实例的估计姿态。

图2为本说明书提供的姿态估计方法实施例对应人工神经网络的框架图。图3为本说明书提供的姿态估计方法实施例部分环节对应的人工神经网络的的框架图。图4为本说明书提供的姿态估计方法实施例部分环节对应的人工神经网络的的框架图。现结合图2-4，对上述姿态估计方法以及用于姿态估计的装置做进一步说明。

一、行人检测框视觉特征的提取和多关节预测

行人检测框是由行人检测器得到的。行人检测器是现有技术，用于从输入的图像中检测出所有的行人实例并给每一个行人实例分配一个行人检测框，各行人检测框中所限定的区域图像主要显示为对应目标行人实例。上述的姿态估计方法，即从用于姿态估计的人工神经网络接收行人检测框为起点最后生成该行人检测框所对应目标行人实例的估计姿态。

本实施例中，上述从行人检测框所限定的区域图像中提取视觉特征的步骤可以通过基于卷积神经网络(CNNs)的视觉编码器101来实现视觉特征的提取。视觉编码器101即属于所述视觉特征提取模块。

优选的，为提取行人检测框所限定的区域图像I的视觉特征f_I∈R^H*W*D，其中H表示区域图像的高度，W表示区域图像的宽度，D则表示区域图像中每个像素点对应视觉特征的维度。视觉编码器101优选采用HRNet编码器(关于HRNet编码器的详细介绍可以参见“DongLiu Ke Sun,Bin Xiao and Jingdong Wang.2019.Deep High-ResolutionRepresentation Learning for Human Pose Estimation.In CVPR.5693–5703”)。

以往，HRNet编码器得到的视觉特征是用于直接预测目标关节，而在本实施例中，HRNet 编码器得到的视觉特征则用于预测行人检测框所限定的区域图像中的所有关节，即包括目标关节和干扰关节。

二、通过多关节关系解析器实现候选关节的识别和评估

在基于视觉编码器101预测出行人检测框内所有关节后，本实施例提出了一种多关节关系解析器，在这个候选关节集之间建立关系图，进而解决干扰问题。具体地，所提出的多关节关系解析器包括两个主要的部分：(1)关系编码器；(2)干扰剔除。下面结合图3对关系编码器和干扰剔除进行具体说明。

(1)关系编码器

给定第I个行人检测框，本实施例首先根据其视觉特征f_I估计其多关节热力图H＝ψ_m(f_I,W_m)，其中ψ_m是参数W_m的像素级的多关节估计器。接着，根据设定阈值从多关节热力图H中生成一组N_p个候选关节

其中P_i表示该候选关节集中的某个候选关节。上述生成多关节热力图和生成候选关节即属于根据视觉特征识别区域图像中所有关节并建立候选关节集。

针对每个候选关节P_i，给定三种类型的特征

其中b_i＝(Δx_i,Δy_i,x_i,y_i)表示该候选关节的位置信息，c_i是该候选关节的类别信息，即对应的C类关节的one-hot类别表征 (比如CrowPose定义了14类关节)。详细地，(x_i,y_i)表示该候选关节坐标，(Δx_i,Δy_i)则是该候选关节相对人体中心点的偏移量。此外，v_i则表示该候选关节的视觉信息，即行人检测框区域图像视觉特征f_I在位置(x_i,y_i)的像素点对应的关节视觉表征。然后，对该候选关节集进行关节对间关系编码，包括：1)几何编码

2)类别编码

3)视觉编码

其中，b^e和c^e分别对关节对的几何关联和类别语义进行编码，而v^e是对关节对的视觉表征关系进行编码建模，N_p表示该候选关节集的大小，同时，d_b,d_c和d_v分别表示对关节进行编码建模之后的特征维度。

由于关节的几何信息提供了人体关节与人体中心之间的相对关系，本实施例使用这样的相对几何信息来进行几何编码。对于候选关节对i和j，其几何关系编码可以计算为：

其中，W_be是将原始几何信息映射到d_b维特征向量的缩放参数，b_i和b_j则表示所述候选关节对i和j的关节位置信息。

为了从类别信息和视觉表征中提取关系编码，本实施例采用以下公式生成候选关节对i 和j的类别关系编码和视觉关系编码：

其中，其中V和U是将输入投影到特征向量的线性矩阵，T表示矩阵转置。σ是非线性的ReLU激活函数，

表示矩阵间的逐元素乘法。W_ce和W_ve分别用于将关系特征映射到高维特征向量d_c和d_v。此外，c_i和c_j表示所述候选关节对i和j的类别信息，v_i和v_j则表示所述候选关节对i和j的视觉信息。

接着，将所有候选关节对的关系编码(几何关系编码b^e，类别关系编码c^e和视觉关系编码v^e)级联到一起，则可以得到关系特征

然后，通过sigmoid激活后的线性函数ψ_a(E^r,W_r)得到候选关节对间的关节关系图

其中，

是线性变换参数，ψ_a是参数W_r的关节对的关系估计器。该关节关系图中的元素A_i,j表示候选关节i和候选关节j属于同一行人实例的可能性。

(2)干扰剔除

给定一组候选关节P，目标是剔除干扰关节。假设存在C个关节类别对应的C个多关节热力图。对于第k个关节类别有N_k个候选关节，利用它们的热力图得分H_k和关节关系图A对它们进行重新评分，计算如下：

S(i)＝S_v(i)+H_k(i)

其中，S_v(i)是第i个候选关节的平均关系得分，对于该候选关节i，遍历对应候选关节集N_k中的其他N_k-1个候选关节进行重新评分，I[i≠j]是指示函数，函数输出为1当且仅当候选关节i和候选关节j表示不同候选关节，A(i,j)则是关节关系图A中候选关节i和候选关节j的对应元素值。此外，H_k(i)是从第k个多关节热力图获得的势能，S(i)则是第i个候选关节的最终分数。在前向推理中，具有最高分数的关节将被设置为第k类关节的目标关节。为简单起见，将一组目标关节表示为

最后，目标关节注意力图A^t是通过利用该目标关节应用基于高斯的热力图生成方法来生成关节标签。

三、目标关节信息生成及利用

当面对拥挤场景导致的模糊关节，比如由于严重遮挡而不可见的关节、或具有高度相似视觉表观的关节，姿势估计器可能会失败。为了解决这个问题，本实施例引入了关节细化器来建立姿态修正机制。具体而言，关节细化器分别修正视觉特征和多关节估计器，该过程包括两个步骤：(1)姿态特征修正；(2)姿态估计器修正。下面结合图4对关系编码器和干扰剔除进行具体说明。

姿态特征修正的目标在于使得姿势估计模型更加关注最相关的视觉特征区域，借助多关节关系解析器生成的目标关节注意力图可以实现这一目标。具体地说，本实施例首先将行人检测框区域图像视觉特征f_I和相应的目标关节注意力图A^t级联成对进行修正。然后，使用具有连续卷积层的修正网络，在注意力图的引导下从视觉特征中提取最相关的视觉信号，从而得到修正后的视觉特征f^r。

在特征修正之后，本实施例需要一个鲁棒的姿态估计器来进行目标关节估计。通常，人们不仅可以从视觉信号中推断出目标关节的位置，而且还可以从常识中推断出它们的位置。受此启发，本实施例借助常识知识建模，通过迁移来自多关节估计器的关节解析知识，构造目标关节估计器。具体来说，本实施例在姿态估计器修正中构建了两个主要的模块：1)知识图谱生成；2)知识迁移。

1)知识图谱生成

如前所述，相关的先验知识可以更好地估计人体关节的位置。例如，人们在知道“头部”在哪里后就可以轻松推断出“颈部”的位置。这是因为这两个关节类别之间有很强的关系。为了对这种关节类别对的常识关系进行建模，本实施例需要建立一个知识图谱，以提供关节类别之间的关系信息。本申请设计的知识图谱生成机制包括：语义关系K_s∈R^C×C和常识关系 K_c∈R^C×C。其中，C表示C种不同的关节类别(比如CrowPose定义了14类关节)，语义关系是自然从语言模型中获取的不同关节类别之间存在的一种“软连接”方式(取值在0到1之间)，常识关系则是不同关节类别之间的真实的“硬连接”方式(取值非0即1)。

为了构建语义关系，本实施例首先从语言模型中提取关节的语义嵌入向量，然后计算它们的相似性分数。例如，给定第i个关节类别和第j个关节类别，它们的语义相似性分数计算如下：

其中，W2V(·)是Word2Vec函数，用以从语言模型中提取关节的语义嵌入向量，||·||表示该特征向量的欧氏范数，T表示矩阵转置。根据获取的语义关系可以观察到，若两类关节存在连接性，那么他们的相似性分数就会相对高一些。

为了构建表示关节天然连接关系的常识关系，本实施例引入了一个识别函数I(s,k)，函数输出为1当且仅当两个关节类别存在“连接”关系(比如，颈部与头部存在连接关系则置 1)，公式如下：

因此，最终关于人体架构的常识知识图谱K_g∈R^C×C计算如下：

其中，

表逐元素乘法。给定多关节估计器的D维参数W_m∈R^C×D和上述构建的常识知识图谱K_g∈R^C×C，本实施例可以使用矩阵乘法算子获得相关的解析参数W_k＝K_g ^TW_m,→R^C×D。

2)知识迁移

在得到相关的解析参数W_k后，本实施例需要将这些参数转换为目标关节估计器的参数。为此，本实施例在LeakyReLU激活函数后构建了一个具有两个线性函数的小型网络来获得目标关节估计器的参数W_t∈R^C×D计算如下：

W_t＝Φ(W_kW_t ¹)W_t ²

其中，W_t ¹∈R^D×D和W_t ²∈R^D×D是两个线性转换矩阵，Φ(·)表示非线性的LeakyReLU激活函数。

因此，可以通过带有参数W_t的目标关节估计器，从修正后的视觉特征f^r中更合理地估计目标关节热力图O。这是因为，不同于传统方法仅使用目标关节的参数来进行目标行人姿态估计，本申请同时还使用了和目标关节具有连接关系的关节解析参数来获得更加准确的目标行人姿态估计。比如，行人的“头部”被遮挡同时“颈部”是可见的，那么本实施例可以利用颈部的解析参数来对头部进行更加合理的推断。

四、模型训练

如前所述，本实施例已经对基于关系建模的姿势估计网络模型进行了详细的阐释。为了使得提出的模型能够在拥挤场景中更好地进行目标关节估计，本实施例设计了对应的学习目标以训练模型参数。给定一个行人检测框，本实施例将其区域图像输入到本实施例的模型中会获得三种类型的热力图：1)目标关节热力图O；2)多关节热力图H；3)关节关系图A。具体的来说：首先，本实施例将行人检测框的区域图像输入到本实施例的姿态估计模型中提取对应的视觉特征。然后，根据视觉特征识别出区域图像中所有关节，即生成包括干扰关节和目标关节的多关节热力图H以保证所有关节处于激活状态。接着，根据该多关节热力图建立候选关节集并对所有关节进行评估，即生成关节关系图A。最后，根据该关节关系图获得区域图像中目标行人实例的目标关节信息，再根据目标关节信息生成目标关节估计结果进而生成对应目标关节热力图O。本实施例的目标是增强目标关节热力图O中的目标关节响应，同时保证多关节热力图H中所有关节处于激活状态。为了实现这一学习目标，本实施例使用均方误差(MSE)对多关节热力图和目标关节热力图进行监督学习，损失函数如下定义：

其中，

和

分别是C种不同的关节类别对应的真值目标关节热力图和多关节热力图。详细地，

仅包含针对目标关节的单峰高斯分布，这是由数据集的标注数据可以直接获取。然而，

包含针对目标关节和干扰关节的多峰高斯分布，该多关节热力图的真值在数据集中没有直接给出。为了得到某个行人检测框对应的的多关节热力图真值，首先收集该检测框内的带标注的目标关节，然后遍历其他行人检测框，如果他们的目标关节包含在这个检测框内，则标注为该检测框的干扰关节。

此外，为了获得更好的目标关节信息以生成更好地估计目标关节，本实施例需要对于关节关系图进行监督学习，本实施例采用相同的策略计算关节关系图与其真值之间的均方误差，损失函数如下所示：

其中，

是关节关系图的真值，大小为N_p*N_p(N_p为行人检测框内所有可能关节的数量，即包括目标关节和干扰关节)。每个元素A_i,j由0或1表示，值为1当且仅当第i个关节和第j个关节属于同一个行人实例。因此，整个模型的学习目标计算如下：

L＝αl_t+βl_j+θl_r

其中，α,β和θ都是对应学习目标的权重超参数，在本实施例中均设置为1。

五、效果与测试

与现有的技术相比，本申请的贡献在于：

1)本实施例引入了一种新颖的策略来处理行人检测框中的多个关节，包括目标关节和干扰关节。这是首次尝试在一个行人检测框中对所有关节的关系进行建模，从而剔除干扰关节。当处理具有完全不同行人标签的同一关节时，这个新策略将大大缓解姿态估计模型的混乱。

2)受人类通过查看周围区域可以很好地估计出模糊关节的位置的启发，本实施例引入了一种具有常识建模能力的姿态修正方法，即通过修正姿态估计器和姿态视觉特征来改进姿态估计结果。

3)大量实验结果表明，本专利提出的基于关系建模的姿势估计网络模型优于当前最新的姿态估计方法，尤其是在具有挑战性的CrowdPose数据集上。

以上对本发明的有关内容进行了说明。本领域普通技术人员在基于这些说明的情况下将能够实现本发明。基于本发明的上述内容，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他优选实施方式和实施例，都应当属于本发明保护的范围。

Claims

1.姿态估计方法，其特征在于，包括：

从行人检测框所限定的区域图像中提取视觉特征；

根据视觉特征识别区域图像中所有关节并建立候选关节集；

对候选关节集中所有关节进行评估并获得区域图像中目标行人实例的目标关节信息；和

根据目标关节信息生成目标关节估计结果进而生成对应目标行人实例的估计姿态。

2.如权利要求1所述的姿态估计方法，其特征在于，所述根据目标关节信息生成目标关节估计结果的过程通过借助人类常识建模的目标关节估计器来实现。

3.如权利要求1所述的姿态估计方法，其特征在于：所述目标关节信息包括通过注意力机制修正所述视觉特征后得到的修正特征，所述注意力机制以通过所述评估后从候选关节集中排除干扰关节而得到的目标关节为关注对象。

4.如权利要求1所述的姿态估计方法，其特征在于：所述对候选关节集中所有关节进行评估并获得区域图像中目标行人实例的目标关节信息包括对候选关节集中所有关节的关系进行建模并以此为依据剔除干扰关节进而得到目标行人实例的目标关节信息的过程。

5.用于姿态估计的装置，构造为人工神经网络，其特征在于，包括：

视觉特征提取模块，用于从行人检测框所限定的区域图像中提取视觉特征；

候选关节识别模块，用于根据视觉特征识别区域图像中所有关节并建立候选关节集；

目标关节信息生成模块，用于对候选关节集中所有关节进行评估并获得区域图像中目标行人实例的目标关节信息；和

估计姿态生成模块，用于根据目标关节信息生成目标关节估计结果进而生成对应目标行人实例的估计姿态。

6.如权利要求5所述的用于姿态估计的装置，其特征在于：所述估计姿态生成模块包括借助人类常识建模的目标关节估计器。

7.如权利要求5所述的用于姿态估计的装置，其特征在于：所述目标关节信息生成模块包括视觉特征修正装置，所述视觉特征修正装置通过注意力机制修正所述视觉特征后得到的修正特征，所述注意力机制以通过所述评估后从候选关节集中排除干扰关节而得到的目标关节为关注对象。

8.如权利要求5所述的用于姿态估计的装置，其特征在于：

所述候选关节识别模块包括多关节热力图生成装置，所述多关节热力图生成装置用于根据提取的视觉特征生成所有关节的热力图；

所述估计姿态生成模块包括目标关节热力图生成装置，所述目标关节热力图生成装置用于根据目标关节估计结果生成目标关节热力图；

则所述用于姿态估计的人工神经网络的训练是通过保证多关节热力图中所有关节处于激活状态的同时增强目标关节热力图中的目标关节响应来实施的。

9.用于姿态估计的电子设备，其特征在于：包括：

处理器；

存储器，用于储存处理器可执行指令；

所述处理器被配置为执行权利要求1-4中任意一项权利要求所述姿态估计方法。

10.计算机可读存储介质，其特征在于：包括储存的程序，所述程序运行时执行权利要求1-4中任意一项权利要求所述姿态估计方法。