CN111898566A - 姿态估计方法、装置、电子设备和存储介质 - Google Patents
姿态估计方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN111898566A CN111898566A CN202010771698.2A CN202010771698A CN111898566A CN 111898566 A CN111898566 A CN 111898566A CN 202010771698 A CN202010771698 A CN 202010771698A CN 111898566 A CN111898566 A CN 111898566A
- Authority
- CN
- China
- Prior art keywords
- joint
- target
- joints
- candidate
- target joint
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Social Psychology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Psychiatry (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种姿态估计方法、装置、电子设备和存储介质,以解决提高拥挤场景下姿态估计准确度的技术问题。该方法包括:从行人检测框所限定的区域图像中提取视觉特征;根据视觉特征识别区域图像中所有关节并建立候选关节集;对候选关节集中所有关节进行评估并获得区域图像中目标行人实例的目标关节信息;根据目标关节信息生成目标关节估计结果进而生成对应目标行人实例的估计姿态。通过提取的视觉特征识别区域图像中所有关节并建立候选关节集,这时,候选关节集中既包括目标关节又干扰关节,然后再对候选关节集中所有关节进行评估并获得区域图像中目标行人实例的目标关节信息,从而提高拥挤场景下姿态估计准确度。
Description
技术领域
本发明涉及图像处理技术领域,具体而言,涉及一种姿态估计方法、装置、电子设备和存储介质。
背景技术
人体姿态估计是计算机视觉中一个基础而又富有挑战性的问题,其目的是从单张RGB图像中,精确地识别出多个人体的位置以及骨架上的稀疏的关节位置。随着深度卷积神经网络 (CNNs)的应用和MSCOCO等大规模数据集的发布,姿态估计方法已经取得了较大的发展。它们大致可以分为bottom-up(即自底向上,下同)和top-down(即自顶向下,下同)的方法。对于bottom-up的方法,首先检测出所有的人体关节,然后将它们分组到不同的人体实例,问题大多集中在如何将候选关节分组到单个人体实例。对于top-down的方法,思路正好相反,首先定位所有人体实例,然后对每个行人做姿态估计,方法主要集中在如何设计更高效的单人姿势估计(SPPE)。相较于不需要检测人体实例的bottom-up方法,top-down方法通常具有更好的姿态估计性能,但推理速度较低。
尽管现有top-down姿态估计方法在简单场景下性能表现较佳,但针对“拥挤场景”仍面临着巨大挑战。所谓“拥挤场景”,就是RGB图像捕捉到具有高度重叠的行人、严重遮挡、不同姿势和多尺度变化的复杂现实场景。针对拥挤场景,现有top-down姿态估计方法会遇到如下两个技术问题:
1)行人检测框包含多个关节。目前top-down的方法假设每个检测到的行人实例仅包含属于目标行人的关节,即目标关节。但拥挤场景通常包含高度遮挡或重叠的行人,这意味着除了目标关节之外,生成的行人检测框还包含属于其他行人实例的关节,即干扰关节。基于上述的假设,传统top-down的方法可能为同一个人的关节分配不同的行人标签,这样一旦将干扰关节确定为目标关节,将导致不可逆的错误。另外,这些干扰关节也将极大可能被视为其他行人的目标关节,所以在增强目标关节响应的同时,本实施例也不能过度抑制干扰关节。由于干扰关节会极大地混淆目标关节的预测,因此如何从给定行人检测中剔除干扰关节是一个非常具有挑战性的技术问题。
2)拥挤场景中的模糊关节。传统的top-down的姿势估计方法高度依赖于姿态视觉特征的提取,因此从区域图像提取的姿态视觉特征仅包含视觉表观,缺乏人体结构的先验知识。当面对拥挤场景导致的模糊关节,比如由于严重遮挡而不可见的关节、或具有高度相似视觉表观的关节,姿势估计器可能会失败。但是,人类可以通过查看周围区域的情况来很好地估计这类模糊关节。例如,基于人类常识的推理能力,人们在看到“头部”和“肩部”后可以轻松推断“颈部”的位置。因此,另一个关键的技术问题是如何将常识知识的建模能力嵌入到当前的姿态估计方法。
发明内容
本发明所要解决的技术问题是:提供一种姿态估计方法、装置、电子设备和存储介质,以提高拥挤场景下姿态估计的准确度。
本发明解决上述技术问题所采用的技术方案是:一种姿态估计方法,包括:从行人检测框所限定的区域图像中提取视觉特征;根据视觉特征识别区域图像中所有关节并建立候选关节集;对候选关节集中所有关节进行评估并获得区域图像中目标行人实例的目标关节信息;根据目标关节信息生成目标关节估计结果进而生成对应目标行人实例的估计姿态。
上述姿态估计方法通过提取的视觉特征识别区域图像中所有关节并建立候选关节集,这时,候选关节集中既包括目标关节又包括干扰关节,然后再对候选关节集中所有关节进行评估并获得区域图像中目标行人实例的目标关节信息,这样就避免了传统top-down的方法可能为同一个人的关节分配不同的行人标签的问题,从而提高拥挤场景下姿态估计准确度。
根据本说明书提供的发明创造的实施例,所述根据目标关节信息生成目标关节估计结果的过程通过借助人类常识建模的目标关节估计器来实现。通过引入借助人类常识建模的目标关节估计器,可以利用人类常识的推理能力来帮助完成目标关节估计,进一步提高拥挤场景下姿态估计准确度。
根据本说明书提供的发明创造的实施例,所述目标关节信息包括通过注意力机制修正所述视觉特征后得到的修正特征,所述注意力机制以通过所述评估后从候选关节集中排除干扰关节而得到的目标关节为关注对象。
根据本说明书提供的发明创造的实施例,所述对候选关节集中所有关节进行评估并获得区域图像中目标行人实例的目标关节信息包括对候选关节集中所有关节的关系进行建模并以此为依据剔除干扰关节进而得到目标行人实例的目标关节信息的过程。
根据本说明书提供的发明创造的一个方面,提供了一种用于姿态估计的装置。该装置构造为人工神经网络,包括:视觉特征提取模块,用于从行人检测框所限定的区域图像中提取视觉特征;候选关节识别模块,用于根据视觉特征识别区域图像中所有关节并建立候选关节集;目标关节信息生成模块,用于对候选关节集中所有关节进行评估并获得区域图像中目标行人实例的目标关节信息;和估计姿态生成模块,用于根据目标关节信息生成目标关节估计结果进而生成对应目标行人实例的估计姿态。
上述用于姿态估计的装置可通过提取的视觉特征识别区域图像中所有关节并建立候选关节集,这时,候选关节集中既包括目标关节又包括干扰关节,然后再对候选关节集中所有关节进行评估并获得区域图像中目标行人实例的目标关节信息,这样就避免了传统top-down的方法可能为同一个人的关节分配不同的行人标签的问题,从而提高拥挤场景下姿态估计准确度。
根据本说明书提供的发明创造的实施例,所述估计姿态生成模块包括借助人类常识建模的目标关节估计器。同样的,通过引入借助人类常识建模的目标关节估计器,可以利用人类常识的推理能力来帮助完成目标关节估计,进一步提高拥挤场景下姿态估计准确度。
根据本说明书提供的发明创造的实施例,所述目标关节信息生成模块包括视觉特征修正装置,所述视觉特征修正装置通过注意力机制修正所述视觉特征后得到的修正特征,所述注意力机制以通过所述评估后从候选关节集中排除干扰关节而得到的目标关节为关注对象。
根据本说明书提供的发明创造的实施例,所述候选关节识别模块包括多关节热力图生成装置,所述多关节热力图生成装置用于根据提取的视觉特征生成所有关节的热力图;所述估计姿态生成模块包括目标关节热力图生成装置,所述目标关节热力图生成装置用于根据目标关节估计结果生成目标关节热力图;则所述用于姿态估计的人工神经网络的训练是通过保证多关节热力图中所有关节处于激活状态的同时增强目标关节热力图中的目标关节响应来实施的。由此,用于姿态估计的装置可实现端到端的训练。
根据本说明书提供的发明创造的一个方面,提供了一种用于姿态估计的电子设备。该设备包括:处理器;存储器,用于储存处理器可执行指令;所述处理器被配置为执行上述任意一种姿态估计方法。
根据本说明书提供的发明创造的一个方面,还提供了一种计算机可读存储介质,包括储存的程序,所述程序运行时执行上述任意一种姿态估计方法。
上述姿态估计方法、用于姿态估计的装置、用于姿态估计的电子设备以及算机可读存储介质储存的程序采取了一种新的策略来实现姿态估计。确切地说,该策略通过提取的视觉特征识别区域图像中所有关节并建立候选关节集,这时,候选关节集中既包括目标关节又包括干扰关节,然后再对候选关节集中所有关节进行评估并获得区域图像中目标行人实例的目标关节信息,这样,就避免了传统top-down的方法可能为同一个人的关节分配不同的行人标签的问题,从而提高拥挤场景下姿态估计准确度。
下面结合附图和具体实施方式对本说明书提供的发明创造的实施例做进一步的说明。本说明书提供的发明创造附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本说明书提供的发明创造的实践了解到。
附图说明
构成本说明书一部分的附图用来辅助对本说明书提供的发明创造的理解,附图中所提供的内容及其在本说明书提供的发明创造有关的说明可用于解释本说明书提供的发明创造,但不构成对本说明书提供的发明创造的不当限定。在附图中:
图1为本说明书提供的姿态估计方法的实施例的流程示意图。
图2为本说明书提供的姿态估计方法实施例对应人工神经网络的框架图。
图3为本说明书提供的姿态估计方法实施例中多关节关系解析环节对应的人工神经网络的框架图。
图4为本说明书提供的姿态估计方法实施例中关节细化环节对应的人工神经网络的框架图。
具体实施方式
下面结合附图对本说明书提供的发明创造进行清楚、完整的说明。本领域普通技术人员在基于这些说明的情况下将能够实现本说明书提供的发明创造。在结合附图对本说明书提供的发明创造进行说明前,需要特别指出的是:
本说明书提供的发明创造中在包括下述说明在内的各部分中所提供的技术方案、技术特征,在不冲突的情况下,这些技术方案、技术特征可以相互组合。
此外,下述说明中涉及到的本说明书提供的发明创造的实施例通常仅是本说明书提供的发明创造的一分部实施例而不是全部实施例,因此,基于本说明书提供的发明创造的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应当属于本说明书提供的发明创造保护的范围。
关于本说明书提供的发明创造中术语和单位:本说明书提供的发明创造的说明书和权利要求书及有关的部分中的术语“包括”、“包含”、“具有”以及它们的任何变形,意图在于覆盖不排他的包含。此外,本说明书提供的发明创造中的其他相关术语和单位,均可基于本说明书提供的发明创造的相关内容得到合理的解释。
图1为本说明书提供的姿态估计方法的实施例的流程示意图。如图1所示,姿态估计方法包括:步骤S001,从行人检测框所限定的区域图像中提取视觉特征;步骤S002,根据视觉特征识别区域图像中所有关节并建立候选关节集;步骤S003,对候选关节集中所有关节进行评估获得区域图像中目标行人实例的目标关节信息;步骤S004,根据目标关节信息生成目标关节估计结果进而生成对应目标行人实例的估计姿态。
上述姿态估计方法借助用于姿态估计的装置实现,该用于姿态估计的装置构造为人工神经网络,其包括:视觉特征提取模块,用于从行人检测框所限定的区域图像中提取视觉特征;候选关节识别模块,用于根据视觉特征识别区域图像中所有关节并建立候选关节集;目标关节信息生成模块,用于对候选关节集中所有关节进行评估并获得区域图像中目标行人实例的目标关节信息;估计姿态生成模块,用于根据目标关节信息生成目标关节估计结果进而生成对应目标行人实例的估计姿态。
图2为本说明书提供的姿态估计方法实施例对应人工神经网络的框架图。图3为本说明书提供的姿态估计方法实施例部分环节对应的人工神经网络的的框架图。图4为本说明书提供的姿态估计方法实施例部分环节对应的人工神经网络的的框架图。现结合图2-4,对上述姿态估计方法以及用于姿态估计的装置做进一步说明。
一、行人检测框视觉特征的提取和多关节预测
行人检测框是由行人检测器得到的。行人检测器是现有技术,用于从输入的图像中检测出所有的行人实例并给每一个行人实例分配一个行人检测框,各行人检测框中所限定的区域图像主要显示为对应目标行人实例。上述的姿态估计方法,即从用于姿态估计的人工神经网络接收行人检测框为起点最后生成该行人检测框所对应目标行人实例的估计姿态。
本实施例中,上述从行人检测框所限定的区域图像中提取视觉特征的步骤可以通过基于卷积神经网络(CNNs)的视觉编码器101来实现视觉特征的提取。视觉编码器101即属于所述视觉特征提取模块。
优选的,为提取行人检测框所限定的区域图像I的视觉特征fI∈RH*W*D,其中H表示区域图像的高度,W表示区域图像的宽度,D则表示区域图像中每个像素点对应视觉特征的维度。视觉编码器101优选采用HRNet编码器(关于HRNet编码器的详细介绍可以参见“DongLiu Ke Sun,Bin Xiao and Jingdong Wang.2019.Deep High-ResolutionRepresentation Learning for Human Pose Estimation.In CVPR.5693–5703”)。
以往,HRNet编码器得到的视觉特征是用于直接预测目标关节,而在本实施例中,HRNet 编码器得到的视觉特征则用于预测行人检测框所限定的区域图像中的所有关节,即包括目标关节和干扰关节。
二、通过多关节关系解析器实现候选关节的识别和评估
在基于视觉编码器101预测出行人检测框内所有关节后,本实施例提出了一种多关节关系解析器,在这个候选关节集之间建立关系图,进而解决干扰问题。具体地,所提出的多关节关系解析器包括两个主要的部分:(1)关系编码器;(2)干扰剔除。下面结合图3对关系编码器和干扰剔除进行具体说明。
(1)关系编码器
给定第I个行人检测框,本实施例首先根据其视觉特征fI估计其多关节热力图H=ψm(fI,Wm),其中ψm是参数Wm的像素级的多关节估计器。接着,根据设定阈值从多关节热力图H中生成一组Np个候选关节其中Pi表示该候选关节集中的某个候选关节。上述生成多关节热力图和生成候选关节即属于根据视觉特征识别区域图像中所有关节并建立候选关节集。
针对每个候选关节Pi,给定三种类型的特征其中bi=(Δxi,Δyi,xi,yi)表示该候选关节的位置信息,ci是该候选关节的类别信息,即对应的C类关节的one-hot类别表征 (比如CrowPose定义了14类关节)。详细地,(xi,yi)表示该候选关节坐标,(Δxi,Δyi)则是该候选关节相对人体中心点的偏移量。此外,vi则表示该候选关节的视觉信息,即行人检测框区域图像视觉特征fI在位置(xi,yi)的像素点对应的关节视觉表征。然后,对该候选关节集进行关节对间关系编码,包括:1)几何编码2)类别编码3)视觉编码其中,be和ce分别对关节对的几何关联和类别语义进行编码,而ve是对关节对的视觉表征关系进行编码建模,Np表示该候选关节集的大小,同时,db,dc和dv分别表示对关节进行编码建模之后的特征维度。
由于关节的几何信息提供了人体关节与人体中心之间的相对关系,本实施例使用这样的相对几何信息来进行几何编码。对于候选关节对i和j,其几何关系编码可以计算为:
其中,Wbe是将原始几何信息映射到db维特征向量的缩放参数,bi和bj则表示所述候选关节对i和j的关节位置信息。
为了从类别信息和视觉表征中提取关系编码,本实施例采用以下公式生成候选关节对i 和j的类别关系编码和视觉关系编码:
其中,其中V和U是将输入投影到特征向量的线性矩阵,T表示矩阵转置。σ是非线性的ReLU激活函数,表示矩阵间的逐元素乘法。Wce和Wve分别用于将关系特征映射到高维特征向量dc和dv。此外,ci和cj表示所述候选关节对i和j的类别信息,vi和vj则表示所述候选关节对i和j的视觉信息。
接着,将所有候选关节对的关系编码(几何关系编码be,类别关系编码ce和视觉关系编码ve)级联到一起,则可以得到关系特征然后,通过sigmoid激活后的线性函数ψa(Er,Wr)得到候选关节对间的关节关系图其中,是线性变换参数,ψa是参数Wr的关节对的关系估计器。该关节关系图中的元素Ai,j表示候选关节i和候选关节j属于同一行人实例的可能性。
(2)干扰剔除
给定一组候选关节P,目标是剔除干扰关节。假设存在C个关节类别对应的C个多关节热力图。对于第k个关节类别有Nk个候选关节,利用它们的热力图得分Hk和关节关系图A对它们进行重新评分,计算如下:
S(i)=Sv(i)+Hk(i)
其中,Sv(i)是第i个候选关节的平均关系得分,对于该候选关节i,遍历对应候选关节集Nk中的其他Nk-1个候选关节进行重新评分,I[i≠j]是指示函数,函数输出为1当且仅当候选关节i和候选关节j表示不同候选关节,A(i,j)则是关节关系图A中候选关节i和候选关节j的对应元素值。此外,Hk(i)是从第k个多关节热力图获得的势能,S(i)则是第i个候选关节的最终分数。在前向推理中,具有最高分数的关节将被设置为第k类关节的目标关节。为简单起见,将一组目标关节表示为最后,目标关节注意力图At是通过利用该目标关节应用基于高斯的热力图生成方法来生成关节标签。
三、目标关节信息生成及利用
当面对拥挤场景导致的模糊关节,比如由于严重遮挡而不可见的关节、或具有高度相似视觉表观的关节,姿势估计器可能会失败。为了解决这个问题,本实施例引入了关节细化器来建立姿态修正机制。具体而言,关节细化器分别修正视觉特征和多关节估计器,该过程包括两个步骤:(1)姿态特征修正;(2)姿态估计器修正。下面结合图4对关系编码器和干扰剔除进行具体说明。
姿态特征修正的目标在于使得姿势估计模型更加关注最相关的视觉特征区域,借助多关节关系解析器生成的目标关节注意力图可以实现这一目标。具体地说,本实施例首先将行人检测框区域图像视觉特征fI和相应的目标关节注意力图At级联成对进行修正。然后,使用具有连续卷积层的修正网络,在注意力图的引导下从视觉特征中提取最相关的视觉信号,从而得到修正后的视觉特征fr。
在特征修正之后,本实施例需要一个鲁棒的姿态估计器来进行目标关节估计。通常,人们不仅可以从视觉信号中推断出目标关节的位置,而且还可以从常识中推断出它们的位置。受此启发,本实施例借助常识知识建模,通过迁移来自多关节估计器的关节解析知识,构造目标关节估计器。具体来说,本实施例在姿态估计器修正中构建了两个主要的模块:1)知识图谱生成;2)知识迁移。
1)知识图谱生成
如前所述,相关的先验知识可以更好地估计人体关节的位置。例如,人们在知道“头部”在哪里后就可以轻松推断出“颈部”的位置。这是因为这两个关节类别之间有很强的关系。为了对这种关节类别对的常识关系进行建模,本实施例需要建立一个知识图谱,以提供关节类别之间的关系信息。本申请设计的知识图谱生成机制包括:语义关系Ks∈RC×C和常识关系 Kc∈RC×C。其中,C表示C种不同的关节类别(比如CrowPose定义了14类关节),语义关系是自然从语言模型中获取的不同关节类别之间存在的一种“软连接”方式(取值在0到1之间),常识关系则是不同关节类别之间的真实的“硬连接”方式(取值非0即1)。
为了构建语义关系,本实施例首先从语言模型中提取关节的语义嵌入向量,然后计算它们的相似性分数。例如,给定第i个关节类别和第j个关节类别,它们的语义相似性分数计算如下:
其中,W2V(·)是Word2Vec函数,用以从语言模型中提取关节的语义嵌入向量,||·||表示该特征向量的欧氏范数,T表示矩阵转置。根据获取的语义关系可以观察到,若两类关节存在连接性,那么他们的相似性分数就会相对高一些。
为了构建表示关节天然连接关系的常识关系,本实施例引入了一个识别函数I(s,k),函数输出为1当且仅当两个关节类别存在“连接”关系(比如,颈部与头部存在连接关系则置 1),公式如下:
因此,最终关于人体架构的常识知识图谱Kg∈RC×C计算如下:
2)知识迁移
在得到相关的解析参数Wk后,本实施例需要将这些参数转换为目标关节估计器的参数。为此,本实施例在LeakyReLU激活函数后构建了一个具有两个线性函数的小型网络来获得目标关节估计器的参数Wt∈RC×D计算如下:
Wt=Φ(WkWt 1)Wt 2
其中,Wt 1∈RD×D和Wt 2∈RD×D是两个线性转换矩阵,Φ(·)表示非线性的LeakyReLU激活函数。
因此,可以通过带有参数Wt的目标关节估计器,从修正后的视觉特征fr中更合理地估计目标关节热力图O。这是因为,不同于传统方法仅使用目标关节的参数来进行目标行人姿态估计,本申请同时还使用了和目标关节具有连接关系的关节解析参数来获得更加准确的目标行人姿态估计。比如,行人的“头部”被遮挡同时“颈部”是可见的,那么本实施例可以利用颈部的解析参数来对头部进行更加合理的推断。
四、模型训练
如前所述,本实施例已经对基于关系建模的姿势估计网络模型进行了详细的阐释。为了使得提出的模型能够在拥挤场景中更好地进行目标关节估计,本实施例设计了对应的学习目标以训练模型参数。给定一个行人检测框,本实施例将其区域图像输入到本实施例的模型中会获得三种类型的热力图:1)目标关节热力图O;2)多关节热力图H;3)关节关系图A。具体的来说:首先,本实施例将行人检测框的区域图像输入到本实施例的姿态估计模型中提取对应的视觉特征。然后,根据视觉特征识别出区域图像中所有关节,即生成包括干扰关节和目标关节的多关节热力图H以保证所有关节处于激活状态。接着,根据该多关节热力图建立候选关节集并对所有关节进行评估,即生成关节关系图A。最后,根据该关节关系图获得区域图像中目标行人实例的目标关节信息,再根据目标关节信息生成目标关节估计结果进而生成对应目标关节热力图O。本实施例的目标是增强目标关节热力图O中的目标关节响应,同时保证多关节热力图H中所有关节处于激活状态。为了实现这一学习目标,本实施例使用均方误差(MSE)对多关节热力图和目标关节热力图进行监督学习,损失函数如下定义:
其中,和分别是C种不同的关节类别对应的真值目标关节热力图和多关节热力图。详细地,仅包含针对目标关节的单峰高斯分布,这是由数据集的标注数据可以直接获取。然而,包含针对目标关节和干扰关节的多峰高斯分布,该多关节热力图的真值在数据集中没有直接给出。为了得到某个行人检测框对应的的多关节热力图真值,首先收集该检测框内的带标注的目标关节,然后遍历其他行人检测框,如果他们的目标关节包含在这个检测框内,则标注为该检测框的干扰关节。
此外,为了获得更好的目标关节信息以生成更好地估计目标关节,本实施例需要对于关节关系图进行监督学习,本实施例采用相同的策略计算关节关系图与其真值之间的均方误差,损失函数如下所示:
其中,是关节关系图的真值,大小为Np*Np(Np为行人检测框内所有可能关节的数量,即包括目标关节和干扰关节)。每个元素Ai,j由0或1表示,值为1当且仅当第i个关节和第j个关节属于同一个行人实例。因此,整个模型的学习目标计算如下:
L=αlt+βlj+θlr
其中,α,β和θ都是对应学习目标的权重超参数,在本实施例中均设置为1。
五、效果与测试
与现有的技术相比,本申请的贡献在于:
1)本实施例引入了一种新颖的策略来处理行人检测框中的多个关节,包括目标关节和干扰关节。这是首次尝试在一个行人检测框中对所有关节的关系进行建模,从而剔除干扰关节。当处理具有完全不同行人标签的同一关节时,这个新策略将大大缓解姿态估计模型的混乱。
2)受人类通过查看周围区域可以很好地估计出模糊关节的位置的启发,本实施例引入了一种具有常识建模能力的姿态修正方法,即通过修正姿态估计器和姿态视觉特征来改进姿态估计结果。
3)大量实验结果表明,本专利提出的基于关系建模的姿势估计网络模型优于当前最新的姿态估计方法,尤其是在具有挑战性的CrowdPose数据集上。
以上对本发明的有关内容进行了说明。本领域普通技术人员在基于这些说明的情况下将能够实现本发明。基于本发明的上述内容,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他优选实施方式和实施例,都应当属于本发明保护的范围。
Claims (10)
1.姿态估计方法,其特征在于,包括:
从行人检测框所限定的区域图像中提取视觉特征;
根据视觉特征识别区域图像中所有关节并建立候选关节集;
对候选关节集中所有关节进行评估并获得区域图像中目标行人实例的目标关节信息;和
根据目标关节信息生成目标关节估计结果进而生成对应目标行人实例的估计姿态。
2.如权利要求1所述的姿态估计方法,其特征在于,所述根据目标关节信息生成目标关节估计结果的过程通过借助人类常识建模的目标关节估计器来实现。
3.如权利要求1所述的姿态估计方法,其特征在于:所述目标关节信息包括通过注意力机制修正所述视觉特征后得到的修正特征,所述注意力机制以通过所述评估后从候选关节集中排除干扰关节而得到的目标关节为关注对象。
4.如权利要求1所述的姿态估计方法,其特征在于:所述对候选关节集中所有关节进行评估并获得区域图像中目标行人实例的目标关节信息包括对候选关节集中所有关节的关系进行建模并以此为依据剔除干扰关节进而得到目标行人实例的目标关节信息的过程。
5.用于姿态估计的装置,构造为人工神经网络,其特征在于,包括:
视觉特征提取模块,用于从行人检测框所限定的区域图像中提取视觉特征;
候选关节识别模块,用于根据视觉特征识别区域图像中所有关节并建立候选关节集;
目标关节信息生成模块,用于对候选关节集中所有关节进行评估并获得区域图像中目标行人实例的目标关节信息;和
估计姿态生成模块,用于根据目标关节信息生成目标关节估计结果进而生成对应目标行人实例的估计姿态。
6.如权利要求5所述的用于姿态估计的装置,其特征在于:所述估计姿态生成模块包括借助人类常识建模的目标关节估计器。
7.如权利要求5所述的用于姿态估计的装置,其特征在于:所述目标关节信息生成模块包括视觉特征修正装置,所述视觉特征修正装置通过注意力机制修正所述视觉特征后得到的修正特征,所述注意力机制以通过所述评估后从候选关节集中排除干扰关节而得到的目标关节为关注对象。
8.如权利要求5所述的用于姿态估计的装置,其特征在于:
所述候选关节识别模块包括多关节热力图生成装置,所述多关节热力图生成装置用于根据提取的视觉特征生成所有关节的热力图;
所述估计姿态生成模块包括目标关节热力图生成装置,所述目标关节热力图生成装置用于根据目标关节估计结果生成目标关节热力图;
则所述用于姿态估计的人工神经网络的训练是通过保证多关节热力图中所有关节处于激活状态的同时增强目标关节热力图中的目标关节响应来实施的。
9.用于姿态估计的电子设备,其特征在于:包括:
处理器;
存储器,用于储存处理器可执行指令;
所述处理器被配置为执行权利要求1-4中任意一项权利要求所述姿态估计方法。
10.计算机可读存储介质,其特征在于:包括储存的程序,所述程序运行时执行权利要求1-4中任意一项权利要求所述姿态估计方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202010771698.2A CN111898566B (zh) | 2020-08-04 | 2020-08-04 | 姿态估计方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202010771698.2A CN111898566B (zh) | 2020-08-04 | 2020-08-04 | 姿态估计方法、装置、电子设备和存储介质 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN111898566A true CN111898566A (zh) | 2020-11-06 |
| CN111898566B CN111898566B (zh) | 2023-02-03 |
Family
ID=73184123
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202010771698.2A Active CN111898566B (zh) | 2020-08-04 | 2020-08-04 | 姿态估计方法、装置、电子设备和存储介质 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN111898566B (zh) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN112966519A (zh) * | 2021-02-01 | 2021-06-15 | 湖南大学 | 指代短语定位方法、系统及存储介质 |
| CN113221824A (zh) * | 2021-05-31 | 2021-08-06 | 之江实验室 | 基于个体模型生成的人体姿态识别方法 |
| CN116485894A (zh) * | 2023-04-24 | 2023-07-25 | 北京易航远智科技有限公司 | 视频场景建图与定位方法、装置、电子设备及存储介质 |
| CN116824631A (zh) * | 2023-06-14 | 2023-09-29 | 西南交通大学 | 一种姿态估计方法及系统 |
Citations (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20160086350A1 (en) * | 2014-09-22 | 2016-03-24 | Foundation for Research and Technology - Hellas (FORTH) (acting through its Institute of Computer | Apparatuses, methods and systems for recovering a 3-dimensional skeletal model of the human body |
| WO2018146546A1 (en) * | 2017-02-07 | 2018-08-16 | Mindmaze Holding Sa | Systems, methods, and apparatuses for tracking a body or portions thereof |
| CN108647663A (zh) * | 2018-05-17 | 2018-10-12 | 西安电子科技大学 | 基于深度学习和多层次图结构模型的人体姿态估计方法 |
| CN109271933A (zh) * | 2018-09-17 | 2019-01-25 | 北京航空航天大学青岛研究院 | 基于视频流进行三维人体姿态估计的方法 |
| CN109376571A (zh) * | 2018-08-03 | 2019-02-22 | 西安电子科技大学 | 基于变形卷积的人体姿态估计方法 |
| CN110008915A (zh) * | 2019-04-11 | 2019-07-12 | 电子科技大学 | 基于掩码-rcnn进行稠密人体姿态估计的系统及方法 |
| CN110084156A (zh) * | 2019-04-12 | 2019-08-02 | 中南大学 | 一种步态特征提取方法及基于步态特征的行人身份识别方法 |
| CN110163157A (zh) * | 2019-05-24 | 2019-08-23 | 南京邮电大学 | 一种利用新型损失函数进行多人姿态估计的方法 |
| CN110610154A (zh) * | 2019-09-10 | 2019-12-24 | 北京迈格威科技有限公司 | 行为识别方法、装置、计算机设备和存储介质 |
| CN110728209A (zh) * | 2019-09-24 | 2020-01-24 | 腾讯科技(深圳)有限公司 | 一种姿态识别方法、装置、电子设备及存储介质 |
| CN110969124A (zh) * | 2019-12-02 | 2020-04-07 | 重庆邮电大学 | 基于轻量级多分支网络的二维人体姿态估计方法及系统 |
-
2020
- 2020-08-04 CN CN202010771698.2A patent/CN111898566B/zh active Active
Patent Citations (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20160086350A1 (en) * | 2014-09-22 | 2016-03-24 | Foundation for Research and Technology - Hellas (FORTH) (acting through its Institute of Computer | Apparatuses, methods and systems for recovering a 3-dimensional skeletal model of the human body |
| WO2018146546A1 (en) * | 2017-02-07 | 2018-08-16 | Mindmaze Holding Sa | Systems, methods, and apparatuses for tracking a body or portions thereof |
| CN108647663A (zh) * | 2018-05-17 | 2018-10-12 | 西安电子科技大学 | 基于深度学习和多层次图结构模型的人体姿态估计方法 |
| CN109376571A (zh) * | 2018-08-03 | 2019-02-22 | 西安电子科技大学 | 基于变形卷积的人体姿态估计方法 |
| CN109271933A (zh) * | 2018-09-17 | 2019-01-25 | 北京航空航天大学青岛研究院 | 基于视频流进行三维人体姿态估计的方法 |
| CN110008915A (zh) * | 2019-04-11 | 2019-07-12 | 电子科技大学 | 基于掩码-rcnn进行稠密人体姿态估计的系统及方法 |
| CN110084156A (zh) * | 2019-04-12 | 2019-08-02 | 中南大学 | 一种步态特征提取方法及基于步态特征的行人身份识别方法 |
| CN110163157A (zh) * | 2019-05-24 | 2019-08-23 | 南京邮电大学 | 一种利用新型损失函数进行多人姿态估计的方法 |
| CN110610154A (zh) * | 2019-09-10 | 2019-12-24 | 北京迈格威科技有限公司 | 行为识别方法、装置、计算机设备和存储介质 |
| CN110728209A (zh) * | 2019-09-24 | 2020-01-24 | 腾讯科技(深圳)有限公司 | 一种姿态识别方法、装置、电子设备及存储介质 |
| CN110969124A (zh) * | 2019-12-02 | 2020-04-07 | 重庆邮电大学 | 基于轻量级多分支网络的二维人体姿态估计方法及系统 |
Non-Patent Citations (2)
| Title |
|---|
| SAEID VOSOUGHI等: "Deep 3D Human Pose Estimation Under Partial Body Presence", 《2018 25TH IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP)》 * |
| 许忠雄: "监控视频实时多人姿态估计算法研究与应用", 《CNKI优秀硕士学位论文全文库 信息科技辑》 * |
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN112966519A (zh) * | 2021-02-01 | 2021-06-15 | 湖南大学 | 指代短语定位方法、系统及存储介质 |
| CN112966519B (zh) * | 2021-02-01 | 2023-10-10 | 湖南大学 | 指代短语定位方法、系统及存储介质 |
| CN113221824A (zh) * | 2021-05-31 | 2021-08-06 | 之江实验室 | 基于个体模型生成的人体姿态识别方法 |
| CN116485894A (zh) * | 2023-04-24 | 2023-07-25 | 北京易航远智科技有限公司 | 视频场景建图与定位方法、装置、电子设备及存储介质 |
| CN116824631A (zh) * | 2023-06-14 | 2023-09-29 | 西南交通大学 | 一种姿态估计方法及系统 |
| CN116824631B (zh) * | 2023-06-14 | 2024-02-27 | 西南交通大学 | 一种姿态估计方法及系统 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN111898566B (zh) | 2023-02-03 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN109948425B (zh) | 一种结构感知自注意和在线实例聚合匹配的行人搜索方法及装置 | |
| CN112800903B (zh) | 一种基于时空图卷积神经网络的动态表情识别方法及系统 | |
| CN106897670B (zh) | 一种基于计算机视觉的快递暴力分拣识别方法 | |
| CN111898566B (zh) | 姿态估计方法、装置、电子设备和存储介质 | |
| CN110135319A (zh) | 一种异常行为检测方法及其系统 | |
| CN112883896B (zh) | 一种基于bert网络的微表情检测方法 | |
| CN106909938B (zh) | 基于深度学习网络的视角无关性行为识别方法 | |
| CN110633632A (zh) | 一种基于循环指导的弱监督联合目标检测和语义分割方法 | |
| CN110390308B (zh) | 一种基于时空对抗生成网络的视频行为识别方法 | |
| CN113343966B (zh) | 一种红外与可见光图像文本描述生成方法 | |
| CN115798055B (zh) | 一种基于cornersort跟踪算法的暴力行为检测方法 | |
| CN106127112A (zh) | 基于dlle模型的数据降维与特征理解方法 | |
| CN109508686B (zh) | 一种基于层次化特征子空间学习的人体行为识别方法 | |
| CN107609509A (zh) | 一种基于运动显著性区域检测的动作识别方法 | |
| Zhu et al. | DualDA-Net: Dual-head rectification for cross-domain object detection of remote sensing | |
| CN113158870A (zh) | 2d多人姿态估计网络的对抗式训练方法、系统及介质 | |
| CN116704202A (zh) | 一种基于知识嵌入的视觉关系检测方法 | |
| CN113361431B (zh) | 一种基于图推理的人脸遮挡检测的网络模型及方法 | |
| CN111339888A (zh) | 基于关节点运动图的双人交互行为识别方法 | |
| Liu | Tennis players' hitting action recognition method based on multimodal data | |
| CN117576786A (zh) | 基于视觉语言模型的三维人体行为识别网络训练方法 | |
| Karim et al. | Bangla sign language recognition using yolov5 | |
| Ling et al. | A facial expression recognition system for smart learning based on yolo and vision transformer | |
| CN102663369A (zh) | 基于surf高效匹配核的人体运动跟踪方法 | |
| CN109977837A (zh) | 基于人体姿态不变特征的行人再识别方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |