CN111311729A - 一种基于双向投影网络的自然场景三维人体姿态重建方法 - Google Patents
一种基于双向投影网络的自然场景三维人体姿态重建方法 Download PDFInfo
- Publication number
- CN111311729A CN111311729A CN202010056119.6A CN202010056119A CN111311729A CN 111311729 A CN111311729 A CN 111311729A CN 202010056119 A CN202010056119 A CN 202010056119A CN 111311729 A CN111311729 A CN 111311729A
- Authority
- CN
- China
- Prior art keywords
- dimensional
- posture
- attitude
- network
- projection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/006—Mixed reality
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/06—Topological mapping of higher dimensional structures onto lower dimensional surfaces
- G06T3/067—Reshaping or unfolding 3D tree structures onto 2D planes
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Graphics (AREA)
- Software Systems (AREA)
- Geometry (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于双向投影网络的自然场景三维人体姿态重建方法,针对现有技术中人体三维姿态重建过程仍需改进的问题。该发明含有以下步骤:一、利用相机采集数据;二、将采集的视频、图像数据送入二维姿态检测器获取对应姿态的二维人体关节点坐标;三、根据训练过程有无三维姿态数据标签设计两种结构的双向投影网络;四、利用深度对抗式学习策略对设计好的网络进行训练,最小化网络损失函数,经过迭代最终得到训练好的三维姿态生成器;五、将步骤二中二维姿态检测器的输出结果输入步骤四中训练好的三维姿态生成器。该技术成本低廉,能助力5G时代的VR、AR技术,建立便携式体感交互设备,实现三维动作重建技术的大规模推广与应用。
Description
技术领域
本发明涉及计算机视觉技术领域,特别是涉及一种基于双向投影网络的自然场景三维人体姿态重建方法。
背景技术
在虚拟现实技术和体感人机交互中通常需要对人体的动作进行准确的捕捉,重建出一个运动的人体三维骨骼。现有的方法通常是使用专业的运动捕捉设备(MOCAP)或者是体感摄像机(Kinect)等一些硬件外设来完成三维人体姿态的重建。但是这些专业的设备通常情况下价格高昂,对实验环境要求极高,阻碍了三维姿态重建技术的大范围推广和运用。单目图像中人体3D姿态估计是计算机视觉中的一项艰巨的任务,基于2D关节点的三维姿态重建更是一个棘手的病态问题。现有的多数方法通常依赖成对的标签数据对网络进行有监督的训练,在缺乏标签数据和明确对应关系的情况下模型性能不佳。因此,利用深度学习技术对上述人体三维姿态重建过程进行改进,使得整个过程能够摆脱专业硬件外设的依赖,仅仅依靠普通的手机和相机就能完成自然场景下的三维人体姿态重建。
在现有的深度学习方法中,通常依赖成对的带有标签的人体姿态数据对网络进行训练,在缺乏三维标签和明确对应关系的情况下模型很难进行训练且泛化性能不佳,难以对自然环境下复杂多变的特殊人体姿态进行合理的三维重建。因此设计一种能够在自然场景下进行准确的三维人体姿态重建,且训练过程不依赖标签数据的深度学习方案意义重大,能够以极低的成本取代专业的动作捕捉设备,并且能够完成自然场景下三维姿态的重构。
发明内容
本发明克服了现有技术中人体三维姿态重建过程仍需改进的问题,提供一种能够利用单目相机对自然场景下的人体动作进行三维重建的基于双向投影网络的自然场景三维人体姿态重建方法。
本发明的技术解决方案是,提供一种具有以下步骤的基于双向投影网络的自然场景三维人体姿态重建方法:含有以下步骤:
步骤一、利用相机采集自然场景人体运动视频或者图像数据;
步骤二、将采集的视频、图像数据送入二维姿态检测器获取对应姿态的二维人体关节点坐标;
步骤三、根据训练过程有无三维姿态数据标签设计两种结构的双向投影网络;
步骤四、利用深度对抗式学习策略对设计好的网络进行训练,最小化网络损失函数,经过迭代最终得到训练好的三维姿态生成器;
步骤五、将步骤二中二维姿态检测器的输出结果输入步骤四中训练好的三维姿态生成器,输出结果为视频/图像中人物的三维姿态数据。
优选地,所述步骤一中,采用普通的单目光学相机或者手机摄像头完成自然场景下人物运动数据的采集,数据的形式是图片或视频。
优选地,所述步骤二中,二维姿态检测器为OpenPose、StackHourglass或HRNet的二维姿态检测方法,当采集数据是图片时,直接输入图片得到二维关节点检测结果,当采集数据是视频时,逐帧输入得到二维关节点检测序列。
优选地,所述步骤三中,根据用户是否拥有三维姿态标签数据,选取A/B两种不同结构的双向投影网络,当有三维姿态数据供使用时,双向投影网络工作在A模式,此时网络由两个反向的对偶支路构成,其网络模块包括三维姿态生成器、三维姿态判别器、二维姿态投影层和二维姿态判别器;当无三维姿态数据供使用时,双向投影网络工作在B模式,此时网络由两条不同方向的投影支路构成,其网络模块包括三维姿态生成器、二维姿态投影层和二维姿态判别器。
优选地,所述步骤三中三维姿态生成器的输入为二维关节点坐标,输出为三维关节点坐标,其内部包含两个深度残差网络和一个姿态特征提取层,深度残差网络由四个残差块堆叠构成,每层神经元数目为1024,姿态特征提取层完成对姿态拓扑结构的编码压缩;二维姿态判别器和三维姿态判别器具有相同的网络架构,其内部包含了二/三维姿态特征提取层、深度残差网络和一个全连接层,该二/三维判别器模块输入为不同维度的姿态向量,输出为一个一元判别值;二维姿态投影层内部包含了残差网络正向投影和旋转变换两条支路,根据功能分别将姿态分别投影到不同的观测角度,该二维姿态投影层模块的输入为三维姿态数据,输出为投影后的二维姿态数据。
优选地,所述步骤四包含以下分步骤,
步骤4.1、当存在三维姿态数据可供网络训练时,选择模式A网络架构进行训练;
步骤4.1.1、将二维姿态作为输入,首先经过三维姿态生成器中的残差网络输出一个初始的深度估计值,得到三维姿态的初始估计结果;然后初始估计结果被传入姿态特征提取层,经过姿态先验拓扑结构特征提取输出一个特征向量,该特征向量再次被传入深度残差网络输出最终的深度估计值,生成最终的三维重构姿态;
步骤4.1.2、生成的三维重构姿态一路通过二维姿态投影层得到正向投影,并与输入的二维姿态计算姿态误差,另一路将送入三维姿态判别器计算分布误差;
步骤4.1.3、将三维姿态作为输入,首先经过二维姿态投影层得到正向投影,该正向投影一路被送入三维姿态生成器得到三维重构结果,并与输入的三维姿态计算姿态误差,另一路被送入二维姿态判别器计算分布误差;
步骤4.2、当没有三维姿态数据可供网络训练时,选择模式B网络架构进行训练;
步骤4.2.1、将二维姿态作为输入,首先经过三维姿态生成器中的残差网络输出一个初始的深度估计值,得到三维姿态的初始估计结果;然后初始估计结果被传入姿态特征提取层,经过姿态先验拓扑结构特征提取输出一个特征向量,该特征向量将会再次被传入深度残差网络输出最终的深度估计值,生成最终的三维重构姿态;
步骤4.2.2、将三维重构姿态传入二维姿态投影层,分别得到正向投影与旋转投影,其中正向投影将与输入的二维姿态计算姿态误差,旋转投影将通过二维姿态判别器计算二维分布误差;
步骤4.3、分别计算A/B两种模式下的损失函数,包括姿态损失函数和分布损失函数;
步骤4.3.1、在模式A下,网络整体的损失函数定义为:
lossA=LGAN(G3d,D3d)+LGAN(G2d,D2d)+Ldual(G2d,G3d),其中LGAN代表带有梯度惩罚项的生成对抗网络的损失函数,其反应了分布误差,计算公式如下:
Ldual代表对偶网络的双向损失,其反应了姿态误差,计算公式如下:
Ldual(G2d,G3d)=||G2d(G3d(X2d))-X2d||1+||G3d(G2d(X3d))-X3d||1
λ为神经网络超参数,G3d代表三维姿态生成器,G2d代表二维姿态投影层,D3d和D2d分别代表三维姿态判别器与二维姿态判别器,X2d与X3d分别代表真实二维姿态与三维姿态,A3d代表了重构三维姿态分布与真实三维姿态分布采样点连线上的随机三维姿态,A2d代表了投影二维姿态分布与真实二维姿态分布采样点连线上的随机二维姿态;
步骤4.3.2、在模式B下,网络整体的损失函数定义为:
lossB=LGAN(GR2dG3d,D2d)+Lpose(GK2dG3d),其中LGAN代表带有梯度惩罚项的生成对抗网络的损失函数,其反应了分布误差,计算公式如下:
Lpose为重构损失,其反应了姿态误差,计算公式如下:
Lpose(GK2dG3d)=||GK2dG3d(X2d)-X2d||1
λ为神经网络超参数,G3d代表三维姿态生成器,GR2d代表二维姿态投影层旋转投影变换,GK2d代表二维姿态投影层正向投影变换,D2d代表二维姿态判别器,X2d代表真实二维姿态数据,A2d代表了投影二维姿态分布与真实二维姿态分布采样点连线上的随机二维姿态;
步骤4.4、利用神经网络优化器调整网络参数最小化误差函数,迭代20~40EPOCH后损失函数收敛,得到训练好的三维姿态生成器。
所述步骤五包含以下分步骤,
步骤5.1、将普通相机采集的视频或图像数据传入二维姿态检测器,首先得到二维关节点数据;
步骤5.2、将二维姿态检测器的输出结果进行正规化处理,使其能够直接作为三维姿态生成器的输入;正规化处理具有以下分步骤:
步骤5.2.1、利用检测到的左右肩关节坐标重构中心颈部坐标:
其中:(xT,yT)代表中心颈部坐标,(xls,yls)代表左肩坐标,(xrs,yrs)代表右肩坐标;
步骤5.2.2、利用检测到的左右肩关节和髋关节重构中心脊柱坐标:
其中:(xS,yS)代表中心脊柱坐标,(xls,yls)代表左肩坐标,(xrs,yrs)代表右肩坐标,(xlh,ylh)代表左髋坐标,(xrh,yrh)代表右髋坐标;
步骤5.3、将正规化的二维姿态数据传入三维姿态生成器,输出结果即为重建的三维姿态,当输入数据为图像数据时,输出结果为三维人体姿态骨架;当输入数据为视频数据时,输出结果为三维人体骨架动作。
与现有技术相比,本发明基于双向投影网络的自然场景三维人体姿态重建方法具有以下优点:(1)通过采用数据驱动的方式训练深度神经网络,能够直接通过神经网络实现低成本的人体姿态三维重建,不需要任何昂贵的硬件设备,只需要普通相机或者手机就能采集数据,并且基于视觉方法对运动人体进行三维姿态重建,能够替代专业硬件外设完成人体姿态的三维重建。成本低廉,使用方便,能够助力5G时代的VR、AR技术,建立便携式体感交互设备,实现三维动作重建技术的大规模推广与应用。
(2)采用了特有的神经网络训练方式,充分利用了人体姿态数据的生理学结构特点为网络增加了新的约束,因此在网络的训练过程中不依赖于具体的数据标签以及三维数据集可以实现无标签的深度学习训练过程,而且训练好的模型具有很好的泛化性能,可以实现自然场景下复杂的三维人体姿态估计任务。
(3)本发明通过对人体姿态两大特性的研究,设计了双向投影网络。它将数据集包含的姿态先验知识作为一种新的约束加入到网络的训练过程,减轻了模型在训练时对真实3D数据的依赖,能够在不依赖标签数据的情况下进行网络的训练,并且能够实现自然场景下准确的3D人体姿态重建。
附图说明
图1是本发明中双向投影网络A模式网络结构示意图;
图2是本发明中双向投影网络B模式网络结构示意图;
图3是本发明中双向投影网络组成模块的内部结构示意图;
图4是本发明中的整体流程图;
图5是本发明在自然场景下的三维人体姿态重建效果图。
具体实施方式
下面结合附图和具体实施方式对本发明基于双向投影网络的自然场景三维人体姿态重建方法作进一步说明,如图所示,本实施例中介绍本发明的详细提出过程。
一、相关技术的介绍
重构人类在三维空间的姿态动作是计算机视觉的主要目标之一,在上个世纪已经有相关学者对这一问题进行了研究[1]。为了摆脱对专业设备的依赖,早期的一些方法大多是基于特征工程,通过对人类骨骼关节进行运动生理学建模来重构3D姿态[2,3],或者是基于搜索的方法,使用3D骨架的数据库字典进行最近邻查找,为2D姿态输出对应的3D姿态[4,5]。随着深度学习的发展,研究者试图通过建立一个端到端的模型直接从RGB图像中输出人体的3D姿态[6,7,8,9],但是自然场景中图像复杂的背景通常会干扰端到端的3D姿态重建过程。近年来,从单目视觉系统中推断3D人体姿态引起了极大的关注,此项技术可以被广泛的应用于动画电影、虚拟现实、行为识别与人机交互。因为从2D观测中恢复3D姿态本身就是一个病态问题,所以这在计算机视觉任务中非常具有挑战性。在自然场景下,受光照、角度以及复杂背景等因素影响,直接推断图像中人体的3D姿态非常的困难,之前的一些工作将这一问题拆分成两部分:首先通过各种先进的2D人体关键点检测器从图像中估计2D姿态,然后在获得的2D姿态基础上进行3D人体姿态重建。其中[10]最先提出了一种简单的基线算法,将3D姿态重建看作是一个2D关节点到3D坐标点的回归任务,利用神经网络完成了高质量的3D姿态重建。[11]进一步将姿态表示成距离矩阵将这一问题转化为二维到三维的距离矩阵回归。[12]将人体姿态看作是一类特殊的拓扑图数据,设计了一种语义图卷积网络(SemGCN),完成了图结构数据的回归任务。但是这些利用三维标签数据训练网络的方法有两个严重的局限性:(1)因为3D姿态的数据对实验条件要求很高,通常需要在室内利用昂贵的多角度动作捕捉设备捕获人体运动的三维信息,所以现实场景中通常很难获得大量用于训练的3D人体姿态数据;(2)有标签数据训练过程中严格的对应关系会导致单一数据集上的过拟合现象产生,这种过拟合一方面体现在模型无法泛化到其他特殊角度或者从未见过的2D姿态上,另一方面表现在网络只能生成训练集中的3D姿态数据,不能对自然场景下复杂姿态动作做出合理的重建。这两个局限性都是由于训练过程对3D标签数据的依赖造成的。
近年来,2D人体关节点检测算法精确度日益提高,已经能够做到自然场景下实时的2D姿态估计。因此越来越多的研究者致力于利用这些易于获得的2D关节点数据进行3D姿态的重建,也就是分成两步走:首先利用先进的2D人体关节检测器从图像中获得2D姿态,然后将这些2D姿态提升到3D。解决病态问题的关键点在于结合问题特征加入合理的先验信息作为约束,在传统方法中这种约束由人手工设计的正则项提供,通常只能实现单一问题的解。在深度学习时代,利用网络自动的从数据中学习先验信息约束可以看作是解决病态问题的一种新思路,通过大量数据训练的模型就可以解决一类问题。
因此将姿态数据的重要特性抽象出来并作为网络的约束是本发明的主要贡献点。通过对姿态数据生理学结构特点的研究,本发明利用深度学习技术设计了双向投影网络,它具有A/B两种工作模式,能够在有三维数据标签和无标签数据的情况下分别进行网络的训练,训练好的网络能够完成自然场景下复杂的三维人体姿态重建任务。
二、提出的方法
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:参阅图1-5,一种基于双向投影网络的自然场景三维人体姿态重建方法的整体流程图如图4所示,当利用单目相机拍摄得到图片或者视频之后,首先经过二维姿态检测网络(OpenPose,HRNet,StackHourglass)获得对应的二维人体姿态,并得到二维关节点检测结果。在将数据送入三维姿态生成器之前,需要根据是否拥有三维标签数据选择相应的模式对三维姿态生成器进行训练。当有三维姿态标签数据时,双向投影网络工作在A模式,当没有三维姿态标签数据时,双向投影网络工作在B模式。用户可以根据自己是否拥有三维人体姿态数据,选择对应的模式对网络进行训练。
当选取模式A时,双向投影网络训练过程具有如图1所示的结构,二维姿态数据与三维姿态数据分别被送入双向网络的两个支路。第一条支路中,输入的二维姿态首先经由三维姿态生成器生成三维姿态重构结果,此重构结果再经由二维姿态投影层重新生成二维投影结果;第二条支路中,输入的三维姿态首先传入二维姿态投影层,然后将输出结果再送入三维姿态生成器完成第二次重构。两条支路完成了一个对偶的运算过程,在两个过程中需要分别对重构姿态的误差进行计算,误差分为分布误差以及姿态误差,整个网络的损失函数为:
lossA=LGAN(G3d,D3d)+LGAN(G2d,D2d)+Ldual(G2d,G3d),
其中LGAN代表带有梯度惩罚项的生成对抗网络的损失函数,其反应了分布误差,计算公式如下:
Ldual代表对偶网络的双向损失,其反应了姿态误差,计算公式如下:
Ldual(G2d,G3d)=||G2d(G3d(X2d))-X2d||1+||G3d(G2d(X3d))-X3d||1
λ为神经网络超参数,G3d代表三维姿态生成器,G2d代表二维姿态投影层,D3d和D2d分别代表三维姿态判别器与二维姿态判别器,X2d与X3d分别代表真实二维姿态与三维姿态,A3d代表了重构三维姿态分布与真实三维姿态分布采样点连线上的随机三维姿态,A2d代表了投影二维姿态分布与真实二维姿态分布采样点连线上的随机二维姿态;
当选取模式B时,双向投影网络训练过程具有如图2所示的结构,B模式不需要任何标签数据,输入的二维姿态首先经过三维姿态生成器得到重构结果,然后此三维姿态将经过二维姿态投影层完成两种投影变化,一个支路将三维姿态投影到正向观测视角得到正向二维投影结果,另一个支路将三维姿态结果进行旋转投影变换得到其他视角观测结果。此时的两条支路完成了两种不同的观测过程,对这两种观测结果分别进行两种约束同样可以得到姿态误差以及分布误差,整个网络的损失函数为:
lossB=LGAN(GR2dG3d,D2d)+Lpose(GK2dG3d),
其中LGAN代表带有梯度惩罚项的生成对抗网络的损失函数,其反应了分布误差,计算公式如下:
Lpose为重构损失,其反应了姿态误差,计算公式如下:
Lpose(GK2dG3d)=||GK2dG3d(X2d)-X2d||1
λ为神经网络超参数,G3d代表三维姿态生成器,GR2d代表二维姿态投影层旋转投影变换,GK2d代表二维姿态投影层正向投影变换,D2d代表二维姿态判别器,X2d代表真实二维姿态数据,A2d代表了投影二维姿态分布与真实二维姿态分布采样点连线上的随机二维姿态;
在训练过程中,双向投影网络的A/B两种模式共用了同一套网络模块,网络的组成模块如图3所示,其中包括三维姿态生成器、二/三维姿态判别器以及二维姿态投影层。
其中三维姿态生成器内部包含两个深度残差网络和一个姿态特征提取层,深度残差网络由四个残差块堆叠构成,每层神经元数目为1024,输入的二维姿态首先经过残差网络输出一个初始的深度估计值得到三维姿态的初始估计结果,然后初始估计结果被传入姿态特征提取层,经过姿态先验拓扑结构特征提取,三维姿态将会被编码成一个包含空间角度以及深度信息的特征向量,这个特征向量将会再次被传入深度残差网络输出最终的深度估计值,生成最终的三维重构姿态。
二维姿态判别器和三维姿态判别器具有相同的网络架构,主要差别在于特征提取层的不同,两种维度的姿态首先经过对应的姿态特征提取层编码成一个包含运动姿态拓扑结构的特征向量,然后再经过深度残差网络和全连接层输出最终的判别值,完成对两个分布之间差异的计算。
二维姿态投影层包含了两条支路,分别可以将姿态分别投影到不同的角度,正向视角的观测通过多个残差块连接的深度残差网络完成,其他旋转视角的观测则通过对姿态旋转变换层来实现。
其中正向投影的变换过程如下:
X2d=G2d(X3d)
旋转投影的变换过程如下:
X2d=GR2dX3d
其中X2d代表二维姿态,X3d代表三维姿态,G2d代表深度残差网络投影变换,GR2d代表旋转变换。
其中旋转变换矩阵:
通过以上各模块的组合,可以构成双向投影网络的A、B两种训练模式,根据实际情况选取对应的模式进行网络的训练,不断迭代最小化误差函数,经过20~40EPOCH网络训练,最终可以得到训练好的三维姿态生成器。
然后将之前检测到的二维姿态经过如下的正规化处理:
1.利用检测到的左右肩关节坐标重构中心颈部坐标:
其中:(xT,yT)代表中心颈部坐标,(xls,yls)代表左肩坐标,(xrs,yrs)代表右肩坐标;
2.利用检测到的左右肩关节和髋关节重构中心脊柱坐标:
其中:(xS,yS)代表中心脊柱坐标,(xls,yls)代表左肩坐标,(xrs,yrs)代表右肩坐标,(xlh,ylh)代表左髋坐标,(xrh,yrh)代表右髋坐标;
将正规化处理的二维人体姿态传入训练好的三维姿态生成器,三维姿态生成器会依照二维的检测结果输出一个符合人体姿态拓扑结构的三维人体骨架,连接各帧视频的骨架序列,就可以实现对视频中三维人体姿态的重建,因为本发明的方法中直接采用了二维姿态检测器的估计结果,所以模型具有很强的泛化性能,能够针对自然场景下一些特殊的姿态做出合理的三维重建效果。所发明方法的重建效果如图5所示。
三、参考文献,申请文件中括号内带有的数字,就是指代下面该数字对应的文献。
[1]H.-J.Lee and Z.Chen.Determination of 3d human body postures from asingle view.Computer Vision,Graphics,and Image Processing,30(2):148–168,1985.
[2]V.Ramakrishna,T.Kanade,and Y.Sheikh.Reconstructing 3d human posefrom 2d image landmarks.In European Conference on Computer Vision(ECCV),pages573–586.Springer,2012.
[3]C.Ionescu,J.Carreira,and C.Sminchisescu.Iterated second-orderlabel sensitive pooling for 3d human pose estimation.In Conference onComputer Vision and Pattern Recognition(CVPR),pages 1661–1668,2014.2
[4]H.Jiang.3d human pose reconstruction using millions ofexemplars.In International Conference on Pattern Recognition(ICPR),pages1674–1677.IEEE,2010.
[5]C.-H.Chen and D.Ramanan.3D human pose estimation=2D poseestimation+matching.In Conference on Computer Vision and Pattern Recognition(CVPR),pages 5759–5767,2017.
[6]S.Li and A.B.Chan.3d human pose estimation from monocular imageswith deep convolutional neural network.In Asian Conference on Computer Vision(ACCV),pages 332–347.Springer,2014.
[7]D.Mehta,S.Sridhar,O.Sotnychenko,H.Rhodin,M.Shafiei,H.-P.Seidel,W.Xu,D.Casas,and C.Theobalt.Vnect:Real-time 3d human pose estimation with asingle rgb camera.volume 36,72017.
[8]B.Tekin,I.Katircioglu,M.Salzmann,V.Lepetit,and P.Fua.Structuredprediction of 3d human pose with deep neural networks.In British MachineVision Conference(BMVC),2016.
[9]G.Pavlakos,X.Zhou,K.G.Derpanis,and K.Daniilidis.Coarse-to-finevolumetric prediction for single-image 3d human pose.In Conference onComputer Vision and Pattern Recognition(CVPR),pages 1263–1272.IEEE,2017.
[10]J.Martinez,R.Hossain,J.Romero,and J.J.Little.A simple yeteffective baseline for 3d human pose estimation.In ICCV,2017.
[11]F.Moreno-Noguer.3d human pose estimation from a single image viadistance matrix regression.In Proceedings of the Conference on ComputerVision and Pattern Recognition(CVPR),2017.1
[12]Zhao L,Peng X,Tian Y,et al.Semantic Graph Convolutional Networksfor 3D Human Pose Regression[C]//Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition.2019:3425-3435.
Claims (7)
1.一种基于双向投影网络的自然场景三维人体姿态重建方法其特征在于:含有以下步骤:
步骤一、利用相机采集自然场景人体运动视频或者图像数据;
步骤二、将采集的视频、图像数据送入二维姿态检测器获取对应姿态的二维人体关节点坐标;
步骤三、根据训练过程有无三维姿态数据标签设计两种结构的双向投影网络;
步骤四、利用深度对抗式学习策略对设计好的网络进行训练,最小化网络损失函数,经过迭代最终得到训练好的三维姿态生成器;
步骤五、将步骤二中二维姿态检测器的输出结果输入步骤四中训练好的三维姿态生成器,输出结果为视频/图像中人物的三维姿态数据。
2.根据权利要求1所述的基于双向投影网络的自然场景三维人体姿态重建方法,其特征在于:所述步骤一中,采用普通的单目光学相机或者手机摄像头完成自然场景下人物运动数据的采集,数据的形式是图片或视频。
3.根据权利要求1所述的基于双向投影网络的自然场景三维人体姿态重建方法,其特征在于:所述步骤二中,二维姿态检测器为OpenPose、StackHourglass或HRNet的二维姿态检测方法,当采集数据是图片时,直接输入图片得到二维关节点检测结果,当采集数据是视频时,逐帧输入得到二维关节点检测序列。
4.根据权利要求1所述的基于双向投影网络的自然场景三维人体姿态重建方法,其特征在于:所述步骤三中,根据用户是否拥有三维姿态标签数据,选取A/B两种不同结构的双向投影网络,当有三维姿态数据供使用时,双向投影网络工作在A模式,此时网络由两个反向的对偶支路构成,其网络模块包括三维姿态生成器、三维姿态判别器、二维姿态投影层和二维姿态判别器;当无三维姿态数据供使用时,双向投影网络工作在B模式,此时网络由两条不同方向的投影支路构成,其网络模块包括三维姿态生成器、二维姿态投影层和二维姿态判别器。
5.根据权利要求1所述的基于双向投影网络的自然场景三维人体姿态重建方法,其特征在于:所述步骤三中三维姿态生成器的输入为二维关节点坐标,输出为三维关节点坐标,其内部包含两个深度残差网络和一个姿态特征提取层,深度残差网络由四个残差块堆叠构成,每层神经元数目为1024,姿态特征提取层完成对姿态拓扑结构的编码压缩;二维姿态判别器和三维姿态判别器具有相同的网络架构,其内部包含了二/三维姿态特征提取层、深度残差网络和一个全连接层,该二/三维判别器模块输入为不同维度的姿态向量,输出为一个一元判别值;二维姿态投影层内部包含了残差网络正向投影和旋转变换两条支路,根据功能分别将姿态分别投影到不同的观测角度,该二维姿态投影层模块的输入为三维姿态数据,输出为投影后的二维姿态数据。
6.根据权利要求1所述的基于双向投影网络的自然场景三维人体姿态重建方法,其特征在于:所述步骤四包含以下分步骤,
步骤4.1、当存在三维姿态数据可供网络训练时,选择模式A网络架构进行训练;
步骤4.1.1、将二维姿态作为输入,首先经过三维姿态生成器中的残差网络输出一个初始的深度估计值,得到三维姿态的初始估计结果;然后初始估计结果被传入姿态特征提取层,经过姿态先验拓扑结构特征提取输出一个特征向量,该特征向量再次被传入深度残差网络输出最终的深度估计值,生成最终的三维重构姿态;
步骤4.1.2、生成的三维重构姿态一路通过二维姿态投影层得到正向投影,并与输入的二维姿态计算姿态误差,另一路将送入三维姿态判别器计算分布误差;
步骤4.1.3、将三维姿态作为输入,首先经过二维姿态投影层得到正向投影,该正向投影一路被送入三维姿态生成器得到三维重构结果,并与输入的三维姿态计算姿态误差,另一路被送入二维姿态判别器计算分布误差;
步骤4.2、当没有三维姿态数据可供网络训练时,选择模式B网络架构进行训练;
步骤4.2.1、将二维姿态作为输入,首先经过三维姿态生成器中的残差网络输出一个初始的深度估计值,得到三维姿态的初始估计结果;然后初始估计结果被传入姿态特征提取层,经过姿态先验拓扑结构特征提取输出一个特征向量,该特征向量将会再次被传入深度残差网络输出最终的深度估计值,生成最终的三维重构姿态;
步骤4.2.2、将三维重构姿态传入二维姿态投影层,分别得到正向投影与旋转投影,其中正向投影将与输入的二维姿态计算姿态误差,旋转投影将通过二维姿态判别器计算二维分布误差;
步骤4.3、分别计算A/B两种模式下的损失函数,包括姿态损失函数和分布损失函数;
步骤4.3.1、在模式A下,网络整体的损失函数定义为:
lossA=LGAN(G3d,D3d)+LGAN(G2d,D2d)+Ldual(G2d,G3d),其中LGAN代表带有梯度惩罚项的生成对抗网络的损失函数,其反应了分布误差,计算公式如下:
Ldual代表对偶网络的双向损失,其反应了姿态误差,计算公式如下:
Ldual(G2d,G3d)=||G2d(G3d(X2d))-X2d||1+||G3d(G2d(X3d))-X3d||1
λ为神经网络超参数,G3d代表三维姿态生成器,G2d代表二维姿态投影层,D3d和D2d分别代表三维姿态判别器与二维姿态判别器,X2d与X3d分别代表真实二维姿态与三维姿态,A3d代表了重构三维姿态分布与真实三维姿态分布采样点连线上的随机三维姿态,A2d代表了投影二维姿态分布与真实二维姿态分布采样点连线上的随机二维姿态;
步骤4.3.2、在模式B下,网络整体的损失函数定义为:
lossB=LGAN(GR2dG3d,D2d)+Lpose(GK2dG3d),其中LGAN代表带有梯度惩罚项的生成对抗网络的损失函数,其反应了分布误差,计算公式如下:
Lpose为重构损失,其反应了姿态误差,计算公式如下:
Lpose(GK2dG3d)=||GK2dG3d(X2d)-X2d||1
λ为神经网络超参数,G3d代表三维姿态生成器,GR2d代表二维姿态投影层旋转投影变换,GK2d代表二维姿态投影层正向投影变换,D2d代表二维姿态判别器,X2d代表真实二维姿态数据,A2d代表了投影二维姿态分布与真实二维姿态分布采样点连线上的随机二维姿态;
步骤4.4、利用神经网络优化器调整网络参数最小化误差函数,迭代20~40EPOCH后损失函数收敛,得到训练好的三维姿态生成器。
7.根据权利要求1所述的基于双向投影网络的自然场景三维人体姿态重建方法,其特征在于:所述步骤五包含以下分步骤,
步骤5.1、将普通相机采集的视频或图像数据传入二维姿态检测器,首先得到二维关节点数据;
步骤5.2、将二维姿态检测器的输出结果进行正规化处理,使其能够直接作为三维姿态生成器的输入;正规化处理具有以下分步骤:
步骤5.2.1、利用检测到的左右肩关节坐标重构中心颈部坐标:
其中:(xT,yT)代表中心颈部坐标,(xls,yls)代表左肩坐标,(xrs,yrs)代表右肩坐标;
步骤5.2.2、利用检测到的左右肩关节和髋关节重构中心脊柱坐标:
其中:(xS,yS)代表中心脊柱坐标,(xls,yls)代表左肩坐标,(xrs,yrs)代表右肩坐标,(xlh,ylh)代表左髋坐标,(xrh,yrh)代表右髋坐标;
步骤5.3、将正规化的二维姿态数据传入三维姿态生成器,输出结果即为重建的三维姿态,当输入数据为图像数据时,输出结果为三维人体姿态骨架;当输入数据为视频数据时,输出结果为三维人体骨架动作。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202010056119.6A CN111311729B (zh) | 2020-01-18 | 2020-01-18 | 一种基于双向投影网络的自然场景三维人体姿态重建方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202010056119.6A CN111311729B (zh) | 2020-01-18 | 2020-01-18 | 一种基于双向投影网络的自然场景三维人体姿态重建方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN111311729A true CN111311729A (zh) | 2020-06-19 |
| CN111311729B CN111311729B (zh) | 2022-03-11 |
Family
ID=71145156
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202010056119.6A Active CN111311729B (zh) | 2020-01-18 | 2020-01-18 | 一种基于双向投影网络的自然场景三维人体姿态重建方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN111311729B (zh) |
Cited By (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN112185104A (zh) * | 2020-08-22 | 2021-01-05 | 南京理工大学 | 一种基于对抗自编码器的交通大数据修复方法 |
| CN112307940A (zh) * | 2020-10-28 | 2021-02-02 | 有半岛(北京)信息科技有限公司 | 模型训练方法、人体姿态检测方法、装置、设备及介质 |
| CN112949462A (zh) * | 2021-02-26 | 2021-06-11 | 平安科技(深圳)有限公司 | 三维人体姿态的估计方法、装置、设备及存储介质 |
| CN113170050A (zh) * | 2020-06-22 | 2021-07-23 | 深圳市大疆创新科技有限公司 | 图像获取方法、电子设备和可移动设备 |
| CN113158920A (zh) * | 2021-04-26 | 2021-07-23 | 平安科技(深圳)有限公司 | 特定动作识别模型的训练方法、装置以及计算机设备 |
| CN113239892A (zh) * | 2021-06-10 | 2021-08-10 | 青岛联合创智科技有限公司 | 一种基于数据增强架构的单目人体三维姿态估计方法 |
| CN113569627A (zh) * | 2021-06-11 | 2021-10-29 | 北京旷视科技有限公司 | 人体姿态预测模型训练方法、人体姿态预测方法及装置 |
| CN114581613A (zh) * | 2022-04-29 | 2022-06-03 | 杭州倚澜科技有限公司 | 一种基于轨迹约束的人体模型姿态和形状优化方法和系统 |
| WO2022115991A1 (en) * | 2020-12-01 | 2022-06-09 | Intel Corporation | Incremental 2d-to-3d pose lifting for fast and accurate human pose estimation |
| CN114925812A (zh) * | 2022-05-16 | 2022-08-19 | 中国科学院上海高等研究院 | 人体关节点检测模型训练方法及检测方法、存储介质终端 |
| CN115035173A (zh) * | 2022-06-08 | 2022-09-09 | 山东大学 | 基于帧间相关性的单目深度估计方法及系统 |
| CN116205788A (zh) * | 2023-04-27 | 2023-06-02 | 粤港澳大湾区数字经济研究院(福田) | 一种三维特征图的获取方法、图像处理方法及相关装置 |
| CN116229574A (zh) * | 2023-03-09 | 2023-06-06 | 杭州像衍科技有限公司 | 基于场景约束的三维人体姿态估计方法 |
Citations (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2009086088A1 (en) * | 2007-12-21 | 2009-07-09 | Honda Motor Co., Ltd. | Controlled human pose estimation from depth image streams |
| WO2015143134A1 (en) * | 2014-03-19 | 2015-09-24 | Raytheon Company | Bare earth finding and feature extraction for 3d point clouds |
| CN106651770A (zh) * | 2016-09-19 | 2017-05-10 | 西安电子科技大学 | 基于拉普拉斯范数正则化的多光谱超分辨成像重构方法 |
| CN106934827A (zh) * | 2015-12-31 | 2017-07-07 | 杭州华为数字技术有限公司 | 三维场景的重建方法和装置 |
| CN108460338A (zh) * | 2018-02-02 | 2018-08-28 | 北京市商汤科技开发有限公司 | 人体姿态估计方法和装置、电子设备、存储介质、程序 |
| CN110189253A (zh) * | 2019-04-16 | 2019-08-30 | 浙江工业大学 | 一种基于改进生成对抗网络的图像超分辨率重建方法 |
| WO2019213450A1 (en) * | 2018-05-02 | 2019-11-07 | Quidient, Llc | A codec for processing scenes of almost unlimited detail |
| CN110427799A (zh) * | 2019-06-12 | 2019-11-08 | 中国地质大学(武汉) | 基于生成对抗网络的人手深度图像数据增强方法 |
-
2020
- 2020-01-18 CN CN202010056119.6A patent/CN111311729B/zh active Active
Patent Citations (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2009086088A1 (en) * | 2007-12-21 | 2009-07-09 | Honda Motor Co., Ltd. | Controlled human pose estimation from depth image streams |
| WO2015143134A1 (en) * | 2014-03-19 | 2015-09-24 | Raytheon Company | Bare earth finding and feature extraction for 3d point clouds |
| CN106934827A (zh) * | 2015-12-31 | 2017-07-07 | 杭州华为数字技术有限公司 | 三维场景的重建方法和装置 |
| CN106651770A (zh) * | 2016-09-19 | 2017-05-10 | 西安电子科技大学 | 基于拉普拉斯范数正则化的多光谱超分辨成像重构方法 |
| CN108460338A (zh) * | 2018-02-02 | 2018-08-28 | 北京市商汤科技开发有限公司 | 人体姿态估计方法和装置、电子设备、存储介质、程序 |
| WO2019213450A1 (en) * | 2018-05-02 | 2019-11-07 | Quidient, Llc | A codec for processing scenes of almost unlimited detail |
| CN110189253A (zh) * | 2019-04-16 | 2019-08-30 | 浙江工业大学 | 一种基于改进生成对抗网络的图像超分辨率重建方法 |
| CN110427799A (zh) * | 2019-06-12 | 2019-11-08 | 中国地质大学(武汉) | 基于生成对抗网络的人手深度图像数据增强方法 |
Non-Patent Citations (4)
| Title |
|---|
| CHING-HANG CHEN 等: "3D Human Pose Estimation = 2D Pose Estimation + Matching", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 * |
| JIE LIN 等: "CG Animation Creator: Auto-rendering of Motion Stick Figure Based on Conditional Adversarial Learning", 《CHINESE CONFERENCE ON PATTERN RECOGNITION AND COMPUTER VISION (PRCV)》 * |
| MENGXI JIANG 等: "Reweighted sparse representation with residual compensation for 3D human pose estimation from a single RGB image", 《NEUROCOMPUTING》 * |
| 李翔 等: "基于Kinect的人体三维重建方法", 《计算机系统应用》 * |
Cited By (20)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN113170050A (zh) * | 2020-06-22 | 2021-07-23 | 深圳市大疆创新科技有限公司 | 图像获取方法、电子设备和可移动设备 |
| CN112185104B (zh) * | 2020-08-22 | 2021-12-10 | 南京理工大学 | 一种基于对抗自编码器的交通大数据修复方法 |
| CN112185104A (zh) * | 2020-08-22 | 2021-01-05 | 南京理工大学 | 一种基于对抗自编码器的交通大数据修复方法 |
| CN112307940A (zh) * | 2020-10-28 | 2021-02-02 | 有半岛(北京)信息科技有限公司 | 模型训练方法、人体姿态检测方法、装置、设备及介质 |
| WO2022115991A1 (en) * | 2020-12-01 | 2022-06-09 | Intel Corporation | Incremental 2d-to-3d pose lifting for fast and accurate human pose estimation |
| CN112949462B (zh) * | 2021-02-26 | 2023-12-19 | 平安科技(深圳)有限公司 | 三维人体姿态的估计方法、装置、设备及存储介质 |
| CN112949462A (zh) * | 2021-02-26 | 2021-06-11 | 平安科技(深圳)有限公司 | 三维人体姿态的估计方法、装置、设备及存储介质 |
| WO2022178951A1 (zh) * | 2021-02-26 | 2022-09-01 | 平安科技(深圳)有限公司 | 三维人体姿态的估计方法、装置、设备及存储介质 |
| CN113158920A (zh) * | 2021-04-26 | 2021-07-23 | 平安科技(深圳)有限公司 | 特定动作识别模型的训练方法、装置以及计算机设备 |
| CN113158920B (zh) * | 2021-04-26 | 2023-12-22 | 平安科技(深圳)有限公司 | 特定动作识别模型的训练方法、装置以及计算机设备 |
| CN113239892A (zh) * | 2021-06-10 | 2021-08-10 | 青岛联合创智科技有限公司 | 一种基于数据增强架构的单目人体三维姿态估计方法 |
| CN113569627A (zh) * | 2021-06-11 | 2021-10-29 | 北京旷视科技有限公司 | 人体姿态预测模型训练方法、人体姿态预测方法及装置 |
| CN114581613A (zh) * | 2022-04-29 | 2022-06-03 | 杭州倚澜科技有限公司 | 一种基于轨迹约束的人体模型姿态和形状优化方法和系统 |
| CN114925812A (zh) * | 2022-05-16 | 2022-08-19 | 中国科学院上海高等研究院 | 人体关节点检测模型训练方法及检测方法、存储介质终端 |
| CN115035173A (zh) * | 2022-06-08 | 2022-09-09 | 山东大学 | 基于帧间相关性的单目深度估计方法及系统 |
| CN115035173B (zh) * | 2022-06-08 | 2024-08-06 | 山东大学 | 基于帧间相关性的单目深度估计方法及系统 |
| CN116229574A (zh) * | 2023-03-09 | 2023-06-06 | 杭州像衍科技有限公司 | 基于场景约束的三维人体姿态估计方法 |
| CN116229574B (zh) * | 2023-03-09 | 2025-11-21 | 杭州像衍科技有限公司 | 基于场景约束的三维人体姿态估计方法 |
| CN116205788B (zh) * | 2023-04-27 | 2023-08-11 | 粤港澳大湾区数字经济研究院(福田) | 一种三维特征图的获取方法、图像处理方法及相关装置 |
| CN116205788A (zh) * | 2023-04-27 | 2023-06-02 | 粤港澳大湾区数字经济研究院(福田) | 一种三维特征图的获取方法、图像处理方法及相关装置 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN111311729B (zh) | 2022-03-11 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN111311729B (zh) | 一种基于双向投影网络的自然场景三维人体姿态重建方法 | |
| Zhou et al. | Monocular real-time hand shape and motion capture using multi-modal data | |
| Wang et al. | Hmor: Hierarchical multi-person ordinal relations for monocular multi-person 3d pose estimation | |
| CN111160164B (zh) | 基于人体骨架和图像融合的动作识别方法 | |
| Lei et al. | Cadex: Learning canonical deformation coordinate space for dynamic surface representation via neural homeomorphism | |
| Wang et al. | Region ensemble network: Towards good practices for deep 3D hand pose estimation | |
| Liu et al. | Multi-view hierarchical bidirectional recurrent neural network for depth video sequence based action recognition | |
| Tompson et al. | Real-time continuous pose recovery of human hands using convolutional networks | |
| Gou et al. | Cascade learning from adversarial synthetic images for accurate pupil detection | |
| Cong et al. | Weakly supervised 3d multi-person pose estimation for large-scale scenes based on monocular camera and single lidar | |
| CN111860651B (zh) | 一种基于单目视觉的移动机器人半稠密地图构建方法 | |
| CN111222459B (zh) | 一种视角无关的视频三维人体姿态识别方法 | |
| Liu et al. | Driver pose estimation using recurrent lightweight network and virtual data augmented transfer learning | |
| CN116935486A (zh) | 基于骨骼关节点和图像模态融合的手语识别方法及系统 | |
| Li et al. | Hmor: Hierarchical multi-person ordinal relations for monocular multi-person 3d pose estimation | |
| Malik et al. | Simultaneous hand pose and skeleton bone-lengths estimation from a single depth image | |
| CN116206328A (zh) | 一种基于多视点几何的三维人体姿态估计方法 | |
| CN111539288A (zh) | 一种双手姿势的实时检测方法 | |
| WO2022120843A1 (zh) | 三维人体重建方法、装置、计算机设备和存储介质 | |
| Zhang et al. | 3D human pose estimation in motion based on multi-stage regression | |
| Hori et al. | Silhouette-based 3d human pose estimation using a single wrist-mounted 360 camera | |
| Asadi-Aghbolaghi et al. | Supervised spatio-temporal kernel descriptor for human action recognition from RGB-depth videos | |
| CN113763536A (zh) | 一种基于rgb图像的三维重建方法 | |
| CN117711066A (zh) | 一种三维人体姿态估计方法、装置、设备及介质 | |
| CN117315137A (zh) | 一种基于自监督学习的单目rgb图像手势重建方法及系统 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |