CN118505742A

CN118505742A - 一种基于事件相机与rgb相机的第一视角手部跟踪系统及应用

Info

Publication number: CN118505742A
Application number: CN202410501983.0A
Authority: CN
Inventors: 王建宇; 王宇辰; 何欣; 冯骏驰; 李康
Original assignee: Hangzhou Institute of Advanced Studies of UCAS
Current assignee: Hangzhou Institute of Advanced Studies of UCAS
Priority date: 2024-04-24
Filing date: 2024-04-24
Publication date: 2024-08-16

Abstract

本申请的一种基于事件相机与RGB相机的第一视角手部跟踪系统与应用，通过使用目标检测算法检测高分辨率图像中手部边界框，利用特征点提取和姿态回归网络生成关键点3D坐标，根据事件流信息优化关键点位置，生成关键点的稀疏轨迹；应用时序滤波算法进行轨迹平滑与拼接，产生高频实时手部关键点位置信息。本申请的一种基于事件相机与RGB相机的第一视角手部跟踪系统与应用在传统仅基于RGB相机的手部跟踪方式中融合事件相机的异步数据流信息，实现了高达510fps的实时低延迟手部跟踪，同时优化了手部跟踪在变化光照条件下的泛化性能。

Description

一种基于事件相机与RGB相机的第一视角手部跟踪系统及应用

技术领域

本发明涉及图像处理和增强现实技术领域，具体而言，涉及一种基于事件相机与RGB相机的第一视角手部跟踪系统及应用。

背景技术

手部，作为人体最复杂的部位之一，能执行多种复杂运动。手部的动态表示和精确跟踪因此成为极具挑战性的任务。在AR、VR头显的应用中，基于视觉的人类手部三维(3D)跟踪旨在通过视觉观察估计3D手形表面或3D手关节位置，无需依赖任何额外感应设备如标记或手套。这种方法的优势在于允许自然、无干扰的手部运动捕捉，并且不需要专门硬件。

手部关键点跟踪专门用于实现对人手势的连续性识别和流畅分析，为增强现实AR、虚拟现实VR等交互式应用提供精准的用户输入。手部关键点跟踪通常包括手掌检测和手部关键点定位两个主要部分。现有技术中，通过手掌检测器确定手的位置和边界框，然后利用高度精细的手部关键点模型负责精确地标识出每个手指尖端和手部关节的具体位置。手部检测需要对手部动作的微妙变化极为敏感，从而能够捕捉到手指间的相对位置、姿态以及动作的流畅性，为交互设计提供更丰富的输入和控制方式。

大多数现有的基于视觉的手部跟踪方法采用RGB或RGB-D相机。随着深度学习技术的发展，从单个RGB相机预测手部姿势成为热门研究课题。RGB-D相机结合了RGB相机的特点，并额外提供了深度信息，提高了从二维图像恢复三维坐标的准确度。然而，尽管这些传感器广泛应用且有效，但在快速运动和光照条件不佳的场景中实现稳健和准确的手部跟踪仍具挑战性：例如在手部快速运动的时候，仅使用RGB相机或者RGB-D相机不可避免的会在拍摄的手部图像中出现手部残影；在光照过强或过暗的场景中，使用RGB相机将难以清晰地拍摄出手部，且通过数字图像处理方法进行预处理也无改善图像中的手部形态，进而影响手部跟踪效果。事件相机，通过异步测量每个像素的强度变化来生成神经形态事件，在多个视觉任务中显示出巨大潜力，这归功于其高动态范围、低功耗和高时间分辨率。事件相机能提供拍摄高帧率和高动态范围，这一优点但对RGB相机跟踪手部时的缺点进行补足。但事件相机缺乏足够的分辨率和颜色信息，同时单帧的异步事件信息不具有完整的含义，仅使用事件相机进行手部跟踪也存在极大的挑战。

基于现有技术中，已经公开了使用时间相机的数据进行人手跟踪，利用时间相机检测亮度变化、测量运动，实现低延迟、无运动模糊、低功耗和高动态的效果，通过算法能分析捕获的帧，实时报告三维手部位置数据。但是仅使用事件相机进行人手跟踪时，由于事件相机的每个像素独立工作，仅在亮度发生变化时生成数据，这导致单帧异步事件信息的不完整性。因此，这种数据缺乏连续的视觉细节，低分辨率的事件流信息也无法直接对手部关键点进行快速定位，这将导致在手部关键点跟踪时出现问题。

为了解决这些问题，现有技术中的研究主要基于事件数据的人手跟踪方法，通过预处理时间数据成强度帧，定义感兴趣区域ROI以减少噪声，并提取ROI特征用于深度感知；另外现有技术中还公开了全新的数据驱动的特征跟踪模型，利用低延迟事件数据对灰度帧中检测到的特征进行跟踪。但是由于事件相机无差别的捕捉画面内所有由于亮度变化产生的事件，因此除了需要的手部信息，捕获的事件中包含大量的无意义噪声，对手部的跟踪造成影响。目前对于使用事件相机进行手部关键点跟踪的研究中的一些去除环境噪声的方法，如统计事件较密集区域进行裁剪等，这样的方法在背景环境光照变化剧烈时容易失效，造成手部区域的错误定位，进而失去对手部的跟踪。而使用数据驱动的特征跟踪模型，在重建手部形状方面有着较好的实现效果。但其有数据驱动方法的固有缺点，即缺少相关的真实数据集及标注。由于事件相机产生的事件流数据异步、数据量庞大的特性，目前还没有公开的大规模带标注的事件流数据集，这对数据驱动模型的训练造成了极大的困难。

同时，目前的基于事件相机的手部跟踪方法往往依赖于直接从数据中提取模型以重建手部形态。这些模型往往包含大量的参数，不仅消耗巨大的计算资源，而且还需要强大的处理能力才能实时处理数据。这种对高性能计算的需求显然不适合需要轻量级和低功耗解决方案的头戴式显示设备。头戴设备通常受限于其内置硬件的计算能力、电池寿命以及用户的舒适度考量，因此对软件的效率和硬件的能耗都有着严格的要求，大量参数的模型难以在这种受限的硬件环境中有效运行。

因此，急需一种融合这两种相机优势的手部跟踪系统，以提供更稳定和连贯的手部跟踪数据。

发明内容

本发明的第一个目的在于，针对现有技术中仅使用RGB相机进行手部跟踪帧率不够、光照鲁棒性不强及仅使用事件相机进行手部跟踪缺乏足够的手部分辨率和颜色信息的问题，提供一种融合事件相机和RGB相机的第一视角手部跟踪方法与系统，以解决上述存在的至少一个技术问题。

为此，本发明的上述目的通过以下技术方案实现：

一种基于事件相机与RGB相机的第一视角手部跟踪系统，其特征在于：包括，多源相机模块和手部实时跟踪模块，

所述多源相机模块，通过事件相机采集手部运动产生的动态异步事件流信息，双目RGB相机采集手部运动产生的图像信息；

手部实时跟踪模块包括多源数据流获取模块、多源数据融合模块、优化模块和时序模块和高频输出模块：

多源数据流获取模块收集来自多源相机模块的数据；

多源数据融合模块，通过对齐事件相机事件流与双目RGB相机图像帧的时间戳实现多源数据软同步，通过利用外参转换关系将处理坐标系转移至事件相机坐标系整合多源数据流获取模块获取的不同数据源以保证多源数据在同一个相机坐标系下进行处理。

优化模块：根据所述事件相机图像系的各关键点坐标，实时更新各关键点周围强度块的事件数量，使用最大似然法优化目标函数，得到各关键点运动信息，以实现稀疏帧之间的关键点轨迹预测。

时序模块：根据所述各关键点运动信息，建立独立卡尔曼滤波器，使用数据拟合方法，得到各关键点运动轨迹。对所述关键点运动轨迹，根据所需跟踪频率进行轨迹切片，得到所需的高频跟踪关键点坐标输出。

高频输出模块，用于生成实时跟踪输出。

在采用上述技术方案的同时，本发明还可以采用或者组合采用如下技术方案：

作为本发明的优选技术方案：多源数据流获取模块包括事件流采集模块和双目RGB相机关键点提取模块：

事件流采集模块负责通过事件相机采集手部运动产生的动态异步事件流信息；

双目RGB相机关键点提取模块通过双目RGB相机采集图像信息，并生成世界坐标系下的手部关键点坐标。

作为本发明的优选技术方案：多源数据流获取模块中，事件流采集模块利用事件相机的特性来提高整体跟踪效率和精度，所述事件流采集模块在目标检测时没有在静态帧图像中检测到手部时，所述事件相机暂停检测；所述事件相机在所述目标检测中在静态帧图像中检测到手部时，所述事件相机开启手部动态异步事件流输出。

作为本发明的优选技术方案：双目RGB相机为RGB相机，包括第一RGB相机与第二RGB相机，双目RGB相机关键点提取模块包括以下子模块：

图像获取：双目RGB相机的各目相机同步同频获得包含手部的静态帧图像数据，并从各目不同视角独立输出；

目标检测：使用目标检测网络对两个视角的静态帧图像分别进行左右手特征框检测，得到特征框的位置和尺寸信息，并对原始图像进行裁剪和缩放以适应后续输入；

更新内参：根据得到的左右手特征框图像信息，更新每个视角相对于每个手部特征框的新相机内参，确保手部在图像中保持中心位置；

关键点提取：在每个视图中提取手部骨骼关键点的3D相对坐标和每个关键点的置信度；

关键点合理性判断：对每个视图中每只手的关键点预测进行合理性评估；

多视图特征点融合：将多个视图中的关键点信息融合到世界坐标系下的坐标。

作为本发明的优选技术方案：通过目标检测网络YOLO_v3对双目RGB相机各不同视角的独立手部静态帧图像分别进行左右手特征框检测，得到特征框的左上角顶点位置信息与宽高信息，根据所述特征框信息对原始手部静态帧图像进行裁剪，将裁剪后的特征框大小进行比例缩放或填充以适应后续输入，得到两个视角的左右手特征框图像信息。

作为本发明的优选技术方案：关键点提取，包括：将目标检测得到的特征框图像信息输入到特征检测网络中，得到特征框图像信息的深层特征表示；将所述特征框图像信息的深层特征表示输入到姿态回归网络，得到手部21个关键点坐标，与手腕关键点的相对距离，每个关键点的置信度。

作为本发明的优选技术方案：关键点提取，包括：关键点合理性判断，包括：根据所述手部21个关键点坐标信息，对每个视图中每只手上每个点的置信度判断21个关键点中的有效关键点个数，得到所述手部的关键点有效性判断结果，分为较少遮挡与较多遮挡。

作为本发明的优选技术方案：多视图特征点融合，包括：根据所述手部关键点的有效性判断结果，选择对应的多视图特征点融合方法，根据所述较少遮挡，在多视图特征点融合部分仅使用另一视图中手掌根节点坐标，通过与该视图手掌根节点三角化得出手掌根节点的绝对深度信息；根据所述较多遮挡，对每个视图中的手部关键点先从世界坐标系转至相机图像坐标系，再对两个视角的同一关键点使用一种线性代数三角化方法得到最终的关键点坐标。

作为本发明的优选技术方案：对所述一个事件相机使用多视角标定法进行内参标定，对所述双目RGB相机使用棋盘格标定法进行内参标定；对所述一个事件相机和双目RGB相机使用张氏标定法进行外参标定。

作为本发明的优选技术方案：更新双目RGB相机中各相机的内参，包括：根据所述两个视角的左右手特征框图像信息，更新每个视角相对于每个手部特征框的新相机内参，确保裁剪后的图像中手部保持在中心位置，得到计算出的新的相机主点与焦距。

本发明的第二个目的在于，为克服现有技术中的问题，提供一种基于事件相机与RGB相机的第一视角手部跟踪系统的应用。

为此，本发明的上述目的通过以下技术方案实现：

使用Unity应用中的脚本处理将输出的手部关键点三维坐标信息转换坐标系及单位，并将数据映射到一虚拟手模型上，虚拟手模型根据实时更新的关键点数据移动和旋转，以此重建使用者现实中手的姿态和动作，形成了手部跟踪技术的Unity应用。

与现有技术相比，本发明的一种基于事件相机与RGB相机的第一视角手部跟踪系统及其应用，具有以下有益效果：本发明利用事件相机的高动态范围和高时间分辨率特性为捕捉快速且复杂的手部动作提供了显著优势，结合事件相机与传统RGB相机的数据，能快速精准定位稀疏帧上的手部关键点位置，并能合理推断稀疏帧间关键点的平移旋转运动，从而实现对手部关键点的流畅跟踪，通过实时更新关键点周围的强度块事件累积数量，并利用最大似然法等优化技术，绑定帧间事件信息与手部关键点位置信息，达到事件信息与关键点位置的高度同步，确保了手部追踪系统的精准捕捉与实时响应，同时相比于完全基于深度学习模型的处理方法，显著降低对计算资源的依赖，提升处理效率，尤其适用于头戴式显示设备等对算法算力有限制的硬件平台。

本发明的一种基于事件相机与RGB相机的第一视角手部跟踪系统，基于事件相机和RGB相机融合的手部跟踪系统，不仅提高了在各种视觉挑战条件下的性能，还优化了资源利用，为实时手部跟踪和分析提供了一种高效、低功耗的解决方案。

附图说明

图1为本发明的一种基于事件相机与RGB相机的第一视角手部跟踪系统的多源相机模块中的事件相机与RGB相机结构示意图；

图2为本发明的一种基于事件相机与RGB相机的第一视角手部跟踪系统统与应用框图；

图3为本发明的一种基于事件相机与RGB相机的第一视角手部跟踪系统的手部实时跟踪模块框图；

图4为本发明的一种基于事件相机与RGB相机的第一视角手部跟踪系统的双目RGB相机关键点提取模块框图；

图5为本发明的一种基于事件相机与RGB相机的第一视角手部跟踪系统的手部关键点标号示意图。

具体实施方式

参照附图和具体实施例对本发明作进一步详细地描述。

如图1-图5所示，本发明的一种基于事件相机与RGB相机的第一视角手部跟踪系统中，多源相机模块，包括：一个事件相机，用于采集手部运动产生的异步事件流数据；双目RGB相机，用于从不同视角采集手部运动的静态帧图像数据；一台头戴式显示设备；手部跟踪模块，用于基于所述多角度静态帧图像数据和动态异步事件流数据确定双手骨骼点位置信息。

本申请实施方式的手部实时跟踪模块，包括：多源数据流获取模块，用于收集来自不同相机的数据；多源数据融合模块，旨在整合不同数据源以提高跟踪精度；优化模块，用于提升数据处理效率；时序模块，确保数据同步处理；以及高频输出模块，用于生成实时跟踪输出。

在某些实施方式中，所述多源数据流获取模块，包括：事件流采集模块，通过事件相机采集手部运动产生的动态异步事件流信息；双目RGB相机关键点提取模块，通过双目RGB相机采集手部运动产生的图像信息，生成世界坐标系下的手部关键点坐标。

在某些实施方式中，所述手部关键点坐标包括左右手各21个骨骼关键点，分别对应左右手手掌根部掌点，即手腕点；大拇指掌指关节、大拇指指掌关节、大拇指指间关节，大拇指尖；食指指掌关节、食指近节指间关节、食指远节指间关节、食指尖；中指指掌关节、中指近节指间关节、中指远节指间关节、中指尖；无名指指掌关节、无名指近节指间关节、无名指远节指间关节、无名指尖；小指指掌关节、小指近节指间关节、小指远节指间关节、小指尖。

在某些实施方式中，所述双目RGB相机关键点提取模块，包括：第一RGB相机与第二RGB相机图像获取，用以统一处理从RGB相机端获得的图像；目标检测，得到每个RGB相机图片中的手部特征框；更新第一RGB相机与第二RGB相机内参；关键点提取，得到每个视图中每只手的骨骼关键点3D相对坐标(相对于手掌根节点)与每个关键点的置信度；关键点合理性判断，得到对前一步骤所述每个视图中每只手关键点的预测合理性判断；多视图特征点融合，得到世界坐标系下的关键点坐标。

在某些实施方式中，所述事件流采集模块，包括：所述事件相机在所述目标检测算法没有在静态帧图像中检测到手部时，所述事件相机暂停检测；所述事件相机在所述目标检测算法在静态帧图像中检测到手部时，所述事件相机开启手部动态异步事件流输出。

在某些实施方式中，第一RGB相机与第二RGB相机图像获取，包括：通过所述第一RGB相机和所述第二RGB相机同步同频获得包含手部的静态帧图像数据，基于所述静态帧图像数据从所述第一RGB相机和所述第二RGB相机对应的两个不同视角进行独立输出。

在某些实施方式中，目标检测，包括：通过目标检测网络YOLO_v3对所述两个不同视角的独立手部静态帧图像分别进行左右手特征框检测，得到特征框的左上角顶点位置信息与宽高信息，根据所述特征框信息对原始手部静态帧图像进行裁剪，将裁剪后的特征框大小进行比例缩放或填充以适应后续输入，得到两个视角的左右手特征框图像信息。

目标检测在手部实时跟踪系统中是一个至关重要的步骤，它允许系统定位和识别图像中的手部位置。在本系统中，使用了目标检测网络，如YOLO_v3，来执行以下任务，YOLO_v3是一种目标检测算法，它是You Only Look Once(只查看一次)系列的第三个版本。

特征框检测：对从两个不同视角获取的手部静态帧图像分别进行左右手的特征框检测。这一步骤的目的是在图像中定位出手部的位置，并为每只手部提供一个边界框，即特征框。

位置和尺寸信息：通过YOLO_v3网络检测到的特征框，系统会得到特征框的左上角顶点位置信息以及宽度和高度信息。这些信息是对手部在图像中位置的精确描述。

图像裁剪：根据得到的特征框信息，系统会对原始的手部静态帧图像进行裁剪，以便仅保留包含手部的区域。这有助于减少后续处理步骤中不必要的计算负担，并将焦点集中在手部上。

缩放或填充：为了适应后续输入的需要，裁剪后的特征框大小将进行比例缩放或填充。这意味着图像将被调整到特定的尺寸，以确保它们可以作为输入送入下一个处理阶段，如关键点提取或多视图特征点融合。

通过上述步骤，目标检测模块为系统提供了必要的信息，以便进一步分析手部的姿态和运动。这些信息包括手部在图像中的精确位置和尺寸，以及裁剪和调整后的图像数据，为高频手部跟踪提供了关键基础。这种精确的目标检测是实现高效、准确手部跟踪的前提，对于改善用户体验和交互性能至关重要。

在某些实施方式中，更新第一RGB相机与第二RGB相机内参，包括：根据所述两个视角的左右手特征框图像信息，更新每个视角相对于每个手部特征框的新相机内参，确保裁剪后的图像中手部保持在中心位置，得到计算出的新的相机主点与焦距。

所述手部实时跟踪模块包括：对所述一个事件相机使用多视角标定法进行内参标定，这种方法考虑了相机镜头的畸变以及像素对光线变化的响应特性，确保事件数据的准确性。对所述双目RGB相机使用棋盘格标定法进行内参标定；这种方法通过拍摄具有已知几何尺寸的棋盘格图案，计算出相机的焦距、主点位置等内部参数。对所述一个事件相机和双目RGB相机使用张氏标定法进行外参标定，这种方法通过拍摄一个共同的标定物，来确定不同相机之间的相对位置和姿态，即旋转和平移矩阵。

这些标定步骤完成后，系统就能够准确地将来自不同相机的数据融合在一起，提供一个统一的手部跟踪视图。这对于实现高精度的手部关键点检测和跟踪至关重要。

在某些实施方式中，关键点提取，包括：根据所述特征框图像信息，将其输入至特征检测网络，得到特征框图像信息的深层特征表示；将所述特征框图像信息的深层特征表示输入到姿态回归网络，得到手部21个关键点坐标，与手腕关键点的相对距离，每个关键点的置信度。

关键点提取是手部实时跟踪系统中的一个重要环节，它的目的是从图像中精确地识别出代表手部姿势的关键点位置。这一过程通常涉及以下步骤：

特征检测网络：首先，将目标检测得到的特征框图像信息输入到一个特征检测网络中。这个网络通常是一个深度卷积神经网络CNN，它能够从原始图像数据中提取出高层次的抽象特征表示。这些深层特征表示对于识别复杂的模式和结构，如手部关键点，是非常有用的。

姿态回归网络：随后，将特征检测网络输出的深层特征表示输入到一个姿态回归网络中。这个网络负责预测手部的关键点坐标。在手部跟踪的背景下，通常会检测包括手指关节、指尖和手腕在内的21个关键点。

关键点坐标和相对距离：姿态回归网络的输出包括每个关键点在世界坐标系或者相对于某一参考点如手腕关键点的坐标。这些坐标信息允许系统重建手部的姿态和动作。

关键点置信度：除了位置信息外，系统还会为每个关键点提供一个置信度值，该值表示检测到的关键点的准确性。这有助于后续的数据处理，例如在关键点被遮挡或模糊不清时，可以依据置信度来决定如何处理这些关键点的位置信息。

通过上述步骤，关键点提取模块能够提供关于手部位置和姿态的详细信息，这些信息对于实现精确的手部跟踪至关重要。高级的关键点提取算法能够应对不同的照明条件、手部姿态和遮挡情况，确保在不同环境下都能准确地跟踪手部动作。

在某些实施方式中，关键点合理性判断，包括：根据所述手部21个关键点坐标信息，对每个视图中每只手上每个点的置信度判断21个关键点中的有效关键点个数，得到所述手部的关键点有效性判断结果，分为较少遮挡与较多遮挡。

在手部实时跟踪系统中，关键点合理性判断是一个重要步骤，用于评估检测到的关键点的准确性和可靠性。这一步骤主要基于姿态回归网络为每个关键点提供的置信度值，其包括，

置信度阈值设定：系统首先设定一个或多个置信度阈值，用于区分关键点的有效性。这些阈值可以根据经验或实验结果来确定，以优化遮挡情况下的性能。

有效关键点计数：对于每只手的21个关键点，系统会根据各自的置信度与设定的阈值进行比较，以确定有效关键点的数量。有效关键点是指那些置信度高于阈值的关键点。

遮挡情况评估：根据有效关键点的数量，系统会对每只手的遮挡情况进行评估。这通常涉及到两个主要的类别：

较少遮挡：如果一只手中的大部分关键点都是有效的，即它们的置信度高于设定的阈值，那么可以认为这只手处于较少遮挡状态。在这种情况下，系统能够准确地跟踪手部动作。

较多遮挡：如果一只手中只有少数关键点是有效的，或者没有关键点的置信度高于阈值，那么可以认为这只手处于较多遮挡状态。在这种情况下，系统的跟踪准确性可能会下降。

处理遮挡：在识别出遮挡情况后，系统可以采取不同的策略来处理。例如，在较多遮挡的情况下，系统可能会依赖其他传感器数据(如事件相机数据)或使用预测模型来估计被遮挡关键点的位置。在较少遮挡的情况下，系统可以直接使用检测到的有效关键点进行跟踪。

通过上述关键点合理性判断，系统能够在各种复杂环境中实现鲁棒的手部跟踪。这种判断机制有助于提高系统对不同遮挡水平的适应性，确保在关键点部分或完全被遮挡时仍能提供准确的跟踪结果。

在某些实施方式中，多视图特征点融合，包括：根据所述手部关键点的有效性判断结果，选择对应的多视图特征点融合方法。根据所述较少遮挡，在多视图特征点融合部分仅使用另一视图中手掌根节点坐标，通过与该视图手掌根节点三角化得出手掌根节点的绝对深度信息。根据所述较多遮挡，对每个视图中的手部关键点先从世界坐标系转至相机图像坐标系，再对两个视角的同一关键点使用一种线性代数三角化方法得到最终的关键点坐标。

视图特征点融合是手部实时跟踪系统中的一个关键步骤，它结合来自不同相机视角的信息，以获得准确的三维关键点定位。根据关键点有效性判断结果，系统会选择适当的融合方法来处理较少遮挡和较多遮挡的情况：

较少遮挡情况下的融合方法：

当系统检测到某只手处于较少遮挡状态时，它会使用另一视角中的坐标来进行融合，手掌根节点通常是手腕或手掌中心。

通过与该视图中的手掌根节点进行三角化处理，系统可以计算出手掌根节点的绝对深度信息。这个过程涉及到从两个不同的视角出发，利用视线交叉点来确定空间中点的深度。

这种方法依赖于至少一个视角能够清晰捕捉到手部，以便准确估计深度。

较多遮挡情况下的融合方法：

对于较多遮挡的情况，系统会首先将每个视图中的手部关键点从世界坐标系转换到各自的相机图像坐标系。这一步骤是为了确保两个视角的关键点在同一坐标系下对齐。

接下来，系统会对两个视角中的同一关键点应用线性代数三角化方法。这种方法通过解决由两个相机视角提供的线性方程组来估计关键点在三维空间中的确切位置。

三角化方法允许系统即使在手部部分被遮挡的情况下也能够估计关键点的位置，从而提高了系统在复杂环境下的鲁棒性。

通过这些多视图特征点融合方法，系统能够在不同遮挡情况下准确地跟踪手部动作，并在必要时利用来自其他传感器的数据来补充视觉信息。这种融合提供了一种强大的机制，用于在各种照明和遮挡条件下实现连续且精确的手部跟踪。

在某些实施方式中，多源数据融合模块，包括：根据所述事件发生位置的异步事件流信息与所述双目RGB相机关键点提取模块提取到的世界坐标系中的手部3D关键点位置信息，分别对齐时间戳，得到时间上同步的多源数据流信息；根据事件相机与RGB相机内外参，得到所述事件相机图像系的各关键点坐标。

在某些实施方式中，优化模块，包括：根据所述事件相机图像系的各关键点坐标，实时更新各关键点周围强度块的事件数量，使用最大似然法优化目标函数，得到各关键点运动信息。

在某些实施方式中，时序模块，包括：根据所述各关键点运动信息，建立独立卡尔曼滤波器，使用数据拟合方法，得到各关键点运动轨迹。对所述关键点运动轨迹，根据所需跟踪频率进行轨迹切片，得到所需的高频跟踪关键点坐标输出。

在某些实施方式中，应用模块，包括：通过根据所述高频跟踪关键点坐标输出，转换坐标系与单位，使用应用内脚本将手部关键点数据映射到一个虚拟手模型，得到应用内高频实时手部重建模型。

与现有技术相比，本发明的一种基于事件相机与RGB相机的第一视角手部跟踪系统及应用，基于事件相机与RGB相机的第一视角手部跟踪系统，通过结合两种相机的优势，不仅能够提供高精度的手部跟踪，还能够在各种照明和动态条件下保持高效和稳定的性能。此外，系统的低功耗特性使其特别适合应用于需要长时间运行且对电池寿命有要求的便携式设备中，具体来说：

适用于极端光照条件：事件相机的高动态范围允许系统在非常亮或非常暗的环境下继续捕捉到手部的运动信息，而不丢失细节。

实现快速运动捕捉：高时间分辨率确保了即使在手部快速移动时，也能够记录下精确的事件数据，从而提供更真实的手部运动轨迹。

避免运动模糊：由于事件相机仅输出变化的像素点而不是整个图像帧，它们不受运动模糊的影响，这有利于保持图像质量，即使在高速移动中也能获得清晰的手部轮廓。

数据融合优势：结合事件相机与传统RGB相机的数据，系统能够以高频跟踪手部关键点，并在稀疏帧间准确获取关键点的平移信息与旋转角度，从而维持流畅的跟踪过程。

实现实时跟踪：通过实时更新关键点周围的强度块事件累积数量，并利用最大似然法等优化技术，绑定帧间事件信息与手部关键点位置信息，达到事件信息与关键点位置的高度同步，确保了手部追踪系统的精准捕捉与实时响应。

准确的关键点定位：稀疏帧上的关键点信息通过先进深度学习模型得到，稀疏帧间的关键点信息可以通过优化算法得到准确的定位，为下游应用如虚拟现实、增强现实和交互式游戏提供了可靠的输入。

同步处理与高频输出：多源数据融合模块通过对三个相机的软同步及相机坐标系转换，保证了数据流时间上的一致性及空间上的统一处理。通过独立卡尔曼滤波器，系统能够产生平滑且连续的手部运动轨迹，以高频输出满足实时应用的需求。

综上所述，本发明的一种基于事件相机与RGB相机的第一视角手部跟踪系统及应用，不仅提高了在各种视觉挑战条件下的性能，还优化了资源利用，为实时手部跟踪和分析提供了一种高效、低功耗的解决方案；其应用成了高级手部跟踪技术的Unity应用为用户提供了一个沉浸式和交互式的虚拟现实体验，通过精确的手部跟踪，用户可以以直观的方式与数字内容互动，从而增强了用户体验，在教育、训练、游戏等领域极具应用前景。

实施例1

多源相机模块中，使用事件相机以微秒级精度跟踪手部运动产生的异步事件流信息，在基于视觉的手部跟踪方法中，传统基于RGB相机输入的手部实时跟踪方法会在手部快速运动及光照条件极端的场景中失效。本模块在RGB相机的基础上加上事件相机，有效结合RGB相机的高分辨率图像信息与事件流运动信息，进而提高手部跟踪频率与光照鲁棒性。

事件相机的工作原理可以如下：事件相机拥有独立的像素，这些像素对连续亮度信号L(u，t)中的变化做出响应。具体来说，当某像素自上次事件以来的亮度增量达到阈值±C(C＞0)时，就会在像素u_k＝(x_k，y_k)^T处触发一个事件e_k＝(x_k，y_k，t_k，p_k)：

ΔL(u_k，t_k)＝L(u_k，t_k)-L(u_k，t_k-Δt_k)＝p_kC

其中，Δt_k是自同一像素的最后一个事件以来的时间，p_k是事件极性(即亮度变化的符号)，取值为±1。该公式是理想传感器的事件生成方程。事件数据的高动态范围、较低延迟和较低吞吐量比传统图像更适合跟踪经常快速运动的手部，而手部在运动过程中，关节点由于形变通常伴随着光照反射亮度信号的强弱改变，使得使用事件相机通过跟踪手指关节点光照信息变化来快速跟踪手指关键点成为可能。

本模块对事件相机与双目RGB相机进行外部硬同步。硬同步利用外部时钟源对事件相机与双目RGB相机的时间戳相互对齐，以保证它们在相同的时间点捕捉到手部信息，便于之后对于多源相机数据的对齐与分析比对。

手部实时跟踪模块分为多源数据流获取模块，多源数据融合模块，优化模块，时序模块和高频输出模块。多源数据流获取模块又分为异步事件流获取和双目RGB相机关键点提取模块。

在双目RGB相机关键点提取模块中，对于双目RGB相机关键点特征提取，首先将生成的RGB图片输入到目标检测网络中，此处选用YOLO_v3作为手部21个骨骼关键点检测网络，获得原始图片中每只手的特征框(bounding box，包含一只完整手部的最小矩形)。将双手裁剪后的图像缩放到固定大小(256*256)，并更新相机1，2各自的内参。将裁剪后的固定大小的图像输入到关键点提取网络，以获得每个视图中每只手的骨骼关键点3d相对坐标(相对于手掌根节点)与每个关键点的置信度。

如果视图1或视图2中手部有效关键点个数大于等于18个，表明手部没有或者只有轻微自遮挡或交互，此时可以认为该视图预测的关键点较全面的还原了现实手部的信息，则在多视图特征点融合部分仅使用另一视图中手掌根节点坐标，通过与该视图手掌根节点三角化得出手掌根节点的绝对深度信息。

如果视图1或视图2中手部有效关键点个数小于18个，表明手部有较为严重的自遮挡或交互，此时可以认为该视图预测的关键点并没有全面的还原现实手部的信息，因此在多视图特征点融合阶段，使用另一视图手部关键点的全部信息。在多视图特征点融合模块，利用更新的相机内参分别将两个3D坐标重投影至各自2D图像平面，对多视角图像中的对应关键点，使用了一种线性代数三角化方法。这种方法解决了关于关节的齐次3D坐标向量的超定方程组。同时，为了解决某些视图中关节遮挡的问题，赋予每个视图权重，控制每个摄像头视图对三角化的贡献。

关键点提取网络由BackboneNet和JointNet两个网络连接组成。BackboneNet使用ResNet50的骨架网络及Resnet的初始化权重，用于对输入的手部特征框图像提取特征；提取出的特征输入到JointNet中，首先使用一个形状为[2048，256，256，256]的反卷积层对其上采样增加空间分辨率，再使用一个卷积层将经过反卷积处理的特征图为每个关键点生成一个3D热图，其中每个热图对应一个关键点的位置与对应位置的置信度；对BackboneNet获得的特征输入进行2D平均池化，再经过两个线性层进行降维输出手部21个关键点相对于根节点的欧几里得距离1D热图，通过softmax函数获得最终相对距离取值。

在异步事件流获取中，事件相机在双目RGB相机关键点提取模块的目标检测算法没有在静态帧图像中检测到手部时，事件相机暂停检测；事件相机在双目RGB相机关键点提取模块的目标检测算法在静态帧图像中检测到手部时，事件相机开启手部动态异步事件流输出。这样切换事件相机的工作模式可以有效降低事件相机的功耗，提高事件相机的使用效率。

在多源数据融合模块主要实现多源数据软同步，即接收事件发生位置的异步事件流信息与双目RGB相机关键点提取模块提取到的世界坐标系中的手部3D关键点：异步事件流的具体格式为(x_k，y_k，p_k)。对于手部关键点，首先将在双目RGB相机关键点提取模块提取到的世界坐标系中的手部3D关键点利用事件相机的外参投影到事件相机的坐标系中，再利用事件相机的内参将其投影至图像平面中：

PC_e＝Int_e×Ext_e×WC

其中，PC_e代表各个关键点在事件相机坐标系中的坐标，Int_e表示事件相机的内参，Ext_e表示事件相机的外参，WC表示3D关键点在世界坐标系中的位置。根据所述外部硬同步中对齐的时间戳，将事件流信息与图像帧信息对齐后进行输入。

优化模块中，对于PC_e的跟踪，可以使用最大似然法，整个优化流程的目的是为了找出最佳的注册参数p和光流v，使得实际观测到的亮度变化ΔL与预测的亮度变化之间的差异最小。亮度增量ΔL是通过事件相机捕获亮度变化的直接结果。而预测的亮度增量是基于光流模型和帧数据计算得出的。光流模型描述了图像中的每个点随时间的移动速度和方向。在优化过程中，通过调整p和v，使得从事件相机得到的亮度变化与基于模型预测的亮度变化之间的差异最小。这个差异通过一个概率函数来量化，通常假设误差遵循以零为均值的加性高斯分布。这意味着真实的亮度变化应该接近预测的变化。优化的目标是调整参数，直到预测的亮度增量与实际观测到的增量之间的差异(误差)最小化。

具体来说：

令由时间t＝0时的强度帧给出，并让△L由稍后一段时间时空窗口中的事件给出。优化目标是最大化ΔL(u)和之间的相似性，其中W是用于配准的变形映射(warping map)。假设差值遵循方差为σ²的零均值高斯分布，定义事件集产生的似然函数产生的△L为：

关于运动参数p和v最大化这个似然函数将最小化产生的光度残差的L2范数：

然而，由于该目标函数其实取决于参数C，即对比敏感度，但是这是一个未知且在实际应用中难以求得的量。于是将上式转变为求最小化单位范数补丁之间的差异：

考虑由图像平面上刚体运动给出的扭曲映射，W(u；p)＝R(p)u+t(p)，其中(R，t)∈SE(2)，这里SE(2)表示二维特殊欧几里得群，它包含了旋转R和平移t。

对于PC_e，只需要关注其周围区域内的相关事件流。在每个关键点周围新建25*25大小的强度补丁，强度补丁只接收它大小范围内的累积异步事件流，这一步将图像帧当作特征模板，将事件流注册到模板上。

因此，优化模块对于特定关键点的跟踪步骤如下：

一、特征初始化

1、获取手部关键点：关键点即从上一步的多源特征融合模块获得。

2、获取强度补丁：强度补丁即强度图上围绕着PC_e的25*25大小的强度块，在强度图上计算这些补丁的梯度

3、设置补丁和初始参数：将强度补丁ΔL设为0，将初始注册参数p设为恒等变换的参数，设置每个补丁要集成的事件数N_e。

二、特征跟踪

1、针对每个进入的事件更新补丁：对于每个收到的事件，按像素积累极性更新包含该事件的补丁。

2、事件集成和优化：一旦在块△L上累积了N_e个事件，就使用目标函数进行最小化，获得p和v。

至此，获得每个关键点在对应强度补丁累积事件数达到N_e时的最优参数p，包含该独立关键点的平移和旋转信息。

在时序模块中，使用每个关键点的独立跟踪信息生成该关键点的时序运动轨迹。同时，为每个关键点初始化一个卡尔曼滤波器。使用由双目RGB相机第一帧预测的关键点位置作为初始状态，设置初始协方差误差为5，预测阶段对关键点使用卡尔曼滤波器进行状态预测。当新的数据到来时(即获得每个关键点在对应强度补丁累积事件数达到N_e时)，使用最大似然法调整后的关键点位置来更新卡尔曼滤波器的状态。原本在两帧输入的普通RGB图像之间的关键点估计是黑盒状态，此时已经可以实现离散的高频跟踪。在第N帧到第N+1帧之间的事件流处理完毕后，再进一步使用B样条曲线拟合到这些离散跟踪的2D像素位置，并计算连续事件特征轨迹τ(h)，其中(h)∈(1，H)表示当前处理帧中所有H光度特征的时间2D像素位置，称两张连续普通RGB图像产生相差的时间为一个处理帧。

在每个毫秒的时间戳上均匀地切割连续的事件轨迹τ(h)，使用0，1，…，n表示当前处理帧的所有跟踪帧的索引，其中n等于所需的跟踪帧速率除以帧速率强度图像流。因此要达到500帧每秒的跟踪速率，n的最小整数取值为17，此时能达到的跟踪速率为510fps。本模块的输出为高频实时的手部关键点三维坐标信息。

应用模块中，使用Unity应用中的脚本处理将输出的手部关键点三维坐标信息转换坐标系及单位，并将数据映射到一个虚拟手模型上。关于虚拟手模型，在Unity中提前创建一个详细的手部模型，该模型由每个手部的21个关键点来驱动，实现实时动画效果。当Unity通过接口接收到来自处理器的信息，则根据实时接收的手部关键点数据动态调整手部模型的关节位置和旋转，实现头显内应用对使用者现实手的实时重建。

本发明的一种基于事件相机与RGB相机的第一视角手部跟踪系统应用中，特别是在使用Unity这样的实时3D开发平台的虚拟现实或增强现实应用中，手部关键点的三维坐标信息需要进行适当的转换和映射，以便能够准确地驱动虚拟手模型并实现实时动画效果。具体应用中，通过下列步骤实现：

第一，坐标系与单位转换：

首先，需要将手部跟踪系统输出的关键点坐标信息从跟踪系统的坐标系转换到Unity世界的坐标系。这通常涉及一个仿射变换，包括旋转、平移和缩放操作。

同样，需要对手部关键点的坐标进行单位转换，确保它们与Unity场景中使用的单位一致(通常是米或厘米)。

第二，创建虚拟手模型：

在Unity中提前创建一个详细的虚拟手模型，该模型应该设计为可通过控制关键点来驱动的手部网格。通常，这个模型会包含骨骼或骨骼绑定系统，以便于通过编程方式控制每个关节的位置和旋转。

虚拟手模型通常会有21个关键点对应于真实手部的解剖结构，包括手指关节、指尖和手腕等。

第三，接收和处理数据：

Unity应用通过接口(例如网络套接字、本地文件或Unity提供的插件系统)接收来自处理器传输的手部关键点数据。

根据实时接收的数据，应用中的脚本逻辑将动态调整虚拟手模型的关节位置和旋转，以匹配真实手部的动作。

第四，实现实时动画效果：

利用Unity的动画系统或直接通过脚本编程，虚拟手模型会根据实时更新的关键点数据移动和旋转，以此重建使用者现实中手的姿态和动作。

为了提高性能和逼真度，可能还会应用皮肤材质、碰撞检测、物理模拟等技术。

第五，头显内应用交互：

最终，这些动画效果将在头显内实时显示给用户，允许用户通过自己的手势与VR/AR环境进行自然交互，适用于AR/VR头显设备。

这种集成了高级手部跟踪技术的Unity应用为用户提供了一个沉浸式和交互式的虚拟现实体验，这对于教育、训练、游戏和各种其他应用来说是极其有价值的。通过精确的手部跟踪，用户可以以直观的方式与数字内容互动，从而增强了用户体验。

如图1所示，本发明中，RGB相机和事件相机系统集成在头戴式显示设备上，共用数据处理单元，以实现时间和空间上的同步，同时，两RGB相机分别设置头戴式显示设备的前端的两侧，以确保他们的视场能够完全覆盖头戴式显示设备的前方环境；事件相机设置在头戴式显示设备的前端中部位置，使得其通过中央视野具有最佳覆盖，有助于捕捉到主要关注的区域，从而得到更精确的环境信息，从而充分补充捕捉像素亮度变化信息。

本发明的一种基于事件相机与RGB相机的第一视角手部跟踪系统提供自然无干扰的手部运动捕捉：采用基于视觉的3D手部跟踪方法，无需依赖额外感应设备，如标记或手套，从而允许自然、无干扰的手部运动捕捉；克服快速运动和光照条件变化的挑战：传统的RGB或RGB-D相机在快速运动和光照条件不佳的场景中跟踪效果不佳。采用事件相机可以补足这些缺点，因为它提供高帧率和高动态范围的拍摄能力，能够更好地处理快速运动和光照变化；融合事件相机和RGB相机的优势：本专利提出的手部跟踪系统能够提供更稳定和连贯的手部跟踪数据，克服了各自独立使用时的限制和挑战。

本发明的一种基于事件相机与RGB相机的第一视角手部跟踪系统及应用实施方式通过在传统仅基于RGB相机的手部跟踪方式中融合事件相机的异步数据流信息，实现了高达510fps的实时低延迟手部跟踪，同时优化了手部跟踪在变化光照条件下的泛化性能。

上述具体实施方式用来解释说明本发明，仅为本发明的优选实施例，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明做出的任何修改、等同替换、改进等，都落入本发明的保护范围。

Claims

1.一种基于事件相机与RGB相机的第一视角手部跟踪系统，其特征在于：包括，多源相机模块和手部实时跟踪模块，

手部实时跟踪跟踪模块包括多源数据流获取模块、多源数据融合模块、优化模块和时序模块和高频输出模块：

多源数据流获取模块收集来自多源相机模块的数据；

多源数据融合模块，整合多源数据流获取模块获取的不同数据源以提高跟踪精度，在稀疏帧间，通过统计手部关键点的区域内的事件变化情况，获得手部关键点的帧间运动轨迹，从而实现手部关键点的高频跟踪；

多源数据融合模块，实现多源数据软同步并整合多源数据流获取模块获取的不同数据源以保证多源数据在同一个相机坐标系下进行处理，软同步包括对齐事件相机事件流与双目RGB相机图像帧的时间戳，整合多源数据流包括利用外参转换关系将处理坐标系转移至事件相机坐标系；

优化模块：根据所述事件相机图像系的各关键点坐标，实时更新各关键点周围强度块的事件数量，使用最大似然法优化目标函数，得到各关键点运动信息，以实现稀疏帧之间的关键点轨迹预测；

时序模块：根据所述各关键点运动信息，建立独立卡尔曼滤波器，使用数据拟合方法，得到各关键点运动轨迹，对所述关键点运动轨迹，根据所需跟踪频率进行轨迹切片，得到所需的高频跟踪关键点坐标输出；

高频输出模块，用于生成实时跟踪输出。

2.如权利要求1所述的基于事件相机与RGB相机的第一视角手部跟踪系统，其特征在于：多源数据流获取模块包括事件流采集模块和双目RGB相机关键点提取模块：

事件流采集模块负责通过事件相机采集手部运动产生的动态异步事件流信息；双目RGB相机关键点提取模块通过双目RGB相机采集图像信息，并生成世界坐标系下的手部关键点坐标。

3.如权利要求2所述的基于事件相机与RGB相机的第一视角手部跟踪系统，其特征在于：多源数据流获取模块中，事件流采集模块利用事件相机的特性来提高整体跟踪效率和精度，所述事件流采集模块在目标检测时没有在静态帧图像中检测到手部时，所述事件相机暂停检测；所述事件相机在所述目标检测中在静态帧图像中检测到手部时，所述事件相机开启手部动态异步事件流输出。

4.如权利要求2所述的基于事件相机与RGB相机的第一视角手部跟踪系统，其特征在于：双目RGB相机包括第一RGB相机与第二RGB相机，双目RGB相机关键点提取模块包括以下子模块：

5.如权利要求4所述的基于事件相机与RGB相机的第一视角手部跟踪系统，其特征在于：通过目标检测网络YOLO_v3对双目RGB相机各不同视角的独立手部静态帧图像分别进行左右手特征框检测，得到特征框的左上角顶点位置信息与宽高信息，根据所述特征框信息对原始手部静态帧图像进行裁剪，将裁剪后的特征框大小进行比例缩放或填充以适应后续输入，得到两个视角的左右手特征框图像信息。

6.如权利要求4所述的基于事件相机与RGB相机的第一视角手部跟踪系统，其特征在于：关键点提取，包括：将目标检测得到的特征框图像信息输入到特征检测网络，中得到特征框图像信息的深层特征表示；将所述特征框图像信息的深层特征表示输入到姿态回归网络，得到手部21个关键点坐标，与手腕关键点的相对距离，每个关键点的置信度。

7.如权利要求6所述的基于事件相机与RGB相机的第一视角手部跟踪系统，其特征在于：关键点提取，包括：关键点合理性判断，包括：根据所述手部21个关键点坐标信息，对每个视图中每只手上每个点的置信度判断21个关键点中的有效关键点个数，得到所述手部的关键点有效性判断结果，分为较少遮挡与较多遮挡。

8.如权利要求7所述的基于事件相机与RGB相机的第一视角手部跟踪系统，其特征在于：多视图特征点融合，包括：根据所述手部关键点的有效性判断结果，选择对应的多视图特征点融合方法，根据所述较少遮挡，在多视图特征点融合部分仅使用另一视图中手掌根节点坐标，通过与该视图手掌根节点三角化得出手掌根节点的绝对深度信息；根据所述较多遮挡，对每个视图中的手部关键点先从世界坐标系转至相机图像坐标系，再对两个视角的同一关键点使用一种线性代数三角化方法得到最终的关键点坐标。

9.如权利要求1所述的基于事件相机与RGB相机的第一视角手部跟踪系统，其特征在于：对所述一个事件相机使用多视角标定法进行内参标定，对所述双目RGB相机使用棋盘格标定法进行内参标定；对所述一个事件相机和双目RGB相机使用张氏标定法进行外参标定；

或，更新双目RGB相机中各相机的内参，包括：根据所述两个视角的左右手特征框图像信息，更新每个视角相对于每个手部特征框的新相机内参，确保裁剪后的图像中手部保持在中心位置，得到计算出的新的相机主点与焦距。

10.如权利要求1所述的基于事件相机与RGB相机的第一视角手部跟踪系统的应用，其特征在于：使用Unity应用中的脚本处理将输出的手部关键点三维坐标信息转换坐标系及单位，并将数据映射到一虚拟手模型上，虚拟手模型根据实时更新的关键点数据移动和旋转，以此重建使用者现实中手的姿态和动作，形成了手部跟踪技术的Unity应用。