CN111428567A

CN111428567A - 一种基于仿射多任务回归的行人跟踪系统及方法

Info

Publication number: CN111428567A
Application number: CN202010118387.6A
Authority: CN
Inventors: 谢英红; 韩晓微; 刘天惠; 涂斌斌; 唐璐
Original assignee: Shenyang University
Current assignee: Shenyang University
Priority date: 2020-02-26
Filing date: 2020-02-26
Publication date: 2020-07-17
Anticipated expiration: 2040-02-26
Also published as: CN111428567B

Abstract

本发明提供一种基于仿射多任务回归的行人跟踪系统及方法，涉及计算机视觉技术领域。本方法确定出多个视频帧中的上一帧包括目标对象的目标框；根据所确定出的目标框确定出当前帧中包括所述目标对象的当前目标框；将所述当前目标框输入预训练好的第一神经网络中，获取该图像中目标框的候选特征图；将所述候选特征图输入到预训练好的第二神经网络中获得多个目标候选区域；将所述多个目标候选区域的特征进行池化操作，获得针对目标对象的多个感兴趣区域；将所述多个感兴趣区域的特征进行全链接操作，区分目标和背景，从而获得的所述目标对象的多个跟踪仿射框；以及对所述多个跟踪仿射框进行非极大值抑制，得到所述当前帧的所述目标对象的跟踪结果。

Description

一种基于仿射多任务回归的行人跟踪系统及方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于仿射多任务回归的行人跟踪系统及方法。

背景技术

行人跟踪技术即通过计算机视觉技术,对视频和图像中的画面进行行人目标的识别与跟踪。行人识别跟踪项目已经被许多国家列为重点研究项目,该项目被如此重视,是因为其技术超前且涉猎广泛:在国防军事领域，该技术可用于战场侦测、目标跟踪和精确制导等方面;在城市交通领域,该技术可用于智能交通、违章检测和无人驾驶等方面;在社会安全领域,该技术可用于人流量监测等。

现有的专利申请CN108629791A中提供了一种行人跟踪方法和装置及跨摄像头行人跟踪方法和装置。其行人跟踪方法包括：获取视频；对视频中的至少部分视频帧进行行人检测，以获得至少部分视频帧中的每个视频帧中的行人框；对于所获得的所有行人框中的每个行人框，利用训练好的卷积神经网络处理该行人框所包含的图像块，以获得该行人框的特征向量；以及基于所有行人框中的每个行人框的特征向量对所有行人框进行匹配，以获得行人跟踪结果，其中，行人跟踪结果包括至少一个行人轨迹。上述方法和装置不受位置信息的限制，鲁棒性好，可以实现准确高效的行人跟踪，并且能够轻松实现跨摄像头的行人跟踪。

因对图像几何和光学性能的形变都能保持很好地不变形，并且在使用现有的Gamma归一化条件下进行处理时，行人的姿态浮动范围较大，大部分细微动作并不会影响侦测效果而选用HOG和SVM的行人检测方法。CN107292908A公开的基于KLT特征点行人跟踪方法结合KLT算法，对检测结果进行追踪；KLT是光流法的进一步发展，实时性好，且不易丢失追踪目标，非常对已有目标进行实时的追踪。结合了侦测算法与跟踪算，很好地解决了目前很多跟踪算法摄像头固定无法移动或无法跟踪特定目标的问题；而且此方法也弥补了因HOG和SVM计算复杂度高，侦测速度慢的缺点。

CN110414439A公开了一种基于多峰值检测的抗遮挡行人跟踪方法，首先，进行行人检测获得初始位置，并进行跟踪器参数和行人模板的初始化，在后续每一帧将特征融合响应峰值所在位置作为行人预测位置中心，并进行目标响应峰值Fmax和平均峰值相关能量APCE及其阈值的计算，由其形成的联合置信度进行滤波器响应多峰值的检测，从而实现行人遮挡判断，在遮挡帧暂停滤波器参数和行人目标模板的更新，实现抗遮挡的行人跟踪任务。本发明选用FHOG特征、Color Naming特征进行自适应融合作为特征描述子，提升了行人跟踪方法对行人形变和光照的鲁棒性；在行人遮挡帧暂停行人模板和滤波器参数的更新，解决了易导致跟踪位置漂移问题。

CN108509859A开了一种基于深度神经网络的无重叠区域行人跟踪方法，该方法包括以下步骤：(1)采用YOLO算法对监控视频图像中当前行人目标进行检测，分割行人目标图片；(2)使用卡尔曼算法对所述检测结果跟踪预测；(3)利用卷积神经网络提取图片的深度特征，所述图片包括候选行人图片和所述步骤(2)中的目标行人图片，并存储所述候选行人的图片及其特征；(4)计算目标行人特征与候选行人特征的相似度并排序，识别出所述目标行人。本发明可获得较高的检测与跟踪精度，从而有助于提升行人识别率。

但是，目前上述的或其它流行的深度学习网络，针对形变目标的准确定位没有特殊的解决方案。

发明内容

针对现有技术的不足，本发明提供一种基于仿射多任务回归的行人跟踪系统及方法。通过将仿射变换应用到深度学习网络中，获得形变目标的准确跟踪。

为解决上述技术问题，本发明所采取的技术方案是：

一方面，本发明提供一种基于仿射多任务回归的行人跟踪系统，包括包括存储器和处理器；

所述存储器用来存储有计算机可执行的指令；

所述处理器用来执行所述可执行指令，通过确定出多个视频帧中的上一帧包括目标对象的目标框；根据所确定出的目标框确定出当前帧中包括所述目标对象的当前目标框；将所述当前目标框输入预训练好的第一神经网络中，获取该图像中目标框的候选特征图；将所述候选特征图输入到预训练好的第二神经网络中获得多个目标候选区域；将所述多个目标候选区域的特征进行池化操作，获得针对目标对象的多个感兴趣区域；将所述多个感兴趣区域的特征进行全链接操作，区分目标和背景，从而获得的所述目标对象的多个跟踪仿射框；以及对所述多个跟踪仿射框进行非极大值抑制，得到所述当前帧的所述目标对象的跟踪结果。

另一方面，本发明还提供一种基于仿射多任务回归的行人跟踪方法，采用上述的一种基于仿射多任务回归的行人跟踪系统实现，该方法包括以下步骤：

步骤1：确定出多个视频帧中的第一帧包括目标对象的目标框；

步骤2：根据所确定出的目标框确定出当前帧中包括所述目标对象的当前目标框；

步骤3：将确定出的目标框调整成固定大小输入到预训练好的第一神经网络中，获取所述当前帧中的目标框的候选特征图，设计损失函数。

所述第一神经网络为VGG-16网络；

所述VGG-16网络的损失函数表示为：

其中，α₁和α₂为学习率。p为类别tc的对数损失，其中L _c（p,tc）=-logp _tc；

i表示正在计算损失的回归框的序号;

tc表示是类别标签，例如：tc=1表示目标，tc=0表示背景；

x，y，w，h和其它变量组合使用，分别表示横坐标/纵坐标/宽/高。

参数 v _i=（v _x， v _y， v _w， v _h）是真实矩形边界框元组，包括中心点横坐标、纵坐标、宽和高；

是预测到的目标框元组，包括中心点横坐标、纵坐标、宽和高；

u _i=（r1,r2,r3,r4,r5,r6）为真实目标区域的仿射参数元组；

为预测到目标区域的仿射参数元组；

r1，r2，r3，r4，r5，r6）为真实目标区域的仿射变换固定结构的六个分量的值；

r1^*，r2^*，r3^*，r4^*，r5^*，r6^*）为预测到目标区域的仿射变换固定结构的六个分量的值；

表示仿射边界框参数损失函数；

表示矩形边界框参数损失函数；

令（w，w*）表示

或者

,

定义为:

其中x为实数。

步骤4：将所述候选特征图输入到预训练好的第二神经网络中获得多个目标候选区域；

所述第二神经网络为RPN网络。

步骤5：将所述多个目标候选区域的特征进行池化操作，获得针对目标对象的多个感兴趣区域；

步骤6：将所述多个感兴趣区域的特征进行全链接操作，区分目标和背景，从而获得的所述目标对象的多个跟踪仿射框；

步骤7：对所述多个跟踪仿射框进行非极大值抑制，得到所述当前帧的所述目标对象的跟踪结果。

步骤7.1：对所述多个跟踪仿射框对应的特征进行打分比较，得到所比较目标区域目标/背景结果的分值；

步骤7.2：将分值结果大于一定阈值的判定为目标区域，否则为背景区域；

步骤7.3：对判定为目标区域的特征进行非极大值抑制，得到所述当前帧的所述目标对象的跟踪结果；

步骤8：判断当前图像下一帧的个数是否小于视频总帧数，如果否直接结束，如果是回到步骤2,进行下一帧图像的跟踪，直到所有视频的帧跟踪完毕。

采用上述技术方案所产生的有益效果在于：

本申请利用上一帧图像的仿射变换参数信息，对当前目标图像进行裁剪，缩小搜索范围，提高算法效率。另外，先将裁剪下来的图像输入到VGG-16网络计算特征，再输入到RPN网络，避免特征提取的重复计算，提高了算法效率。在本申请中，上述网络的最高层输出的特征作为语义模型，利用仿射变换结果作为空间模型，两者形成优势互补，这是因为最高层的特征包含较多的语义信息和较少的空间信息。此外，上述包括仿射变换参数回归的多任务损失函数优化了网络性能。

附图说明

图1本发明实施例的使用计算机架构实现框图。

图2为本发明实施例的的行人跟踪算法的流程图。

图3为本发明实施例的流程示意性框图。

图4为本发明实施例的水平NMS和仿射变换NMS效果对比图。

图5为本发明实施例的跟踪结果图。

图6为为本发明实施例的的VGG-16的网络结构。

具体实施方式

下面结合附图对本发明具体实施方式加以详细的说明。

所述存储器用来存储有计算机可执行的指令；

如图1所示，其示出了适于用来实现本公开的实施例的电子系统600的结构示意图。图1示出的电子系统仅仅是一个示例，不应对本公开的实施例的功能和使用范围带来任何限制。

如图1所示，电子系统600可以包括处理装置（例如中央处理器、图形处理器等）601，其可以根据存储在只读存储器（ROM）602中的程序或者从存储装置608加载到随机访问存储器（RAM）603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有电子设备600操作所需的各种程序和数据。处理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出（I/O）接口605也连接至总线604。

通常，以下装置可以连接至I/O接口605：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606；包括例如液晶显示器（LCD）、扬声器、振动器等的输出装置607；包括例如磁带、硬盘等的存储装置608；以及通信装置609。通信装置609可以允许电子系统600与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子系统600，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图6中示出的每个方框可以代表一个装置，也可以根据需要代表多个装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置609从网络上被下载和安装，或者从存储装置608被安装，或者从ROM 602被安装。在该计算机程序被处理装置601执行时，执行本公开的实施例的方法中限定的上述功能。

需要说明的是，本公开的实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF（射频）等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子系统（在本文中还称为“基于仿射多任务回归的行人跟踪系统”）中所包含的；也可以是单独存在，而未装配入该电子系统中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子系统：1）确定出多个视频帧中上一帧包括目标对象的目标框；2）根据所确定出的目标框确定出当前帧中包括所述目标对象的当前目标框；3）将所述当前目标框输入预训练好的第一神经网络中，获取所述当前帧中的目标框的候选特征图；4）将所述候选特征图输入到预训练好的第二神经网络中获得多个目标候选区域； 5）将所述多个目标候选区域的特征进行池化操作，获得针对所述目标对象的多个感兴趣区域；6）将所述多个感兴趣区域的特征进行全链接操作，区分目标和背景，从而获得所述目标对象的多个跟踪仿射框；以及7）对所述多个跟踪仿射框进行非极大值抑制，得到所述当前帧的所述目标对象的跟踪结果。

另一方面，本发明还提供一种基于仿射多任务回归的行人跟踪方法，如图2所示，采用上述的一种基于仿射多任务回归的行人跟踪系统实现，该方法包括以下步骤：

初始化原始图像的大小。设原始图像大小为m×n（单位：像素）。当t=1时，手动标记该帧的目标框的位置。将目标框的中心位置坐标记作（cx, cy），其中t表示第t帧图像，t为正整数，cx，cy分别为目标框中心位置横纵坐标，目标框包括所要跟踪的对象，例如图3中标号301所示。

初始化仿射变换参数：U ₁=[r1，r2，r3，r4，r5，r6]^T。

本实施例中根据所确定出的目标框确定出当前帧中包括所述目标对象的当前目标框。具体地，对输入的第t（t>2）帧图片进行裁剪操作，以t-1帧所跟踪或标识到的目标框的中心坐标（cx, cy）为中心，确定t帧的目标框。例如，假设将t-1帧中的目标框的外接矩形的两条边长，记做：a，b，则在第t帧图像上，以第t-1帧的目标中心点（cx,cy）为中心，裁剪出（2a）×（2b）大小的图片，例如图3中标号为302的矩形框。在本申请中，以上一帧目标的中心点为中心的目的是，使得裁剪后的图片包含目标信息，这是因为目标在相邻两帧的中心点坐标变化不大，只要在中心点附近的位置，裁剪出足够大的子图片，都可以包含要跟踪的目标。

将裁剪后的目标框调整成固定大小，送入预训练好的神经网络中，例如送入到上述的VGG-16网络中，获取该图像在网络中第五层卷积之后的特征图，即，获取该图像中目标框的候选特征图。例如图3中标号为303所示。

所述第一神经网络为VGG-16网络；如图6所示为示例性的VGG-16网络结构。如图6所示，该网络结构包括 13个卷积层（201）和3个全连接层（203）。具体地，如图6所示，首先用3×3、步幅为1的过滤器构建卷积层，假设网络输入大小为m×n×3（m和n为正整数），为了保证卷积之后的特征矩阵的前两维与输入矩阵的前两维维数相同即：m×n。在输入矩阵外加一圈0。将输入矩阵的维数变为(m+2)×(n+2), 再3×3卷积。这样卷积之后的特征矩阵的前两维仍为：m×n。然后用一个2×2，步幅为2的过滤器构建最大池化层202。接着再用256个相同的过滤器进行三次卷积操作，然后再池化，然后再卷积三次，再池化。以上所用的激活函数为现有的relu函数。如此进行几轮操作后，将最后得到的7×7×512的特征图进行全连接操作（即，全连接层203），得到4096个单元，然后进行softmax函数进行激活，即如图所示的激活层204，输出从1000个对象中识别的结果。

在构架上述网络后，通过使用ImageNet数据集对其进行训练。该ImageNet数据集分为训练集和测试集。该数据集对应例如1000个类别。每个数据有对应的标签向量，每个标签向量对应一个不同的类别，例如目标对象或者背景。本申请不关心输入图像的具体分类，只是应用该数据集训练VGG-16网络的权重。具体地，将上述ImageNet训练集调整成224×224×3大小，然后输入VGG-16网络以对该网络进行训练，得到网络各层或各单元的权重参数信息。然后，向训练得到的VGG-16网络结构中输入预先确定的测试数据集以及对应类别的标签向量。测试数据集的大小可例如同样为224×224×3。通过向VGG-16网络输入上述测试数据集以及对应类别的标签向量，可对VGG-16网络的输出结果进行检测，所检测的结果与标准数据进行比对，以根据比对的误差对VGG-16网络的参数（权重）进行调整。重复上面步骤，直到得到测试准确率达到预定的标准，例如准确率为98%以上。

将从神经网络中获得的上述特征图输入到RPN（Region Proposal Network）网络中，提取出获得多个目标的候选区域，例如2000个候选区域。例如图3中标号为304所示。RPN是生成多个不同大小的候选区域的网路，与VGG-16网络不同。候选区域是当前帧目标可能存在的多个形状和位置都的区域。本申请预先估计出算法可能存在的多个区域，然后对这些区域进行优化回归，筛选出较精确的跟踪区域。

所述第二神经网络为RPN网络。

对这些不同大小的候选区域的特征进行池化操作，获得针对目标对象的多个感兴趣区域（ROI）。在这里，考虑到目标的变形，在池化层中设计多个不同大小的卷积核，例如设计三个卷积核，分别为：7×7，5×9和9×5。例如图3中标号为305所示。多个不同的池化核可以初略描述目标的形变。例如：7×7，5×9可以描述不同摄像头下站立的人，9×5可以描述人的弯腰等动作。当然也可以根据不同应用场景设计不同大小的池化核。

将上述池化的结果，即多个感兴趣区域（ROI）的特征进行全连接操作。在这里，全链接操作是将多个ROI特征依次串联起来。例如图3中标号为306所示。然后，使用softmax函数对串联起来的特征进行打分比较，得到所比较目标区域目标/背景结果的分值。例如，分值结果大于一定阈值的判定为目标区域，否则为背景区域。

步骤7.2：将分值结果大于一定阈值的判定为目标区域，否则为背景区域；以及

步骤7.3：对判定为目标区域的特征进行非极大值抑制，得到所述当前帧的所述目标对象的跟踪结果。

对得到的判定为目标区域的仿射区域，进行非极大值抑制（例如图3中标号为308所示），得到t帧图像的跟踪结果，即对应的仿射参数和边框。例如图3中标号为309所示。在一个实施方式中，可将所述多个跟踪仿射框与参考目标框（即上一帧跟踪到的目标框）进行对比，得到交叠面积最大的仿射跟踪框，作为最终的跟踪结果。具体算法描述如下。

可选地，需要首先计算损失和回归，优化仿射变换参数。对于上述VGG-16整个网络的损失函数设计可例如表示为：

所述VGG-16网络的损失函数表示为：

（1）

其中，α₁和α₂为学习率。p为类别tc的对数损失，公式如（2）所示。

L _c（p,tc）=-logp _tc （2）

i表示正在计算损失的回归框的序号;

tc表示是类别标签，例如：tc=1表示目标，tc=0表示背景；

u _i=（r1,r2,r3,r4,r5,r6）为真实目标区域的仿射参数元组；

为预测到目标区域的仿射参数元组；

表示仿射边界框参数损失函数；

表示矩形边界框参数损失函数；

令（w，w*）表示

或者

,

定义为:

(3)

(4)

其中x为实数。

本文采用仿射变换表示目标几何变形。第t帧的目标区域的跟踪结果的仿射变换参数记作U _t，其结构为：U _t =[r1,r2,r3,r4,r5,r6]^T。对应的仿射变换矩阵

, 具有李群结构，ga（2）是对应于仿射李群GA（2）的李代数，矩阵G _j（

）是GA（2）的生成元以及矩阵ga（2）的基。对于矩阵GA（2）的生成元为：

(5)

对于李群矩阵，黎曼距离定义为矩阵对数运算:

(6)

其中X和Y是李群矩阵的元素，给出了N的对称正定矩阵

的内均值定义：

(7)

其中

，q为常数；

对上述多个跟踪仿射框进行非极大值抑制，得到t帧图像的跟踪结果。通过回归可能得到多个不同的目标区域，为了正确的得到一个精确度最高的检测算法，本申请采用仿射变换非极大值抑制方法来筛选出最后的跟踪结果。另外，上述损失函数的设计，将目标仿射形变考虑进去，提高了预测目标位置的准确性。

当前的对象检测方法，非极大值抑制(NMS)被广泛地用于后处理检测候选。在估计轴对齐边界框和倾斜边界框的同时，可以在轴对齐的边界框上执行正常的NMS，也可以在仿射变换边界框上执行倾斜NMS，本申请成为仿射变换非极大值抑制。在仿射变换非极大值抑制中，传统交点(IoU)的计算被修改为两个仿射边界框之间的IoU。算法效果如图4所示。在图4中，编号为401 的各个边框为非极大值抑制之前的候选跟踪框，编号为402的边框为进行正常的NMS抑制后得到的跟踪框，编号为403的边框为本申请进行仿射变换非极大值抑制得到的跟踪框。可以看出本申请得到的跟踪框更为准确。

步骤8：确定t+1的个数是否小于视频总帧数，如果是回到步骤2,进行第t+1帧图像的跟踪。直到所有视频的帧跟踪完毕，算法结束。部分跟踪结果边框如图5中501，502，503，504箭头所指示黑色边框所示。

在本申请中，利用上一帧图像的仿射变换参数信息，对当前目标图像进行裁剪，缩小搜索范围，提高算法效率。另外，先将裁剪下来的图像输入到VGG-16网络计算特征，再输入到RPN网络，避免特征提取的重复计算，提高了算法效率。另外，在池化操作时，应用不同大小、不同形状的卷积核，初步模拟目标的变形，有助于目标位置的更加准确提取。在本申请中，上述网络的最高层输出的特征作为语义模型，利用仿射变换结果作为空间模型，两者形成优势互补，这是因为最高层的特征包含较多的语义信息和较少的空间信息。此外，上述包括仿射变换参数回归的多任务损失函数优化了网络性能。

在上述的行人跟踪系统，所述第一神经网络为VGG-16网络，所述第二神经网络为RPN网络。

在上述的行人跟踪系统，从所述第二神经网络获得的所述候选区域是所述当前帧中的目标对象存在的多个形状和位置的区域。此外，所述步骤5通过不同大小的多个卷积核将所述多个目标候选区域的特征进行池化操作，获得针对所述目标对象的多个感兴趣区域。例如，多个不同大小的卷积核包括三个卷积核，以初略描述目标的不同形变。特别地，如上所述，考虑到目标的变形，在池化层中设计多个不同大小的卷积核，例如设计三个卷积核，分别为：7×7，5×9和9×5。多个不同的池化核可以初略描述目标的形变。例如：7×7，5×9可以描述不同摄像头下站立的人，9×5可以描述人的弯腰等动作。当然也可以根据不同应用场景设计不同大小的池化核。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开的实施例中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的（但不限于）具有类似功能的技术特征进行互相替换而形成的技术方案。