CN118762057A

CN118762057A - 一种基于卷积网络的无监督行为跟踪识别方法及系统

Info

Publication number: CN118762057A
Application number: CN202410774588.XA
Authority: CN
Inventors: 韩伟; 盛中松; 刘强; 张开久; 樊建伟; 郑重远; 龚晓雪; 王根营; 黄鑫; 王军; 黄政; 宋淼
Original assignee: China Railway 16th Bureau Group Co Ltd; Beijing Polytechnic; City Construction Development Co Ltd of China Railway 16th Bureau Group Co Ltd
Current assignee: China Railway 16th Bureau Group Co Ltd; Beijing Polytechnic; City Construction Development Co Ltd of China Railway 16th Bureau Group Co Ltd
Priority date: 2024-06-17
Filing date: 2024-06-17
Publication date: 2024-10-11
Anticipated expiration: 2044-06-17
Also published as: CN118762057B

Abstract

本发明公开了一种基于卷积网络的无监督行为跟踪识别方法及系统，涉及视觉跟踪技术领域，包括以下步骤：采集视频序列并从视频序列中获取模板图像和当前帧搜索图像，构建训练数据集；基于SiamFC算法，构建行为跟踪模型；使用训练数据集对行为跟踪模型进行训练，直至达到预设要求，得到训练好的行为跟踪模型；利用训练好的行为跟踪模型对监测视频段中的目标对象进行跟踪，获得用户行为跟踪识别结果。本发明将Transformer引入到视觉跟踪技术中，通过注意力机制有效确定输入序列中不同部分的重要性，解决序列数据中的全局时空关联问题，实现高效的跟踪任务。

Description

一种基于卷积网络的无监督行为跟踪识别方法及系统

技术领域

本发明涉及视觉跟踪技术领域，更具体的说是涉及一种基于卷积网络的无监督行为跟踪识别方法及系统。

背景技术

视觉跟踪，即对图像序列中的运动目标进行检测、提取、识别和跟踪，获得运动目标的运动参数，从而进行下一步的处理与分析，实现对运动目标的行为理解，以完成更高一级的检测任务。随着人工智能以及计算机视觉的广泛应用，视觉追踪技术已经成为当前炙手可热的研究前沿。然而，由于目标的高速运动、目标所处环境的干扰以及跟踪设备自身的姿态变化等因素，往往导致目标的遮挡、模糊和尺寸变化等复杂的情景，进而影响了跟踪器的追踪效果。

近年来，基于孪生网络的跟踪器受到了广泛使用，这些跟踪器利用卷积神经网络优秀的特征提取能力和互相关运算的高效匹配方式，平衡了跟踪器的精度和速度，取得了一定的效果。然而，现有的孪生跟踪器通常仅仅使用初始帧作为目标模板，未能充分考虑历史帧的时空信息，无法实现高效的跟踪任务，这成为了本领域技术人员亟需解决的技术问题。

发明内容

有鉴于此，本发明提供了一种基于卷积网络的无监督行为跟踪识别方法及系统，解决了背景技术存在的问题。

为了实现上述目的，本发明提供如下技术方案：

一种基于卷积网络的无监督行为跟踪识别方法，包括以下步骤：

采集视频序列并从视频序列中获取模板图像和当前帧搜索图像，构建训练数据集；

基于SiamFC算法，构建行为跟踪模型；

使用训练数据集对行为跟踪模型进行训练，直至达到预设要求，得到训练好的行为跟踪模型；

利用训练好的行为跟踪模型对监测视频段中的目标对象进行跟踪，获得用户行为跟踪识别结果。

可选的，采集视频序列，具体包括以下步骤：

针对多个目标对象分别进行拍摄，获取若干个视频序列；

在每个视频序列中，确定出具有目标对象的前景帧和不具有目标对象的背景帧，分析每个视频序列的质量；

基于质量分析结果由高到低对所有视频序列进行排序，保留质量高的前N个视频序列。

可选的，分析每个视频序列的质量，具体包括以下步骤：

对视频序列中的各个视频帧进行平滑滤波，确定运动向量场；

基于运动向量场确认目标区域，获取各个视频帧中目标区域与前一帧中相应区域的像素差值的平方均值，确定各个视频帧的质量以及视频序列的质量。

可选的，获取模板图像和当前帧搜索图像，具体包括以下步骤：

将视频序列的第一帧图像中的目标对象根据标注好的位置和尺寸进行裁剪，得到模板图像；

对视频序列进行逐帧识别，确定视频序列包含的各帧图像，将除第一帧图像外的每一帧图像定义为搜索图像。

可选的，行为跟踪模型包括：孪生主干网络、自适应时空信息提取模块、时空上下文映射模块和分类回归模块；孪生主干网络、自适应时空信息提取模块、分类回归模块均与时空上下文映射模块连接；

孪生主干网络，用于从模板图像和搜索图像中提取特征，生成基准模板和实时搜索特征图；

自适应时空信息提取模块，用于根据上一帧的跟踪信息，生成适合当前帧的模板图像；

时空上下文映射模块，用于捕获连续帧之间的时空上下文映射关系；

分类回归模块，用于通过分类函数和边界框的回归函数，生成追踪结果。

可选的，孪生主干网络采用全卷积孪生网络SiamFC，由两个具有相同结构、共享权重的分支组成；

将模板图像和搜索图像输入孪生主干网络中后，利用两个分支提取模板图像和搜索图像的卷积特征，计算两个卷积特征的相似度得分，相似度得分最高的位置即为目标位置，基于以上一帧目标位置为中心的搜索图像来生成响应图。

可选的，自适应时空信息提取模块基于多头注意力机制构建而成，将提取的模板图像特征和搜索图像特征进行级联，对级联特征进行多头注意力特征映射，得到经注意力层加权映射增强后的特征，生成适合当前帧的模板图像。

可选的，时空上下文映射模块为编码器-解码器结构，通过编码器对提取的模板图像特征和搜索图像特征进行编码，利用解码器对编码特征和目标查询进行解码，捕获上下文信息，对特征进行非线性变换和映射。

可选的，分类回归模块采用多层卷积进行构建，分类函数采用二元交叉熵损失函数，边界框的回归函数采用L1损失和IOU损失函数。

一种实现上述方法的基于卷积网络的无监督行为跟踪识别系统，包括：

数据获取模块，用于采集视频序列并从视频序列中获取模板图像和当前帧搜索图像，构建训练数据集；

模型构建模块，用于通过SiamFC算法，构建行为跟踪模型；

模型训练模块，用于通过使用训练数据集对行为跟踪模型进行训练，直至达到预设要求，得到训练好的行为跟踪模型；

跟踪识别模块，用于通过利用训练好的行为跟踪模型对监测视频段中的目标对象进行跟踪，获得用户行为跟踪识别结果。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于卷积网络的无监督行为跟踪识别方法及系统，从视频序列中获取模板图像和当前帧搜索图像，构建训练数据集；基于SiamFC算法构建行为跟踪模型，对模板图像和搜索图像进行预处理并通过孪生网络进行特征提取，根据前一帧的跟踪信息生成更适合当前帧的模板并判断当前帧中与前一帧的跟踪目标相似度最高的搜索区域；将模板图像和搜索区域的特征图利用编码器-解码器结构进行融合、增强，得到增强后的特征向量，捕获连续帧之间的时空上下文映射关系；利用多层卷积构建分类回归模块，并通过分类函数和边界框的回归函数，生成追踪结果。使用训练数据集对行为跟踪模型进行训练，直至满足迭代次数上限或模型收敛，利用训练好的模型对视频序列进行目标跟踪，实现高效的跟踪任务，能够避免目标遮挡、模糊和尺寸变化等复杂情景对追踪效果的影响。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的基于卷积网络的无监督行为跟踪识别方法的流程图；

图2为本发明提供的行为跟踪模型的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种基于卷积网络的无监督行为跟踪识别方法，如图1所示，包括以下步骤：

基于SiamFC算法，构建行为跟踪模型；

视频序列是有时空联系的多个视频图像按照拍摄时间顺序的排列，并不是每个视频序列都适合进行用户行为分析，而人为对视频序列进行质量分析需要大量的人力与时间。因此，为提高分析视频序列的效率，在本实施例中，采集视频序列，具体包括以下步骤：

针对多个目标对象分别进行拍摄，获取若干个视频序列；

具体的，针对视频序列中的每个视频帧，获取视频帧的每个像素点对应的灰度值和视频帧中所包含的像素点的个数，将视频帧的每个像素点对应的灰度值相加得到对应的灰度值总和，将灰度值总和与所包含的像素点个数的商作为灰度均值，以最大的灰度均值对应的视频帧为背景帧，以最小的灰度均值对应的视频帧为前景帧。

更进一步地，分析每个视频序列的质量，具体包括以下步骤：

对视频序列中的各个视频帧进行平滑滤波，确定运动向量场；在本实施例中，可以采用二维高斯滤波方法进行平滑滤波；对视频帧进行平滑滤波后，将前一帧图像作为参考帧，利用块匹配算法为当前帧图像中的每个像素预测运动向量，进而获得整帧图像的运动向量场；

进一步地，获取模板图像和当前帧搜索图像，具体包括以下步骤：

在本实施例中，可以默认目标对象的中心点在第一帧图像的中心，裁剪出大小为127*127的区域，将裁剪出的区域内的所有像素值复制到一个新建的三通道RGB图像中，获得模板图像。从第二帧开始，将后续帧的图像以目标对象为中心裁剪为255*255大小。此外，在裁剪之前，可以通过随机调整对比度、翻转、旋转、中心点偏移等方式对图像进行一些扰动，以增强训练的鲁棒性。

进一步地，如图2所示，行为跟踪模型包括：孪生主干网络、自适应时空信息提取模块、时空上下文映射模块和分类回归模块；孪生主干网络、自适应时空信息提取模块、分类回归模块均与时空上下文映射模块连接；

更进一步地，孪生主干网络采用全卷积孪生网络SiamFC，由两个具有相同结构、共享权重的分支组成；将模板图像和搜索图像输入孪生主干网络中后，利用两个分支提取模板图像和搜索图像的卷积特征，计算两个卷积特征的相似度得分，相似度得分最高的位置即为目标位置，基于以上一帧目标位置为中心的搜索图像来生成响应图。

其中，相似度得分的计算方式为：式中，z表示模板图像，x表示搜索图像，表示嵌入深度网络对应的特征提取，*表示卷积运算，通过卷积运算提取x中与z最为相近的部分；b表示每个位置在相似度得分图中的取值。

更进一步地，自适应时空信息提取模块基于多头注意力机制构建而成，将提取的模板图像特征和搜索图像特征进行级联，对级联特征进行多头注意力特征映射，得到经注意力层加权映射增强后的特征，生成适合当前帧的模板图像。

更进一步地，时空上下文映射模块为编码器-解码器结构，通过编码器对提取的模板图像特征和搜索图像特征进行编码，利用解码器对编码特征和目标查询进行解码，捕获上下文信息，对特征进行非线性变换和映射，增强特征表示的表达能力。其中，目标查询可以关注模板图像和搜索图像特征的每个位置，学习到鲁棒的表达。

更进一步地，分类回归模块采用多层卷积进行构建，分类函数采用二元交叉熵损失函数，边界框的回归函数采用L1损失和IOU损失函数。

与图1所述的方法相对应，本发明实施例还提供了一种基于卷积网络的无监督行为跟踪识别系统，用于对图1中方法的具体实现，本发明实施例提供的一种基于卷积网络的无监督行为跟踪识别系统可以应用计算机终端或各种移动设备中，具体包括：

模型构建模块，用于通过SiamFC算法，构建行为跟踪模型；

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于卷积网络的无监督行为跟踪识别方法，其特征在于，包括以下步骤：

基于SiamFC算法，构建行为跟踪模型；

2.根据权利要求1所述的一种基于卷积网络的无监督行为跟踪识别方法，其特征在于，采集视频序列，具体包括以下步骤：

针对多个目标对象分别进行拍摄，获取若干个视频序列；

3.根据权利要求2所述的一种基于卷积网络的无监督行为跟踪识别方法，其特征在于，分析每个视频序列的质量，具体包括以下步骤：

4.根据权利要求1所述的一种基于卷积网络的无监督行为跟踪识别方法，其特征在于，获取模板图像和当前帧搜索图像，具体包括以下步骤：

5.根据权利要求1所述的一种基于卷积网络的无监督行为跟踪识别方法，其特征在于，行为跟踪模型包括：孪生主干网络、自适应时空信息提取模块、时空上下文映射模块和分类回归模块；孪生主干网络、自适应时空信息提取模块、分类回归模块均与时空上下文映射模块连接；

6.根据权利要求5所述的一种基于卷积网络的无监督行为跟踪识别方法，其特征在于，孪生主干网络采用全卷积孪生网络SiamFC，由两个具有相同结构、共享权重的分支组成；

7.根据权利要求5所述的一种基于卷积网络的无监督行为跟踪识别方法，其特征在于，自适应时空信息提取模块基于多头注意力机制构建而成，将提取的模板图像特征和搜索图像特征进行级联，对级联特征进行多头注意力特征映射，得到经注意力层加权映射增强后的特征，生成适合当前帧的模板图像。

8.根据权利要求5所述的一种基于卷积网络的无监督行为跟踪识别方法，其特征在于，时空上下文映射模块为编码器-解码器结构，通过编码器对提取的模板图像特征和搜索图像特征进行编码，利用解码器对编码特征和目标查询进行解码，捕获上下文信息，对特征进行非线性变换和映射。

9.根据权利要求5所述的一种基于卷积网络的无监督行为跟踪识别方法，其特征在于，分类回归模块采用多层卷积进行构建，分类函数采用二元交叉熵损失函数，边界框的回归函数采用L1损失和IOU损失函数。

10.一种实现如权利要求1-9任一项所述方法的基于卷积网络的无监督行为跟踪识别系统，其特征在于，包括：

模型构建模块，用于通过SiamFC算法，构建行为跟踪模型；