[go: up one dir, main page]

CN118762057A - 一种基于卷积网络的无监督行为跟踪识别方法及系统 - Google Patents

一种基于卷积网络的无监督行为跟踪识别方法及系统 Download PDF

Info

Publication number
CN118762057A
CN118762057A CN202410774588.XA CN202410774588A CN118762057A CN 118762057 A CN118762057 A CN 118762057A CN 202410774588 A CN202410774588 A CN 202410774588A CN 118762057 A CN118762057 A CN 118762057A
Authority
CN
China
Prior art keywords
behavior tracking
frame
tracking
image
video sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410774588.XA
Other languages
English (en)
Other versions
CN118762057B (zh
Inventor
韩伟
盛中松
刘强
张开久
樊建伟
郑重远
龚晓雪
王根营
黄鑫
王军
黄政
宋淼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Railway 16th Bureau Group Co Ltd
Beijing Polytechnic
City Construction Development Co Ltd of China Railway 16th Bureau Group Co Ltd
Original Assignee
China Railway 16th Bureau Group Co Ltd
Beijing Polytechnic
City Construction Development Co Ltd of China Railway 16th Bureau Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Railway 16th Bureau Group Co Ltd, Beijing Polytechnic, City Construction Development Co Ltd of China Railway 16th Bureau Group Co Ltd filed Critical China Railway 16th Bureau Group Co Ltd
Priority to CN202410774588.XA priority Critical patent/CN118762057B/zh
Publication of CN118762057A publication Critical patent/CN118762057A/zh
Application granted granted Critical
Publication of CN118762057B publication Critical patent/CN118762057B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于卷积网络的无监督行为跟踪识别方法及系统,涉及视觉跟踪技术领域,包括以下步骤:采集视频序列并从视频序列中获取模板图像和当前帧搜索图像,构建训练数据集;基于SiamFC算法,构建行为跟踪模型;使用训练数据集对行为跟踪模型进行训练,直至达到预设要求,得到训练好的行为跟踪模型;利用训练好的行为跟踪模型对监测视频段中的目标对象进行跟踪,获得用户行为跟踪识别结果。本发明将Transformer引入到视觉跟踪技术中,通过注意力机制有效确定输入序列中不同部分的重要性,解决序列数据中的全局时空关联问题,实现高效的跟踪任务。

Description

一种基于卷积网络的无监督行为跟踪识别方法及系统
技术领域
本发明涉及视觉跟踪技术领域,更具体的说是涉及一种基于卷积网络的无监督行为跟踪识别方法及系统。
背景技术
视觉跟踪,即对图像序列中的运动目标进行检测、提取、识别和跟踪,获得运动目标的运动参数,从而进行下一步的处理与分析,实现对运动目标的行为理解,以完成更高一级的检测任务。随着人工智能以及计算机视觉的广泛应用,视觉追踪技术已经成为当前炙手可热的研究前沿。然而,由于目标的高速运动、目标所处环境的干扰以及跟踪设备自身的姿态变化等因素,往往导致目标的遮挡、模糊和尺寸变化等复杂的情景,进而影响了跟踪器的追踪效果。
近年来,基于孪生网络的跟踪器受到了广泛使用,这些跟踪器利用卷积神经网络优秀的特征提取能力和互相关运算的高效匹配方式,平衡了跟踪器的精度和速度,取得了一定的效果。然而,现有的孪生跟踪器通常仅仅使用初始帧作为目标模板,未能充分考虑历史帧的时空信息,无法实现高效的跟踪任务,这成为了本领域技术人员亟需解决的技术问题。
发明内容
有鉴于此,本发明提供了一种基于卷积网络的无监督行为跟踪识别方法及系统,解决了背景技术存在的问题。
为了实现上述目的,本发明提供如下技术方案:
一种基于卷积网络的无监督行为跟踪识别方法,包括以下步骤:
采集视频序列并从视频序列中获取模板图像和当前帧搜索图像,构建训练数据集;
基于SiamFC算法,构建行为跟踪模型;
使用训练数据集对行为跟踪模型进行训练,直至达到预设要求,得到训练好的行为跟踪模型;
利用训练好的行为跟踪模型对监测视频段中的目标对象进行跟踪,获得用户行为跟踪识别结果。
可选的,采集视频序列,具体包括以下步骤:
针对多个目标对象分别进行拍摄,获取若干个视频序列;
在每个视频序列中,确定出具有目标对象的前景帧和不具有目标对象的背景帧,分析每个视频序列的质量;
基于质量分析结果由高到低对所有视频序列进行排序,保留质量高的前N个视频序列。
可选的,分析每个视频序列的质量,具体包括以下步骤:
对视频序列中的各个视频帧进行平滑滤波,确定运动向量场;
基于运动向量场确认目标区域,获取各个视频帧中目标区域与前一帧中相应区域的像素差值的平方均值,确定各个视频帧的质量以及视频序列的质量。
可选的,获取模板图像和当前帧搜索图像,具体包括以下步骤:
将视频序列的第一帧图像中的目标对象根据标注好的位置和尺寸进行裁剪,得到模板图像;
对视频序列进行逐帧识别,确定视频序列包含的各帧图像,将除第一帧图像外的每一帧图像定义为搜索图像。
可选的,行为跟踪模型包括:孪生主干网络、自适应时空信息提取模块、时空上下文映射模块和分类回归模块;孪生主干网络、自适应时空信息提取模块、分类回归模块均与时空上下文映射模块连接;
孪生主干网络,用于从模板图像和搜索图像中提取特征,生成基准模板和实时搜索特征图;
自适应时空信息提取模块,用于根据上一帧的跟踪信息,生成适合当前帧的模板图像;
时空上下文映射模块,用于捕获连续帧之间的时空上下文映射关系;
分类回归模块,用于通过分类函数和边界框的回归函数,生成追踪结果。
可选的,孪生主干网络采用全卷积孪生网络SiamFC,由两个具有相同结构、共享权重的分支组成;
将模板图像和搜索图像输入孪生主干网络中后,利用两个分支提取模板图像和搜索图像的卷积特征,计算两个卷积特征的相似度得分,相似度得分最高的位置即为目标位置,基于以上一帧目标位置为中心的搜索图像来生成响应图。
可选的,自适应时空信息提取模块基于多头注意力机制构建而成,将提取的模板图像特征和搜索图像特征进行级联,对级联特征进行多头注意力特征映射,得到经注意力层加权映射增强后的特征,生成适合当前帧的模板图像。
可选的,时空上下文映射模块为编码器-解码器结构,通过编码器对提取的模板图像特征和搜索图像特征进行编码,利用解码器对编码特征和目标查询进行解码,捕获上下文信息,对特征进行非线性变换和映射。
可选的,分类回归模块采用多层卷积进行构建,分类函数采用二元交叉熵损失函数,边界框的回归函数采用L1损失和IOU损失函数。
一种实现上述方法的基于卷积网络的无监督行为跟踪识别系统,包括:
数据获取模块,用于采集视频序列并从视频序列中获取模板图像和当前帧搜索图像,构建训练数据集;
模型构建模块,用于通过SiamFC算法,构建行为跟踪模型;
模型训练模块,用于通过使用训练数据集对行为跟踪模型进行训练,直至达到预设要求,得到训练好的行为跟踪模型;
跟踪识别模块,用于通过利用训练好的行为跟踪模型对监测视频段中的目标对象进行跟踪,获得用户行为跟踪识别结果。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于卷积网络的无监督行为跟踪识别方法及系统,从视频序列中获取模板图像和当前帧搜索图像,构建训练数据集;基于SiamFC算法构建行为跟踪模型,对模板图像和搜索图像进行预处理并通过孪生网络进行特征提取,根据前一帧的跟踪信息生成更适合当前帧的模板并判断当前帧中与前一帧的跟踪目标相似度最高的搜索区域;将模板图像和搜索区域的特征图利用编码器-解码器结构进行融合、增强,得到增强后的特征向量,捕获连续帧之间的时空上下文映射关系;利用多层卷积构建分类回归模块,并通过分类函数和边界框的回归函数,生成追踪结果。使用训练数据集对行为跟踪模型进行训练,直至满足迭代次数上限或模型收敛,利用训练好的模型对视频序列进行目标跟踪,实现高效的跟踪任务,能够避免目标遮挡、模糊和尺寸变化等复杂情景对追踪效果的影响。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明提供的基于卷积网络的无监督行为跟踪识别方法的流程图;
图2为本发明提供的行为跟踪模型的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种基于卷积网络的无监督行为跟踪识别方法,如图1所示,包括以下步骤:
采集视频序列并从视频序列中获取模板图像和当前帧搜索图像,构建训练数据集;
基于SiamFC算法,构建行为跟踪模型;
使用训练数据集对行为跟踪模型进行训练,直至达到预设要求,得到训练好的行为跟踪模型;
利用训练好的行为跟踪模型对监测视频段中的目标对象进行跟踪,获得用户行为跟踪识别结果。
视频序列是有时空联系的多个视频图像按照拍摄时间顺序的排列,并不是每个视频序列都适合进行用户行为分析,而人为对视频序列进行质量分析需要大量的人力与时间。因此,为提高分析视频序列的效率,在本实施例中,采集视频序列,具体包括以下步骤:
针对多个目标对象分别进行拍摄,获取若干个视频序列;
在每个视频序列中,确定出具有目标对象的前景帧和不具有目标对象的背景帧,分析每个视频序列的质量;
基于质量分析结果由高到低对所有视频序列进行排序,保留质量高的前N个视频序列。
具体的,针对视频序列中的每个视频帧,获取视频帧的每个像素点对应的灰度值和视频帧中所包含的像素点的个数,将视频帧的每个像素点对应的灰度值相加得到对应的灰度值总和,将灰度值总和与所包含的像素点个数的商作为灰度均值,以最大的灰度均值对应的视频帧为背景帧,以最小的灰度均值对应的视频帧为前景帧。
更进一步地,分析每个视频序列的质量,具体包括以下步骤:
对视频序列中的各个视频帧进行平滑滤波,确定运动向量场;在本实施例中,可以采用二维高斯滤波方法进行平滑滤波;对视频帧进行平滑滤波后,将前一帧图像作为参考帧,利用块匹配算法为当前帧图像中的每个像素预测运动向量,进而获得整帧图像的运动向量场;
基于运动向量场确认目标区域,获取各个视频帧中目标区域与前一帧中相应区域的像素差值的平方均值,确定各个视频帧的质量以及视频序列的质量。
进一步地,获取模板图像和当前帧搜索图像,具体包括以下步骤:
将视频序列的第一帧图像中的目标对象根据标注好的位置和尺寸进行裁剪,得到模板图像;
对视频序列进行逐帧识别,确定视频序列包含的各帧图像,将除第一帧图像外的每一帧图像定义为搜索图像。
在本实施例中,可以默认目标对象的中心点在第一帧图像的中心,裁剪出大小为127*127的区域,将裁剪出的区域内的所有像素值复制到一个新建的三通道RGB图像中,获得模板图像。从第二帧开始,将后续帧的图像以目标对象为中心裁剪为255*255大小。此外,在裁剪之前,可以通过随机调整对比度、翻转、旋转、中心点偏移等方式对图像进行一些扰动,以增强训练的鲁棒性。
进一步地,如图2所示,行为跟踪模型包括:孪生主干网络、自适应时空信息提取模块、时空上下文映射模块和分类回归模块;孪生主干网络、自适应时空信息提取模块、分类回归模块均与时空上下文映射模块连接;
孪生主干网络,用于从模板图像和搜索图像中提取特征,生成基准模板和实时搜索特征图;
自适应时空信息提取模块,用于根据上一帧的跟踪信息,生成适合当前帧的模板图像;
时空上下文映射模块,用于捕获连续帧之间的时空上下文映射关系;
分类回归模块,用于通过分类函数和边界框的回归函数,生成追踪结果。
更进一步地,孪生主干网络采用全卷积孪生网络SiamFC,由两个具有相同结构、共享权重的分支组成;将模板图像和搜索图像输入孪生主干网络中后,利用两个分支提取模板图像和搜索图像的卷积特征,计算两个卷积特征的相似度得分,相似度得分最高的位置即为目标位置,基于以上一帧目标位置为中心的搜索图像来生成响应图。
其中,相似度得分的计算方式为:式中,z表示模板图像,x表示搜索图像,表示嵌入深度网络对应的特征提取,*表示卷积运算,通过卷积运算提取x中与z最为相近的部分;b表示每个位置在相似度得分图中的取值。
更进一步地,自适应时空信息提取模块基于多头注意力机制构建而成,将提取的模板图像特征和搜索图像特征进行级联,对级联特征进行多头注意力特征映射,得到经注意力层加权映射增强后的特征,生成适合当前帧的模板图像。
更进一步地,时空上下文映射模块为编码器-解码器结构,通过编码器对提取的模板图像特征和搜索图像特征进行编码,利用解码器对编码特征和目标查询进行解码,捕获上下文信息,对特征进行非线性变换和映射,增强特征表示的表达能力。其中,目标查询可以关注模板图像和搜索图像特征的每个位置,学习到鲁棒的表达。
更进一步地,分类回归模块采用多层卷积进行构建,分类函数采用二元交叉熵损失函数,边界框的回归函数采用L1损失和IOU损失函数。
与图1所述的方法相对应,本发明实施例还提供了一种基于卷积网络的无监督行为跟踪识别系统,用于对图1中方法的具体实现,本发明实施例提供的一种基于卷积网络的无监督行为跟踪识别系统可以应用计算机终端或各种移动设备中,具体包括:
数据获取模块,用于采集视频序列并从视频序列中获取模板图像和当前帧搜索图像,构建训练数据集;
模型构建模块,用于通过SiamFC算法,构建行为跟踪模型;
模型训练模块,用于通过使用训练数据集对行为跟踪模型进行训练,直至达到预设要求,得到训练好的行为跟踪模型;
跟踪识别模块,用于通过利用训练好的行为跟踪模型对监测视频段中的目标对象进行跟踪,获得用户行为跟踪识别结果。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于卷积网络的无监督行为跟踪识别方法,其特征在于,包括以下步骤:
采集视频序列并从视频序列中获取模板图像和当前帧搜索图像,构建训练数据集;
基于SiamFC算法,构建行为跟踪模型;
使用训练数据集对行为跟踪模型进行训练,直至达到预设要求,得到训练好的行为跟踪模型;
利用训练好的行为跟踪模型对监测视频段中的目标对象进行跟踪,获得用户行为跟踪识别结果。
2.根据权利要求1所述的一种基于卷积网络的无监督行为跟踪识别方法,其特征在于,采集视频序列,具体包括以下步骤:
针对多个目标对象分别进行拍摄,获取若干个视频序列;
在每个视频序列中,确定出具有目标对象的前景帧和不具有目标对象的背景帧,分析每个视频序列的质量;
基于质量分析结果由高到低对所有视频序列进行排序,保留质量高的前N个视频序列。
3.根据权利要求2所述的一种基于卷积网络的无监督行为跟踪识别方法,其特征在于,分析每个视频序列的质量,具体包括以下步骤:
对视频序列中的各个视频帧进行平滑滤波,确定运动向量场;
基于运动向量场确认目标区域,获取各个视频帧中目标区域与前一帧中相应区域的像素差值的平方均值,确定各个视频帧的质量以及视频序列的质量。
4.根据权利要求1所述的一种基于卷积网络的无监督行为跟踪识别方法,其特征在于,获取模板图像和当前帧搜索图像,具体包括以下步骤:
将视频序列的第一帧图像中的目标对象根据标注好的位置和尺寸进行裁剪,得到模板图像;
对视频序列进行逐帧识别,确定视频序列包含的各帧图像,将除第一帧图像外的每一帧图像定义为搜索图像。
5.根据权利要求1所述的一种基于卷积网络的无监督行为跟踪识别方法,其特征在于,行为跟踪模型包括:孪生主干网络、自适应时空信息提取模块、时空上下文映射模块和分类回归模块;孪生主干网络、自适应时空信息提取模块、分类回归模块均与时空上下文映射模块连接;
孪生主干网络,用于从模板图像和搜索图像中提取特征,生成基准模板和实时搜索特征图;
自适应时空信息提取模块,用于根据上一帧的跟踪信息,生成适合当前帧的模板图像;
时空上下文映射模块,用于捕获连续帧之间的时空上下文映射关系;
分类回归模块,用于通过分类函数和边界框的回归函数,生成追踪结果。
6.根据权利要求5所述的一种基于卷积网络的无监督行为跟踪识别方法,其特征在于,孪生主干网络采用全卷积孪生网络SiamFC,由两个具有相同结构、共享权重的分支组成;
将模板图像和搜索图像输入孪生主干网络中后,利用两个分支提取模板图像和搜索图像的卷积特征,计算两个卷积特征的相似度得分,相似度得分最高的位置即为目标位置,基于以上一帧目标位置为中心的搜索图像来生成响应图。
7.根据权利要求5所述的一种基于卷积网络的无监督行为跟踪识别方法,其特征在于,自适应时空信息提取模块基于多头注意力机制构建而成,将提取的模板图像特征和搜索图像特征进行级联,对级联特征进行多头注意力特征映射,得到经注意力层加权映射增强后的特征,生成适合当前帧的模板图像。
8.根据权利要求5所述的一种基于卷积网络的无监督行为跟踪识别方法,其特征在于,时空上下文映射模块为编码器-解码器结构,通过编码器对提取的模板图像特征和搜索图像特征进行编码,利用解码器对编码特征和目标查询进行解码,捕获上下文信息,对特征进行非线性变换和映射。
9.根据权利要求5所述的一种基于卷积网络的无监督行为跟踪识别方法,其特征在于,分类回归模块采用多层卷积进行构建,分类函数采用二元交叉熵损失函数,边界框的回归函数采用L1损失和IOU损失函数。
10.一种实现如权利要求1-9任一项所述方法的基于卷积网络的无监督行为跟踪识别系统,其特征在于,包括:
数据获取模块,用于采集视频序列并从视频序列中获取模板图像和当前帧搜索图像,构建训练数据集;
模型构建模块,用于通过SiamFC算法,构建行为跟踪模型;
模型训练模块,用于通过使用训练数据集对行为跟踪模型进行训练,直至达到预设要求,得到训练好的行为跟踪模型;
跟踪识别模块,用于通过利用训练好的行为跟踪模型对监测视频段中的目标对象进行跟踪,获得用户行为跟踪识别结果。
CN202410774588.XA 2024-06-17 2024-06-17 一种基于卷积网络的无监督行为跟踪识别方法及系统 Active CN118762057B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410774588.XA CN118762057B (zh) 2024-06-17 2024-06-17 一种基于卷积网络的无监督行为跟踪识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410774588.XA CN118762057B (zh) 2024-06-17 2024-06-17 一种基于卷积网络的无监督行为跟踪识别方法及系统

Publications (2)

Publication Number Publication Date
CN118762057A true CN118762057A (zh) 2024-10-11
CN118762057B CN118762057B (zh) 2025-02-14

Family

ID=92946508

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410774588.XA Active CN118762057B (zh) 2024-06-17 2024-06-17 一种基于卷积网络的无监督行为跟踪识别方法及系统

Country Status (1)

Country Link
CN (1) CN118762057B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115375737A (zh) * 2022-10-25 2022-11-22 南昌工程学院 基于自适应时间与序列化时空特征的目标跟踪方法与系统
WO2023273136A1 (zh) * 2021-06-29 2023-01-05 常州工学院 一种基于目标物表征点估计的视觉跟踪方法
CN116258747A (zh) * 2023-03-10 2023-06-13 安徽理工大学 一种将离线训练和在线学习相结合的单目标追踪方法
CN116452629A (zh) * 2023-03-23 2023-07-18 内蒙古科技大学 一种基于Siamese网络的牧场中无人机对牛目标跟踪方法及系统
WO2023216572A1 (zh) * 2022-05-07 2023-11-16 深圳先进技术研究院 一种跨视频目标跟踪方法、系统、电子设备以及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023273136A1 (zh) * 2021-06-29 2023-01-05 常州工学院 一种基于目标物表征点估计的视觉跟踪方法
WO2023216572A1 (zh) * 2022-05-07 2023-11-16 深圳先进技术研究院 一种跨视频目标跟踪方法、系统、电子设备以及存储介质
CN115375737A (zh) * 2022-10-25 2022-11-22 南昌工程学院 基于自适应时间与序列化时空特征的目标跟踪方法与系统
CN116258747A (zh) * 2023-03-10 2023-06-13 安徽理工大学 一种将离线训练和在线学习相结合的单目标追踪方法
CN116452629A (zh) * 2023-03-23 2023-07-18 内蒙古科技大学 一种基于Siamese网络的牧场中无人机对牛目标跟踪方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
方梦华,姜添: ""基于无监督学习的无人机目标跟踪"", 《计算机工程与科学》, vol. 43, no. 6, 30 June 2021 (2021-06-30), pages 1 - 3 *

Also Published As

Publication number Publication date
CN118762057B (zh) 2025-02-14

Similar Documents

Publication Publication Date Title
TWI897954B (zh) 保持用於幀中的目標物件的固定尺寸
Mahmood et al. Robust spatio-temporal features for human interaction recognition via artificial neural network
CN109635686B (zh) 结合人脸与外观的两阶段行人搜索方法
CN107067413B (zh) 一种时空域统计匹配局部特征的运动目标检测方法
CN109145803B (zh) 手势识别方法及装置、电子设备、计算机可读存储介质
CN109472191B (zh) 一种基于时空上下文的行人重识别与追踪方法
CN110222787A (zh) 多尺度目标检测方法、装置、计算机设备及存储介质
CN114140831B (zh) 人体姿态估计方法、装置、电子设备及存储介质
CN109063626B (zh) 动态人脸识别方法和装置
CN102799873A (zh) 一种人体异常行为识别方法
US12106541B2 (en) Systems and methods for contrastive pretraining with video tracking supervision
CN112115775A (zh) 一种基于计算机视觉的监控场景下的吸烟行为检测方法
CN112949451B (zh) 通过模态感知特征学习的跨模态目标跟踪方法及系统
CN111652035B (zh) 一种基于ST-SSCA-Net的行人重识别方法及系统
CN112329656B (zh) 一种视频流中人体动作关键帧的特征提取方法
CN114022823A (zh) 一种遮挡驱动的行人再识别方法、系统及可存储介质
CN111401308A (zh) 一种基于光流效应的鱼类行为视频识别方法
WO2023159898A1 (zh) 一种动作识别系统、方法、装置及模型训练方法、装置、计算机设备及计算机可读存储介质
CN108345835B (zh) 一种基于仿复眼感知的目标识别方法
CN103733225B (zh) 特征点对等系统、特征点对等方法、以及记录介质
CN117854160A (zh) 一种基于人工多模态和细粒度补丁的人脸活体检测方法及系统
CN112183431A (zh) 实时行人数量统计方法、装置、相机和服务器
CN109359530B (zh) 一种智能视频监控方法及装置
CN109034125B (zh) 基于场景复杂度的行人检测方法与系统
Ma et al. Background subtraction based on multi-channel SILTP

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant