[go: up one dir, main page]

CN116884039A - 一种基于图结构的跨模态行人重识别方法 - Google Patents

一种基于图结构的跨模态行人重识别方法 Download PDF

Info

Publication number
CN116884039A
CN116884039A CN202310913967.8A CN202310913967A CN116884039A CN 116884039 A CN116884039 A CN 116884039A CN 202310913967 A CN202310913967 A CN 202310913967A CN 116884039 A CN116884039 A CN 116884039A
Authority
CN
China
Prior art keywords
graph
attention
learning
node
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310913967.8A
Other languages
English (en)
Inventor
季一木
刘尚东
张驰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Tuoyou Information Intelligent Technology Research Institute Co ltd
Original Assignee
Jiangsu Tuoyou Information Intelligent Technology Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Tuoyou Information Intelligent Technology Research Institute Co ltd filed Critical Jiangsu Tuoyou Information Intelligent Technology Research Institute Co ltd
Priority to CN202310913967.8A priority Critical patent/CN116884039A/zh
Publication of CN116884039A publication Critical patent/CN116884039A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于图结构的跨模态行人重识别方法,属于行人重识别方法技术领域。首先构建训练特征数据集,采用身份平衡抽样策略进行训练,抽取两个模态的不同身份的行人数据;然后通过训练特征数据集生成邻接矩阵去构造无向图结构,通过矩阵乘法进行图构造计算;同时进行两个模态的图注意力学习;并采用多头注意力技术提高图注意力学习的数据精确度。本发明使用多头注意力技术为模态内和模态间图结构分配自适应权重,消除较大变化样本的负面影响,减少了模态差异,并使训练过程稳定、高效。

Description

一种基于图结构的跨模态行人重识别方法
技术领域
本发明涉及行人重识别算法技术领域,具体涉及一种基于图结构的跨模态行人重识别方法。
背景技术
由于“安全城市”、“智慧城市”等建设规划的普及,安全问题受到前所未有的重视,人类的安全意识也在不断提高,计算机视觉中的行人重识别技术能够利用机器处理视频数据,结合多摄像头,来取代人工对监控视频的处理和分析,从而有效地解决了人工检查的不足,以确保社会的安全,在日常生活中有着广泛的应用。行人重识别技术,它是一种图像检索技术,用于确定行人是否曾经出现在监控摄像头网络中。该技术能够快速准确地捕捉行人图像,并在实际应用中表现出色,因此在计算机视觉领域中受到广泛关注,逐渐成为一个热点研究方向。
DaiP等人在“DaiP,JiR,WangH,etal.Cross-modalitypersonre-identificationwith generativeadversarialtraining[C]//IJCAI.2018,1(3):6.”公开了一种基于生成对抗训练的判别器来学习不同模式的判别特征表示,其结构是由一个深度卷积神经网络作为学习图像表示的生成器和一个模态分类器作为鉴别器,它试图区分RGB和红外图像模态,不足之处是当两种模式之间的外观差异很大时,学习很容易受到噪声样本的污染和不稳定。所有这些挑战导致鉴别性差的跨模态特征和不稳定的训练。
中国专利公开号CN116311384A,公开日2023-06-23,发明名称:基于中间模态和表征学习的跨模态行人重识别方法、装置,该专利公开了一种基于联合中间模态和表征学习的跨模态行人重识别方法,利用中间模态生成器将所述两种模态的原始图像映射到统一的特征空间,以生成中间模态图像,其不足之处是全局特征学习方法对背景杂波比较敏感,不能明确地处理模态差异。
发明内容
本发明的目的是针对上述现有技术的不足,本发明提供了一种基于图结构的跨模态行人重识别方法,在考虑模态内的信息与模态间的鉴别分析的同时,还增强对噪声样本的鲁棒性。
为实现上述目的,本发明采用的技术方案为:
一种基于图结构的跨模态行人重识别方法,包括以下步骤:
步骤S1、获取训练特征数据集,采用身份平衡抽样策略进行训练,从训练特征数据集中,随机抽取的n个不同身份中的行人,抽取出m个红外图像和m个可见光图像,在各个训练批次中产生K=2mn个图像;
步骤S2、对步骤S1中获取的训练特征数据集,生成邻接矩阵从而构造一个无向图G;具体表达式如下:
其中li和lj是两个图节点对应的单热标签,Ⅱk是单位矩阵,表示每个节点都连接自己,通过训练特征数据的单热标签之间的矩阵乘法,进行图构造的计算;
步骤S3、进行图注意力学习,学习节点i对于图中另一个节点j的重要性,并且是跨越两种模态之间的,具体公式如下:
eij=a(Wi,Wj)
其中a是共享注意力机制,Wi和Wj表示节点i和j的权重矩阵,eij表示图特征中节点i对图特征中另一个节点j的重要性,允许每个图特征参与每个其他图特征。
步骤S4、采用模态内图结构中的多头注意力技术提高图注意力学习的准确性和稳定性,通过学习具有相同结构的多个注意力头hl和注意力权重wl,其中l=1,2···,L,L是总注意力个数,并分别对它们进行优化。
进一步的,所述步骤S3中采用图注意力学习的具体步骤如下:
表示输入节点特征,它们是池化层的输出,然后,通过公式计算图注意力系数/>
其中Γ是LeakyReLu操作,「,」是串联操作,h是将输入节点特征维度从原有的维度C降为新的维度d的变换矩阵,其中d设置为256,表示一个可学习的加权向量,用以衡量不同特征维度之间的重要性。通过充分利用了两种模态中所有图像之间的关系,使用相同身份的上下文信息从而加强表示效果。
进一步的,所述步骤S4中多头注意力技术具体步骤如下:
步骤S41、通过学习具有相同结构的多个hl和wl,其中l=1,2···,L,L是总注意力个数,并分别对它们进行优化,连接多个头的输出后,图结构的注意力增强特征表示如下式所示:
其中表示图结构的注意力增强特征,φ是ELU激活函数,并引入一个单头结构的图注意力网络层,以更好地指导模态间图结构学习,最终输出节点特征由/>表示;
步骤S42、为了更有效地学习图注意力,我们采用负对数似然损失函数,其公式表示方法如下式所示:
与现有技术相比,本发明具有如下有益效果:
(1)本发明考虑了模态内的信息与模态间的鉴别分析,模态间的差异性有效减少,还增强对噪声样本的鲁棒性。
(2)本发明使用多头注意力技术为模态内和模态间图结构分配自适应权重,消除较大变化样本的负面影响,减少了模态差异,并使训练过程稳定、高效。
附图说明
图1是本发明一种基于图结构的跨模态行人重识别方法的网络结构图;
图2是计算注意力系数过程;
图3是在SYSU-MM01数据集上,当K和L取值不同时Rank-1和mAP的效果图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
如图1所示,一种基于图结构的跨模态行人重识别方法,包括以下步骤:
步骤S1、获取训练特征数据集,采用身份平衡抽样策略进行训练,从训练特征数据集中随机抽取的n个不同身份中的行人,抽取出m个红外图像和m个可见光图像,在各个训练批次中产生K=2mn个图像;
步骤S2、对步骤S1中获取的训练特征数据集,采用下式,生成邻接矩阵从而构造一个无向图G;
其中li和lj是两个图节点对应的单热标签,Ⅱk是单位矩阵,表示每个节点都连接自己,通过训练特征数据集的单热标签之间的矩阵乘法,进行图构造的计算;
步骤S3、进行图注意力学习,图注意力学习了节点i对于图中另一个节点j的重要性,并且是跨越两种模态之间的;
步骤S4、采用模态内图结构中的多头注意力技术提高图注意力学习的准确性和稳定性,通过学习具有相同结构的多个注意力头hl和注意力权重wl,其中l=1,2···,L,L是总注意力个数,并分别对它们进行优化。
所述步骤S3中采用图注意力学习的具体步骤如下:
表示输入节点特征,它们是池化层的输出,然后,如图2所示,通过公计算图注意力系数/>
其中Γ是LeakyReLu操作,「,」是串联操作,h是将输入节点特征维度从原有的维度C降为新的维度d的变换矩阵,其中d设置为256,表示一个可学习的加权向量,用以衡量不同特征维度之间的重要性。
所述步骤S4中多头注意力技术具体步骤如下:
步骤S41、通过学习具有相同结构的多个hl和wl,l=1,2···,L,L是总注意力个数,并分别对它们进行优化,连接多个头的输出后,图结构的注意力增强特征表示如下式所示:
其中表示图结构的注意力增强特征,φ是ELU激活函数,并引入一个单头结构的图注意力网络层,以更好地指导模态间图结构学习,最终输出节点特征由/>表示;
步骤S42、采用负对数似然损失函数深化学习图注意力,其公式表示方法如下式所示:
最终可得到如图3所示的在SYSU-MM01数据集上,当K和L取值不同时Rank-1和mAP的效果图。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (3)

1.一种基于图结构的跨模态行人重识别方法,其特征在于,包括以下步骤:
步骤S1、获取训练特征数据集,采用身份平衡抽样策略进行训练,从训练特征数据集中随机抽取n个不同身份中的行人,抽取出m个红外图像和m个可见光图像,在各个训练批次中产生K=2mn个图像;
步骤S2、对步骤S1中获取的训练特征数据集进行处理,生成邻接矩阵从而构造一个无向图G;具体公式如下:
其中li和lj是两个图节点对应的单热标签,Ⅱk是单位矩阵,表示每个节点都连接自己,通过训练特征数据集的单热标签之间的矩阵乘法,进行图构造的计算;
步骤S3、进行图注意力学习,学习节点i对于图中另一个节点j的重要性,并且是跨越两种模态之间的,具体公式如下:
eij=a(Wi,Wj)
其中a是共享注意力机制,Wi和Wj表示节点i和j的权重矩阵,eij表示图特征中节点i对图特征中另一个节点j的重要性,允许每个图特征参与每个其他图特征;
步骤S4、采用模态内图结构中的多头注意力技术提高图注意力学习的数据精确度,通过学习具有相同结构的多个注意力头hl和注意力权重wl,其中l=1,2···,L,L是总注意力个数,并分别对它们进行优化。
2.根据权利要求1所述的一种基于图结构的跨模态行人重识别方法,其特征在于:所述步骤S3中进行图注意力学习的具体步骤如下:
表示输入节点特征,它们是池化层的输出,然后,通过公式计算图注意力系数/>
其中Γ是LeakyReLu操作,「,」是串联操作,h是将输入节点特征维度从原有的维度C降为新的维度d的变换矩阵,其中d设置为256,表示一个可学习的加权向量。
3.根据权利要求1所述的一种基于图结构的跨模态行人重识别方法,其特征在于:步骤S4中多头注意力技术的具体步骤如下:
步骤S41、通过学习具有相同结构的多个hl和wl,其中l=1,2···,L,L是总注意力个数,并分别对它们进行优化,连接多个头的输出后,图结构的注意力增强特征表示如下式所示:
其中表示图结构的注意力增强特征,φ是ELU激活函数,并引入一个单头结构的图注意力网络层,指导模态间图结构学习;最终输出节点特征由/>表示;
步骤S42、采用负对数似然损失函数深化学习图注意力,如下式所示:
CN202310913967.8A 2023-07-25 2023-07-25 一种基于图结构的跨模态行人重识别方法 Pending CN116884039A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310913967.8A CN116884039A (zh) 2023-07-25 2023-07-25 一种基于图结构的跨模态行人重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310913967.8A CN116884039A (zh) 2023-07-25 2023-07-25 一种基于图结构的跨模态行人重识别方法

Publications (1)

Publication Number Publication Date
CN116884039A true CN116884039A (zh) 2023-10-13

Family

ID=88261950

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310913967.8A Pending CN116884039A (zh) 2023-07-25 2023-07-25 一种基于图结构的跨模态行人重识别方法

Country Status (1)

Country Link
CN (1) CN116884039A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN120031699A (zh) * 2025-04-22 2025-05-23 中国民航大学 一种航班串节点序列确定方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114220124A (zh) * 2021-12-16 2022-03-22 华南农业大学 一种近红外-可见光跨模态双流行人重识别方法及系统
CN115100678A (zh) * 2022-06-10 2022-09-23 河南大学 基于通道重组和注意力机制的跨模态行人重识别方法
CN116052212A (zh) * 2023-01-09 2023-05-02 河南大学 一种基于双重自监督学习的半监督跨模态行人重识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114220124A (zh) * 2021-12-16 2022-03-22 华南农业大学 一种近红外-可见光跨模态双流行人重识别方法及系统
CN115100678A (zh) * 2022-06-10 2022-09-23 河南大学 基于通道重组和注意力机制的跨模态行人重识别方法
CN116052212A (zh) * 2023-01-09 2023-05-02 河南大学 一种基于双重自监督学习的半监督跨模态行人重识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN120031699A (zh) * 2025-04-22 2025-05-23 中国民航大学 一种航班串节点序列确定方法

Similar Documents

Publication Publication Date Title
CN109712105B (zh) 一种结合彩色和深度信息的图像显著目标检测方法
US20200097604A1 (en) Stacked cross-modal matching
CN111325115A (zh) 带有三重约束损失的对抗跨模态行人重识别方法和系统
WO2017166137A1 (zh) 基于多任务深度学习的自然图像美感质量评估方法
CN113569081B (zh) 图像识别方法、装置、设备及存储介质
CN114332911B (zh) 一种头部姿态检测方法、装置及计算机设备
CN111523586A (zh) 一种基于噪声可知的全网络监督目标检测方法
CN116975602A (zh) 一种基于多模态信息双重融合的ar互动情感识别方法和系统
CN118334549A (zh) 多模态协同交互的短视频标签预测方法及系统
CN113554115A (zh) 一种基于不确定学习的三维模型草图检索方法
Sun et al. Automatic building age prediction from street view images
CN119540841A (zh) 一种短视频信息检测方法、装置、设备及存储介质
CN116740384B (zh) 洗地机的智能控制方法及系统
CN116884039A (zh) 一种基于图结构的跨模态行人重识别方法
CN114663401B (zh) 一种小样本知识迁移学习的缺陷预测方法及系统
CN105787045A (zh) 一种用于可视媒体语义索引的精度增强方法
CN119719675B (zh) 一种基于超图注意神经网络的多模态社会关系抽取方法
CN118656791B (zh) 多模态情感检测方法、装置、计算机设备以及存储介质
CN114419529A (zh) 一种基于分布空间对齐的跨模态行人再识别方法及系统
Chandana et al. Convolutional Neural Network Based Age Estimation using Diverse Facial Datasets
CN120236331A (zh) 基于多模态知识图谱推理增强的人体行为识别方法及设备
CN117292297B (zh) 一种基于层次化情感特征编码的视频情感描述方法
CN118470774A (zh) 一种无标签指导的自监督人脸au检测方法、设备及介质
CN118212458A (zh) 面向水下场景的解耦表征域自适应声呐图像分类方法
Xia et al. Self‐training with one‐shot stepwise learning method for person re‐identification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination