[go: up one dir, main page]

CN117576725A - 基于注意力特征融合的rgb-d跨模态行人再识别系统和方法 - Google Patents

基于注意力特征融合的rgb-d跨模态行人再识别系统和方法 Download PDF

Info

Publication number
CN117576725A
CN117576725A CN202311527859.3A CN202311527859A CN117576725A CN 117576725 A CN117576725 A CN 117576725A CN 202311527859 A CN202311527859 A CN 202311527859A CN 117576725 A CN117576725 A CN 117576725A
Authority
CN
China
Prior art keywords
feature
rgb
features
image
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311527859.3A
Other languages
English (en)
Inventor
李小红
王静
齐美彬
吴晶晶
朱传磊
刘一敏
郝世杰
刘学亮
詹曙
庄硕
项厚宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202311527859.3A priority Critical patent/CN117576725A/zh
Publication of CN117576725A publication Critical patent/CN117576725A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于注意力特征融合的RGB‑D跨模态行人再识别系统和方法,其中行人再识别系统包括局部特征提取分支、全局特征提取分支、注意力特征融合模块和识别模块;局部特征提取分支对深度图和RGB图进行特征提取,得到局部特征FB;全局特征提取分支对深度图和RGB图进行全局特征提取,并增强显著性拼接为全局特征FR;注意力特征融合模块对局部特征FB和全局特征FR进行特征融合,得到融合特征FC;识别模块计算输入的待识别深度图像和RGB图像的相似度,根据相似度得到识别结果。该系统通过迭代多尺度通道注意力机制来整合语义和尺度不一致的特征,提高模型对行人身体结构的感知能力,进而提升模型对跨模态行人再识别的准确性。

Description

基于注意力特征融合的RGB-D跨模态行人再识别系统和方法
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于注意力特征融合的RGB-D跨模态行人再识别系统和方法。
背景技术
行人再识别是指从大量记录的图像或视频中找到查询图像或视频中感兴趣的人,其目的在于解决跨摄像机非重叠视域下具体行人检索问题。但是在实际的应用环境中可能无法捕获RGB图像,如夜晚等黑暗条件,传统的同质行人再识别无法适用。为了解决上述问题,目前常采用深度图像来弥补RGB图像的不足。微软Kinect相机所拍摄深度图像(Depthimages,简称D)对光照的变化具有鲁棒性,当光线条件差或无法获取RGB图像时,深度图像可以作补充,它记录场景的深度信息,并弥补纯视觉技术在缺乏纹理、光照不足、过度曝光、计算复杂度高、快速运动等问题上的不足。
RGB-D跨模态行人再识别任务主要研究在给定一个特定个体的图像,尝试在两种模态下的图像库中检索匹配属于同一个体图像的问题。由于RGB图像与深度图像之间存在着巨大的模态差异,因此缩小这两种模态之间的差距在这项任务中是至关重要的。现有的很多跨模态行人再识别研究主要集中在扩大不同模态特征的类间差异,来解决不同模态间匹配困难的问题,但是很少有研究工作能够注意到类内跨模态特征相似度的重要性。此外,大多数的研究工作都只注重了行人身体部分的局部特征学习,而忽略了全局特征的重要性。
为了解决上述问题,目前最新的方法通过将局部和全局自注意力机制引入跨模态网络进行训练来解决传统神经网络只提取局部特征而忽略全局特征的缺陷,并且引入了一种将异质中心损失、交叉熵损失以及三元组损失函数相结合的联合损失函数机制,用来拉近属于同一类别的两个模态中心点之间的距离,从而提高类内跨模态的特征相似度。虽然这种基于局部与全局自注意力机制相结合的RGB-D跨模态行人再识别方法取得了较好的结果,但是由于提取的局部与全局特征是通过简单的求和操作来进行特征融合的,所以不能充分突出局部与全局自注意力机制的优越性,限制了模型性能的提升;此外,该方法中的联合损失函数机制很难提取到鲁棒性较强的局部和全局特征的共性语义部分,这会对模型的性能产生较大的影响。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种基于注意力特征融合的RGB-D跨模态行人再识别系统,该系统基于多尺度通道注意力机制的特征融合方式,通过迭代多尺度通道注意力机制来整合语义和尺度不一致的特征,提高模型对行人身体结构的感知能力,进而提升模型对跨模态行人再识别的准确性。
技术方案:本发明一方面公开了一种基于注意力特征融合的RGB-D跨模态行人再识别系统,包括:局部特征提取分支1、全局特征提取分支2、注意力特征融合模块3和识别模块4;
所述局部特征提取分支1包括深度图浅层特征提取器11、RGB图浅层特征提取器12、第一拼接单元13、深层特征提取器14;所述深度图浅层特征提取器11与RGB图浅层特征提取器12分别用于提取输入的深度图像和RGB图像的浅层特征FD和FV;深度图浅层特征提取器11与RGB图浅层特征提取器12结构相同参数不同,结构为级联的Resnet-50的初始卷积层和Stage 1;第一拼接单元13用于将深度图浅层特征FD与RGB图浅层特征FV拼接为第一拼接特征FU;深层特征提取器14用于对第一拼接特征FU的进行深层特征提取,得到局部特征FB,其结构为级联的Resnet-50的Stage 2,Stage3和Stage 4;
所述全局特征提取分支2包括全局特征提取模块21、残差块单元22和第二拼接单元23;所述全局特征提取模块21用于提取深度图像的全局特征和RGB图像的全局特征;所述残差块单元22用于增强深度图像的全局特征和RGB图像的全局特征的显著性;所述第二拼接单元23用于将增强后的深度图像的全局特征和RGB图像的全局特征拼接为全局特征FR
所述注意力特征融合模块3用于对局部特征FB和全局特征FR进行特征融合,所述注意力特征融合模块3包括第一多尺度通道注意力模块31和第二多尺度通道注意力模块32;局部特征FB和全局特征FR相加得到第一组合特征其中C、H、W分别为第一组合特征X的维度、高度和宽度;第一组合特征X输入第一多尺度通道注意力模块31中,得到第一注意力权值(M(X),1-M(X)),其中M(X)为第一组合特征X中局部特征的注意力权值,1-M(X)为第一组合特征X中全局特征的注意力权值;根据第一注意力权值得到初步融合特征X′:
其中表示对应元素相乘;
初步融合特征X′输入第二多尺度通道注意力模块(32)中,得到第二注意力权值(M(X′),1-M(X′));
根据第二注意力权值得到最终的融合特征FC
所述识别模块4计算输入的待识别深度图像和RGB图像的相似度,根据相似度得到识别结果。
另一方面,本发明还公开了利用上述基于注意力特征融合的RGB-D跨模态行人再识别系统进行行人再识别的方法,包括:
将待搜索行人的图像与候选图像构成图像对,将所述图像对中的图像输入上述RGB-D跨模态行人再识别系统中,根据识别模块的输出获取识别结果。
本发明还公开了一种计算机可读取存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述RGB-D跨模态行人再识别方法。
本发明还公开了一种电子设备,包括处理器及存储介质,所述存储介质为上述计算机可读取存储介质;所述处理器加载并执行所述存储介质中的指令及数据用于实现上述RGB-D跨模态行人再识别方法。
有益效果:与现有技术相比,本发明公开的基于注意力特征融合的RGB-D跨模态行人再识别系统具有如下优点:
1、本发明针对基于局部与全局自注意力机制相结合的RGB-D跨模态行人再识别方法中的特征融合方式不能充分突出自注意力机制优越性的问题,提出了基于多尺度通道注意力机制的特征融合方式,通过迭代多尺度通道注意力机制来整合语义和尺度不一致的特征,提高模型对行人身体结构的感知能力,进而提升模型对跨模态行人再识别的准确性。
2、针对联合损失函数机制很难提取到鲁棒性较强的局部和全局特征共性语义部分的问题,提出了在联合损失函数机制中引入密集三元组损失函数,该损失函数能够使注意力特征融合模块能够更好地定位和提取行人图像中的共性特征,这些特征能够跨越不同的模态和姿态变化,通过突出这些共性特征,模型能够更好地区分行人之间的差异,从而提高模型的识别性能。
附图说明
图1为本发明公开的基于注意力特征融合的RGB-D跨模态行人再识别系统组成示意图;
图2为全局特征提取模块的结构示意图;
图3为第一残差模块的结构和第二残差模块的结构示意图;
图4为注意力特征融合模块的结构示意图;
图5为第一多尺度通道注意力模块的结构示意图。
具体实施方式
本发明公开了一种基于注意力特征融合的RGB-D跨模态行人再识别系统,如图1所示,包括:局部特征提取分支1、全局特征提取分支2、注意力特征融合模块3和识别模块4;
所述局部特征提取分支1包括深度图浅层特征提取器11、RGB图浅层特征提取器12、第一拼接单元13、深层特征提取器14;所述深度图浅层特征提取器11与RGB图浅层特征提取器12分别用于提取输入的深度图像和RGB图像的浅层特征FD和FV;深度图浅层特征提取器11与RGB图浅层特征提取器12结构相同参数不同,结构为级联的Resnet-50的初始卷积层和Stage 1;第一拼接单元13用于将深度图浅层特征FD与RGB图浅层特征FV拼接为第一拼接特征FU;深层特征提取器14用于对第一拼接特征FU的进行深层特征提取,得到局部特征FB,其结构为级联的Resnet-50的Stage 2,Stage3和Stage 4;局部特征FB融合了两种模态图像更深层次的共享特征。
所述全局特征提取分支2包括全局特征提取模块21、残差块单元22和第二拼接单元23;所述全局特征提取模块21用于提取深度图像的全局特征和RGB图像的全局特征。本发明中,全局特征提取模块基于Swin-transformer模块进行特征提取,其结构如图2所示,包括图像块分割层211、线性嵌入层212和Swin-transformer模块213。残差块单元22用于增强深度图像的全局特征和RGB图像的全局特征的显著性;本发明中,残差块单元22由两种不同的残差模块级联组成,具体的顺序为:第一残差模块221、第一残差模块221、第二残差模块222、第一残差模块221、第一残差模块221;其中第一残差模块的结构如图3(a)所示,第二残差模块的结构如图3(b)所示,第一残差模块221对输入依次进行批归一化、ReLU激活函数、1×1卷积处理,并将处理结果与输入相加后作为输出;第二残差模块222对输入依次进行批归一化、ReLU激活函数、1×1卷积、批归一化、ReLU激活函数、3×3卷积、批归一化、ReLU激活函数、1×1卷积处理,并将处理结果与输入相加后作为输出。第二拼接单元23将增强后的深度图像的全局特征和RGB图像的全局特征拼接为全局特征FR
注意力特征融合模块3用于对局部特征FB和全局特征FR进行特征融合,进一步提高特征的表征能力,如图4所示,注意力特征融合模块3包括第一多尺度通道注意力模块31和第二多尺度通道注意力模块32;局部特征FB和全局特征FR相加得到第一组合特征其中C、H、W分别为第一组合特征X的维度、高度和宽度;本发明中,第一多尺度通道注意力模块31和第二多尺度通道注意力模块32结构相同参数不同;如图5所示,结构包括全局特征通道注意力分支311、局部特征通道注意力分支312,分别用于获取第一组合特征X的全局特征通道注意力/>和局部特征通道注意力/>和/>进行广播加法,广播加法的结果经过Sigmoid激活函数得到第一注意力权值(M(X),1-M(X)),其中/> 表示广播加法,σ表示Sigmoid激活函数。
L(X)=B(PWConv2(δ(B(PWConv1(X)))))
g(X)=B(PWConv2(δ(B(PWConv1(G(X))))))
其中,为全局平均池(GAP),通过全局平均池化可以对特征进行压缩处理,将特征图从H×W×C压缩为1×1×C。PWConv1为逐点卷积,它将输入特征X的通道数减少为原来的/>而PWConv2也是逐点卷积,它将特征的通道数恢复成和原先输入X的通道数一致,B表示批处理归一化(BN),δ表示ReLU激活函数;
第一组合特征X输入第一多尺度通道注意力模块31中,得到第一注意力权值(M(X),1-M(X)),其中M(X)为第一组合特征X中局部特征的注意力权值,1-M(X)为第一组合特征X中全局特征的注意力权值;根据第一注意力权值得到初步融合特征X′:
其中表示对应元素相乘;
初步融合特征X′输入第二多尺度通道注意力模块32中,得到第二注意力权值(M(X′),1-M(X′));
根据第二注意力权值得到最终的融合特征FC
第一多尺度通道注意力模块和第二多尺度通道注意力模块中广播加法的使用,可以解决局部特征的通道注意力分支和全局特征的通道注意力分支的输出特征尺寸不一致,保持输出特征X′和原始输入特征X的相同尺寸。
所述识别模块4计算输入的待识别深度图像和RGB图像的相似度,根据相似度得到识别结果。
本发明中采用余弦相似度作为深度图像和RGB图像的相似度,计算如下:
待识别的深度图像和RGB图像分别输入深度图浅层特征提取器(11)和RGB浅层特征提取器(12)中得到深度图浅层特征和RGB图浅层特征/>
和/>分别输入深层特征提取器(14)得到深度图深层特征/>和RGB图深层特征/> 和/>分别经过池化层,得到池化后的深度图特征/>和RGB图特征/>
待识别的深度图像和RGB图像余弦相似度C(D,RGB)为:
其中,||·||2表示L2范式。
上述行人再识别系统中的参数采用如下步骤进行训练:
S11、每个训练批次随机从训练集中选取4个行人的4张RGB图像和4张深度图像,将这些图像统一调整为288×144大小,并采用随机裁剪、随机翻转和随机灰度化的数据增强方法,得到一组输入图像,将这组输入图像按模态类型分别输入局部特征提取分支1和全局特征提取分支2获取局部特征和全局特征;局部特征和全局特征输入注意力特征融合模块3得到融合特征FC
S12、对融合特征FC的通道维度进行划分,分为RGB图像特征部分fRGB(p)和深度图像特征部分fD(q),计算密集三元组损失LDT、三元组损失Ltri、分类损失Lid、异质中心损失LHC
(1)密集三元组损失LDT的计算步骤为:
将步骤S11得到的融合特征FC的通道维度进行划分,分为RGB图像特征部分fRGB(p)和深度图像特征部分fD(q),(p,q)表示融合特征在batch维度中的位置索引;
计算两种不同模态图像特征之间的余弦相似度C(p,q):
计算两个模态特征的匹配概率P(p,q):
其中τ是温度参数;匹配概率P(p,q)即为所求得的匹配可能性,然后对P(p,q)应用softmax操作来建立交叉模态对应关系。但是,这种对应关系很容易受到背景和图像细节(比如纹理和遮挡)等因素的影响。因此需要建立不同背景区域之间的对应关系
其中fD(p)表示batch维度中p位置所对应的融合特征里深度图像特征部分,表示行人掩码图,计算公式如下:
w(fD(p))表示对fD(p)进行软变形操作,w(fRGB(p))表示对fRGB(p)进行软变形操作;它使用匹配概率聚合特征,能够确保行人区域特征通过概率方式聚集深度特征来重建,计算公式如下:
这样的处理有以下两个好处:第一,跨模态对齐有助于减轻模态带来的影响。第二,这种处理能使重心放在共同特征的处理,提高准确性。
传统的三元组损失只专注于学习图像级别的特征表示,而没有注重于区别性的特征学习,特别是当任务图像被遮挡或没有对齐时。为解决此问题,本发明提出共同注意力映射ARGB(p)和AD(p)的概念,以突出全局特征和局部特征中的共同语义,其计算式为:
ARGB(p)=MRGB(p)w(MD(p))
其中MD(p)=f(gD),gD=||fD(p)||2
利用共同注意力映射计算密集三元组损失函数LDT,如下:
AD(p)=MD(p)w(MRGB(p))
其中,β表示密集三元组损失的边界值,fi a(p)表示锚点,和/>表示根据对应关系/>和/>重构的正样本和负样本,/>分别表示锚点与重构的正、负样本之间的距离。
(2)计算三元组损失Ltri
将融合FC经过池化层后得到特征FPL,利用特征FPL计算三元组损失Ltri
Ltri=max(d(a,pos)-d(a,neg)+ε,0)
其中,a是锚点,是取自于其中一个模态的图像特征,pos是取自与a相同模态的正样本特征,neg是取自于另一个模态的负样本特征,d(a,pos)和d(a,neg)分别表示锚点与正、负样本之间的距离,ε是三元组损失函数的边界值。
(3)计算分类损失Lid
将特征FPL经过批量归一化(BN)层后得到特征FBL,然后将特征FBL输入到Softmax层中得到身份概率分布,利用预测的身份概率分布与样本的真实身份标签计算分类损失Lid
其中,yi是样本的真实标签,y′i是样本的预测结果,T为总的类别数。
(4)计算异质中心损失LHC
将融合后的特征FC在第二个维度,即通道维度上进行划分,得到RGB图像特征和深度图像特征两个部分,利用这两个部分的特征计算异质中心损失LHC
其中,为第i类中RGB模态和深度模态的特征分布中心,T是总的类别数,M和N是第i类中RGB图像和深度图像的数量,xi,1,j表示第i类中的第j个RGB图像特征,xi,2,j表示第i类中的第j个深度图像特征。
S13、进行迭代训练,迭代训练的目标为最小化总损失函数Ltotal,当总损失在训练集上收敛时,停止训练,得到最优的模型。
Ltotal=Ltri+Lid+λLHC+γLDT
其中,λ为异质中心损失LHC的系数,γ为密集三元组损失LDT的系数。
本发明还公开了采用上述基于注意力特征融合的RGB-D跨模态行人再识别系统进行行人再识别的方法,包括:
将待搜索行人的图像与候选图像构成图像对,将所述图像对中的图像输入上述RGB-D跨模态行人再识别系统中,根据识别模块的输出获取识别结果。
本发明在RobotPKU和BIWI数据集上进行了对比实验。对于跨模态行人再识别任务,有两种测试方案,即D-RGB和RGB-D。在D-RGB测试模式下,待搜索行人(query)以深度图像模态给出,而候选图像构成的图库(gallery)由RGB模态的图像组成。而RGB-D测试模式刚好相反,待搜索行人以RGB模态给出,候选图像构成的图库由深度图像组成。本发明在RobotPKU和BIWI这两个数据集上的对比实验结果如表1和表2:
表1在RobotPKU数据集上RGB-D和D-RGB测试模式下的性能对比
表2在BIWI数据集上RGB-D和D-RGB测试模式下的性能对比
表1和表2中,LGSIN为文献Chuanlei Zhu,Xiaohong Li,et al.A Local-GlobalSelf-attention Interaction Network for RGB-D Cross-Modal Person Re-identification[C]//Pattern Recognition and Computer Vision:5th ChineseConference,PRCV 2022中公开的方法;LOMO+Euclidean、LOMO+XQDA为文献Liao S,Hu Y,Zhu X,et al.Person re-identification by local maximal occurrencerepresentation and metric learning[C]//Proceedings of the IEEE conference oncomputer vision and pattern recognition.2015:2197-2206中公开的方法;WHOS+Euclidean、WHOS+XQDA为文献Lisanti G,Masi I,Bagdanov A D,et al.Person re-identification by iterative re-weighted sparse ranking[J].IEEE transactionson pattern analysis and machine intelligence,2014,37(8):1629-1642.中公开的方法;跨模态蒸馏网络为文献Hafner F M,Bhuiyan A,Kooij J F P,et al.RGB-depthcross-modal person reidentification[C]//2019 16th IEEE InternationalConference on Advanced Video and Signal Based Surveillance(AVSS).IEEE,2019:1-8.中公开的方法;HRN为文献Wu J,Jiang J,Qi M,et al.An end-to-end heterogeneousrestraint network for RGB-D crossmodal person re-identification[J].ACMTransactions on Multimedia Computing,Communications,and Applications(TOMM),2022,18(4):1-22.中公开的方法;Corr.Dict.和LSSCDL为文献Zhuo J,Zhu J,Lai J,etal.Person re-identification on heterogeneous camera network[C]//ComputerVision:Second CCF Chinese Conference,CCCV 2017,Tianjin,China,October 11–14,2017,Proceedings,Part III.Springer Singapore,2017:280-291.公开的方法;ICMDL为文献Zhang P,Xu J,Wu Q,et al.Top-push constrained modality-adaptive dictionarylearning for cross-modality person re-identification[J].IEEE Transactions onCircuits and Systems for Video Technology,2019,30(12):4554-4566.公开的方法。
本发明还公开了一种计算机可读取存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述RGB-D跨模态行人再识别方法。
本发明还公开了一种电子设备,包括处理器及存储介质,所述存储介质为上述计算机可读取存储介质;所述处理器加载并执行所述存储介质中的指令及数据用于实现上述RGB-D跨模态行人再识别方法。
本发明提供了一种的思路及方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (10)

1.基于注意力特征融合的RGB-D跨模态行人再识别系统,其特征在于,包括:局部特征提取分支(1)、全局特征提取分支(2)、注意力特征融合模块(3)和识别模块(4);
所述局部特征提取分支(1)包括深度图浅层特征提取器(11)、RGB图浅层特征提取器(12)、第一拼接单元(13)、深层特征提取器(14);所述深度图浅层特征提取器(11)与RGB图浅层特征提取器(12)分别用于提取输入的深度图像和RGB图像的浅层特征FD和FV;深度图浅层特征提取器(11)与RGB图浅层特征提取器(12)结构相同参数不同,结构为级联的Resnet-50的初始卷积层和Stage 1;第一拼接单元(13)用于将深度图浅层特征FD与RGB图浅层特征FV拼接为第一拼接特征FU;深层特征提取器(14)用于对第一拼接特征FU的进行深层特征提取,得到局部特征FB,其结构为级联的Resnet-50的Stage 2,Stage 3和Stage 4;
所述全局特征提取分支(2)包括全局特征提取模块(21)、残差块单元(22)和第二拼接单元(23);所述全局特征提取模块(21)用于提取深度图像的全局特征和RGB图像的全局特征;所述残差块单元(22)用于增强深度图像的全局特征和RGB图像的全局特征的显著性;所述第二拼接单元(23)用于将增强后的深度图像的全局特征和RGB图像的全局特征拼接为全局特征FR
所述注意力特征融合模块(3)用于对局部特征FB和全局特征FR进行特征融合,所述注意力特征融合模块(3)包括第一多尺度通道注意力模块(31)和第二多尺度通道注意力模块(32);局部特征FB和全局特征FR相加得到第一组合特征其中C、H、W分别为第一组合特征X的维度、高度和宽度;第一组合特征X输入第一多尺度通道注意力模块(31)中,得到第一注意力权值(M(X),1-M(X)),其中M(X)为第一组合特征X中局部特征的注意力权值,1-M(X)为第一组合特征X中全局特征的注意力权值;根据第一注意力权值得到初步融合特征X
其中表示对应元素相乘;
初步融合特征X输入第二多尺度通道注意力模块(32)中,得到第二注意力权值(M(X),1-M(X));
根据第二注意力权值得到最终的融合特征FC
所述识别模块(4)计算输入的待识别深度图像和RGB图像的相似度,根据相似度得到识别结果。
2.根据权利要求1所述的RGB-D跨模态行人再识别系统,其特征在于,所述全局特征提取模块(21)包括图像块分割层(211)、线性嵌入层(212)和Swin-transformer模块(213)。
3.根据权利要求1所述的RGB-D跨模态行人再识别系统,其特征在于,所述残差块单元(22)由多个第一残差模块(221)和第二残差模块(222)级联组成,级联的顺序为:第一残差模块(221)、第一残差模块(221)、第二残差模块(222)、第一残差模块(221)、第一残差模块(221);
所述第一残差模块(221)对输入依次进行批归一化、激活函数、1×1卷积处理,并将处理结果与输入相加后作为输出;
所述第二残差模块(222)对输入依次进行批归一化、激活函数、1×1卷积、批归一化、激活函数、3×3卷积、批归一化、激活函数、1×1卷积处理,并将处理结果与输入相加后作为输出。
4.根据权利要求1所述的RGB-D跨模态行人再识别系统,其特征在于,所述第一多尺度通道注意力模块(31)和第二多尺度通道注意力模块(32)结构相同参数不同;所述第一多尺度通道注意力模块(31)包括全局特征通道注意力分支(311)、局部特征通道注意力分支(312),分别用于获取第一组合特征X的全局特征通道注意力 和局部特征通道注意力/>对/>和/>进行广播加法,广播加法的结果经过Sigmoid激活函数得到第一注意力权值(M(X),1-M(X)),其中 表示广播加法,σ表示Sigmoid激活函数。
5.根据权利要求1所述的RGB-D跨模态行人再识别系统,其特征在于,所述识别模块(4)采用余弦相似度作为深度图像和RGB图像的相似度,计算如下:
待识别的深度图像和RGB图像分别输入深度图浅层特征提取器(11)和RGB浅层特征提取器(12)中得到深度图浅层特征和RGB图浅层特征/>
和/>分别输入深层特征提取器(14)得到深度图深层特征/>和RGB图深层特征 和/>分别经过池化层,得到池化后的深度图特征/>和RGB图特征/>待识别的深度图像和RGB图像余弦相似度C(D,RGB)为:
其中,||·||2表示L2范式。
6.根据权利要求1所述的RGB-D跨模态行人再识别系统,其特征在于,所述行人再识别系统中参数的训练包括步骤:
S11、每个训练批次随机从训练集中选取4个行人的4张RGB图像和4张深度图像,将这些图像统一调整为288×144大小,并采用随机裁剪、随机翻转和随机灰度化的数据增强方法,得到一组输入图像,将这组输入图像按模态类型分别输入局部特征提取分支(1)和全局特征提取分支(2)获取局部特征和全局特征;局部特征和全局特征输入注意力特征融合模块(3)得到融合特征FC
S12、对融合特征FC的通道维度进行划分,分为RGB图像特征部分fRGB(p)和深度图像特征部分fD(q),计算密集三元组损失LDT、三元组损失Ltri、分类损失Lid、异质中心损失LHC
S13、进行迭代训练,迭代训练的目标为最小化总损失函数Ltotal
Ltotal=Ltri+Lid+λLHC+γLDT
其中,λ为异质中心损失LHC的系数,γ为密集三元组损失LDT的系数。
7.根据权利要求6所述的RGB-D跨模态行人再识别系统,其特征在于,所述密集三元组损失LDT的计算为:
将步骤S11得到的融合特征FC的通道维度进行划分,分为RGB图像特征部分fRGB(p)和深度图像特征部分fD(q),(p,q)表示融合特征在batch维度中的位置索引;
计算两种不同模态图像特征之间的余弦相似度C(p,q);
计算两个模态特征的匹配概率P(p,q):
其中τ是温度参数;
建立不同背景区域之间的对应关系和/>
其中fD(p)表示batch维度中p位置所对应的融合特征里深度图像特征部分,表示行人掩码图,计算公式如下:
MRGB=f(gRGB),gRGB=||fRGB(p)||2
w(fD(p))表示对fD(p)进行软变形操作,计算公式如下:
w(fRGB(p))表示对fRGB(p)进行软变形操作;
计算共同注意力映射ARGB(p)和AD(p):
ARGB(p)=MRGB(p)w(MD(p))
其中MD(p)=f(gD),gD=||fD(p)||2
密集三元组损失函数LDT计算公式如下:
AD(p)=MD(p)w(MRGB(p))
其中,β表示密集三元组损失的边界值,fi a(p)表示锚点,和/>表示根据对应关系/>和/>重构的正样本和负样本,/>分别表示锚点与重构的正、负样本之间的距离。
8.基于注意力特征融合的RGB-D跨模态行人再识别方法,其特征在于,包括:
将待搜索行人的图像与候选图像构成图像对,将所述图像对中的图像输入如权利要求1-7中任一项所述的RGB-D跨模态行人再识别系统中,根据识别模块的输出获取识别结果。
9.一种计算机可读取存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行权利要求8所述的RGB-D跨模态行人再识别方法。
10.一种电子设备,其特征在于,包括处理器及存储介质,所述存储介质为权利要求9所述的计算机可读取存储介质;所述处理器加载并执行所述存储介质中的指令及数据用于实现权利要求8所述的RGB-D跨模态行人再识别方法。
CN202311527859.3A 2023-11-16 2023-11-16 基于注意力特征融合的rgb-d跨模态行人再识别系统和方法 Pending CN117576725A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311527859.3A CN117576725A (zh) 2023-11-16 2023-11-16 基于注意力特征融合的rgb-d跨模态行人再识别系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311527859.3A CN117576725A (zh) 2023-11-16 2023-11-16 基于注意力特征融合的rgb-d跨模态行人再识别系统和方法

Publications (1)

Publication Number Publication Date
CN117576725A true CN117576725A (zh) 2024-02-20

Family

ID=89891115

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311527859.3A Pending CN117576725A (zh) 2023-11-16 2023-11-16 基于注意力特征融合的rgb-d跨模态行人再识别系统和方法

Country Status (1)

Country Link
CN (1) CN117576725A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118429389A (zh) * 2024-07-02 2024-08-02 南昌工程学院 基于多尺度聚合注意力特征提取网络的目标跟踪方法与系统
CN118505790A (zh) * 2024-04-11 2024-08-16 中国科学院自动化研究所 机器人位置识别方法、装置、电子设备及存储介质
CN119741570A (zh) * 2024-11-26 2025-04-01 四川大学 一种基于多维度融合的多光谱目标类型识别方法
CN120374650A (zh) * 2025-06-24 2025-07-25 云南瀚哲科技有限公司 一种基于rgb-d跨模态融合的植物叶片病斑分割方法和系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118505790A (zh) * 2024-04-11 2024-08-16 中国科学院自动化研究所 机器人位置识别方法、装置、电子设备及存储介质
CN118429389A (zh) * 2024-07-02 2024-08-02 南昌工程学院 基于多尺度聚合注意力特征提取网络的目标跟踪方法与系统
CN119741570A (zh) * 2024-11-26 2025-04-01 四川大学 一种基于多维度融合的多光谱目标类型识别方法
CN119741570B (zh) * 2024-11-26 2025-11-11 四川大学 一种基于多维度融合的多光谱目标类型识别方法
CN120374650A (zh) * 2025-06-24 2025-07-25 云南瀚哲科技有限公司 一种基于rgb-d跨模态融合的植物叶片病斑分割方法和系统

Similar Documents

Publication Publication Date Title
CN111259786B (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
CN109961051B (zh) 一种基于聚类和分块特征提取的行人重识别方法
CN117576725A (zh) 基于注意力特征融合的rgb-d跨模态行人再识别系统和方法
US8200648B2 (en) Data similarity and importance using local and global evidence scores
CN110717411A (zh) 一种基于深层特征融合的行人重识别方法
Zhang et al. Coarse-to-fine object detection in unmanned aerial vehicle imagery using lightweight convolutional neural network and deep motion saliency
CN111709313B (zh) 基于局部和通道组合特征的行人重识别方法
Qazanfari et al. Content-based image retrieval using HSV color space features
Nanni et al. Combining face and eye detectors in a high-performance face-detection system
Song et al. Discriminative feature extraction for video person re-identification via multi-task network
CN118522039A (zh) 一种基于YOLOv5s和阶段式正则联合行人重识别的帧提取行人检索方法
CN114627506B (zh) 基于姿态估计和非局部网络的行人重识别方法
Bhuiyan et al. STCA: Utilizing a spatio-temporal cross-attention network for enhancing video person re-identification
Krishna et al. Hybrid method for moving object exploration in video surveillance
Shao et al. Context feature fusion and enhanced non-maximum suppression for pedestrian detection in crowded scenes
Singh et al. An analysis based on local binary pattern (LBP) and color moment (CM) for efficient image retrieval
Ghatak et al. Video indexing through human face images using LGFA and window technique
CN112699846B (zh) 一种具有身份一致性校验的特定人物与特定行为联合检索方法及装置
CN114694170A (zh) 一种多尺度批量特征丢弃网络的行人重识别方法
Hu et al. mmFilter: Language-guided video analytics at the edge
Wang et al. Image matching via the local neighborhood for low inlier ratio
Anh et al. Video retrieval using histogram and sift combined with graph-based image segmentation
Chandrakala et al. Image classification based on color and texture features using frbfn network with artificial bee colony optimization algorithm
Saad et al. Image retrieval based on integration between color and geometric moment features
Ko et al. View-invariant, partially occluded human detection in still images using part bases and random forest

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination