CN117576725A

CN117576725A - 基于注意力特征融合的rgb-d跨模态行人再识别系统和方法

Info

Publication number: CN117576725A
Application number: CN202311527859.3A
Authority: CN
Inventors: 李小红; 王静; 齐美彬; 吴晶晶; 朱传磊; 刘一敏; 郝世杰; 刘学亮; 詹曙; 庄硕; 项厚宏
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2023-11-16
Filing date: 2023-11-16
Publication date: 2024-02-20

Abstract

本发明公开了一种基于注意力特征融合的RGB‑D跨模态行人再识别系统和方法，其中行人再识别系统包括局部特征提取分支、全局特征提取分支、注意力特征融合模块和识别模块；局部特征提取分支对深度图和RGB图进行特征提取，得到局部特征F_B；全局特征提取分支对深度图和RGB图进行全局特征提取，并增强显著性拼接为全局特征F_R；注意力特征融合模块对局部特征F_B和全局特征F_R进行特征融合，得到融合特征F_C；识别模块计算输入的待识别深度图像和RGB图像的相似度，根据相似度得到识别结果。该系统通过迭代多尺度通道注意力机制来整合语义和尺度不一致的特征，提高模型对行人身体结构的感知能力，进而提升模型对跨模态行人再识别的准确性。

Description

基于注意力特征融合的RGB-D跨模态行人再识别系统和方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于注意力特征融合的RGB-D跨模态行人再识别系统和方法。

背景技术

行人再识别是指从大量记录的图像或视频中找到查询图像或视频中感兴趣的人，其目的在于解决跨摄像机非重叠视域下具体行人检索问题。但是在实际的应用环境中可能无法捕获RGB图像，如夜晚等黑暗条件，传统的同质行人再识别无法适用。为了解决上述问题，目前常采用深度图像来弥补RGB图像的不足。微软Kinect相机所拍摄深度图像(Depthimages，简称D)对光照的变化具有鲁棒性，当光线条件差或无法获取RGB图像时，深度图像可以作补充，它记录场景的深度信息，并弥补纯视觉技术在缺乏纹理、光照不足、过度曝光、计算复杂度高、快速运动等问题上的不足。

RGB-D跨模态行人再识别任务主要研究在给定一个特定个体的图像，尝试在两种模态下的图像库中检索匹配属于同一个体图像的问题。由于RGB图像与深度图像之间存在着巨大的模态差异，因此缩小这两种模态之间的差距在这项任务中是至关重要的。现有的很多跨模态行人再识别研究主要集中在扩大不同模态特征的类间差异，来解决不同模态间匹配困难的问题，但是很少有研究工作能够注意到类内跨模态特征相似度的重要性。此外，大多数的研究工作都只注重了行人身体部分的局部特征学习，而忽略了全局特征的重要性。

为了解决上述问题，目前最新的方法通过将局部和全局自注意力机制引入跨模态网络进行训练来解决传统神经网络只提取局部特征而忽略全局特征的缺陷，并且引入了一种将异质中心损失、交叉熵损失以及三元组损失函数相结合的联合损失函数机制，用来拉近属于同一类别的两个模态中心点之间的距离，从而提高类内跨模态的特征相似度。虽然这种基于局部与全局自注意力机制相结合的RGB-D跨模态行人再识别方法取得了较好的结果，但是由于提取的局部与全局特征是通过简单的求和操作来进行特征融合的，所以不能充分突出局部与全局自注意力机制的优越性，限制了模型性能的提升；此外，该方法中的联合损失函数机制很难提取到鲁棒性较强的局部和全局特征的共性语义部分，这会对模型的性能产生较大的影响。

发明内容

发明目的：本发明所要解决的技术问题是针对现有技术的不足，提供一种基于注意力特征融合的RGB-D跨模态行人再识别系统，该系统基于多尺度通道注意力机制的特征融合方式，通过迭代多尺度通道注意力机制来整合语义和尺度不一致的特征，提高模型对行人身体结构的感知能力，进而提升模型对跨模态行人再识别的准确性。

技术方案：本发明一方面公开了一种基于注意力特征融合的RGB-D跨模态行人再识别系统，包括：局部特征提取分支1、全局特征提取分支2、注意力特征融合模块3和识别模块4；

所述局部特征提取分支1包括深度图浅层特征提取器11、RGB图浅层特征提取器12、第一拼接单元13、深层特征提取器14；所述深度图浅层特征提取器11与RGB图浅层特征提取器12分别用于提取输入的深度图像和RGB图像的浅层特征F_D和F_V；深度图浅层特征提取器11与RGB图浅层特征提取器12结构相同参数不同，结构为级联的Resnet-50的初始卷积层和Stage 1；第一拼接单元13用于将深度图浅层特征F_D与RGB图浅层特征F_V拼接为第一拼接特征F_U；深层特征提取器14用于对第一拼接特征F_U的进行深层特征提取，得到局部特征F_B，其结构为级联的Resnet-50的Stage 2，Stage3和Stage 4；

所述全局特征提取分支2包括全局特征提取模块21、残差块单元22和第二拼接单元23；所述全局特征提取模块21用于提取深度图像的全局特征和RGB图像的全局特征；所述残差块单元22用于增强深度图像的全局特征和RGB图像的全局特征的显著性；所述第二拼接单元23用于将增强后的深度图像的全局特征和RGB图像的全局特征拼接为全局特征F_R；

所述注意力特征融合模块3用于对局部特征F_B和全局特征F_R进行特征融合，所述注意力特征融合模块3包括第一多尺度通道注意力模块31和第二多尺度通道注意力模块32；局部特征F_B和全局特征F_R相加得到第一组合特征其中C、H、W分别为第一组合特征X的维度、高度和宽度；第一组合特征X输入第一多尺度通道注意力模块31中，得到第一注意力权值(M(X)，1-M(X))，其中M(X)为第一组合特征X中局部特征的注意力权值，1-M(X)为第一组合特征X中全局特征的注意力权值；根据第一注意力权值得到初步融合特征X′：

其中表示对应元素相乘；

初步融合特征X′输入第二多尺度通道注意力模块(32)中，得到第二注意力权值(M(X′)，1-M(X′))；

根据第二注意力权值得到最终的融合特征F_C：

所述识别模块4计算输入的待识别深度图像和RGB图像的相似度，根据相似度得到识别结果。

另一方面，本发明还公开了利用上述基于注意力特征融合的RGB-D跨模态行人再识别系统进行行人再识别的方法，包括：

将待搜索行人的图像与候选图像构成图像对，将所述图像对中的图像输入上述RGB-D跨模态行人再识别系统中，根据识别模块的输出获取识别结果。

本发明还公开了一种计算机可读取存储介质，其上存储有计算机指令，所述计算机指令运行时执行上述RGB-D跨模态行人再识别方法。

本发明还公开了一种电子设备，包括处理器及存储介质，所述存储介质为上述计算机可读取存储介质；所述处理器加载并执行所述存储介质中的指令及数据用于实现上述RGB-D跨模态行人再识别方法。

有益效果：与现有技术相比，本发明公开的基于注意力特征融合的RGB-D跨模态行人再识别系统具有如下优点：

1、本发明针对基于局部与全局自注意力机制相结合的RGB-D跨模态行人再识别方法中的特征融合方式不能充分突出自注意力机制优越性的问题，提出了基于多尺度通道注意力机制的特征融合方式，通过迭代多尺度通道注意力机制来整合语义和尺度不一致的特征，提高模型对行人身体结构的感知能力，进而提升模型对跨模态行人再识别的准确性。

2、针对联合损失函数机制很难提取到鲁棒性较强的局部和全局特征共性语义部分的问题，提出了在联合损失函数机制中引入密集三元组损失函数，该损失函数能够使注意力特征融合模块能够更好地定位和提取行人图像中的共性特征，这些特征能够跨越不同的模态和姿态变化，通过突出这些共性特征，模型能够更好地区分行人之间的差异，从而提高模型的识别性能。

附图说明

图1为本发明公开的基于注意力特征融合的RGB-D跨模态行人再识别系统组成示意图；

图2为全局特征提取模块的结构示意图；

图3为第一残差模块的结构和第二残差模块的结构示意图；

图4为注意力特征融合模块的结构示意图；

图5为第一多尺度通道注意力模块的结构示意图。

具体实施方式

本发明公开了一种基于注意力特征融合的RGB-D跨模态行人再识别系统，如图1所示，包括：局部特征提取分支1、全局特征提取分支2、注意力特征融合模块3和识别模块4；

所述局部特征提取分支1包括深度图浅层特征提取器11、RGB图浅层特征提取器12、第一拼接单元13、深层特征提取器14；所述深度图浅层特征提取器11与RGB图浅层特征提取器12分别用于提取输入的深度图像和RGB图像的浅层特征F_D和F_V；深度图浅层特征提取器11与RGB图浅层特征提取器12结构相同参数不同，结构为级联的Resnet-50的初始卷积层和Stage 1；第一拼接单元13用于将深度图浅层特征F_D与RGB图浅层特征F_V拼接为第一拼接特征F_U；深层特征提取器14用于对第一拼接特征F_U的进行深层特征提取，得到局部特征F_B，其结构为级联的Resnet-50的Stage 2，Stage3和Stage 4；局部特征F_B融合了两种模态图像更深层次的共享特征。

所述全局特征提取分支2包括全局特征提取模块21、残差块单元22和第二拼接单元23；所述全局特征提取模块21用于提取深度图像的全局特征和RGB图像的全局特征。本发明中，全局特征提取模块基于Swin-transformer模块进行特征提取，其结构如图2所示，包括图像块分割层211、线性嵌入层212和Swin-transformer模块213。残差块单元22用于增强深度图像的全局特征和RGB图像的全局特征的显著性；本发明中，残差块单元22由两种不同的残差模块级联组成，具体的顺序为：第一残差模块221、第一残差模块221、第二残差模块222、第一残差模块221、第一残差模块221；其中第一残差模块的结构如图3(a)所示，第二残差模块的结构如图3(b)所示，第一残差模块221对输入依次进行批归一化、ReLU激活函数、1×1卷积处理，并将处理结果与输入相加后作为输出；第二残差模块222对输入依次进行批归一化、ReLU激活函数、1×1卷积、批归一化、ReLU激活函数、3×3卷积、批归一化、ReLU激活函数、1×1卷积处理，并将处理结果与输入相加后作为输出。第二拼接单元23将增强后的深度图像的全局特征和RGB图像的全局特征拼接为全局特征F_R；

注意力特征融合模块3用于对局部特征F_B和全局特征F_R进行特征融合，进一步提高特征的表征能力，如图4所示，注意力特征融合模块3包括第一多尺度通道注意力模块31和第二多尺度通道注意力模块32；局部特征F_B和全局特征F_R相加得到第一组合特征其中C、H、W分别为第一组合特征X的维度、高度和宽度；本发明中，第一多尺度通道注意力模块31和第二多尺度通道注意力模块32结构相同参数不同；如图5所示，结构包括全局特征通道注意力分支311、局部特征通道注意力分支312，分别用于获取第一组合特征X的全局特征通道注意力/>和局部特征通道注意力/>对和/>进行广播加法，广播加法的结果经过Sigmoid激活函数得到第一注意力权值(M(X)，1-M(X))，其中/> 表示广播加法，σ表示Sigmoid激活函数。

L(X)＝B(PWConv2(δ(B(PWConv1(X)))))

g(X)＝B(PWConv2(δ(B(PWConv1(G(X))))))

其中，为全局平均池(GAP)，通过全局平均池化可以对特征进行压缩处理，将特征图从H×W×C压缩为1×1×C。PWConv1为逐点卷积，它将输入特征X的通道数减少为原来的/>而PWConv2也是逐点卷积，它将特征的通道数恢复成和原先输入X的通道数一致，B表示批处理归一化(BN)，δ表示ReLU激活函数；

第一组合特征X输入第一多尺度通道注意力模块31中，得到第一注意力权值(M(X)，1-M(X))，其中M(X)为第一组合特征X中局部特征的注意力权值，1-M(X)为第一组合特征X中全局特征的注意力权值；根据第一注意力权值得到初步融合特征X′：

其中表示对应元素相乘；

初步融合特征X′输入第二多尺度通道注意力模块32中，得到第二注意力权值(M(X′)，1-M(X′))；

根据第二注意力权值得到最终的融合特征F_C：

第一多尺度通道注意力模块和第二多尺度通道注意力模块中广播加法的使用，可以解决局部特征的通道注意力分支和全局特征的通道注意力分支的输出特征尺寸不一致，保持输出特征X′和原始输入特征X的相同尺寸。

本发明中采用余弦相似度作为深度图像和RGB图像的相似度，计算如下：

待识别的深度图像和RGB图像分别输入深度图浅层特征提取器(11)和RGB浅层特征提取器(12)中得到深度图浅层特征和RGB图浅层特征/>

和/>分别输入深层特征提取器(14)得到深度图深层特征/>和RGB图深层特征/> 和/>分别经过池化层，得到池化后的深度图特征/>和RGB图特征/>

待识别的深度图像和RGB图像余弦相似度C(D,RGB)为：

其中，||·||₂表示L2范式。

上述行人再识别系统中的参数采用如下步骤进行训练：

S11、每个训练批次随机从训练集中选取4个行人的4张RGB图像和4张深度图像，将这些图像统一调整为288×144大小，并采用随机裁剪、随机翻转和随机灰度化的数据增强方法，得到一组输入图像，将这组输入图像按模态类型分别输入局部特征提取分支1和全局特征提取分支2获取局部特征和全局特征；局部特征和全局特征输入注意力特征融合模块3得到融合特征F_C；

S12、对融合特征F_C的通道维度进行划分，分为RGB图像特征部分f_RGB(p)和深度图像特征部分f_D(q)，计算密集三元组损失L_DT、三元组损失L_tri、分类损失L_id、异质中心损失L_HC；

(1)密集三元组损失L_DT的计算步骤为：

将步骤S11得到的融合特征F_C的通道维度进行划分，分为RGB图像特征部分f_RGB(p)和深度图像特征部分f_D(q)，(p,q)表示融合特征在batch维度中的位置索引；

计算两种不同模态图像特征之间的余弦相似度C(p,q)：

计算两个模态特征的匹配概率P(p,q)：

其中τ是温度参数；匹配概率P(p,q)即为所求得的匹配可能性，然后对P(p,q)应用softmax操作来建立交叉模态对应关系。但是，这种对应关系很容易受到背景和图像细节(比如纹理和遮挡)等因素的影响。因此需要建立不同背景区域之间的对应关系和

其中f_D(p)表示batch维度中p位置所对应的融合特征里深度图像特征部分，表示行人掩码图，计算公式如下：

w(f_D(p))表示对f_D(p)进行软变形操作，w(f_RGB(p))表示对f_RGB(p)进行软变形操作；它使用匹配概率聚合特征，能够确保行人区域特征通过概率方式聚集深度特征来重建，计算公式如下：

这样的处理有以下两个好处：第一，跨模态对齐有助于减轻模态带来的影响。第二，这种处理能使重心放在共同特征的处理，提高准确性。

传统的三元组损失只专注于学习图像级别的特征表示，而没有注重于区别性的特征学习，特别是当任务图像被遮挡或没有对齐时。为解决此问题，本发明提出共同注意力映射A_RGB(p)和A_D(p)的概念，以突出全局特征和局部特征中的共同语义，其计算式为：

A_RGB(p)＝M_RGB(p)w(M_D(p))

其中M_D(p)＝f(g_D),g_D＝||f_D(p)||₂；

利用共同注意力映射计算密集三元组损失函数L_DT，如下：

A_D(p)＝M_D(p)w(M_RGB(p))

其中，β表示密集三元组损失的边界值，f_i ^a(p)表示锚点，和/>表示根据对应关系/>和/>重构的正样本和负样本，/>分别表示锚点与重构的正、负样本之间的距离。

(2)计算三元组损失L_tri：

将融合F_C经过池化层后得到特征FP_L，利用特征FP_L计算三元组损失L_tri：

L_tri＝max(d(a,pos)-d(a,neg)+ε,0)

其中，a是锚点，是取自于其中一个模态的图像特征，pos是取自与a相同模态的正样本特征，neg是取自于另一个模态的负样本特征，d(a,pos)和d(a,neg)分别表示锚点与正、负样本之间的距离，ε是三元组损失函数的边界值。

(3)计算分类损失L_id：

将特征FP_L经过批量归一化(BN)层后得到特征FB_L，然后将特征FB_L输入到Softmax层中得到身份概率分布，利用预测的身份概率分布与样本的真实身份标签计算分类损失L_id：

其中，y_i是样本的真实标签，y′_i是样本的预测结果，T为总的类别数。

(4)计算异质中心损失L_HC：

将融合后的特征F_C在第二个维度，即通道维度上进行划分，得到RGB图像特征和深度图像特征两个部分，利用这两个部分的特征计算异质中心损失L_HC：

其中，为第i类中RGB模态和深度模态的特征分布中心，T是总的类别数，M和N是第i类中RGB图像和深度图像的数量，x_i,1,j表示第i类中的第j个RGB图像特征，x_i,2,j表示第i类中的第j个深度图像特征。

S13、进行迭代训练，迭代训练的目标为最小化总损失函数L_total，当总损失在训练集上收敛时，停止训练，得到最优的模型。

L_total＝L_tri+L_id+λL_HC+γL_DT

其中，λ为异质中心损失L_HC的系数，γ为密集三元组损失L_DT的系数。

本发明还公开了采用上述基于注意力特征融合的RGB-D跨模态行人再识别系统进行行人再识别的方法，包括：

本发明在RobotPKU和BIWI数据集上进行了对比实验。对于跨模态行人再识别任务，有两种测试方案，即D-RGB和RGB-D。在D-RGB测试模式下，待搜索行人(query)以深度图像模态给出，而候选图像构成的图库(gallery)由RGB模态的图像组成。而RGB-D测试模式刚好相反，待搜索行人以RGB模态给出，候选图像构成的图库由深度图像组成。本发明在RobotPKU和BIWI这两个数据集上的对比实验结果如表1和表2：

表1在RobotPKU数据集上RGB-D和D-RGB测试模式下的性能对比

表2在BIWI数据集上RGB-D和D-RGB测试模式下的性能对比

表1和表2中，LGSIN为文献Chuanlei Zhu,Xiaohong Li,et al.A Local-GlobalSelf-attention Interaction Network for RGB-D Cross-Modal Person Re-identification[C]//Pattern Recognition and Computer Vision:5th ChineseConference,PRCV 2022中公开的方法；LOMO+Euclidean、LOMO+XQDA为文献Liao S,Hu Y,Zhu X,et al.Person re-identification by local maximal occurrencerepresentation and metric learning[C]//Proceedings of the IEEE conference oncomputer vision and pattern recognition.2015:2197-2206中公开的方法；WHOS+Euclidean、WHOS+XQDA为文献Lisanti G,Masi I,Bagdanov A D,et al.Person re-identification by iterative re-weighted sparse ranking[J].IEEE transactionson pattern analysis and machine intelligence,2014,37(8):1629-1642.中公开的方法；跨模态蒸馏网络为文献Hafner F M,Bhuiyan A,Kooij J F P,et al.RGB-depthcross-modal person reidentification[C]//2019 16th IEEE InternationalConference on Advanced Video and Signal Based Surveillance(AVSS).IEEE,2019:1-8.中公开的方法；HRN为文献Wu J,Jiang J,Qi M,et al.An end-to-end heterogeneousrestraint network for RGB-D crossmodal person re-identification[J].ACMTransactions on Multimedia Computing,Communications,and Applications(TOMM),2022,18(4):1-22.中公开的方法；Corr.Dict.和LSSCDL为文献Zhuo J,Zhu J,Lai J,etal.Person re-identification on heterogeneous camera network[C]//ComputerVision:Second CCF Chinese Conference,CCCV 2017,Tianjin,China,October 11–14,2017,Proceedings,Part III.Springer Singapore,2017:280-291.公开的方法；ICMDL为文献Zhang P,Xu J,Wu Q,et al.Top-push constrained modality-adaptive dictionarylearning for cross-modality person re-identification[J].IEEE Transactions onCircuits and Systems for Video Technology,2019,30(12):4554-4566.公开的方法。

本发明提供了一种的思路及方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.基于注意力特征融合的RGB-D跨模态行人再识别系统，其特征在于，包括：局部特征提取分支(1)、全局特征提取分支(2)、注意力特征融合模块(3)和识别模块(4)；

所述局部特征提取分支(1)包括深度图浅层特征提取器(11)、RGB图浅层特征提取器(12)、第一拼接单元(13)、深层特征提取器(14)；所述深度图浅层特征提取器(11)与RGB图浅层特征提取器(12)分别用于提取输入的深度图像和RGB图像的浅层特征F_D和F_V；深度图浅层特征提取器(11)与RGB图浅层特征提取器(12)结构相同参数不同，结构为级联的Resnet-50的初始卷积层和Stage 1；第一拼接单元(13)用于将深度图浅层特征F_D与RGB图浅层特征F_V拼接为第一拼接特征F_U；深层特征提取器(14)用于对第一拼接特征F_U的进行深层特征提取，得到局部特征F_B，其结构为级联的Resnet-50的Stage 2，Stage 3和Stage 4；

所述全局特征提取分支(2)包括全局特征提取模块(21)、残差块单元(22)和第二拼接单元(23)；所述全局特征提取模块(21)用于提取深度图像的全局特征和RGB图像的全局特征；所述残差块单元(22)用于增强深度图像的全局特征和RGB图像的全局特征的显著性；所述第二拼接单元(23)用于将增强后的深度图像的全局特征和RGB图像的全局特征拼接为全局特征F_R；

所述注意力特征融合模块(3)用于对局部特征F_B和全局特征F_R进行特征融合，所述注意力特征融合模块(3)包括第一多尺度通道注意力模块(31)和第二多尺度通道注意力模块(32)；局部特征F_B和全局特征F_R相加得到第一组合特征其中C、H、W分别为第一组合特征X的维度、高度和宽度；第一组合特征X输入第一多尺度通道注意力模块(31)中，得到第一注意力权值(M(X)，1-M(X))，其中M(X)为第一组合特征X中局部特征的注意力权值，1-M(X)为第一组合特征X中全局特征的注意力权值；根据第一注意力权值得到初步融合特征X^′：

其中表示对应元素相乘；

初步融合特征X^′输入第二多尺度通道注意力模块(32)中，得到第二注意力权值(M(X^′)，1-M(X^′))；

根据第二注意力权值得到最终的融合特征F_C：

所述识别模块(4)计算输入的待识别深度图像和RGB图像的相似度，根据相似度得到识别结果。

2.根据权利要求1所述的RGB-D跨模态行人再识别系统，其特征在于，所述全局特征提取模块(21)包括图像块分割层(211)、线性嵌入层(212)和Swin-transformer模块(213)。

3.根据权利要求1所述的RGB-D跨模态行人再识别系统，其特征在于，所述残差块单元(22)由多个第一残差模块(221)和第二残差模块(222)级联组成，级联的顺序为：第一残差模块(221)、第一残差模块(221)、第二残差模块(222)、第一残差模块(221)、第一残差模块(221)；

所述第一残差模块(221)对输入依次进行批归一化、激活函数、1×1卷积处理，并将处理结果与输入相加后作为输出；

所述第二残差模块(222)对输入依次进行批归一化、激活函数、1×1卷积、批归一化、激活函数、3×3卷积、批归一化、激活函数、1×1卷积处理，并将处理结果与输入相加后作为输出。

4.根据权利要求1所述的RGB-D跨模态行人再识别系统，其特征在于，所述第一多尺度通道注意力模块(31)和第二多尺度通道注意力模块(32)结构相同参数不同；所述第一多尺度通道注意力模块(31)包括全局特征通道注意力分支(311)、局部特征通道注意力分支(312)，分别用于获取第一组合特征X的全局特征通道注意力和局部特征通道注意力/>对/>和/>进行广播加法，广播加法的结果经过Sigmoid激活函数得到第一注意力权值(M(X)，1-M(X))，其中表示广播加法，σ表示Sigmoid激活函数。

5.根据权利要求1所述的RGB-D跨模态行人再识别系统，其特征在于，所述识别模块(4)采用余弦相似度作为深度图像和RGB图像的相似度，计算如下：

和/>分别输入深层特征提取器(14)得到深度图深层特征/>和RGB图深层特征和/>分别经过池化层，得到池化后的深度图特征/>和RGB图特征/>待识别的深度图像和RGB图像余弦相似度C(D,RGB)为：

其中，||·||₂表示L2范式。

6.根据权利要求1所述的RGB-D跨模态行人再识别系统，其特征在于，所述行人再识别系统中参数的训练包括步骤：

S11、每个训练批次随机从训练集中选取4个行人的4张RGB图像和4张深度图像，将这些图像统一调整为288×144大小，并采用随机裁剪、随机翻转和随机灰度化的数据增强方法，得到一组输入图像，将这组输入图像按模态类型分别输入局部特征提取分支(1)和全局特征提取分支(2)获取局部特征和全局特征；局部特征和全局特征输入注意力特征融合模块(3)得到融合特征F_C；

S13、进行迭代训练，迭代训练的目标为最小化总损失函数L_total：

L_total＝L_tri+L_id+λL_HC+γL_DT

7.根据权利要求6所述的RGB-D跨模态行人再识别系统，其特征在于，所述密集三元组损失L_DT的计算为：

计算两种不同模态图像特征之间的余弦相似度C(p,q)；

计算两个模态特征的匹配概率P(p,q)：

其中τ是温度参数；

建立不同背景区域之间的对应关系和/>

M_RGB＝f(g_RGB),g_RGB＝||f_RGB(p)||₂

w(f_D(p))表示对f_D(p)进行软变形操作，计算公式如下：

w(f_RGB(p))表示对f_RGB(p)进行软变形操作；

计算共同注意力映射A_RGB(p)和A_D(p)：

A_RGB(p)＝M_RGB(p)w(M_D(p))

其中M_D(p)＝f(g_D),g_D＝||f_D(p)||₂；

密集三元组损失函数L_DT计算公式如下：

A_D(p)＝M_D(p)w(M_RGB(p))

8.基于注意力特征融合的RGB-D跨模态行人再识别方法，其特征在于，包括：

将待搜索行人的图像与候选图像构成图像对，将所述图像对中的图像输入如权利要求1-7中任一项所述的RGB-D跨模态行人再识别系统中，根据识别模块的输出获取识别结果。

9.一种计算机可读取存储介质，其上存储有计算机指令，其特征在于，所述计算机指令运行时执行权利要求8所述的RGB-D跨模态行人再识别方法。

10.一种电子设备，其特征在于，包括处理器及存储介质，所述存储介质为权利要求9所述的计算机可读取存储介质；所述处理器加载并执行所述存储介质中的指令及数据用于实现权利要求8所述的RGB-D跨模态行人再识别方法。