CN119359559B

CN119359559B - 一种基于语义感知的可见光与红外图像融合方法

Info

Publication number: CN119359559B
Application number: CN202411233193.5A
Authority: CN
Inventors: 孟方舟; 童官军; 李宝清
Original assignee: Shanghai Institute of Microsystem and Information Technology of CAS
Current assignee: Shanghai Institute of Microsystem and Information Technology of CAS
Priority date: 2024-09-04
Filing date: 2024-09-04
Publication date: 2025-09-30
Anticipated expiration: 2044-09-04
Also published as: CN119359559A

Abstract

本发明涉及一种基于语义感知的可见光与红外图像融合方法，包括以下步骤：获取成对的可见光图像和红外图像；将红外图像转化为单通道的灰度图像，将可见光图像转化为ycbcr格式并单独使用y通道，得到y通道图像；将所述灰度图像和y通道图像输入融合网络模型，得到单通道融合图像。本发明能够有效聚合局部和全局信息，赋予融合网络语义感知的能力。

Description

一种基于语义感知的可见光与红外图像融合方法

技术领域

本发明涉及图像处理技术领域，特别是涉及一种基于语义感知的可见光与红外图像融合方法。

背景技术

在野外场景中，目标容易受到复杂背景的干扰，单一的信息来源难以有效识别目标。引入多模态信息是当前检测技术发展的重要趋势。可见光图像通常具有较高分辨率，在光照充足的情况下能够获取丰富的纹理细节和背景信息，但其成像方式受到光照条件和遮挡的严重影响。野外场景中风沙、雨雪等极端天气时常出现，加之树木茂密、地形复杂多样，且夜间光照明显不足，单靠可见光图像往往难以采集到目标的有效信息。红外热成像方式不受光照和遮挡的影响，能够弥补可见光成像的局限，但红外图像在纹理细节上有所缺失。近年来，可见光图像在目标检测领域的应用最为广泛，红外热成像技术的发展也已较为成熟。将可见光图像与红外图像进行融合，可以同时获得纹理丰富、对比度明显的融合图像，能够更好地满足野外场景中的应用需求。红外与可见光图像融合技术目前已广泛应用于目标检测、图像分割、视频监控等领域。

可见光与红外图像融合本质上是一种图像增强的技术手段，其目的是为后续的目标检测和语义分割等下游视觉任务提供更优质的数据支持。然而，现有的大部分可见光红外图像融合方法主要着力于提升模型对细节的提取和保持能力，以获得具有丰富细节和明显对比度的融合图像，却往往忽略了模型的语义感知能力。语义感知能力使模型能够理解图像所呈现场景的整体信息，区分前景和背景；缺乏语义感知能力的模型，虽然能在局部呈现更复杂的纹理，但可能忽略对完整语义目标的保持，从而导致目标不完整或目标边缘断续，这对人眼感知及目标检测、语义分割等下游任务的机器感知不利。

发明内容

本发明所要解决的技术问题是提供一种基于语义感知的可见光与红外图像融合方法，能够有效聚合局部和全局信息，赋予融合网络语义感知的能力。

本发明解决其技术问题所采用的技术方案是：提供一种基于语义感知的可见光与红外图像融合方法，包括以下步骤：

获取成对的可见光图像和红外图像；

将红外图像转化为单通道的灰度图像，将可见光图像转化为ycbcr格式并单独使用y通道，得到y通道图像；

将所述灰度图像和y通道图像输入融合网络模型，得到单通道融合图像；

所述融合网络模型包括：

第一多尺度特征提取模块，用于提取所述y通道图像的多尺度特征信息；

第二多尺度特征提取模块，用于提取所述灰度图像的多尺度特征信息；

特征融合模块，用于对所述y通道图像的多尺度特征信息和所述灰度图像的多尺度特征信息进行模态内部的空间交互以及模态间交互，得到多层融合特征，所述多层融合特征中除最后一层的融合特征外的所有融合特征均返回所述第一多尺度特征提取模块和所述第二多尺度特征提取模块进行特征提取；

融合头模块，用于根据所述多层融合特征中的前N层融合特征进行图像融合；

语义分割头模块，用于根据所述多层融合特征中的后N层融合特征进行语义分割。

所述第一多尺度特征模块与所述第二多尺度特征提取模块结构相同，均包括：

卷积操作层，用于将输入图像映射为高维特征；

五个Mamba特征提取层，构成Unet结构，用于进行多尺度的特征提取，其中，每个Mamba特征提取层的输出均输入至特征融合模块进行特征融合，前四层的特征融合结果均通过特征相加操作与Mamba特征提取层的输出相加后作为下一层Mamba特征提取层的输入；其中，第一个Mamba特征提取层通过跳跃连接与第五个Mamba特征提取层的输入相连，第二个Mamba特征提取层通过跳跃连接与第四个Mamba特征提取层的输入相连；第一个Mamba特征提取层和第二个Mamba特征提取层后均设置有下采样层；第三个Mamba特征提取层和第四个Mamba特征提取层后均设置有上采样层。

所述特征融合模块包括：

空间优先扫描的Mamba特征提取层，采用空间优先的扫描策略对输入特征进行处理，所述空间优先的扫描策略为：先在本模态内进行扫描，再在下一模态中进行同向扫描；

模态优先扫描的Mamba特征提取层，采用模态优先的扫描策略对输入特征进行处理，所述模态优先的扫描策略为：扫描两种模态对应位置后再进行按照空间维度的扫描顺序获取下一个位置；

融合输出层，用于将空间优先扫描的Mamba特征提取层的输出与模态优先扫描的Mamba特征提取层的输出相加后再进行进行卷积层线性操作，得到融合特征。

所述Mamba特征提取层包括：

层归一化单元，用于对输入的特征图进行层归一化操作；

第一卷积层线性单元，用于将层归一化操作后的特征图映射为特征图z；

第二卷积层线性单元，用于将层归一化操作后的特征图映射为特征图x；

SiLU操作单元，用于对所述特征图z进行SiLU操作，得到第一特征；

特征处理单元，用于将所述特征图x分别在水平正向方向、水平反向方向、垂直正向方向和垂直反向方向上通过展平操作展平为一维序列，并对每个一维序列进行单独的状态空间模型处理，再经过取消展平操作得到四个输出，并将四个输出进行组合得到第二特征；

点乘单元，用于将所述第一特征与所述第二特征进行点乘；

输出单元，用于将所述点乘单元的输出进行卷积层线性操作，再与输入的特征图相加，得到输出特征。

所述融合头模块包括依次连接的第一处理单元、第二处理单元和第三处理单元，其中，

所述第一处理单元包括依次连接的1×1卷积层、3×3卷积层、1×1卷积层、3×3卷积层和双线性插值层；

所述第二处理单元包括依次连接的1×1卷积层、3×3卷积层和双线性插值层；

所述第三处理单元包括依次连接的3×3卷积层、PReLU激活层、3×3卷积层、PReLU激活层、3×3卷积层和Tanh激活层。

所述语义分割头模块包括依次连接的两个第四处理单元、第五处理单元和第六处理单元，其中，

所述第四处理单元包括依次连接的3×3卷积层、批归一化操作层和双线性插值层；

所述第五处理单元包括依次连接的三个处理块，所述处理块包括依次连接的3×3卷积层、批归一化操作层和ReLU激活层；

所述第六处理单元包括依次连接的1×1卷积层、批归一化操作层、ReLU激活层和3×3卷积层。

所述融合网络模型的损失函数表示为：L_all＝L_fuse+αL_seg，其中，L_all为融合网络模型的损失，L_fuse为图像融合损失，L_seg为语义分割损失，α为平衡系数。

所述语义分割损失表示为：L_seg＝OhemCELoss(I_seg,I_label)，其中，OhemCELoss()为图像分割损失函数，I_seg为所述语义分割头模块的输出，I_label为语义分割标签。

所述图像融合损失表示为：其中，为梯度损失，表示为：为内容损失，表示为：s₁和s₂均为加权系数，I_fuse为所述融合头模块的输出，I_vis为可见光图像，I_inf为红外图像，表示Sobel算子求梯度操作，max表示取最大值，|| ||₁表示L1范数，|| ||₂表示L2范数，I_inf(x,y)表示红外图像中坐标为(x,y)的像素的亮度，I_vis(x,y)表示可见光图像中坐标为(x,y)的像素的亮度。

所述的基于语义感知的可见光与红外图像融合方法，还包括：

提取ycbcr格式的可见光图像的cb通道和cr通道，得到cb通道图像和cr通道图像；

将所述单通道融合图像与所述cb通道图像和cr通道图像进行拼接，得到ycbcr融合图像；

将所述ycbcr融合图像转化为RGB格式，得到RGB融合图像。

有益效果

由于采用了上述的技术方案，本发明与现有技术相比，具有以下的优点和积极效果：本发明使用多尺度特征提取对红外图像和可见光图像分别提取各自模态的多尺度特征，并使用U型网络和跳跃连接来避免关键空间信息的遗忘，并以线性时间复杂度增强了模型提取远距离依赖的能力，以语义分割任务带动整个Unet的特征提取，从而提高模型的细节提取和语义感知能力，促进融合头模块获得空间细节充足并且更有利于语义感知的特征。本发明使用的融合模块采用联合的空间优先扫描和模态优先扫描两种策略实现了对两种模态更充分更高效的特征聚合。

附图说明

图1是本发明实施方式基于语义感知的可见光与红外图像融合方法的流程图；

图2是本发明实施方式中融合网络模型的结构示意图；

图3是本发明实施方式中Mamba特征提取层的示意图；

图4是本发明实施方式中特征融合模块(水平正向扫描)的示意图；

图5是本发明实施方式中融合头模块的示意图；

图6是本发明实施方式中语义分割头模块的示意图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明的实施方式涉及一种基于语义感知的可见光与红外图像融合方法，针对两个独立的网络进行两种任务的性能优化的难题，本实施方式在一个端到端的网络中进行联合训练，以语义分割任务带动整个Unet的特征提取，从而促进融合头模块能获取到空间细节充足并且更有利于语义感知的特征。相同的，融合任务促进了浅层细节特征的充分提取，进而为后续语义分割任务提供有利支撑。针对简化网络结构和计算复杂度的难题，本实施方式的Cnn-Mamba Unet中使用状态空间模型中最典型的mamba块提取特征，从而以线性复杂度增强了模型的全局感知能力，实现了高效的特征提取。

如图1所示，本实施方式的基于语义感知的可见光与红外图像融合方法包括以下步骤：

步骤1，获取成对的可见光图像和红外图像；

步骤2，将红外图像转化为单通道的灰度图像，将可见光图像转化为ycbcr格式并单独使用y通道，得到y通道图像；

步骤3，将所述灰度图像和y通道图像输入融合网络模型，得到单通道融合图像；

步骤4，提取ycbcr格式的可见光图像的cb通道和cr通道，得到cb通道图像和cr通道图像；

步骤5，将所述单通道融合图像与所述cb通道图像和cr通道图像进行拼接，得到ycbcr融合图像；

步骤6，将所述ycbcr融合图像转化为RGB格式，得到RGB融合图像。

如图2所示，本实施方式中融合网络模型包括：

本实施方式中的第一多尺度特征提取模块作为可见光分支，从可见光图像(Visible Image)中提取多尺度特征，第二多尺度特征提取模块作为红外分支，从红外图像(Infrared Image)中提取多尺度特征。

第一多尺度特征提取模块和第二多尺度特征提取模块结构相同，均包括：

卷积操作层，用于将输入图像映射为高维特征；

以可见光分支为例，输入的可见光源图首先经过3×3卷积核、padding为1、步长为1的卷积操作以及PreLU激活函数映射为高维特征，随后通过5层Mamba块(即Mamba特征提取层)提取特征，各层的输出送入特征融合模块FMamba中进行特征融合，前4层的融合特征通过element-add操作再次返回Cnn-Mamba Unet中参与后续特征提取。其中，第1、2层Mamba块之后分别连接Down块进行二倍下采样，第3、4层后Mamba块之后分别连接Up块进行二倍上采样。Down块由3×3卷积核、padding为0、步长为1的卷积操作以及PreLU激活函数构成，Up块由3×3卷积核、padding为0、步长为1的反卷积操作以及PreLU激活函数构成。

如图3所示，Mamba块采用了VMamba中提出的四方向(Scan 1：水平正向扫描,Scan2：水平反向扫描,Scan 3：垂直正向扫描,Scan 4：垂直反向扫描)序列建模方法，以此增加空间感知能力。其包括：

层归一化单元，用于对输入的特征图进行层归一化操作；

点乘单元，用于将所述第一特征与所述第二特征进行点乘；

对于输入Mamba块的特征图(尺寸为H×W×C)，首先进行层归一化(LN)，随后通过两个并行的1×1卷积层线性(Linear)映射为不同的特征图x和特征图z。其中标注为x的特征图在四个方向上通过flatten操作展平为一维序列(尺寸为HW×C)。这些一维序列分别经过单独的SSM块进行处理，随后经过unflatten得到四个输出，并通过element-add操作组合起来获得新的输出。然后与经过SiLU之后的特征图z进行点乘，最终经过Linear后与输入模块的原始特征相加，获得最终输出(尺寸为H×W×C)。

不难发现，本实施方式中，第一多尺度特征提取模块和第二多尺度特征提取模块均采用Cnn-Mamba Unet，其使用Cnn-Mamba架构来提取来自源图的多尺度信息，使用U型网络和跳跃连接来避免关键空间信息的遗忘。

来自5层Mamba块提取的特征具有不同的的尺度大小，依次为源图输入大小的1、1/2、1/4、1/2、1倍。红外和可见光特征通过通道拼接后输入FMamba块(即特征融合模块)进行特征聚合。

Mamba块只适应单输入，无法处理两种模态的输入。针对融合两种模态输入的需求，本实施方式的FMamba块(如图4所示)由对称的两个Mamba块构成，其中，一个Mamba块为空间优先扫描的Mamba特征提取层，另一个Mamba块为模态优先扫描的MambaMamba特征提取层，两个Mamba块区别于图3中使用的Mamba，特征融合模块中Mamba块的将原本四方向的2D扫描拓展到了四方向的3D扫描，以适应双模态输入特征并在特征之间进行交互。其中，空间优先扫描的Mamba特征提取层，采用空间优先的扫描策略对输入特征进行处理，处理时，首先在本模态内进行扫描，再在下一模态中进行同向扫描。模态优先扫描的Mamba特征提取层，采用模态优先的扫描策略对输入特征进行处理，处理时，扫描两种模态对应位置之后再进行按照空间维度的扫描顺序获取下一个位置。最后，将空间优先扫描的Mamba特征提取层的输出与模态优先扫描的Mamba特征提取层的输出相加后再进行进行卷积层线性操作，得到融合特征。

不难发现，本实施方式的特征融合模块在典型的vision mamba模块的基础上拓展为两种模态的输入，以线性时间复杂度提取了远距离依赖，并同步进行了每种模态内部的空间交互以及模态间交互。与现有的融合模块相比，本实施方式的特征融合模块对两种模态进行了更充分更高效的特征聚合。

获得来自特征融合模块输出的5个层级的特征(F_in1、F_in2、F_in3、F_in4、F_in5)之后，将第1、2、3层的1、1/2、1/4倍大小的特征送入融合头模块获得融合图像，将第3、4、5层的1/4、1/2、1倍大小的特征送入语义分割头模块获得语义分割结果。

如图5所示，融合头模块包括依次连接的第一处理单元、第二处理单元和第三处理单元，其中，所述第一处理单元包括依次连接的1×1卷积层、3×3卷积层、1×1卷积层、3×3卷积层和双线性插值层；所述第二处理单元包括依次连接的1×1卷积层、3×3卷积层和双线性插值层；所述第三处理单元包括依次连接的3×3卷积层、PReLU激活层、3×3卷积层、PReLU激活层、3×3卷积层和Tanh激活层。第一处理单元的输入为特征F_in3，第二处理单元的输入为第一处理单元的输出与特征F_in2进行通道维度拼接后的特征，第三处理单元的输入为第二处理单元的输出与特征F_in1进行通道维度拼接后的特征。

如图6所示，语义分割头模块包括依次连接的两个第四处理单元、第五处理单元和第六处理单元，其中，所述第四处理单元包括依次连接的3×3卷积层、批归一化操作层和双线性插值层；所述第五处理单元包括依次连接的三个处理块，所述处理块包括依次连接的3×3卷积层、批归一化操作层和ReLU激活层；所述第六处理单元包括依次连接的1×1卷积层、批归一化操作层、ReLU激活层和3×3卷积层。第一个第四处理单元的输入为特征F_in3，第二个第四处理单元的输入为第一个第四处理单元的输出与特征F_in4进行通道维度拼接后的特征，第五处理单元的输入为第二个第四处理单元的输出与特征F_in5进行通道维度拼接后的特征，第六处理单元的输入为第五处理单元的输出。

在训练阶段，本实施方式中的融合网络模型为端到端的模型，训练输入为成对的红外图像、可见光图像和语义分割标签，同时优化融合任务和语义分割任务。总的损失函数如下：

L_all＝L_fuse+αL_seg

其中，L_all为融合网络模型的损失，L_fuse为图像融合损失，L_seg为语义分割损失，α为平衡系数。

语义分割算损失采用语义分割任务中常见的图像分割损失函数(Onlinehardexample miningCrossEntropyLoss，OhemCELoss)，表示如下：

L_seg＝OhemCELoss(I_seg,I_label)

其中，I_seg为所述语义分割头模块的输出，I_label为语义分割标签。

图像融合损失包含梯度损失和内容损失通过梯度损失引导生成的融合图获取两幅源图中所具有的所有纹理细节。通过内容损失引导生成的融合图与源图保持内容的一致性，其中，根据可见光源图具有背景纹理细节、红外源图具有对比度更突出的前景的特点，约束融合图与可见光源图在像素上保持一致，并在红外源图呈现出更高亮度的区域倾向于与红外源图像素上保持一致。L_fuse，和的定义如下：

其中，I_fuse为所述融合头模块的输出，I_vis为可见光图像，I_inf为红外图像。表示Sobel算子求梯度操作，max表示取最大值，|| ||₁表示L1范数，|| ||₂表示L2范数。s₁和s₂分别为梯度损失和内容损失的加权系数。

不难发现，本发明使用多尺度特征提取对红外图像和可见光图像分别提取各自模态的多尺度特征，并使用U型网络和跳跃连接来避免关键空间信息的遗忘，并以线性时间复杂度增强了模型提取远距离依赖的能力，以语义分割任务带动整个Unet的特征提取，从而提高模型的细节提取和语义感知能力，促进融合头模块获得空间细节充足并且更有利于语义感知的特征。

Claims

1.一种基于语义感知的可见光与红外图像融合方法，其特征在于，包括以下步骤：

获取成对的可见光图像和红外图像；

所述融合网络模型包括：

2.根据权利要求1所述的基于语义感知的可见光与红外图像融合方法，其特征在于，所述第一多尺度特征提取模块与所述第二多尺度特征提取模块结构相同，均包括：

卷积操作层，用于将输入图像映射为高维特征；

3.根据权利要求1所述的基于语义感知的可见光与红外图像融合方法，其特征在于，所述特征融合模块包括：

空间优先扫描的Mamba特征提取层，采用空间优先的扫描策略对输入特征进行处理，所述空间优先的扫描策略为：先在本模态内进行扫描，再在下一模态中进行同向扫描；模态优先扫描的Mamba特征提取层，采用模态优先的扫描策略对输入特征进行处理，所述模态优先的扫描策略为：扫描两种模态对应位置后再进行按照空间维度的扫描顺序获取下一个位置；

4.根据权利要求2或3所述的基于语义感知的可见光与红外图像融合方法，其特征在于，

所述Mamba特征提取层包括：

层归一化单元，用于对输入的特征图进行层归一化操作；

点乘单元，用于将所述第一特征与所述第二特征进行点乘；

5.根据权利要求1所述的基于语义感知的可见光与红外图像融合方法，其特征在于，所述融合头模块包括依次连接的第一处理单元、第二处理单元和第三处理单元，其中，所述第一处理单元包括依次连接的1×1卷积层、3×3卷积层、1×1卷积层、3×3卷积层和双线性插值层；

6.根据权利要求1所述的基于语义感知的可见光与红外图像融合方法，其特征在于，所述语义分割头模块包括依次连接的两个第四处理单元、第五处理单元和第六处理单元，

其中，

7.根据权利要求1所述的基于语义感知的可见光与红外图像融合方法，其特征在于，所述融合网络模型的损失函数表示为：L_all＝L_fuse+αL_seg，其中，L_all为融合网络模型的损失，L_fuse为图像融合损失，L_seg为语义分割损失，α为平衡系数。

8.根据权利要求7所述的基于语义感知的可见光与红外图像融合方法，其特征在于，所述语义分割损失表示为：L_seg＝OhemCELoss(I_seg,I_label)，其中，OhemCELoss()为图像分割损失函数，I_seg为所述语义分割头模块的输出，I_label为语义分割标签。

9.根据权利要求7所述的基于语义感知的可见光与红外图像融合方法，其特征在于，所述图像融合损失表示为：其中，为梯度损失，表示为：

为内容损失，表示为：

s₁和s₂均为加权系数，I_fuse为所述融合头模块的输出，I_vis为可见光图像，I_inf为红外图像，表示Sobel算子求梯度操作，max表示取最大值，||||₁表示L1范数，|| ||₂表示L2范数，I_inf(x,y)表示红外图像中坐标为(x,y)的像素的亮度，I_vis(x,y)表示可见光图像中坐标为(x,y)的像素的亮度。

10.根据权利要求1所述的基于语义感知的可见光与红外图像融合方法，其特征在于，还包括：

提取ycbcr格式的可见光图像的cb通道和cr通道，得到cb通道图像和cr通道图像；将所述单通道融合图像与所述cb通道图像和cr通道图像进行拼接，得到ycbcr融合图像；

将所述ycbcr融合图像转化为RGB格式，得到RGB融合图像。