CN118570601B

CN118570601B - 一种联合高级视觉任务的红外与可见光图像融合方法

Info

Publication number: CN118570601B
Application number: CN202411061385.2A
Authority: CN
Inventors: 林聪�; 杨鹏; 吴振陆; 陈悦
Original assignee: Guangdong Ocean University
Current assignee: Guangdong Ocean University
Priority date: 2024-08-05
Filing date: 2024-08-05
Publication date: 2024-10-29
Anticipated expiration: 2044-08-05
Also published as: CN118570601A

Abstract

本发明公开了一种联合高级视觉任务的红外与可见光图像融合方法，属于图像处理领域，首先构建包括教师网络和学生网络的图像融合网络；采用两个判别器分别用于区分可见光图像与融合图像、红外图像与融合图像；通过实时语义分割模型对图像融合网络的输出图像进行分割并辅助图像融合网络学习保留融合图像的语义信息；通过计算语义分割损失，将语义信息反馈给融合网络，指导其优化参数，使得生成的融合图像不仅在视觉效果上接近真实图像，而且在语义信息上也具有高质量的表现。该方法与现有主流的融合方法进行了比较，在视觉效果和客观评价指标方面表现出极具竞争性的融合性能。此外，通过分割对比实验进一步验证了提出的方法的有效性。

Description

一种联合高级视觉任务的红外与可见光图像融合方法

技术领域

本发明涉及图像处理领域，具体涉及一种联合高级视觉任务的红外与可见光图像融合方法。

背景技术

在图像融合领域中基于深度学习的融合方法仍存在一些问题。首先，大部分的红外与可见光图像融合算法倾向于仅针对融合网络进行精心的设计来追求更好的视觉质量和更高的评价指标结果，而忽视了融合图像需满足后续高级视觉任务这一需求。事实上，已有研究表明仅考虑底层视觉任务的视觉质量和评价指标并不能有助于后续的高级视觉任务，如何利用高级视觉任务指导低级视觉方法去设计和训练网络是值得深入研究的问题。其次，现有的评价方式主要是视觉直观评价和指标评价，视觉评价主要关注融合图像的对比度和边缘纹理等信息，而指标评价则是采用不同的统计指标来评估融合方法的性能。但是，仅采用图像融合的视觉直观评价和指标评价是片面的，难以反映融合结果是否有助于更高层次的视觉任务。

发明内容

针对现有技术中的上述不足，本发明提供了一种联合高级视觉任务的红外与可见光图像融合方法。

为了达到上述发明目的，本发明采用的技术方案为：

一种联合高级视觉任务的红外与可见光图像融合方法，包括如下步骤：

S1、构建包括教师网络和学生网络的图像融合网络；

S2、利用对抗生成网络的训练方法对所构建的图像融合网络进行优化训练；

S3、将实时语义分割模型引入优化训练后的图像融合网络中，对图像融合网络的输出图像进行分割并辅助图像融合网络学习保留融合图像的语义信息；

S4、计算所得到的语义信息的分割损失函数，利用所得到的语义信息的分割损失函数生成联合损失函数指导图像融合网络的训练和优化；

S5、利用S4训练和优化后的图像融合网络进行红外与可见光图像融合，生成包含语义信息的融合图像。

进一步的，所述S1具体包括如下步骤：

S11、构建教师网络，包括用于对输入的红外和可见光进行特征提取的残差模块、用于增强不同尺度特征感知度的多尺度通道注意力模块以及用于将红外和可见光图像的特征进行融合的通过融合层；

S12、对所构建的教师网络进行压缩，通过最小化知识蒸馏损失函数将教师网络的知识转移压缩后的教师网络中，完成学生网络构建。

进一步的，所述S12中最小化知识蒸馏损失函数表示为：

；

式中，为最小化知识蒸馏损失函数，为教师网络第b层特征嵌入到空间域的投影函数，为学生网络第b层特征嵌入到与教师网络相同空间域的投影函数，为特征向量长度，为求和计数，为范数计算。

进一步的，所述S2具体包括如下步骤;

S21、利用图像融合网络接收真实的红外图像和真实的可见光图像的输入，生成初步融合图像；

S22、将真实的红外图像、真实的可见光图像的输入以及S21生成的初步融合图像分别输入到两个判别器中区分输入图像的真实性；

S23、利用判别器对抗损失函数优化两个判别器的分类能力；

S24、基于S23判别器对抗损失函数指导教师网络和学生网络进行训练。

进一步的，所述S23中判别器对抗损失函数表示为：

；

式中，为第一判别器对抗损失函数，为真实红外图像输入第一判别器的输出结果，为输入第一判别器的真实红外图像，为初步融合图像输入第一判别器的输出结果，为输入第一判别器的初步融合图像；为第二判别器对抗损失函数，为真实可见光输入第二判别器的输出结果，为输入第二判别器的真实可见光图像，为初步融合图像输入第二判别器的输出结果，为输入第二判别器的初步融合图像；为特征向量长度，N为输入图像数量，常数1表示希望判别器相信融合图像为真实图像。

进一步的，所述S24中基于S23判别器对抗损失函数指导教师网络和学生网络进行训练的具体方式为：

；

式中，为融合损失函数；为像素强度损失函数；为纹理损失函数，为纹理损失函数权重；为图像融合对抗损失函数，为图像融合对抗损失函数权重；其中：

；

式中，m为训练批次大小，max()为相同位置元素最大化操作，I_f、I_ir和I_vis依次为融合图像、输入的红外图像和输入的可见光图像，为求和计数；

；

式中，为Sobel梯度算子；

；

式中，为初步融合图像输入第一判别器的输出结果，为初步融合图像输入第二判别器的输出结果，为平衡参数，N为输入图像数量，常数1表示希望判别器相信融合图像为真实图像。

进一步的，所述S4中分割损失函数表示为：

；

式中，为分割损失函数；为语义损失，为语义损失对应参数；为加权二元交叉熵损失，为加权二元交叉熵损失对应参数；为交叉熵损失，为交叉熵损失对应参数；为边界感知交叉熵损失，为边界感知交叉熵损失对应参数。

进一步的，所述S4中联合损失函数表示为：

；

式中，为联合损失函数，为融合损失函数，为融合损失函数的权重，为分割损失函数。

进一步的，所述S4中生成联合损失函数指导图像融合网络的训练和优化的具体方式为：

S41、输入红外图像和可见光图像对，并初始化主循环迭代次数P和子循环迭代次数p，q，j；

S42、进行p次迭代训练，利用包含纹理损失的像素强度损失函数训练教师网络和学生网络，通过Adam优化器更新教师网络和学生网络的参数，同时根据最小化知识蒸馏损失函数将教师网络的知识参数传递至学生网络；

S43、进行q次迭代训练，利用判别器对抗损失函数更新判别器的参数，并通过融合损失函数对学生网络参数进行更新；

S44、进行j次迭代训练，分别从判别器中判别为真的融合图像中选择多幅图像，利用SGD优化器更新实时语义分割模型的参数，并提取融合图像中的语义信息；

S45、重复步骤S41-S44直至完成所有P次总迭代。

本发明具有以下有益效果：

（1）提出了一种以语义分割驱动的基于知识蒸馏的图像融合框架，以有效地实现红外与可见光图像融合和满足高级视觉任务需求。该框架主要由分别作为教师网络和学生网络的分布式融合架构、两个判别器和语义分割网络组成。

（2）设计了判别器对抗损失，利用双判别器对融合网络进一步优化，使融合网络具备更好的融合性能。同时，设计了一种联合训练策略对整体网络进行训练，有助于提高融合网络性能和满足后续高级视觉任务的需求。

（3）在多个公开数据集上进行了大量实验，并与现有主流的融合方法进行了比较。实验结果表明，提出的融合框架与现有融合方法相比，在视觉效果和客观评价指标方面表现出极具竞争性的融合性能。此外，通过分割对比实验进一步验证了提出的联合高级视觉任务训练融合网络策略的有效性。

附图说明

图1为本发明联合高级视觉任务的红外与可见光图像融合方法流程示意图。

图2为本发明实施例中指出的基于中间层特征蒸馏的一般模式示意图。

图3为本发明实施例生成知识转移所需的特征向量转换过程示意图。

图4为本发明实施例双判别器优化S-D-net流程示意图。

图5为本发明实施例用于图像分类的DIS体系结构示意图。

图6为本发明实施例一个场景中各融合方法的分割结果可视图。

图7为本发明实施例中另一个种场景各融合方法分割结果可视图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

一种联合高级视觉任务的红外与可见光图像融合方法，如图1所示，包括如下步骤：

S1、构建包括教师网络和学生网络的图像融合网络；

本实施例里，具体包括如下步骤：

学生网络由教师网络压缩而得，该压缩过程称为知识转移。通过知识转移将教师网络的知识转移到学生网络，从而使得更小的学生网络拥有教师网络的能力。如图2所示，其可以从不同位置提取各种中间层特征并通过任意的距离度量相似性进行优化。通过最小化知识蒸馏（Knowledge Distillation，KD）损失函数，将知识从教师模型传递给学生模型，该损失函数旨在匹配教师网络的软输出和真实标签。

采用知识转移压缩融合网络以实现实时性图像融合，并确保学生网络S-D-net与教师网络T-D-net一样稳定，S-D-net学习T-D-net中间层产生的高维特征。在知识转移过程中，红外图像与可见光图像对分别输入到T-D-net和S-D-net中，通过训练获得初步的融合网络。其中融合网络具有四层残差模块用于提取图像特征，对于要被优化的学生网络的四层残差模块，目标是减小教师网络与学生网络的中间层输出特征之间的差异，该过程可表述为下式：

；

其中，指教师融合网络的第N层残差模块输出的特征，指学生融合网络的第N层残差模块输出的特征，为教师网络与学生网络的中间层输出特征之间的差异。

若直接使用教师融合网络和学生融合网络的中间层输出特征优化学生融合网络的残差模块需要庞大的计算量。因此，中间层特征被处理为特征向量以进行知识转移过程。将中间层特征转换为特征向量操作如图3所示，输入的特征为教师融合网络或学生融合网络的残差模块输出的中间层特征，n=C表示卷积层中滤波器的数量为C，拼接层表示连接操作，激活函数为ReLu函数，展平层将降维后的特征转换为一维特征向量。使用该一维特征向量进行知识转移则是容易的，因此，优化问题转换为下式：

；

其中，和分别表示教师网络和学生网络对应中间层特征经过处理后的特征向量。

在知识转移过程中，考虑到教师网络T-D-net和学生网络S-D-net中间层特征在内容和尺寸上均不相同，具有空间错位的特点，但经过特征向量化处理后的特征向量则处于相同的空间域中，其处理过程如图3所示。为具体地实现知识转移过程，采用蒸馏损失L_KD以实现T-D-net到S-D-net的知识转移，具体表示为：

；

由于红外与可见光图像融合任务无法获得准确的真实标签，粗糙的训练并不能使融合网络有较高的性能。为进一步优化学生融合网络S-D-net，本实施例采用了双判别器(Dv，Dr)与学生融合网络做对抗博弈来进一步训练融合网络，双判别器优化S-D-net的过程如图4所示，其中，V和I分别指真实可见光图像和真实红外图像，F为学生融合网络S-D-net输出的融合图像。D()指用卷积模块构成的分类器网络DIS，其结构如图5所示，从第一层到第四层卷积核大小设置为3，激活函数采用Leaky ReLu函数，输入和输出通道数分别为1:32、32:64、64:128和128:256。DIS用于分类输入图像为真或假，D(F)、D(V)和D(I)分别表示融合图像、真实可见光图像和真实红外图像的分类结果，具体方式为：

学生融合网络S-D-net接收红外图像和可见光图像的输入，生成融合图像F。此融合图像试图综合红外和可见光图像的特征，生成看起来尽可能真实的图像

S23、利用判别器对抗损失函数优化两个判别器的分类能力；

判别器Dr和Dv接收融合图像F以及相应的真实图像I和V，并试图辨别这些图像的真假。判别器不断优化其分类能力，以提高区分真实图像和融合图像的准确性。

引入双判别器对学生融合网络进一步优化是极为重要的，为此采用两个判别器对抗损失训练判别器以区分真实图像数据和虚假图像数据。此外，双判别器可以分别输出来自输入端的真实图像数据或虚假图像数据的概率标量。其中，双判别器的对抗损失定义为：

；

为了促使融合模型融合更多有意义的图像信息，提高融合图像的视觉质量和量化指标，引入包含纹理损失的像素强度损失函数L_F分别对教师融合网络和学生融合网络进行训练。损失函数L_F表示为：

；

其中，L_pixel为纹理损失函数，用于约束融合图像包含更多源图像的目标强度信息；L_texture为像素强度损失函数，用于约束融合图像包含更多源图像的纹理信息，a为像素强度损失函数权重系数。

L_pixel通过缩减融合图像和红外图像与可见光图像对之间的差异约束融合图像包含更多来自源图像的目标信息，L_pixel表示为：

；

其中，m表示训练批次大小，max()表示相同位置元素最大化操作，I_f、I_ir和I_vis分别表示融合图像、输入的红外图像和可见光图像，为求和计数。

L_texture可提取源图像的纹理细节信息，约束融合图像具有丰富的纹理细节，L_texture表示为：

；

式中，为Sobel梯度算子。

由于学生融合网络S-D-net的参数量较少，粗糙的训练并不足以使其拥有较好的融合性能，因此采用双判别器进一步优化学生融合网络。所采用的对抗损失函数定义为：

；

最终，双判别器指导学生融合网络的训练过程所定义的损失函数L_G表示为：

；

式中，为融合损失函数；为像素强度损失函数；为纹理损失函数，为纹理损失函数权重；为图像融合对抗损失函数，为图像融合对抗损失函数权重，为对应权重。

本实施例提出的融合架构引入了一个实时语义分割模型PIDNet，用于对学生融合网络的输出图像进行分割从而辅助融合网络学习以保留融合图像更多的语义信息。由于PIDNet的适应场景为复杂的城市道路场景与本章应用目标场景相符合，因此采用PIDNet辅助训练融合网络是符合实际的。

本实施例所采用的分割损失Lseg包含语义损失、加权二元交叉熵损失、CE损失和边界感知CE损失。因此，分割损失函数Lseg表示为：

；

其中，为语义损失对应参数，为加权二元交叉熵损失对应参数，为为交叉熵损失对应参数，为边界感知交叉熵损失对应参数。

最终，利用分割模型优化融合网络所构造的联合损失函数Ltotal表示为：

；

其中，表示融合损失L_G的权重因子，经过前期的调参实验后本实施例中被设置为 1.2。

大多数任务驱动的低级视觉任务可以分为两种方式：采用预训练的高级任务模型指导低级任务模型的训练，以及在相同阶段联合训练低级任务和高级任务模型。但是，在图像融合领域往往很难获得有效的真实融合图像来训练高级视觉任务模型，而在同一阶段联合训练低级和高级任务的策略可能会导致低级视觉任务模型与高级视觉任务模型之间的不平衡。本实施例采用联合交替迭代的训练方式，通过迭代训练融合网络、判别器和分割网络来优化整个网络结构。具体来说，首先前述损失函数指导训练不同模块，以获得基础的特征处理能力，然后利用联合训练策略优化整体网络，使其能平衡不同阶段的视觉任务。具体方式为：

S41、输入红外图像和可见光图像对，并初始化主循环迭代次数P和子循环迭代次数p，q，j。

S42、进行p次迭代训练，训练教师网络（T-D-net）和学生网络（S-D-net），使用损失函数LF，通过Adam优化器更新教师网络（T-D-net）和学生网络（S-D-net）的参数。这个过程使得网络能够更好地提取图像中的特征。接着使用知识蒸馏损失函数LbKD，通过Adam优化器进一步更新学生网络（S-D-net）的参数。知识蒸馏损失函数帮助将教师网络的知识传递给学生网络，使得学生网络在保持较小规模的同时具备教师网络的能力。

S43、进行q次迭代训练，使用判别器损失函数LDr和LDv，通过Adam优化器更新两个判别器（Dr和Dv）的参数。这两个判别器的作用是区分生成的融合图像和真实的红外图像及可见光图像。然后使用生成器损失函数LG，通过Adam优化器更新学生网络（S-D-net）的参数。这个过程使得学生网络能够生成更接近真实图像的融合图像，从而迷惑判别器。

S44、进行j次迭代训练，从判别器Dr和Dv判别为真的融合图像中选择若干幅图像。使用这些图像，通过SGD优化器更新语义分割网络PIDNet的参数。语义分割损失指导融合网络的训练和优化，使生成的融合图像包含更多的语义信息，从而更好地满足后续高级视觉任务的需求。

S45、重复上述三个子循环步骤，直到完成所有P次总迭代。

S5、利用S4训练和优化后的图像融合网络进行红外与可见光图像融合。生成包含语义信息的融合图像。

为评估融合图像包含的语义信息是否有利于后续的高级视觉任务，在MFNet数据集上重新训练PIDNet以评估分割性能。训练集和测试集的配置参照MFNet数据集官方报告，将不同融合方法生成的融合图像输入重新训练后的PIDNet网络中，使用像素交并比（Intersection over Union，IoU）来衡量分割性能。表1展示了各融合方法的融合图像分割结果，可以发现所提出的融合框架在大部分类别中都达到了最高的IoU，并且在mIoU（meanIntersection over Union）中排名第一。融合网络能够将大部分红外和可见光图像的互补特征信息融合，这些互补信息有助于分割模型更全面地理解成像场景，因此融合图像能够提高分割性能。借助于PIDNet集成语义信息和分割损失的指导，融合图像可以包含更丰富的语义信息，使分割网络能够更准确地描述成像场景。

表1数据集MFNet上各融合方法的融合图像分割结果（mIoU）

除了重新训练的模型外，在Cityscapes数据集上训练的PIDNet被用于衡量不同融合方法的融合结果对分割任务的贡献。各融合方法的融合结果分别输入到PIDNet模型进行分割，可视化结果如图6和图7所示。从图6中可以发现，本章节提出的KDGFNet在充分利用了红外图像的信息，提供了更多关于行人等突出目标的信息，同时也提供了相对丰富的背景描述，但对建筑物的分割效果要逊色于NestFuse。而在图7的分割结果中，可以显而易见的观察到图中的路牌和行人目标被很好的分割出来，表明KDGFNet无论是在前景还是背景中的分割效果均比其他融合方法更好。

本实施例所提出的红外与可见光图像的融合框架引入了分割损失，可以提高融合图像中的语义信息。为验证分割损失对融合结果的影响，对此设计了消融实验，直接将分割损失去除，仅由融合损失优化融合模型，以对比有无分割损失对模型能力的影响。表2显示了分别只用融合损失指导训练的融合模型和采用联合交替迭代训练策略指导的融合模型在MFNet和RoadScene数据集上的各项融合评价指标。可以注意到，如果没有分割损失的指导，融合网络不能有目的地保留源图像的语义信息，导致融合图像的评价指标明显下降。

表2 不同训练策略的融合性能比较

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种联合高级视觉任务的红外与可见光图像融合方法，其特征在于，包括如下步骤：

S1、构建包括教师网络和学生网络的图像融合网络；

S2、利用对抗生成网络的训练方法对所构建的图像融合网络进行优化训练, 包括如下步骤：

S23、利用判别器对抗损失函数优化两个判别器的分类能力，判别器对抗损失函数表示为：

；

式中，为第一判别器对抗损失函数，为真实红外图像输入第一判别器的输出结果，为输入第一判别器的真实红外图像，为初步融合图像输入第一判别器的输出结果，为输入第一判别器的初步融合图像；为第二判别器对抗损失函数，为真实可见光输入第二判别器的输出结果，为输入第二判别器的真实可见光图像，为初步融合图像输入第二判别器的输出结果，为输入第二判别器的初步融合图像；为特征向量长度，N为输入图像数量，常数1表示希望判别器相信融合图像为真实图像；

S24、基于S23判别器对抗损失函数指导教师网络和学生网络进行训练，具体方式为：

；

式中，为Sobel梯度算子；

；

式中，为初步融合图像输入第一判别器的输出结果，为初步融合图像输入第二判别器的输出结果，为平衡参数，N为输入图像数量，常数1表示希望判别器相信融合图像为真实图像；

2.根据权利要求1所述的联合高级视觉任务的红外与可见光图像融合方法，其特征在于，所述S1具体包括如下步骤：

3.根据权利要求2所述的联合高级视觉任务的红外与可见光图像融合方法，其特征在于，所述S12中最小化知识蒸馏损失函数表示为：

；

4.根据权利要求1所述的联合高级视觉任务的红外与可见光图像融合方法，其特征在于，所述S4中分割损失函数表示为：

；

5.根据权利要求1所述的联合高级视觉任务的红外与可见光图像融合方法，其特征在于，所述S4中联合损失函数表示为：

；

6.根据权利要求1所述的联合高级视觉任务的红外与可见光图像融合方法，其特征在于，所述S4中生成联合损失函数指导图像融合网络的训练和优化的具体方式为：

S45、重复步骤S41-S44直至完成所有P次总迭代。