CN116503799A

CN116503799A - 基于CNN与Transformer融合的接触网吊弦缺陷检测方法

Info

Publication number: CN116503799A
Application number: CN202310414019.XA
Authority: CN
Inventors: 何进; 刘俊; 王伟; 罗德宁; 张葛祥
Original assignee: Chengdu University of Information Technology
Current assignee: Chengdu University of Information Technology
Priority date: 2023-04-18
Filing date: 2023-04-18
Publication date: 2023-07-28
Anticipated expiration: 2043-04-18
Also published as: CN116503799B

Abstract

本发明公开了基于CNN与Transformer融合的接触网吊弦缺陷检测方法，涉及缺陷检测技术领域，方法采集接触网吊弦图像并进行图像增强处理，获得吊弦缺陷样本集；利用基于约束的可变卷积网络构建卷积模块，同时依据改进的高效率多头自注意力机制构建自注意模块，并基于最优模块分配比例将卷积模块与自注意模块进行深度融合，生成多块交叉混合网络来对FasterRCNN网络进行改进。基于吊弦缺陷样本集对改进后的网络进行训练和验证，获得训练好的模型并将模型部署于吊弦检测设备，实时抓拍接触网吊弦图像并输入吊弦检测设备进行吊弦缺陷检测，识别接触网的吊弦缺陷。本申请能适用复杂的自然场景环境，提高了真实复杂自然条件下的吊弦缺陷识别准确率和召回率。

Description

基于CNN与Transformer融合的接触网吊弦缺陷检测方法

技术领域

本发明涉及缺陷检测技术领域，尤其涉及一种基于CNN与transformer深度交叉融合的高速铁路接触网吊弦缺陷检测方法。

背景技术

吊弦是高铁接触网的关键部件，确保高铁动车组平稳持续受流，并且缓解接触线与承力索之间的震动。然而吊弦受温度、气候，高频振动等影响，吊弦频发松断脱落等问题，轻则影响受电弓取流，重则打坏受电弓或损坏接触线，导致列车故障，因此，对吊弦缺陷实时检测并预警确保接触网的安全性和可靠性，对于高速铁路的安全运营具有重要意义。

现有的接触网吊弦缺陷检测方法中多数通过机器学习和神经网络模型来进行检测吊弦缺陷，但是存在以下缺点：

(1)受实际场景的影响，如在雨天，雾天，强太阳光，夜晚等自然场景环境下对吊弦线的缺陷识别效果较差；

(2)在吊弦线被遮挡情况下不能精准识别吊弦缺陷，存在缺陷漏报的情况。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于CNN与Transformer融合的接触网吊弦缺陷检测方法，有助于解决目前接触网吊弦缺陷检测方法在吊弦被遮挡以及复杂场景下缺陷识别效果不好，识别准确率较低的问题。

本发明的目的是通过以下技术方案来实现的：

本发明提供了一种基于CNN与Transformer融合的接触网吊弦缺陷检测方法，包括：

采集接触网吊弦图像并对所述吊弦图像进行图像增强处理，获得吊弦缺陷样本集；

利用基于约束的可变卷积网络构建卷积模块，同时依据改进的高效率多头自注意力机制构建自注意模块，并基于最优模块分配比例将所述卷积模块与自注意模块进行深度融合，生成多块交叉混合网络；

利用所述多块交叉混合网络改进FasterRCNN网络，并基于所述吊弦缺陷样本集对改进后的FasterRCNN网络进行训练和验证，获得训练好的FasterRCNN改进模型；

将所述FasterRCNN改进模型部署于吊弦检测设备，实时抓拍高速铁路的接触网吊弦图像并输入所述吊弦检测设备进行吊弦缺陷检测，识别接触网中的吊弦缺陷。

进一步地，所述采集接触网吊弦图像并对所述吊弦图像进行图像增强处理，获得吊弦缺陷样本集，具体包括：

采集高速铁路运行过程中的接触网吊弦图像；

基于改进后的图像增强算法对接触网吊弦图像进行图像增强处理，在任一吊弦图像中随机生成N个mask区域，并依据mask区域的数量N，过滤遮挡住吊弦关键特征的mask区域，获得吊弦缺陷样本集；

将吊弦缺陷样本集划分为训练样本和验证样本。

进一步地，所述依据mask区域的数量N，过滤遮挡住吊弦关键特征的mask区域，具体包括：

若N＝1，则过滤掉吊弦图像中完全遮挡住吊弦的单个mask区域；

若N＝2，则过滤掉吊弦图像中遮挡住吊弦上下两端的两个mask区域；

若N≥3，则过滤掉吊弦图像中完全遮挡住吊弦的单个mask区域，以及过滤掉吊弦图像中遮挡住吊弦上下两端的任意两个mask区域。

进一步地，所述利用基于约束的可变卷积网络构建卷积模块，同时依据改进的高效率多头自注意力机制构建自注意模块，并基于最优模块分配比例将所述卷积模块与自注意模块进行深度融合，生成多块交叉混合网络，具体包括：

依据高宽比吊弦线的高宽比例，采用约束关系对可变卷积网络中采样点位置的高宽坐标比例进行约束，同时限制采样点位置的高宽坐标不超过输入特征图的高宽，获得基于约束的可变卷积网络，并通过基于约束的可变卷积网络构建卷积模块；

对原始Transformer自注意力机制中的键向量K和值向量V分别进行空间降维操作，获得改进的高效率多头自注意力机制并依据改进的高效率多头自注意力机制构建自注意模块；

基于FasterRCNN模型中的主干网络架构，依据最优模块分配比例分配主干网络架构中的卷积模块数量与自注意模块数量，并将所述卷积模块与自注意模块进行新范式融合，生成多块交叉混合网络。

进一步地，所述最优模块分配比例具体为：卷积模块数量：自注意模块数量＝7:2。

进一步地，所述利用所述多块交叉混合网络改进FasterRCNN网络，并基于所述吊弦缺陷样本集对改进后的FasterRCNN网络进行训练和验证，获得训练好的FasterRCNN改进模型，具体包括：

将FasterRCNN网络的主干网络架构替换为所述多块交叉混合网络的网络架构，获得改进后的FasterRCNN模型；

基于吊弦缺陷样本集中训练样本对改进后的FasterRCNN网络进行训练，训练完成后利用验证样本对模型进行验证，获得训练验证好的FasterRCNN改进模型。

本发明的有益效果：本发明提供了基于CNN与Transformer融合的接触网吊弦缺陷检测方法，方法采集接触网吊弦图像并对所述吊弦图像进行图像增强处理，获得吊弦缺陷样本集；利用基于约束的可变卷积网络构建卷积模块，同时依据改进的高效率多头自注意力机制构建自注意模块，并基于最优模块分配比例将所述卷积模块与自注意模块进行深度融合，生成多块交叉混合网络；利用所述多块交叉混合网络改进FasterRCNN网络，并基于所述吊弦缺陷样本集对改进后的FasterRCNN网络进行训练和验证，获得训练好的FasterRCNN改进模型；将所述FasterRCNN改进模型部署于吊弦检测设备，实时抓拍高速铁路的接触网吊弦图像并输入所述吊弦检测设备进行吊弦缺陷检测，识别接触网中的吊弦缺陷。本申请通过对吊弦图像进行图像增强处理来获取吊弦缺陷样本集，增加了吊弦缺陷样本，解决吊弦被遮挡且吊弦训练样本量少问题。同时本申请通过利用基于约束的可变卷积网络构建卷积模块，满足了吊弦特征要求，并提升了吊弦缺陷识别能力。同时依据改进的高效率多头自注意力机制构建自注意模块，并基于最优模块分配比例将卷积模块与自注意模块进行深度融合，生成多块交叉混合网络，将CNN与transformer进行交叉融合来解决吊弦雨天，雾天，强太阳光，夜晚等自然场景环境下的缺陷识别效果差的问题，而且也能够对被遮挡以及远距离小目标吊弦缺陷精准识别，从而提高了吊弦缺陷识别的召回率和精准率。

附图说明

图1是本发明的基于CNN与Transformer融合的接触网吊弦缺陷检测方法流程图；

图2是现有的吊弦缺陷种类示意图；

图3是真实应用环境中吊弦缺陷识别问题示意图；

图4是现有模型误识别吊弦的实例图；

图5是FasterRCNN改进模型架构图；

图6是图像增强后的吊弦图像样本图；

图7是采用不同卷积神经网络进行缺陷识别的卷积采样示意图；

图8是双线插值原理示意图；

图9是传统混合网络和多块交叉融合混合网络的骨干网络架构对比图；

图10是本申请主干网络的单个阶段中CB块与TB块交叉融合形成的网络结构示意图；

图11是本发明的CB块结构示意图；

图12是本发明的TB块结构示意图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图说明本发明的具体实施方式。

接触网是电气化铁路的重要组成部分，是列车高速运行的动力之源。吊弦是接触线与承力索间振动、力、电流的传递者，是改善接触网受流性能和受力性能的重要零部件，是保障电气化铁路接触网安全使用的关键部分之一，通常包括吊弦线和吊弦线两端的吊弦线夹。吊弦在柔性接触网系统中可以在不增加支柱的条件下，增加每个跨距中对接触线的悬挂点，实现接触网整体弹性和接触线弛度的改善和提升。

在铁路运输过程中，一旦发生吊弦断裂现象，如果不能及时发现和检修，吊弦断裂位置处的接触线会下沉，造成接触线与轨道的不平行，使受电弓取流受到影响，完全断裂的吊弦下垂后，在风力的作用下，很容易与接触线纠缠在一起，会打坏受电弓或损坏接触线，导致列车运行故障，危及乘客生命和财产安全。因此，对吊弦缺陷实时检测并预警确保接触网的安全性和可靠性，对于高速铁路的安全运营具有重要意义。

因此，本申请将CNN与transformer进行交叉融合，可以在吊弦雨天、雾天、强太阳光和夜晚等自然场景环境下进行吊弦缺陷识别，而且也能够对被遮挡以及远距离小目标的吊弦缺陷进行精准识别，提高了吊弦缺陷识别的召回率和精准率。

参照图1所示，图1示出了一种基于CNN与Transformer融合的接触网吊弦缺陷检测方法，包括：

S1：采集接触网吊弦图像并对所述吊弦图像进行图像增强处理，获得吊弦缺陷样本集；

S2：利用基于约束的可变卷积网络构建卷积模块，同时依据改进的高效率多头自注意力机制构建自注意模块，并基于最优模块分配比例将所述卷积模块与自注意模块进行深度融合，生成多块交叉混合网络；

S3：利用所述多块交叉混合网络FasterRCNN网络进行改进，并基于所述吊弦缺陷样本集对改进后的FasterRCNN网络进行训练和验证，获得训练好的FasterRCNN改进模型；

S4：将所述FasterRCNN改进模型部署于吊弦检测设备，实时抓拍高速铁路的接触网吊弦图像并输入所述吊弦检测设备进行吊弦缺陷检测，识别接触网中的吊弦缺陷。

其中，现有的FasterRCNN模型应用于复杂真实场景中无法满足吊弦缺陷检测的要求，存在大量低召回率和低精度识别的问题，而且高速运动下实时图像抓拍，需要较低的推理时延，现有的FasterRCNN模型的推理时延也无法满足这一要求。因此，本申请主要通过FasterRCNN网络进行改进来实现吊弦的缺陷检测。

具体的，参照图2所示，由于吊弦长年暴露在外部环境，受气候因素、运行环境影响较大，同时，吊弦零部件易受高频振动的影响，从而引发应力疲劳、吊弦断、脱落等问题，缺陷数量呈几何数据的增长。其中，吊弦缺陷种类很多，为了方便归类和识别，我们将其划分为5大缺陷:吊弦线断裂、吊弦脱落(吊弦线夹上端脱落，下端脱落)、吊弦弯曲、吊弦线散股和吊弦安装不规范。图2中的a1部分的附图展示了吊弦线断裂的缺陷，d1部分的附图展示了吊弦弯曲的缺陷，e1和f1部分的附图展示了吊弦线松弛的缺陷，b1和c1部分附图分别表示吊弦的上脱落和下脱落缺陷。

由于中国高铁覆盖范围广，里程长，气候与地貌复杂多样。受自然天气，季节变化，光照、吊弦被遮挡等因素的影响，实际应用场景下吊弦缺陷识别难度很大。图3罗列了实际应用中吊弦识别遇到的问题。图3中的a2部分呈现了列车高速运动下图像出现拖隐，整个图像模糊不清的问题；b2部分附图显示了隧道光线暗，整个图像成像昏暗的问题；c2部分附图显示了镜头脏，部分图像被遮挡的问题；d2部分附图显示了图像遭遇复杂的背景，目标物与背景交织一起，很难分辨吊弦目标的问题；e2和f2部分的附图显示了图像中的吊弦被受电弓遮挡或者被燃弧截断的问题。g2、h2、i2和j2部分附图显示了吊弦图像受到大雾天气、夜晚、暴雨天气、强太阳光等恶劣天气影响，吊弦图像模糊不清、很难识别的问题。可见，在真实应用环境中，吊弦识别过程会遇到各类复杂情况，大大增加了吊弦缺陷识别难度。

参照图4所示，而现有技术采用FasterRCNN及其优化改进模型，或CNN与transformer融合模型对吊弦进行缺陷识别都存在如下问题：1、将定位管、电连接线接头、电连接线和防风拉线误识别为吊弦，如图4中的a3、b3、d3和e3部分的附图所示；2、吊弦被遮挡后误识别为吊弦断缺陷，如图4中的如图c3部分附图所示；3、远距离小目标漏识别，如图4中的f3部分附图所示。针对真实场景下吊弦及其缺陷存在大量低召回率和精准率问题，现有模型不能满足吊弦缺陷识别的要求，因此需要对吊弦内部特征进行大量分析，根据分析的结果然后设计构建相应的模型来满足吊弦的缺陷识别要求，从而确保高铁接触网安全运营。

本申请基于FasterRCNN模型进行了三个方面改进，来实现被遮挡情况下吊弦线缺陷检测，以及提高吊弦缺陷检测的召回率和精准率，从而为高铁接触网安全智能运营提供强有力的支撑。

现有的FasterRCNN模型架构主要包括输入层、骨干网络(也称主干网络)、neck、Head检测头和输出层。主干网络中分为四个阶段(stage)，每个阶段含有一定数量的卷积模块。

而本申请改进后的模型如图5所示，主要进行了三方面改进：1)基于现有图像增强方法和吊线固有特性，提出了Limited cutout算法(即L-cutout)，来解决吊弦训练样本量少问题，2)针对可变卷积对吊弦缺陷识别的局限性和吊弦长宽比巨大差异性，提出了基于约束的可变卷积(C-DCV)来提升吊弦的识别性能；3)针对图像识别对CNN局部感知和ViT长范围的依赖，构建一个新型的主干网络来进行吊弦缺陷检测。受到残差网络激励，本申请将3x3卷积通过C-DCV替换，构建了一种新型的残差网络，我们称之为CNN block(本申请简称CB)。本申请也优化了HMSA效率，并与FFN结合，构建了一种高效的自注意模块，称之为transformer block(本申请简称TB)。

进一步地，在一个实施例中，所述采集接触网吊弦图像并对所述吊弦图像进行图像增强处理，获得吊弦缺陷样本集，具体包括：

采集高速铁路运行过程中的接触网吊弦图像；

将吊弦缺陷样本集划分为训练样本和验证样本。

其中，所述依据mask区域的数量N，过滤遮挡住吊弦关键特征的mask区域，具体包括：

具体实践过程中，本申请先对采集的吊弦图像进图像增强，图像增强有利于图像分类、目标检测以及语义分割等识别场景。通常图像增强采用传统图像增强算法，例如翻转(Flip，Rotation，Scale等)。近些年涌现了新的图像增强算法如cutout，mixup，及cutmix等，能够进一步提升图像识别能力。然而将这些新算法如果直接应用于吊弦缺陷检测，将会导致检测召回率和精准率严重下降。究其原因，主要是由于这些算法采用随机掩码，图像覆盖等操作，掩盖了吊弦关键特征，即掩盖了两端吊弦线夹(Dropper clamp)，留下吊弦线(Dropper wire)，导致后续识别过程中模型将线条识别为吊弦。

现有图像增强技术吊弦样本上的增强识别结果参照图6所示，其中，图6中的a4部分附图代表标准吊弦样本；b4和c4部分附图展示了保留关键吊弦信息的图像增强结果；d4、e4和f4部分的附图展示了遮挡关键吊弦信息的图像增强结果。

针对上述图像增强算法存在的问题，本申请提出了一种基于cutout方法改进的算法，称之为Limited cutout(L-cutout)算法，该算法随机生成mask区域，但mask区域(也称mask块)不能遮挡吊弦的显著特征，即至少保留一个吊弦线夹不被遮挡(如图6中的b4和c4部分附图所示)。L-cutout在吊弦缺陷识别方面具有以下优点：1)提高被遮挡吊弦识别能力；2)增加了吊弦缺陷样本，有利于模型充分的训练。

本申请的L-cutout算法总体思路为：在吊弦图像中随机生成mask区域，但是需要过滤遮挡吊弦关键特征的mask区域(如图6的d4、e4和f4部分)。L-cutout算法的具体处理过程如下：

首先，设随机生成的mask区域在图像中位置和尺寸用(X_mask,Y_mask,W_mask，H_mask)表示，其中X_mask,Y_mask表示起始点坐标，W_mask,H_mask表示mask在图中的宽和高。标注的吊弦样本Ground Truth在图像中用(X_GT,Y_GT,W_GT,H_GT)表示，其中X_GT,Y_GT表示起始坐标，W_GT,H_GT表示高宽。物理吊弦透视到图像中，L_dw表示吊弦线在图中的长度，L_dc表示吊弦夹的长度。

其次，算法对mask区域进行过滤，算法的过滤逻辑如下：

其中，算法的过滤逻辑具体实现过程如下：依据第2行处理逻辑，在输入样本中随机生成N个masks块；当mask块数目N为1时，过滤掉吊弦图像中完全遮挡住吊弦的单个mask块，依据第3行到17行的处理逻辑获取吊弦样本；当mask块数目N为2时，过滤掉吊弦图像中遮挡住吊弦上下两端的两个mask块，依据第18行到29行的处理逻辑获取吊弦样本；当mask块数目N≥3时，将每个mask块进入N＝1的处理逻辑分支进行过滤，同时将任意两个mask块进入N＝2的处理逻辑分支进行过滤。

进一步地，在一个实施例中，所述利用基于约束的可变卷积网络构建卷积模块，同时依据改进的高效率多头自注意力机制构建自注意模块，并基于最优模块分配比例将所述卷积模块与自注意模块进行深度融合，生成多块交叉混合网络，具体包括：

其中，所述最优模块分配比例具体为：卷积模块数量(CB)：自注意模块数量(TB)＝7:2，该比例为本申请的最优分配比例。进一步地，依据最优模块分配比例分配主干网络架构中的卷积模块数量与自注意模块数量具体是：按照主干网络中每个stage的模块数量，将stage中模块以7个CB块与2个TB块为一组的排列方式划分多组模块，将多组模块之间进行串联，融合形成主干网络中的一个stage。本申请主要是对主干网络中的Stage2、Stage3和Stage4的模块数量进行分配和融合。在本申请的另一些实施例中，也可以根据模型中网络的架构对模块分配比例进行相应调整，本申请在此不再赘述。

具体实践过程中，可变形卷积在采样时可以更贴近物体的形状和尺寸，而卷积神经网络的采样不能随着物体形状变化而跟随变化，受限于CNN模块的固定几何结构，卷积神经网络对高宽相等物体更加友好，而可变形卷积神经网络对多样性形状物体识别更有利，由于吊弦线宽高比例不相等，通常高比宽大的多，采用卷积神经网络对吊弦线识别不利，因此选择可变的卷积神经网络对吊弦线缺陷进行识别。

参照图7，本申请基于吊弦图像介绍了三种卷积采样图，其中，Dropper代表吊弦样本，SC代表标准卷积，DCV2代表可变形卷积，C-DCV代表基于约束的可变形卷积，图7的a5部分附图示出了实际的吊弦图像，b5部分附图展示了标准卷积的采样图，c5部分附图展示了可变形卷积的采样图，d5部分附图展示了基于约束的可变形卷积的采样图。可以看出，C-DCV可以根据吊弦线的高宽比在采样过程中进行相应的变化。

而将DCV1和DCV2直接应用到吊弦缺陷检测中，模型整个性能有小幅度提高，但不能充分发挥可变卷积的能力。主要原因是：尽管可变卷积根据物体形状进行采集识别，但是没有专门针对吊弦这个类型特征，即吊弦高远大于宽的这一特定特征。

针对可变卷积适用对象深入研究，并结合吊弦固有特征进行分析，本申请提出了针对吊弦特例固有特征卷积网络，称之为约束的可变卷积(Constraint-based deformableConvNets,C-DCV)，不仅可以应用吊弦缺陷检测，也可以应用于其他高大于宽的物体识别。

具体的，基于约束的可变形卷积算法(本申请简称C-DCV算法)如下式(1)所示：

其中，H和W表示输入特征图的高宽，p_k表示输入特征图中的原始采样点，h_pk和w_pk表示p_k的高宽坐标；Δw_k和Δh_k表示p_k对应的偏移量；x表示p_k位置的特征；α表示可伸缩参数，目的是确保Δw_k和Δh_k之间的比例关系限制。p+p_k+offset_k(Δw_k,Δh_k)为p_k的采样点坐标，由于DCV2通过卷积操作没有限制的生成Δw_k和Δh_k，导致超出边界。因此，本申请的C-DCV采用约束关系，约束h_pk和w_pk之间的比例关系，让其趋近于吊弦高宽比例，同时限制h_pk和w_pk不能超出输入特征图的范围。

同时，offset_k(Δw_k,Δh_k)通过卷积生成Δw_k和Δh_k，可能是一个小数，因此p+p_k+offset_k(Δw_k,Δh_k)坐标不是整数，因此需要通过双线插值获得图像里整数坐标位置，再根据整数坐标获取对应特征值，将小数坐标分解到相邻的四个整数坐标点来计算结果。具体操作过程如下：

双线性插值原理如图8所示，训练获得坐标P_k(X,Y)不为整数，P_k对应的相邻的4个在图中坐标点为Q11(x₁,y₁),Q12(x₁,y₂),Q21(x₂,y₁)，Q22(x₂,y₂)，他们对应的特征值分别为f(Q₁₁)，f(Q₁₂)，f(Q₂₁)，f(Q₂₂)。我们通过双线插值方法将计算P值。其中，双线性插值的原理可以参照现有技术(http://www.cnblogs.com/yssongest/p/5303151.html)实现。

首先在x方向进行线性插值，得到公式(2)：

然后在y方向进行线性插值，得到公式(3)：

综合起来就是双线性插值最后的结果，即公式(4)：

由于图像双线性插值只会用相邻的4个点，因此上述公式4的分母都是1。这里P_k(X,Y)计算过程如下列公式(5)所示：

进一步地，在一个实施例中，所述利用所述多块交叉混合网络FasterRCNN网络进行改进，并基于所述吊弦缺陷样本集对改进后的FasterRCNN网络进行训练和验证，获得训练好的FasterRCNN改进模型，具体包括：

基于吊弦缺陷样本集中训练样本对改进后的FasterRCNN模型进行训练，训练完成后利用验证样本对模型进行验证，获得训练验证好的FasterRCNN改进模型。

具体实践过程中，吊弦缺陷识别不仅要求高召回率和高精准率，并且要求图像实时推理不少于12fps。尽管现有很多算法实时性能够满足吊弦缺陷识别要求，但是在召回率和精准率方面不够，严重影响高铁安全运营。针对该问题，本申请提出了一种将CNN与transformer相结合的新型模型来解决吊弦缺陷识别问题。首先提出了一个高性能和高效率的多头注意力，来提高transformer的计算效率和较少权重参数，然后构建了CNN与transformer融合新范式。

具体处理过程如下：

1、高性能与高效率的多头自注意力机制(HE-MHSA):

自注意力机制是一种基于缩放点积的注意力机制，其将原始序列的输入向量投影至三个不同的空间，作为query、key和value，即对应查询向量Q、键向量K和值向量V，每个序列中的输入都会对整个序列进行注意力计算，包括自身。

原始transformer的自注意力，随着输入图像分辨率增大，计算代价和内存消耗几何数增长。许多工作通过降低输入K和V向量的空间分辨率来减少SA的计算代价，然而这些操作存在重要特征信息丢失，甚至引入新的噪声，导致后续的MHSA表征能力衰减。

针对上面的问题，我们提出了HE-MHSA，不仅降低计算和内存开销，而且不影响模型的表征能力。具体实现过程如下：首先，我们构建一个新型的空间降维操作，如公式(6)所示。其目的是降低向量K和V的维度，本申请提出的空间降维操作既不丢失特征信息并且又不会引入新噪声。

其中，SR(.),AVG(.),DW(.)分别表示通常空间降维操作，平均池化操作，可变卷积操作。这三类操作对键向量K执行降维操作，分别获得了经过通常空间降维操作、平均池化操作和可变卷积操作后的向量K_sr，K_avg，K_dw。分别对向量V执行上述三类降维操作，分别获得经过通常空间降维操作、平均池化操作和可变卷积操作后的向量V_sr，V_avg，V_dw。然后将降维后的向量K_sr，K_avg，K_dw相加获得低分辨率的向量K*，即K_sr+K_avg+K_dw→K*，同时将降维后的向量V_sr，V_avg，V_dw相加获得低分辨率的向量V*，即V_sr+V_avg+V_dw→V*。

其次，将z、V*和K*作为输入，应用到MHSA，获得特征Z，如公式(7)所示：

其中，z表示特征图像，作为transformer块的查询输入，低分辨率的向量V*和K*分别表示key和value值输入，输出特征Z是通过transformer块处理获得。

2、CNN与ViT融合新范式

FasterRCNN的主干网络由四个stage构成，如图9中a6部分附图所示，每个stage由多个重叠的CNN block组成。CNN与ViT传统的融合网络如图9中的b6、c6、d6、e6和f6部分附图所示，其中图9的b6、c6、d6部分附图所示的网络是将FasterRCNN的主干网络(backbone)最后一个或几个阶段通过多个重叠的transformer block进行替换，构建新的检测器。尽管这些方式在图像识别效果方面有较大的提升，但是增加了计算复杂度和权重参数，导致推理延迟较大，无法满足高速列车上实时识别要求。图9中的e6和f6部分附图所示的网络在延迟(latency)与准确性(accuracy)方面做了一个折中trade-off，但是无法满足吊弦识别的高召回率和高精度需求。

参照图9中的g6部分附图所示，基于上述问题，本申请提出了一个新型的高精度高效率的CNN与ViT融合新范式，称之为multi-block cross-fusion混合网络，即多块交叉融合混合网络(MCHN)，网络采用(CBxN_C+TBxN_T)xL方式替换了现有next-ViT的(CB xN+TB x1)xL。

其中，本申请的MHCN与next-ViT主要区别体现在如下三点:

1)本申请每个阶段的transformer block的数量是可变的，不是固定的1，这样更进一步能够捕获全局特征和长范围的依赖；

2)本申请MHCN的CNN block采用的约束的可变卷替换了标准可变卷积；

3)本申请transformer block采用了一个高性能与高效率的多头自注意力机制替代了原始transformer的MHSA。

基于上述改进，本申请构建的MHCN网络模型体现出2个方面优点：1)不仅能够满足高精度和高召回率，而且满足高速度下的实时推理要求。更进一步，该方式根据吊弦检测的要求，更加合理在精度和效率方面做一个更好的折中，满足实际场景要求。2)MHCN网络兼容所有传统方式，传统模式都是图9中g6部分附图所示网络结构的特例。例如当NT＝1时，则MHCN网络演变成图9中e6部分附图所示的网络。而且本申请MHCN在stage2到stage4中，CNNblock与transformer block的分配比例更加灵活，可以根据实际场景需求来配置相关的模块分配比例。

本申请通过固定图9中stage1，stage2和stage4中的模块总数量，来研究CNNblock与transformer block合理的分配比例，借此进一步来优化模型的性能。为了更加公平的对比，所有模型在相同的stage中采用近似相等的block数目。通过大量实验验证，MHCN比next-ViT在吊弦识别和推理速度方面更加具有优势。MHCN模型中，CNN block与transformer block最优配置比例是7:2，模型性能表现更好，延迟较小。其中，按照最优配置比例分配将CB块与TB块交叉融合所形成的网络结构如图10所示，将模块以7个CB块与2个TB块为一组的排列方式，将多组模块依次串联形成一个stage。

具体的，参照图11所示，本申请提供的CB块的具体结构包括依次连接的一个3×3的C-DCV层、一个Batch Norm层和一个Dy-Relu层。参照图12所示，本申请提供的TB块包括依次连接的一个HE-MHSA层和一个FFN层。

为进一步对本申请提出的方法进行验证，本申请通过设置相应的实验环境对方法的性能进行实验验证，具体过程如下：

(1)实验环境

累积了大约14300张样本数据，包括正常吊弦，吊弦断，吊弦脱，吊弦弯曲，吊弦散股，吊弦安装不规范7大类样本，每类样本数目如表1所示：

表1吊弦样本数目表

其中，Trainset占用80％，testset占用20％。模型loss算法采用focal loss方式，来解决难易样本和不均衡样本。

由于样本不均衡，导致模型更加倾向与样本数量多的类型，因此，针对每类样本数目不同，采用不同的新增策：样本多的种类追加20％样本，增强方法采用L-cutout算法，目的是提高遮挡识别；样本量少的采用传统方式(e.g.,roration,filp,etc)和L-cutout方式相结合，其中传统方式采用1:1的比例增强，L-cutout采用20％的增强。

(2)图像增强实验(cutout，mixup，cutmix，与L-cutout)进行比较；

实验环境：我们使用吊弦作为训练集和验证集,fasterRCNN作为我们实验网络。将L-cutout增强算法分别用cutout，mixup，cutmix替换，将cutout，mixup，cutmix增强的样本在同一模型训练，评估效果如表2所示：

表2，增强算法的效果比对表

从表2中很容易看出，数据增强方式不同，效果不一样。L-cutout明显优于cutout，mixup，cutmix。主要原因是，cutout，mixup和cutmix采用随机增强，将吊弦关键特征遮挡或者覆盖，导致识别精度下降，而L-cutout算法在数据增强时，避免了关键吊弦关键信息缺失。

(3)对比DCV2和C-DCV

我们对比DCV2和C-DCV对吊弦缺陷识别的影响。将DCV2和C-DCV分别替换主干网络stage2，stage3，stage4中的3x3卷积神经网络。将替换后两种网络进行训练，验证各自的召回率和精准率。DCV2和C-DCV的采样效果对比如表3所示，

表3DCV2和C-DCV的采样效果比对表

从表3可以看出，尽管C-DCV与DCV2在推理效率是相等的，但是C-DCV对吊弦识别精度和召回率更高。主要由于C-DCV在采样过程中，更加倾向吊弦固有特性，即offset学习了的高宽比例约束，提升了模型的吊弦识别能力。

(4)融合新范式对模型的影响：

为了公平的对比，所有模型在相同的stage中采用近似相等的block数目，其中专干网络stage1，stage2和stage4的blocks数目分别固定为3,4,3，我们调整stage3块数和CNN块与transformer块的分配比例来对比MCHN与传统的混合网络。实验采用ImageNet-22K作为模型预训练pre-training，训练300epoach。采用dropper样本进行微调训练和评估。

相同的测试环境下，MCHN与传统混合网络进行对比，其中主干网络中的stage1，stage2，stage4的block相等。

表4MCHN与传统混合网络的识别效果比对表

依据表4呈现的实验结果，通过传统的混合网络进行对比，不难看出，单调地将stage3整个阶段的cnn blocks通过transformer blocks替换，识别效果方面没有显著的提升，同时增加了推理时延。在阶段里采用cnn block与transformer block交叉融合，对性能方面有提升，推理延迟未显著增加，但是CNN block与transformer block在stage3分配比例不是最优的，无法发挥融合效果。MCHN在cnn block与transformer block分配比例方面做了优化，7:2的比例能发挥他们融合的优点，识别效果有大幅度的提升，并且推理时延较小。

本申请将CNN与transformer进行了交叉深度融合，所生成的多块交叉混合网络还兼容现有融合模式，且针对吊弦内在特性，本申请还提出了一种基于的基于约束的可变卷积和基于限制的L-cutout数据增强型算法。通过大量实验证明，本申请构建的多块交叉混合网络在复杂应用场景下不仅能大幅度提升吊弦识别的缺陷召回率和精准率，且识别延迟较小。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护的范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于CNN与Transformer融合的接触网吊弦缺陷检测方法，其特征在于，包括：

2.根据权利要求1所述的基于CNN与Transformer融合的接触网吊弦缺陷检测方法，其特征在于，所述采集接触网吊弦图像并对所述吊弦图像进行图像增强处理，获得吊弦缺陷样本集，具体包括：

采集高速铁路运行过程中的接触网吊弦图像；

将吊弦缺陷样本集划分为训练样本和验证样本。

3.根据权利要求2所述的基于CNN与Transformer融合的接触网吊弦缺陷检测方法，其特征在于，所述依据mask区域的数量N，过滤遮挡住吊弦关键特征的mask区域，具体包括：

若N=1，则过滤掉吊弦图像中完全遮挡住吊弦的单个mask区域；

若N=2，则过滤掉吊弦图像中遮挡住吊弦上下两端的两个mask区域；

4.根据权利要求1所述的基于CNN与Transformer融合的接触网吊弦缺陷检测方法，其特征在于，所述利用基于约束的可变卷积网络构建卷积模块，同时依据改进的高效率多头自注意力机制构建自注意模块，并基于最优模块分配比例将所述卷积模块与自注意模块进行深度融合，生成多块交叉混合网络，具体包括：

5.根据权利要求4所述的基于CNN与Transformer融合的接触网吊弦缺陷检测方法，其特征在于，所述最优模块分配比例具体为：卷积模块数量：自注意模块数量=7:2。

6.根据权利要求1所述的基于CNN与Transformer融合的接触网吊弦缺陷检测方法，其特征在于，所述利用所述多块交叉混合网络改进FasterRCNN网络，并基于所述吊弦缺陷样本集对改进后的FasterRCNN网络进行训练和验证，获得训练好的FasterRCNN改进模型，具体包括：