CN117036326A

CN117036326A - 一种基于多模态融合的缺陷检测方法

Info

Publication number: CN117036326A
Application number: CN202311061033.2A
Authority: CN
Inventors: 于军胜; 周凌伟; 杨淼; 彭真明
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2023-08-22
Filing date: 2023-08-22
Publication date: 2023-11-10

Abstract

本发明公开了一种基于多模态融合的缺陷检测方法，首先进行数据集标注，接下来将点云数据于视觉图像的视角相匹配，生成反射强度图。以经典的YOLO结构网络为基础，将原始的单输入BackBone修改为反射强度图及视觉图像双输入的BackBone。分别引出不同尺度下反射信息和视觉图像的特征层，并将两者进行特征融合。将融合的特征结果引入FPN结构，同时添加检测头。结合标注的缺陷信息进行模型训练。在检测过程中，对点云数据采用随机采样一致算法保留地面信息。同时结合点云深度信息与视觉图相匹配，得到缺陷深度信息。本发明对现有目标检测算法对缺陷难以准确检测，以及深度信息难以得到的问题进行了有效优化。

Description

一种基于多模态融合的缺陷检测方法

技术领域

本发明涉及一种基于多模态融合的缺陷检测方法，属于激光点云及视觉图像的特征融合及目标检测领域。

背景技术

道面病害事件的发生将导致道面寿命缩减、道面使用性能下降等，严重地影响了出行安全，并且加重了道面安全管理压力及运行成本。而道面出现的问题，最直观的影响就是存在明显的安全隐患和道面使用能力下降，跑道道面断裂，包括整块板和局部，出现错台或局部松动等，应当在发现后及时予以补休或者处理；道面的管理机构应当也需要及时对道面进行一次综合评价，包括功能评价和性能评价等。因此，迫切需要先进的道面检测、管理和维护技术，以提高道面使用性能，延长使用寿命。

欧美发达国家对路面的智能检测研究始于20世纪80年代后期，而我国现行道面危情检测基本上还停留在人工检测，显然这已成为制约各个机场航空交通系统快速发展的主要因素之一，已不能满足我国当前的国情实际。少数研究机构也开始采用视觉相机+目视评价体制，但基本只限于机场道面的裂缝检测，采用的方法仅局限于最基本的图像处理技术，其他道面结构性损伤关键参数的检测并未得到实际应用。

与单纯采用视觉(图像)摄像头相比，LiDAR能够更加准确的获取现实场景中的三维3D稀疏点云数据，具有测量精度方面的极大优势，且不受光照条件影响的特点能够很好弥补视觉信息的致命短板，更好地满足机场道面危情事件检测系统应对全天候、多工况等不同复杂场景的需求。同时，LiDAR还具有扫描视野广，抗干扰能力强等其他诸多优点。

在道面环境感知的诸多研究中，现有算法大都侧重于对道面区域的检测和提取，缺乏对道面状况的评估。综上所述，激光雷达与视觉信息协同的环境感知在遥感遥测、无人驾驶等领域有着重要的应用前景，目前已成为国内外研究的热点。因此，开展与此紧密相关的基础理论及关键术研究迫在眉睫。特别地，车载LiDAR与视觉信息协同感知技术在道面病害检测与分级评估中的应用，更是成为未来道面及时维护和智能化管理、保障出行安全提供科学决策的必然趋势。

发明内容

本发明的目的在于：提供了一种基于多模态融合的缺陷检测方法，解决了缺陷检测方法难以对缺陷进行准确检测，以及检测鲁棒性差的问题。

本发明采用的技术方案如下：

一种基于多模态融合的缺陷检测方法，主要包括以下几个步骤：

步骤1：获得对应的待检测的点云及图像信息；

步骤2：对已有的图像进行缺陷标注；

步骤3：点云数据处理，结合相机的参数，将点云的数据与视觉图像进行尺度匹配，并生成点云的反射强度图；

步骤4：对经典单阶段YOLO目标检测模型进行优化，将原始的视觉图像单输入BackBone修改为反射强度及视觉图像双输入的BackBone，同时引入基于信息熵特征的特征融合模块，并在将不同尺度的特征层进行按通道融合，后续引入FPN及Detect结构，结合标注的数据集，对修改后的模型进行训练；

步骤5：利用RANSAC算法对点云数据进行保留地面处理，再利用训练后的模型进行检测，得到最后的检测缺陷检测结果；

步骤6：对测试的结果进行三维尺度定位，三维尺度定位包括双目距离定位、基于深度图的投影定位将三维点云数据进行尺度匹配后保留深度信息，生成与图像相匹配的深度图，以缺陷检测框中心位置为主，将深度图中距离最近的深度信息作为缺陷的实际距离，同时测试缺陷的双目检测方法，通过双目相机的参数获取、立体校正、立体匹配及深度图的获取得到对应缺陷的三维信息；

步骤2的具体步骤如下：

步骤2.1：在得到点云及图像数据后，结合具体路况，将检测的缺陷一共分为四大类，分别为单缝裂痕、网状裂痕、坑洼、人为地面下沉；其中单缝裂痕包括纵向和横向裂痕；人为地面下沉为由于路面功能完整而人为导致的地面缺陷情况，包括人为设置的路面井盖或排水渠；

步骤3的具体步骤如下：

步骤3.1：提取点云数据中的calib文件用于点云数据的标定，其中为相机的内参矩阵，0、1、2、3依次分别为左侧灰度相机、右侧灰度相机、左侧彩色相机及右侧彩色相机；/>为0号相机的修正矩阵，/>为点云数据到相机的矩阵，包括了旋转矩阵R以及平移矩阵t，将点云数据投影到第i个相机体系下的转换公式为：

其中x为点云的空间三维坐标；

步骤3.2：将点云进行数据匹配后，删除多余的点云信息，与视觉图像内容保持一致；

步骤3.3：在步骤3.2的处理结果上，对点云数据保留高度差信息图，对所得到的高度差信息图进行插值处理，得到处理后的稠密化点云图；

步骤3.4：在步骤3.2的处理结果上，保留点云的反射强度信息，并按照反射强度信息生成彩色的反射强度图。

进一步地，步骤4的具体步骤如下：

步骤4.1：将原始YOLO的单输入BackBone修改为双输入的BackBone，将得到的反射强度图以及视觉图像分别输入各自的BackBone；引出不同尺度的特征层进行通道融合，将融合的特征层输入FPN结构中，并在后续下采样的过程中添加Detect模块，实现对不同大小的目标进行检测；

步骤4.2：对于不同的双输入BackBone进行测试；

步骤4.3：在特征融合的模块中，根据图像信息量的不同，在融合模块中引入基于信息熵的融合方法，在图像中像素点的分布越均匀，则认为该图像所表达的信息量越大，其中信息熵的提取公式为：

其中x_i为对应像素点强度，p(x_i)为对应像素点出现的概率；

步骤4.4：在融合的过程中引入CBAM及Biformer的注意力机制，在通道融合的C3模块中添加注意力机制，形成新的C3CBAM及C3Biformer模块。

进一步地，步骤5的具体步骤如下：

步骤5.1：为得到点云中包含的地面数据，利用随机采样一致性算法对点云数据集进行地面模型估计，空间中地面模型为平面结构，平面在三维空间中的结构为：

z＝ax+by+c

步骤5.2：平面拟合的过程为在总的点云数据集中随机筛选出一个子集作为内点，并以内点进行平面的拟合；

步骤5.3：用步骤5.2得到的结果去测试其他的点云数据，将测定垂直距离与设定的阈值进行对比，若符合条件则为内点，否则为外点；

步骤5.4：利用5.3中得到的数据测试新的模型，对比旧模型的训练结果若有更多的内点，则保存新的模型，否则继续保存旧模型；

步骤5.5：重复5.2，5.3，5.4的过程，直到满足迭代条件或者满足迭代次数；

步骤5.6：将满足条件的模型及内点在点云数据中保存，留下剩余的路面点云信息，并重复步骤3中的过程，保存缺陷检测用的保留地面高度稠密化点云图以及保留地面反射强度图。

进一步地，步骤6的具体步骤为：

步骤6.1：利用步骤4中的双输入BackBone目标检测模型对目标数据集进行缺陷检测，得到缺陷的检测框；

步骤6.2：取检测框的中心作为后续测距的目标点；将步骤3.2中得到的点云深度图像与视觉图像相匹配；保留点云的深度信息，则匹配后的视觉图像也包含有对应的深度图，将得到的中心位置与深度图相匹配，距离最近的深度点所包含的深度信息即为缺陷的深度信息；

步骤6.3：同时得到双相机下的左、右视图，结合数据集中所给参数得到相机的内参矩阵，畸变系数，旋转矩阵，平移向量；

步骤6.4：接下来对双相机进行立体校正，将拍摄于同一场景的左、右两个视图进行数学上的投影变换，使得两个成像平面平行于基线，且同一个点在左右两幅图中位于同一行；

步骤6.5：进行双相机的立体匹配，即找到左图中的每一个像素点在右图中的对应点，并得到左、右视图的视差图；

步骤6.6：在得到视差图后，结合相机参数，即可以得到对应视图的深度图，及每个像素点对应的深度信息；

步骤6.7：对于视图中的每个像素点，即可在深度图中直接读取对应的空间三维坐标。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1.一种基于多模态融合的缺陷检测方法，将传统的单输入目标检测修改为结合点云的双输入目标检测方法，将点云的特征信息图以及视觉图像分别经过BackBone，将两者的特征进行融合，有效加强的缺陷检测中的视觉鲁棒性，尤其是在雾天雨天等极端天气环境下，结合激光点云的数据特征能够有效提升缺陷的目标检测效果；同时测试了多个双输入BackBone结构和多种模块，在视觉环境理想的情况下检测效果也有着一定的提升，从而提高了检测准确度和检测鲁棒性；

2.本发明利用RANSAC算法对点云特征图保留地面处理，能够有效非路面缺陷对最后检测结果的影响有着提升缺陷检测的准确度，同时在目标检测的模型中集成了测距方法，对于有点云信息的情况下可以直接利用点云视觉图像相互映射的方法，得到准确的缺陷距离信息而在没有点云信息的情况下，本发明也提供的双目测距方法，单准确度及鲁棒性会有所下降；

3.本发明利用修正模型结构的方法进行视觉图像及点云数据下道面的缺陷检测，可以准确地得到缺陷的位置，同时，具有还能够获得缺陷的距离信息，提高了检测的准确度，又加强了检测的鲁棒性，也为图像的检测集成了测距方法。

附图说明

本发明将通过例子并参照附图的方式说明，其中：

图1是一种基于多模态融合的缺陷检测方法的流程图；

图2是本发明实施例1中所采用的激光点云图；

图3是本发明实施例1中所采用的视觉图像；

图4是对数据集标注中的四种不同类型缺陷；其中，A为单缝裂痕；B为网状裂痕；C为坑洼；D为人为地面下沉；

图5是本发明实施例1中点云数据尺度转换后的结果；

图6是本发明实施例1中三种不同尺寸的BackBone；其中，A为去除SPPF结构；B为将点云特征集合到视觉特征；C为点云特征与视觉特征互相融合；

图7是本发明实施例1中利用点云数据投影得到的缺陷检测结果；

图8是本发明实施例1中利用双目距离检测得到的缺陷检测结果，其中，A为双目测距左视图结果；B为双目测距右视图结果。

具体实施方式

本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

下面结合图1-至图6对本发明作详细说明。

实施例1：

步骤1：获得对应的待检测的点云及图像信息，获得的点云与图像信息如下图2所示，获得的视觉图像如图3所示；

步骤2：在得到点云及图像数据后，结合具体路况，将检测的缺陷一共分为四大类，如图4所示，分别为单缝裂痕(A)、网状裂痕(B)、坑洼(C)、人为地面下沉(D)；其中单缝裂痕包括纵向和横向裂痕；人为地面下沉为由于路面功能完整而人为导致的地面缺陷情况，包括人为设置的路面井盖或排水渠；

步骤3.1：提提取点云数据中的calib文件用于点云数据的标定，其中为相机的内参矩阵，0、1、2、3依次分别为左侧灰度相机、右侧灰度相机、左侧彩色相机及右侧彩色相机；/>为0号相机的修正矩阵，/>为点云数据到相机的矩阵，包括了旋转矩阵R以及平移矩阵t，将点云数据投影到第i个相机体系下的转换公式为：

其中x为点云的空间三维坐标，点云图像在经过视角转换后的结果如图5所示。

步骤3.2：将点云进行数据匹配后，删除多余的点云信息，与视觉图像内容保持一致。

步骤3.3：在步骤3.2的处理结果上，保留点云的反射强度信息，并按照反射强度信息生成彩色的反射强度图；

步骤4：对经典的YOLO目标检测模型进行优化，将原始的视觉图像单输入BackBone修改为反射强度及视觉图像双输入的BackBone，并在将不同尺度的特征层进行按通道融合，后续引入FPN及Detect结构，结合标注的数据集，对修改后的模型进行训练；

步骤4.1：将原始YOLO的单输入BackBone修改为双输入的BackBone，将得到的反射强度图以及视觉图像分别输入各自的BackBone。引出不同尺度的特征层进行通道融合，将融合的特征层输入FPN结构中，并在后续下采样的过程中添加Detect模块，实现对不同大小的目标进行检测；

步骤4.2：对于不同的双输入BackBone进行测试，根据实际需求一共设计了三种BackBone，具体类型如图6所示，其中，A为去除SPPF结构；B为将点云特征集合到视觉特征；C为点云特征与视觉特征互相融合；

步骤4.3：对于不同的图像特征在融合模块中引入基于信息熵的融合方式，对于不同信息量的图像具体参数进行量化；

步骤4.4：同时在融合过程中引入CBAM及Biformer的注意力机制，在通道融合的C3模块中添加注意力机制，形成新的C3CBAM及C3Biformer模块；

步骤5：利用随机采样一致性算法对点云数据进行保留地面处理，再利用训练后的模型进行检测，得到最后的检测缺陷检测结果；

步骤5.1：利用随机采样一致性算法进行点云数据集的地面模型估计。对于点云数据的地面模型为平面，平面在三维空间中的结构为：

z＝ax+by+c

步骤5.2：平面拟合的过程为在总的点云数据集中随机筛选出一个子集(以三个点)作为内点，并以内点进行平面的拟合；

步骤5.3：在步骤5.2得到的结果取测试其他的点云数据，将测定垂直距离与设定的阈值进行对比，若符合条件则为内点，否则为外点；

步骤5.4：利用步骤5.3中得到的数据测试新的模型，对比旧模型的训练结果若有更多的内点，则保存新的模型，否则继续保存旧模型；

步骤5.5：重复步骤5.2，步骤5.3，步骤5.4的过程，直到满足迭代条件或者满足迭代次数；

步骤5.6：将满足条件的模型及内点在点云数据中保存，留下剩余的路面点云信息，并重复步骤3中的过程，保存缺陷检测用的保留地面高度稠密化点云图以及保留地面反射强度图；

步骤6：将3维点云数据进行尺度匹配后保留深度信息，生成与图像相匹配的深度图，以缺陷检测框中心位置为主，将深度图中距离最近的深度信息作为缺陷的实际距离，同时测试缺陷的双目检测方法，通过双目相机的参数获取，立体校正，立体匹配及深度图的获取得到对应缺陷的三维信息；

步骤6.2：取检测框的中心作为后续测距的目标点，将步骤3.2中得到的点云深度图像与视觉图像相匹配。保留点云的深度信息生成视觉图像对应的深度图，将得到的中心位置与深度图相匹配，距离最近的深度点所包含的深度信息即为缺陷的深度信息，缺陷检测结果及对应距离信息如图7所示；

步骤6.3：同时得到双相机下的左右视图，在理想情况下的双目测距公式为：

其中x_l，x_r为左右视图同一像素的位置，d为两者坐标差，T为两个相机的基线差，Z为测距结果，f为相机焦距。

步骤6.4：在实际测试中需要得到数据集中所给参数得到相机的内参矩阵，畸变系数，旋转矩阵，平移向量。接下来对双相机进行立体校正，将拍摄于同一场景的左右两个视图进行数学上的投影变换，使得两个成像平面平行于基线，且同一个点在左右两幅图中位于同一行；

步骤6.5：进行双相机的立体匹配，为左图中的每一个像素点在右图中找到其对应点，并得到左右视图的视差图；

步骤6.7：对于视图中的每个像素点，即可在深度图中直接读取对应的空间三维坐标，结果如图8所示，A为左视图检测结果，B为右视图检测结果。

本发明在获取点云数据及视觉图像后，首先进行点云数据预处理，得到点云特征图将点云的特征信息图以及视觉图像分别经过BackBone，将两者的特征进行融合，有效加强的缺陷检测中的视觉鲁棒性，尤其是在雾天雨天等极端天气环境下，结合激光点云的数据特征能够有效提升缺陷的目标检测效果。利用RANSAC算法对点云特征图保留地面处理，能够有效非路面缺陷对最后检测结果的影响有着提升缺陷检测的准确度，同时在目标检测的模型中集成了测距方法，对于有点云信息的情况下可以直接利用点云视觉图像相互映射的方法，得到准确的缺陷距离信息而在没有点云信息的情况下，本发明也提供的双目测距方法。

以上所述，仅为本发明的优选实施方式，但本发明的保护范围并不局限于此，任何熟悉本领域的技术人员在本发明所揭露的技术范围内，可不经过创造性劳动想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书所限定的保护范围为准。

Claims

1.一种基于多模态融合的缺陷检测方法，其特征在于：主要包括以下几个步骤：

步骤1：获得对应的待检测的点云及图像信息；

步骤2：对已有的图像进行缺陷标注；

步骤2的具体步骤如下：

步骤3的具体步骤如下：

步骤3.1：提取点云数据中的calib文件用于点云数据的标定，其中为相机的内参矩阵，0、1、2、3依次分别为左侧灰度相机、右侧灰度相机、左侧彩色相机及右侧彩色相机；为0号相机的修正矩阵，/>为点云数据到相机的矩阵，包括了旋转矩阵R以及平移矩阵t，将点云数据投影到第i个相机体系下的转换公式为：

其中x为点云的空间三维坐标；

2.根据权利要求1所述的一种基于多模态融合的缺陷检测方法，其特征在于：步骤4的具体步骤如下：

步骤4.2：对于不同的双输入BackBone进行测试；

其中x_i为对应像素点强度，p(x_i)为对应像素点出现的概率；

3.根据权利要求2所述的一种基于多模态融合的缺陷检测方法，其特征在于：步骤5的具体步骤如下：

z＝ax+by+c

4.根据权利要求3所述的一种基于多模态融合的缺陷检测方法，其特征在于：步骤6的具体步骤为：