CN118505600A

CN118505600A - 基于多源不确定性挖掘的统一异常检测方法

Info

Publication number: CN118505600A
Application number: CN202410417739.6A
Authority: CN
Inventors: 钟羽中; 康玻瑞; 王茂宁; 邓霖; 张建伟
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2024-04-09
Filing date: 2024-04-09
Publication date: 2024-08-16

Abstract

本发明属于视觉异常检测技术领域，公开了一种基于多源不确定性挖掘的统一异常检测方法，首先基于多源不确定性挖掘的半监督学习方法训练异常分割网络，然后对待检测图像进行统一异常检测。本发明在异常分割网络训练过程中，引入多源不确定性挖掘网络和异常分割网络，基于交叉注意力机制，使得多源不确定性挖掘网络和异常分割网络逐层进行交互训练，能够协助异常分割网络更好的关注图像的全局特征和异常的局部特征，从而实现更精准的定位。

Description

基于多源不确定性挖掘的统一异常检测方法

技术领域

本发明属于视觉异常检测技术领域，涉及一种基于多源不确定性挖掘的统一异常检测方法。

背景技术

异常检测在计算机视觉和工业应用中起着关键作用。视觉异常检测的主要目标是准确识别异常图像并精确定位异常区域。现有的视觉异常检测方法可以分为三个范式：无监督、半监督和全监督。无监督方法可以有效地对正常样本进行建模，不依赖于先验的异常信息，并且可以检测产品中未知的异常形式。然而，其检测性能并不能令人满意。半监督和全监督方法侧重于对异常样本进行建模，需要指定异常形式并标注异常实例，这些方法对已知的异常具有较好的检测性能。然而，由于其限定在预定义的异常形式上，当面临未知的异常形式时，它们的检测性能大大减弱。

在工业领域中，通常先使用无监督方法快速建立检测模型。随后，通过引入部分异常样本，过渡到半监督或全监督方法，进一步提高异常检测性能。然而，这种策略存在一个挑战：两个阶段是割裂的，即无监督阶段获得的模型无法延续到后续的监督学习中。此外，针对多类产品异常检测的统一模型，可以仅用单个模型完成多个产品的检测，这更加适合实际的生产环境。现有的统一模型通常采用特征重构的方式，但仅在特征重构部分完成了统一，而在检测过程中却缺乏一个统一的决策边界。具体来说，当所有的类产品都使用统一的决策边界进行检测时，与为每个类别分别进行检测相比，性能更低。

发明内容

本发明目的旨在针对现有技术中存在的上述问题，提供一种基于多源不确定性挖掘的统一异常检测方法，能够再不预定义的情况下识别各种异常形式，并统一决策边界。

为了达到上述目的，本发明采取以下技术方案来实现。

本发明提供了一种基于多源不确定性挖掘的统一异常检测方法，其包括以下步骤：

S1基于多源不确定性挖掘的半监督学习方法训练异常分割网络，包括以下分步骤：

S11利用包含正常样本和异常样本的数据构建训练集，并通过预训练的若干基础模型获取多源伪标签；

S12利用任一基础模型获取训练集中样本的重建图像，并将样本与其重建图像之间的欧式距离作为有偏差异输入异常分割网络，得到异常分割图像；所述异常分割网络包括若干顺次设置的特征提取阶段，前一阶段的输出作为后一阶段的输入；至少部分特征提取阶段提取的图像特征输出至多源不确定性挖掘网络；

S13多源伪标签输入至多源不确定性挖掘网络，结合来自异常分割网络输出的图像特征，基于交叉注意力机制获取全局注意力分布，并生成不确定性权重图；

S14基于多源伪标签、异常分割图像和不确定性权重图，构建损失函数并获取损失值；

S15利用损失值对异常分割网络和多源不确定性挖掘网络进行参数更新；

重复上述步骤S12-S15，直至损失函数收敛，得到训练号的异常分割网络；

S2对待检测图像进行统一异常检测，包括以下分步骤：

S21利用基础模型获取待检测图像的重建图像，并将待检测图像与其重建图像之间的欧式距离作为有偏差异；

S22将有偏差异输入异常分割网络得到异常分割图像。

上述步骤S12中，所述基础模型选自EdgRec、DRAEM、FastFlow或MSTAD等。所述异常分割网络中的每个特征提取阶段包括若干卷积模块；每个卷积模块由卷积层、批归一化层和ReLU激活函数组成。除最后一个特征提取阶段外的其他特征提取阶段后经下采样层进入下一个特征提取阶段，最后一个特征提取阶段经上采样层和卷积模块得到异常分割图像。除第一个特征提取阶段，其余特征提取阶段提取的图像特征输出至多源不确定性挖掘网络。

上述步骤S13中，所述多源不确定性挖掘网络包括顺次设置的编码器、若干交叉注意力模块和解码器；所述编码器用于对输入图像特征进行编码；所述交叉注意力模块用于基于交叉注意力机制，获取异常分割网络相应特征提取阶段输出的图像特征对于多源伪标签的全局注意力分布，并与编码器输出或前一交叉注意力模块的输出进行叠加，然后进行补丁融合；所述解码器用于对输入图像特征进行解码，得到不确定性权重图。

在优选实现方式中，所述编码器包括三个卷积层和两个下采样层，两个下采样层分别位于相邻两个卷积层之间，其主要功能是提取特征并改变输入特征图像的大小。解码器包括一个卷积层和一个上采样层，主要用于输出能够准确表示像素级不确定性挖掘内容的不确定性权重图。

在优选实现方式中，所述交叉注意力模块数量与接入多源不确定性挖掘网络的特征提取阶段数相同。所述交叉注意力模块包括交叉注意力层、前反馈神经网络和补丁融合层。

上述步骤S14中，构建的损失函数为：

式中，θ_S和θ_∑分别是异常分割网络和多源不确定性挖掘网络的可训练参数；表示基于第m个伪标签得到的第i像素使用伪标签和非归一化得分Sⁱ计算的交叉熵损失；表示预测对数方差，表示使用伪标签得到的第i像素的不确定性权重；M表示伪标签数量，H表示图像的高，W表示图像的宽。

上述步骤S2中，为了完善对待检测图像的异常检测，该步骤还包括：

S23对异常分割图像进行全局平均池化处理，以最大值作为待检测图的异常分数；

S24对异常分割图像和待检测图像进行加权融合，得到异常热图。

与现有技术相比，本发明提供的基于多源不确定性挖掘的统一异常检测方法具有以下有益效果：

1)本发明在异常分割网络训练过程中，引入多源不确定性挖掘网络和异常分割网络，基于交叉注意力机制，使得多源不确定性挖掘网络和异常分割网络逐层进行交互训练，能够协助异常分割网络更好的关注图像的全局特征和异常的局部特征，从而实现更精准的定位；

2)本发明利用无监督学习获得的基础模型获取异常的有偏差异；通过利用未标记的异常样本，来进一步改善基础模型在异常检测中的性能；

3)本发明利用一种不确定性加权的损失函数，并将模型的伪标签视为贝叶斯框架中的吉布斯分布；通过该损失函数，可以同时训练多源不确定性挖掘网络和异常分割网络，并使异常分割网络能够在统一的决策边界条件下进行异常检测。

4)本发明在MVTec AD数据集上进行了广泛的实验，并证明了本发明方法的有效性；此外，当使用自激励方法，即不依赖于其他模型的伪标签时，异常检测性能仍然可以提高。

附图说明

图1为基于多源不确定性挖掘的统一异常检测方法流程示意图；

图2为原始图像及相应标签；其中(a)为原始图像，(b)为真实标签，(c)为本发明方法得到的定位标签，(d)为EdgRec模型得到的伪标签，(e)为DRAEM模型得到的伪标签，(f)为FastFlow模型得到的伪标签，(g)为MSTAD模型得到的伪标签；

图3为原始图像及不同方法得到的异常定位图。

具体实施方式

以下将结合附图对本发明各实施例的技术方案进行清楚、完整的描述，显然，所描述实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施例，都属于本发明所保护的范围。

实施例1

本发明提出了一种将像素重构模型或特征重构模型作为基础模型的新颖半监督异常检测策略。引入多源不确定性挖掘网络(MUMNet)和异常分割网络(ASNet)，在训练过程中基于交叉注意力机制，使得MUMNet与ASNet逐层进行交互，帮助ASNet更好地关注图像的全局特征和异常的局部特征，从而实现更精准的定位。

本实施例使用的数据为MVTec AD数据集，MVTec AD数据集包含3629张正常图像，涵盖了5个不同的纹理类别和10个独特的物体类别。同时，测试集包括467张正常图像和1258张异常图像。对于测试集中的每个异常样本，数据集提供了图像的标签和分割信息作为真值。

1、基础模型

本实施例使用的基础模型选自EdgRec、DRAEM、FastFlow或MSTAD。

这些基础模型均为无监督重构模型利用上述基础模型输入和输出之间的欧氏距离来表示各种形式异常的有偏差异。这种方法消除了对手动标记异常的依赖。本实施例基于多源不确定性挖掘的统一异常检测方法(MUM-UAD)建立在这个基础上，并采用渐进式的学习策略。然而，由于无监督模型仅通过正常样本进行学习，无法利用异常样本，因此不能沿用与后续的半监督阶段。为了解决这个问题，MUM-UAD采用了一种不确定性挖掘学习策略，将基本模型作为无监督学习和半监督学习阶段之间的连接，从而提高检测性能并更好地适应实际生产环境。

2、异常分割网络(ASNet)

异常分割网络(ASNet)主要目标是在最终的决策过程中生成高精度的异常分割图。为了实现这一目标，本实施例对ResNet34的网络架构进行了适当的修改。

本实施例提供的异常分割网络(ASNet)，如图1(a)所示，其包括四个顺次设置的特征提取阶段(Stage0-Stage3)，前一阶段的输出作为后一阶段的输入。每个特征提取阶段包括若干卷积模块，数量分别表示为N₀＝3、N₁＝4、N₂＝6和N₃＝3；可以跟所采用的基础模型类型对网络结构进行相应的调整。每个卷积模块由卷积层、批归一化层和ReLU激活函数组成。除最后一个特征提取阶段外的其他特征提取阶段后经下采样层进入下一个特征提取阶段，最后一个特征提取阶段经上采样层和卷积模块得到异常分割图像。除第一个特征提取阶段(Stage0)，其余特征提取阶段(Stage1-Stage3)提取的图像特征输出至多源不确定性挖掘网络。

对于特征重构而言，ASNet采用ResNet34的倒置结构。具体而言，所有的下采样操作被替换为上采样，并且颠倒所有阶段的顺序。对于像素重构模型或无基础模型的情况，ASNet遵循标准的ResNet34结构，但将最后的线性输出层替换为上采样层以调整输出大小。这里，使用ASNet从基础模型获取的有偏差异中提取多尺度特征，从而得到无偏的异常分割图。

本实施例中，ASNet使用ResNet34的预训练权重进行初始化，并且限制最深特征图的大小为14×14。

3、多源不确定性挖掘网络(MUMNet)

MUMNet旨在通过分析伪标签和输入图像，准确识别每个像素的可靠性。具体而言，通过同时挖掘由多种异常检测模型生成的多个伪标签之间的共性和差异性，MUMNet可以有效地捕捉可靠的标签样本。

多源不确定性挖掘网络包括顺次设置的编码器、若干交叉注意力模块和解码器。

编码器用于对输入图像特征进行编码。编码器包括三个卷积层和两个下采样层，两个下采样层分别位于相邻两个卷积层之间，其主要功能是提取特征并改变输入特征图像的大小。

解码器用于对输入图像特征进行解码，得到不确定性权重图。解码器包括一个卷积层和一个上采样层，主要用于输出能够准确表示像素级不确定性挖掘内容的不确定性权重图。

交叉注意力模块数量用于基于交叉注意力机制，获取异常分割网络相应特征提取阶段输出的图像特征对于多源伪标签的全局注意力分布，并与编码器输出或前一交叉注意力模块的输出进行叠加，并进行补丁融合。交叉注意力模块数量与接入多源不确定性挖掘网络的特征提取阶段数相同；具体而言，本实施例中交叉注意力模块数量为3个，分别为第一交叉注意力模块至第三交叉注意力模块。如图1(a)所示，交叉注意力模块包括交叉注意力层、前反馈神经网络和补丁融合层。异常分割网络中的Stage1-至Stage3提取的特征图像分别输入至第一交叉注意力模块至第三交叉注意力模块的交叉注意力层。

交叉注意力层，使用线性投影将从ASNet提取的图像特征转换为同时将从伪标签导出的特征，记为线性投影为和这里，i表示交叉注意力模块所在阶段数，n表示特征图中的元素数量，c表示特征的维度。第i个阶段的详细信息如下：

通过利用交叉注意力机制，可以获得在该特定阶段图像特征对于多源伪标签特征的全局注意力分布。随后，使用前馈神经网络(FFN)将信息整合，并通过补丁融合进行下采样，以便与下一个阶段中的特征信息进行新的交互。

fⁱ⁺¹＝PatchMerging(FFN(f′)) (2)；

该模块增强了ASNet中不同尺度特征对异常信息的感知能力，并帮助MUMNet生成更鲁棒的不确定性图。

本实施例中，MUMNet使用均匀分布进行初始化，交叉注意力模块与三种尺度的特征图交互，它们分别是：56×56，28×28和14×14。

基于上述解释，本实施例提供的基于多源不确定性挖掘的统一异常检测方法，其包括以下步骤：

S11利用包含正常样本和异常样本的数据构建训练集，并通过预训练的若干基础模型获取多源伪标签。

由于MVTec AD数据集只有测试集中包含异常样本，本实施例重新定义了数据集。原始的MVTec AD训练集只包含正常样本，被称为“基础训练集”，而包含异常样本和少量正常样本的测试集，被称为“基础测试集”。然后，从“基础测试集”中的每个产品类别中选择若干异常样本和正常样本，形成“新训练集”。“基础测试集”中剩下的样本形成“新测试集”。同时将所有输入图像的分辨率调整为224×224。

使用“基础训练集”对上述基础模型进行预训练，并保留各基础模型的参数权重。此外，还选择了在“基础训练集”上训练的四个模型(EdgRec，DRAEM，FastFlow，MSTAD)生成的异常得分图中覆盖98％得分的数值作为阈值。

利用预训练的上述基础模型对“新训练集”进行检测，生成异常得分图。然后，这些异常得分图根据阈值进行二值化，作为多源伪标签。

S12利用任一基础模型获取训练集中样本的重建图像，并将样本与其重建图像之间的欧式距离作为有偏差异输入异常分割网络，得到异常分割图像。

同时，异常分割网络中的特征提取阶段Stage1-Stage3提取的特征图像输出至多源不确定性挖掘网络相应的交叉注意力模块。

S13多源伪标签输入至多源不确定性挖掘网络，结合来自异常分割网络输出的图像特征，基于交叉注意力机制获取全局注意力分布，并生成不确定性权重图。

本步骤利用前面给出的多源不确定性挖掘网络生成不确定性权重图。

最后一个交叉注意力模块输出经解码器进行解码，得到能够准确表示像素级不确定性挖掘内容的不确定性权重图。

S14基于多源伪标签、异常分割图像和不确定性权重图，构建损失函数并获取损失值。

在M个异常检测方法(对应于M个伪标签)中，将第m个方法生成的像素i的伪标签表示为其中c＝1表示异常区域，c＝0表示正常区域，对应的不确定性权重图由表示。将伪标签建模为一个在贝叶斯理论下服从吉布斯分布的随机变量y。当使用Softmax函数来归一化异常分数时，y的概率分布可以计算为：

当给定观测到的伪标签负对数似然可以进一步推导如下：

其中，表示基于第m个伪标签得到的第i像素使用伪标签和非归一化得分Sⁱ(由异常分割图像给出)计算的交叉熵损失。然而，在实践中，可以通过预测对数方差增加训练过程中的数值稳定性，表示使用伪标签得到的第i像素的不确定性权重。

因此，可以将损失重新表述如下：

式中，θ_S和θ_∑分别是异常分割网络和多源不确定性挖掘网络的可训练参数；公式(5)被称为不确定性加权损失，它有助于整个网络的联合学习。因此，根据公式(4)和公式(5)，并扩展到所有M种伪标签，得到最终的损失函数为：

在公式(6)的监督下，MUMNet和ASNet共同参与训练，以增强MUMNet捕捉详细异常特征信息的能力，从而提高ASNet在异常检测中的性能。

S15利用损失值对异常分割网络和多源不确定性挖掘网络进行参数更新。

重复上述步骤S12-S15，直至损失函数收敛，得到训练号的异常分割网络。

损失函数收敛可以通过损失值变化或设置迭代次数上限来判断。当损失值趋于稳定或者达到迭代次数上限，表面损失函数收敛，训练结束。

本实施例中，设置MUMNet和ASNet两个网络的学习率设置为1e-4，并且采用Adam优化器进行端到端联合训练。训练过程中，将“新训练集”划分为6个批次，对网络进行分批训练。使用5个不同的随机种子进行评估。整个训练过程在GeForce 4080GPU上大约需要200个epochs。

S2对待检测图像进行统一异常检测。

本实施例中以“新测试集”中的样本作为待检测图像，按照以下分步骤进行统一异常检测：

S21利用基础模型获取待检测图像的重建图像，并将待检测图像与其重建图像之间的欧式距离作为有偏差异。

S22将有偏差异输入异常分割网络得到异常分割图像。

S23对异常分割图像进行全局平均池化处理，以最大值作为待检测图的异常分数；所得异常分数可以用于异常检测。

本实施例中，用于计算异常分数的平均池化的大小设置为80。

S24对异常分割图像和待检测图像进行加权融合，得到异常热图；所得异常热图可以用于异常定位。

本实施例中，按照α·I+(1-α)·S′得到异常热图，I代表输入图像，S′表示输出的异常分割图像S经过colormap转换后的得分图，α表示权重系数；具体地，可借鉴图1中所示。

本实施例，在四个无监督异常检测重建模型上进行实验，包括针对单类检测设计的模型(DRAEM和EdgRerc)，针对多类检测设计的模型(UniAD和MSTAD)，以及两个半监督异常检测模型(DRA和BGAD)。具体而言，无监督模型在MVTec AD的“基础训练集”上进行了训练，并保留它们的权重。在后续的半监督阶段，选择无监督模型中的一个作为基础模型，结合MUM-UAD策略，使用“新训练集”对MUMNet和ASNet进行进一步的训练。在融合MUM-UAD之前和之后，对无监督模型进行了“新测试集”的统一决策边界测试。

表1在统一决策边界条件下，比较在引入MUMAD-UAD策略前后的无监督基础模型结果。

“Det.”表示图像级别的AUROC，“Loc.”表示像素级别的AUROC，MUM-UAD策略用“ours”表示，每个前后对比中的最佳结果以粗体突出显示。

AUROC表示接收者操作特征曲线下面积，用来评估提出的异常检测和定位方法的性能。

Aupro表示取余重叠曲线下面积，用于度量异常定位评估，确保在评估过程中所有尺寸的异常都被同等地看待。

表2在统一决策边界条件下，半监督方法的比较结果

“B.M.”表示基础模型(例如MSTAD)，而“ours”代表MUM-UAD策略。

ours w/o B.M.表示将本实施例缺少基础模型的情况，此时仍基于MUM-UAD策略，借助伪标签对MUMNet和ASNet进行训练，再对训练后的ASNet进行测试。

最佳结果以粗体突出显示。

如表1所示，当无监督模型结合MUM-UAD策略时，可以使其应用于半监督任务中，并在检测性能方面产生不同程度的提升。具体而言，当基础模型专注于单类异常检测任务时，结合该策略后，在图像级别AUC或像素级别AUC方面展现出超过10％的改进。这种增强凸显了MUM-UAD在赋予单类异常检测模型解决多类异常问题方面的有效性。相反，当基础模型专注于多类异常检测任务时，本发明方法表现出更加优越的性能，突显出其适用于多类情景。我们对UniAD和MSTAD模型进行了进一步研究。如图2及图3所示，结合本发明策略后，这些模型对异常建立了更精确的分割边界，有效降低了对非异常区域的关注，从而显著提高了检测性能。这进一步证实了将MUM-UAD集成到ASNet中可以显著增强其对异常的局部感知能力，并有助于提升其对于图像的整体理解能力。

对于半监督模型(DRA和BGAD)而言，它们直接在“新训练集”上进行训练，并在“新测试集”上进行测试。本发明方法在传统的半监督异常检测方法中表现出色，如表2所示，尤其是在没有无监督基础模型的情况下。此外，当利用基础模型提供的知识时，本发明方法取得了更好的结果，进一步验证了其有效性。

本领域的普通技术人员将会意识到，这里的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种基于多源不确定性挖掘的统一异常检测方法，其特征在于，包括以下步骤：

S2对待检测图像进行统一异常检测，包括以下分步骤：

S22将有偏差异输入异常分割网络得到异常分割图像。

2.根据权利要求1所述的基于多源不确定性挖掘的统一异常检测方法，其特征在于，步骤S12中，所述基础模型选自EdgRec、DRAEM、FastFlow或MSTAD。

3.根据权利要求1所述的基于多源不确定性挖掘的统一异常检测方法，其特征在于，所述异常分割网络中的每个特征提取阶段包括若干卷积模块；每个卷积模块由卷积层、批归一化层和ReLU激活函数组成。

4.根据权利要求3所述的基于多源不确定性挖掘的统一异常检测方法，其特征在于，除最后一个特征提取阶段外的其他特征提取阶段后经下采样层进入下一个特征提取阶段，最后一个特征提取阶段经上采样层和卷积模块得到异常分割图像。

5.根据权利要求1至4任一项所述的基于多源不确定性挖掘的统一异常检测方法，其特征在于，步骤S13中，所述多源不确定性挖掘网络包括顺次设置的编码器、若干交叉注意力模块和解码器；所述编码器用于对输入图像特征进行编码；所述交叉注意力模块用于基于交叉注意力机制，获取异常分割网络相应特征提取阶段输出的图像特征对于多源伪标签的全局注意力分布，并与编码器输出或前一交叉注意力模块的输出进行叠加，并进行补丁融合；所述解码器用于对输入图像特征进行解码，得到不确定性权重图。

6.根据权利要求5所述的基于多源不确定性挖掘的统一异常检测方法，其特征在于，所述编码器包括三个卷积层和两个下采样层，两个下采样层分别位于相邻两个卷积层之间；解码器包括一个卷积层和一个上采样层。

7.根据权利要求5所述的基于多源不确定性挖掘的统一异常检测方法，其特征在于，所述交叉注意力模块包括交叉注意力层、前反馈神经网络和补丁融合层。

8.根据权利要求5所述的基于多源不确定性挖掘的统一异常检测方法，其特征在于，步骤S14中，构建的损失函数为：

9.根据权利要求1所述的基于多源不确定性挖掘的统一异常检测方法，其特征在于，步骤S2还包括：

10.根据权利要求8所述的基于多源不确定性挖掘的统一异常检测方法，其特征在于，步骤S2还包括：