WO2024032010A1

WO2024032010A1 - 一种基于迁移学习策略的少样本目标实时检测方法

Info

Publication number: WO2024032010A1
Application number: PCT/CN2023/086781
Authority: WO
Inventors: 李国权; 夏瑞阳; 林金朝; 庞宇; 朱宏钰
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-08-11
Filing date: 2023-04-07
Publication date: 2024-02-15
Anticipated expiration: 2025-02-11
Also published as: CN115393634A; CN115393634B

Abstract

本发明涉及一种基于迁移学习策略的少样本目标实时检测方法，属于图像处理领域，涉包括以下步骤：S1：构建检测网络模型；S2：对输入数据进行预处理；S3：在大样本类别数据上对目标检测模型进行从头训练；S4：在少样本类别数据上对少样本类别检测分支进行微调；在微调时通过一种新的正则化方法以引导模型关注物体的整体特征；S5：通过训练集训练检测模型，再测试集进行测试。本发明避免了模型在微调阶段出现过拟合，避免了受局部显著特征主导，增强了模型的泛化能力。本发明不仅能够在较小的模型参数下对少样本类别物体实现精准检测，并且能够对相关目标实现实时检测。

Description

一种基于迁移学习策略的少样本目标实时检测方法

技术领域

本发明属于图像处理领域，涉及一种基于迁移学习策略的少样本目标实时检测方法。

背景技术

目标检测是计算机视觉中最重要且基础的任务之一。有许多基于卷积神经网络(Convolutional Neural Network,CNN)或视觉Transformer的检测器具有较高的检测性能。然而，这些模型优异的检测性能是以大量数据为代价实现的。由于对象的复杂性和模型参数的庞大性，当数据数量有限时会导致检测精度将迅速下降。因此，近几年来，少样本目标检测受到了越来越多的关注。

为了更好地适应样本数量限制的情景，目前已经有一些基于元学习策略及迁移学习策略的少样本目标检测模型。基于元学习策略的方法目的是获取当前图像和少样本之间的相关性，虽然对于少样本的检测性能得到了改善，但由于少数样本检测分支中的特征提取结构、输入特征和少样本特征之间建立关系的结构以及少样本类别的数量，导致了模型的计算复杂度也大大增加。基于迁移学习策略的方法目的是使已经具备特征表示能力的检测模型能够很好地适应少样本目标。然而，为了提高检测精度，大多数方法侧重于两阶段检测模型，例如Faster RCNN或Cascade RCNN，由于输入至这些模型的图像较大，并且建议框需要在Region Proposal Network(RPN)中生成，导致了这类检测模型在推断阶段较为耗时。

发明内容

有鉴于此，本发明的目的在于提供一种双路组合的实时目标检测模型，基于迁移学习策略，利用Darknet-53结合空间金字塔池化层(Spatial Pyramid Pooling,SPP)和特征金字塔网络(Feature Pyramid Network,FPN)作为主干和颈部，分别提取图像特征和提供不同尺度的语义特征。对于检测头部结构，提出了带鉴别器的双路径检测分支，大样本类别检测分支仅用于检测大样本类别对象，而少样本类别检测分支用于检测所有类别对象。在并行输出检测结果后，鉴别器将扫描这两个结果，并根据一种度量准则输出两个并行分支中更合适的结果。使用双路径组合结构的主要原因是，当模型在少样本上训练时，会对大样本类别物体出现检测精度退化的现象，并且少样本检测分支会出现实际属于大样本类别的误报边界框。此外，少样本检测分支还通过知识蒸馏从大样本检测分支中学习大样本类别的预测差异，从而提升该检测分支的泛化能力。最后，为了避免模型在微调阶段出现过拟合，本发明提出了基于特征响应的Attentive DropBlock正则化方法来引导模型关注目标的整体特征，避免受局部显著特征主导，增强模型的泛化能力。

为达到上述目的，本发明提供如下技术方案：

一种基于迁移学习策略的少样本目标实时检测方法，包括以下步骤：

S1：构建检测网络模型；

S2：对输入数据进行预处理；

S3：在大样本类别数据上对目标检测模型进行从头训练；

S4：在少样本类别数据上对少样本类别检测分支进行微调；在微调时通过一种新的正则化方法以引导模型关注物体的整体特征；

S5：通过训练集训练检测模型，再测试集进行测试。

进一步，所述检测网络模型包括：主干网络为Darknet-53结合空间金字塔池化层(Spatial Pyramid Pooling,SPP)，用于对图像特征进行提取；检测颈部网络由特征金字塔网络(Feature Pyramid Network,FPN)构成，用于给检测头部网络提供不同尺度的语义特征；检测头部网络为带判别器的双路检测分支网络结构，其中，大样本类别检测分支仅用于检测大样本对应的类别目标，少样本类别检测分支用于检测所有类别目标，判别器用于依次扫描两个分支的结果，并根据一种度量准则获取最终输出结果。

进一步，步骤S2中所述的预处理具体为：通过使用具有随机仿射变换、多尺度图像训练策略、MixUp数据融合策略及Label Smoothing标签处理策略来对有限数据进行处理。

进一步，步骤S3中，主干网络初始化为ImageNet数据集训练下的权重，对除少样本检测分支外的网络模型利用大样本类别数据进行从头训练，本阶段损失函数涉及预测框坐标，目标置信度及分类结果，损失函数为：
L_{base training}＝L_box+L_cls+L_obj (1)

其中，L_box是坐标回归的GIoU损失函数和smooth L1损失的相加组合；L_cls和L_obj分别是Focal Loss函数和二元交叉熵损失函数。

进一步，步骤S4中，对检测模型的主干部分、检测颈部部分及大样本类别检测分支部分的模型参数进行冻结，只对少样本类别检测分支进行微调，本阶段的损失函数涉及预测框的坐标，目标置信度、分类结果和大样本类别检测分支的差异度。

进一步，步骤S4中，具体包括以下步骤：

S41：在大样本类别检测分支与少样本检测分支之间建立基类蒸馏损失L_b，计算公式如下：

其中，N表示批量大小，l表示绝对误差函数，和分别表示第i张图像在大样本检测分支和少样本类别检测分支的输出；

S42：在少样本上微调的损失函数为：
L_{few-shot tuning}＝L_box+2L_cls+L_obj+λ·L_b (3)

其中，λ用于控制基类蒸馏损失对模型梯度更新的影响程度；

S43：在大样本类别检测分支与少样本检测分支后加入判别器，判别器选择大样本类别检测分支结果以及少样本类别检测分支结果之间的最大值作为最终输出，其度量准则如下所示：

其中O_d(i，j)表示某一具体空间网格的判别器输出。

进一步，所述新的正则化方法为Attentive DropBlock算法，其具有动态系数γ，如下所示：

其中，参数keep_prob和block_size影响特征图置零的频率及范围，σ表示sigmoid函数，用于控制响应范围，α表示响应放大因子。

进一步，所述Attentive DropBlock算法首先判断当前是否处于微调阶段，如果模型正在微调，则获取少样本类别检测分支的通道响应f_C和空间响应f_S；之后，根据参数keep_prob、block_size和α计算参数γ后，每个不同通道特征的空间位置按照服从参数为γ的伯努利分布概率对该位置特征置零；最后，以置零位置为中心，构建一个长宽数值为block_size的掩膜块，从而对模型实现正则化处理。

进一步，步骤S5中，在PASCAL VOC及MS COCO数据集上进行训练和测试；

对于PASCAL VOC数据集，首先将训练集和验证集合并为一个集合，用于训练检测魔心，再选择其测试集进行测试，测试评估标准采用交并比(Intersection over Union,IoU)阈值为0.5的平均精度均值(mean Average Precision,mAP)(即mAP@50)和多个不同少样本集合的平均每秒处理帧数(mean Frames Per Second,mFPS)表示检测模型的检测精度及速度；

对于MS COCO数据集，只采用其训练集进行训练，利用其验证集进行验证，使用IoU从0.5至0.95(间隔为0.05)的mAP(即AP)和每秒传输帧数(Frames Per Second,FPS)表示检测模型的检测精度及速度。

进一步，步骤S5的训练过程中，采用随机梯度下降作为网络模型的优化方法，初始学习率为1×10^-3，并且设定的最小批量在不同数据集下都为16；对于PASCAL VOC及MS COCO 数据集，检测模型从头训练及微调的次数皆为300，并且在训练过程中采用CosineLR学习率变化策略(从0.001到0.00001)；在预测过程中，输入图像的长宽固定为448×448；FPS为获取每个结果的等待时间及对结果进行后处理的时间之和，mFPS为不同少样本集合下的FPS均值。

本发明的有益效果在于：本发明提出了基于特征响应的Attentive DropBlock正则化方法来引导模型关注物体的整体特征，避免了模型在微调阶段出现过拟合，避免了受局部显著特征主导，增强了模型的泛化能力，本发明不仅能够在较小的模型参数下对少样本类别物体实现精准检测，并且能够对相关目标实现实时检测。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明提出的模型整体流程图；

图2为DropBlock算法及Attentive DropBlock算法可视化比较图；

图3为本发明提出的模型对大样本及少样本类别物体的可视化检测结果图；

图4为本发明提出的模型大样本类别检测分支及少样本类别检测分支对目标的响应及可视化检测结果。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

请参阅图1～图4，一种基于迁移学习策略的少样本目标实时检测方法，该方法包括以下步骤：

S1：对输入数据进行预处理；

S2：在大样本类别数据上对目标检测模型(除少样本检测分支外)进行从头训练；

S3：在少样本类别数据上对少样本类别检测分支进行微调；

S4：在微调阶段引入一种新的正则化方法以引导模型关注物体的整体特征；

S5：在自然数据集PASCAL VOC 2007和MS COCO 2014数据集上进行实验；

可选的，所述S1具体包括以下步骤：

通过使用具有随机仿射变换、多尺度图像训练策略(320、352、384、416、448、480、512、544、576和608)、MixUp数据融合策略及Label Smoothing标签处理策略来对有限数据进行处理，从而增加检测模型对样本的泛化性能。

可选的，所述S2中，为使模型具有较强的目标表证能力，对除少样本检测分支外的整个网络利用大样本类别数据进行从头训练。因此，第一个阶段整个网络训练的损失函数为：
L_{basw training}＝L_box+L_cls+L_obj (1)

其中，L_box是坐标回归的GIoU损失函数和smooth L1损失的相加组合。L_cls和L_obj分别是Focal Loss函数和二元交叉熵损失函数。

可选的，所述S3中，在少样本的微调阶段，主干、检测颈部和大样本检测分支被冻结以保持较强泛化能力，仅对少样本检测分支和SPP层及其相邻卷积层进行训练。然而，当仅采用新类对象时，由于两种类别的物体存在相似性，因此生成会许多假阳性边界框从而导致检测精度较低。因此，我们为每个大样本类别从相应数据中随机抽取K个实例，使得少样本检测分支预测所有类别物体。此外，考虑到大样本类别检测分支具较强的泛化能力，为获得更好的泛化能力，少样本检测分支应该学习该分支以获得更好的泛化能力。因此，我们在两个分支之间建立了基类蒸馏损失L_b，计算公式如下：

其中，N表示批量大小。l是绝对误差函数之和。和分别表示第i张图像在大样本检测分支和少样本检测分支的输出。因此，在少样本上微调的损失函数可以总结为：
L_{few-shot tuning}＝L_box+2L_cls+L_obj+λ·L_b (3)

其中，λ用于控制基类蒸馏损失对模型梯度更新的影响程度。

在推理阶段，两并联分支用于联合检测对象。然而，同时分析两个分支的输出结果将严重延长推断过程。因此，我们在这两个分支后面加入了一个判别器，以选择两者输出中最可能的结果。具体而言，判别器将选择大样本类别检测分支结果以及少样本类别检测分支的结果之间的最大值作为最终输出。其度量准则如下所示：

其中O_d(i，j)表示某一具体空间网格的判别器输出。

可选的，所述S4中，为了进一步提高模型对于少样本类别的泛化能力，本发明提出了一种Attentive DropBlock算法，该算法不仅受参数keep_prob和block_size的影响，而且还受到模型对于语义特征响应的影响。具体而言，DropBlock算法为特征图内的所有位置设置了恒定系数，如下所示：

其中，参数keep_prob和block_size影响特征置零的频率和范围。与原始DropBlock不同，γ是一个动态系数，它依赖于Attentive DropBlock算法中提取的特征图响应。具体而言，考虑一个特征图F∈R^B×C×H×W，对每个通道特征采用全局最大池化函数得到响应f_C∈R^B×C×1×1，对每个空间坐标采用全局平均池化函数得到响应f_S∈R^B×1×H×W。因此，Attentive DropBlock算法中γ的计算公式如下：

其中，σ表示sigmoid函数用于控制响应范围，α表示响应放大因子。

Attentive DropBlock算法将首先判断当前是否处于微调阶段，如果模型正在微调，则获取少样本类别检测分支的通道响应f_C和空间响应f_S。之后，根据两种响应、，keep_prob、block_size和α计算参数γ后，每个不同通道特征的空间位置按照服从参数为γ的伯努利分布概率对该位置特征置零。最后，以置零位置为中心，构建一个长宽数值为block_size的掩膜块，从而对模型实现正则化处理。

图2显示了DropBlock和Attentive DropBlock之间的差异。从中可以观察到，Attentive DropBlock中的γ值与目标响应相关。包含更多目标响应的特征图具有更高的γ值，这意味着检测模型可以更好地避免受局部明显特征的支配，从而在训练过程中更加关注不明显的特征，从而获得更好的少样本目标检测精度。

可选的，所述S5中，对于PASCAL VOC数据集，按照其中15类为大样本类别，其余5类为少样本类别的方式得到了三种不同的数据组合结构(第一种少样本类别包含鸟、公共汽车、奶牛、摩托车和沙发；第二种少样本类别包含飞机、瓶子、奶牛、马和沙发；第三种少样本类别包含船、猫、摩托车、羊和沙发)；对于MS COCO数据集，令其与PASCAL VOC数据集中类别相同的20类为少样本类别，其余60类为大样本类别。在训练过程中，本发明采用随机梯度下降作为网络模型的优化方法，初始学习率为1×10^-3，并且设定的最小批量在不同数据集下都为16。对于这两个数据集，模型从头训练及微调的次数皆为300，并且在训练过程中采用CosineLR学习率变化策略(从0.001到0.00001)。在预测过程中，输入图像的长宽固定为448×448。

实验结果

在本实例中，本发明在PASCAL VOC 2007和MS COCO 2014数据集上比较了近年来所提出的多种少样本目标检测模型的检测精度及检测速度。具体而言，按照PASCAL VOC及MS COCO数据中规定的评估标准，在具有挑战性的PASCAL VOC 2007和MS COCO 2014数据集上评估本发明的检测模型。这两个基准数据含有训练集、验证集和测试集，PASCAL VOC 2007数据集包含20个目标类别，MS COCO 2014数据集含有80个类别。对于前者，本发明先将PASCAL VOC 2007和PASCAL VOC 2012训练集和验证集合并为一个集合，用于训练该检测模型，并选择PASCAL VOC 2007测试集进行测试，测试评估标准采用交并比(Intersection over Union,IoU)阈值为0.5的平均精度均值(mean Average Precision,mAP)(即mAP@50)和多个不同少样本集合的平均每秒处理帧数(mean Frames Per Second,mFPS)表示检测模型的检测精度及速度。对于后者，本发明只用MS COCO 2014训练集进行训练，测试阶段利用其验证集进行验证，使用IoU从0.5至0.95(间隔为0.05)的mAP(即AP)和每秒传输帧数(Frames Per Second,FPS)表示检测模型的检测精度及速度。

表1

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

一种基于迁移学习策略的少样本目标实时检测方法，其特征在于：包括以下步骤：

S1：构建检测网络模型；

S2：对输入数据进行预处理；

S3：在大样本类别数据上对目标检测模型进行从头训练；

S4：在少样本类别数据上对少样本类别检测分支进行微调；在微调时通过一种新的正则化方法以引导模型关注物体的整体特征；

S5：通过训练集训练检测模型，再测试集进行测试。
根据权利要求1所述的基于迁移学习策略的少样本目标实时检测方法，其特征在于：所述检测网络模型包括：主干网络为Darknet-53结合空间金字塔池化层，用于对图像特征进行提取；检测颈部网络由特征金字塔网络构成，用于给检测头部网络提供不同尺度的语义特征；检测头部网络为带判别器的双路检测分支网络结构，其中，大样本类别检测分支仅用于检测大样本对应的类别目标，少样本类别检测分支用于检测所有类别目标，判别器用于依次扫描两个分支的结果，并根据一种度量准则获取最终输出结果。
根据权利要求1所述的基于迁移学习策略的少样本目标实时检测方法，其特征在于：步骤S2中所述的预处理具体为：通过使用具有随机仿射变换、多尺度图像训练策略、MixUp数据融合策略及Label Smoothing标签处理策略来对有限数据进行处理。
根据权利要求2所述的基于迁移学习策略的少样本目标实时检测方法，其特征在于：步骤S3中，主干网络初始化为ImageNet数据集训练下的权重，对除少样本检测分支外的网络模型利用大样本类别数据进行从头训练，本阶段损失函数涉及预测框坐标，目标置信度及分类结果，损失函数为：
L_{base training}＝L_box+L_cls+L_obj (1)

其中，L_box是坐标回归的GIoU损失函数和smooth L1损失的相加组合；L_cls和L_obj分别是Focal Loss函数和二元交叉熵损失函数。
根据权利要求2所述的基于迁移学习策略的少样本目标实时检测方法，其特征在于：步骤S4中，对检测模型的主干部分、检测颈部部分及大样本类别检测分支部分的模型参数进行冻结，只对少样本类别检测分支进行微调，本阶段的损失函数涉及预测框的坐标，目标置信度、分类结果和大样本类别检测分支的差异度。
根据权利要求5所述的基于迁移学习策略的少样本目标实时检测方法，其特征在于：步骤S4中，具体包括以下步骤：

S41：在大样本类别检测分支与少样本检测分支之间建立基类蒸馏损失L_b，计算公式如下：

其中，N表示批量大小，l表示绝对误差函数，和分别表示第i张图像在大样本检测分支和少样本类别检测分支的输出；

S42：在少样本上微调的损失函数为：
L_{few-shot tuning}＝L_box+2L_cls+L_obj+λ·L_b (3)

其中，λ用于控制基类蒸馏损失对模型梯度更新的影响程度；

S43：在大样本类别检测分支与少样本检测分支后加入判别器，判别器选择大样本类别检测分支结果以及少样本类别检测分支结果之间的最大值作为最终输出，其度量准则如下所示：

其中O_d(i，j)表示某一具体空间网格的判别器输出。
根据权利要求1所述的基于迁移学习策略的少样本目标实时检测方法，其特征在于：所述新的正则化方法为Attentive DropBlock算法，其具有动态系数γ，如下所示：

其中，参数keep_prob和block_size影响特征图置零的频率及范围，σ表示sigmoid函数，用于控制响应范围，α表示响应放大因子。
根据权利要求7所述的基于迁移学习策略的少样本目标实时检测方法，其特征在于：所述Attentive DropBlock算法首先判断当前是否处于微调阶段，如果模型正在微调，则获取少样本类别检测分支的通道响应f_C和空间响应f_S；之后，根据参数keep_prob、block_size和α计算参数γ后，每个不同通道特征的空间位置按照服从参数为γ的伯努利分布概率对该位置特征置零；最后，以置零位置为中心，构建一个长宽数值为block_size的掩膜块，从而对模型实现正则化处理。
根据权利要求1所述的基于迁移学习策略的少样本目标实时检测方法，其特征在于：步骤S5中，在PASCAL VOC及MS COCO数据集上进行训练和测试；

对于PASCAL VOC数据集，首先将训练集和验证集合并为一个集合，用于训练检测魔心，再选择其测试集进行测试，测试评估标准采用交并比阈值为0.5的平均精度均值和多个不同少样本集合的平均每秒处理帧数表示检测模型的检测精度及速度；

对于MS COCO数据集，只采用其训练集进行训练，利用其验证集进行验证，使用IoU从0.5至0.95，间隔为0.05的mAP和每秒传输帧数表示检测模型的检测精度及速度。
根据权利要求9所述的基于迁移学习策略的少样本目标实时检测方法，其特征在于：步骤S5的训练过程中，采用随机梯度下降作为网络模型的优化方法，初始学习率为1×10^-3，并且设定的最小批量在不同数据集下都为16；对于PASCAL VOC及MS COCO数据集，检测模型从头训练及微调的次数皆为300，并且在训练过程中采用CosineLR学习率变化策略，即学习率从0.001到0.00001；在预测过程中，输入图像的长宽固定为448×448；FPS为获取每个结果的等待时间及对结果进行后处理的时间之和，mFPS为不同少样本集合下的FPS均值。