CN119919836A

CN119919836A - 一种基于scgd-yolo网络的无人机视角下的小目标检测方法

Info

Publication number: CN119919836A
Application number: CN202510101054.5A
Authority: CN
Inventors: 项铁铭; 苏旭麟; 杨梦雅; 成思霖; 林铭煌
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2025-01-22
Filing date: 2025-01-22
Publication date: 2025-05-02

Abstract

本发明公开了一种基于SCGD‑YOLO网络的无人机视角下的小目标检测方法，包括以下步骤：获取无人机视角下小目标的开源数据集，并将数据集划分为训练集、验证集和测试集，数据集包含十种类别，主要类别以小目标为主；并配置网络模型所需的网络环境；构建SCGD‑YOLO网络模型，SCGD‑YOLO网络模型包含骨干网络、颈部网络、检测头；将训练数据集的图片与标签送入构建的SCGD‑YOLO网络模型进行训练，并根据验证集的结果调整相应超参数获得最佳训练结果；最后将测试集中待检测的图片送入训练好的SCGD‑YOLO网络模型中进行小目标检测，并输出检测结果，本发明解决了无人机在高空拍摄时小目标分辨率较低、检测精度下降的问题，不仅提高了对小目标的检测精度，还降低了模型的参数量。

Description

一种基于SCGD-YOLO网络的无人机视角下的小目标检测方法

技术领域

本发明涉及无人机视角下的小目标检测技术领域，具体涉及一种基于SCGD-YOLO网络的无人机视角下的小目标检测方法。

背景技术

无人机广泛应用于遥感图像、农业病虫害检测、灾害监控、工业目标检测等领域，无人机具备低成本、高灵活性和广视角等特点，能够执行比如监控、巡逻、目标跟踪等任务，然而许多应用场景都涉及小目标的检测，一方面由于存在小目标在图像中的分辨率较低且易受复杂环境干扰，小目标之间的相互遮挡以及在高空环境下拍摄不稳等问题，导致对小目标的特征提取产生了极大的困难；另一方面，现有的目标检测算法大多是为常规大小的目标检测所研发，针对于小目标特定场景的检测算法相对较少。

目标检测是计算机视觉领域的重要研究方向，旨在从图像或视频中对目标进行识别和定位，当前的目标检测算法大致可分为基于候选区域的目标检测算法和基于回归的目标检测算法；基于候选区域的目标检测算法有R-CNN、Faster R-CNN、Mask R-CNN等，目前Faster R-CNN是深度学习方法的目标检测中常用的检测算法，但其网络参数较大、计算成本大、推理速度相对较慢，并不适用于实时检测的任务中。为解决推理速度较慢的问题，YOLO系列算法应运而生，该类算法为基于回归的目标检测算法，由于取消了候选框的选择，直接在原图像中生成目标框和类别预测，简化了目标检测的过程，更加注重速度和效率。YOLO算法虽然有着更快的检测速度，但在处理无人机视角下的小目标检测中，由于目标分辨率较低，相应有所下降。为此，近年来的许多研究通过引入注意力机制等方式提高模型的检测精度，但也使得模型参数大量上升，为模型后续部署产生困难，影响其在实际应用中的实用性。

发明内容

本发明的目的在于提供一种基于SCGD-YOLO网络的无人机视角下的小目标检测方法，针对无人机在高空拍摄时小目标分辨率较低、复杂环境干扰等情况带来的检测精度下降的问题进行解决，为了解决上述技术问题，本发明具体提供如下技术方案：

一种基于SCGD-YOLO网络的无人机视角下的小目标检测方法，包括以下步骤：

步骤1：获取无人机视角下小目标的开源数据集，并将数据集划分为训练集、验证集和测试集，所述数据集包含十种类别，主要类别以小目标为主；

优选地，采用VisDrone 2019数据集来作为训练、验证和测试的实验数据集，收集的是无人机在不同位置、角度、环境下所拍摄的物体，包含10个种类，其中大部分以小目标为主体，是专门用于小目标检测的数据集。

步骤2：配置网络模型所需的网络环境；

优选地，所配置的网络环境为：Ubuntu 16.04LTS的操作系统，采用16GB显存的NVIDIA GTX3090 GPU的网络进行实验运行，并使用Python 3.8.16，且Pytorch版本1.13.1和torchvision 0.14.1。

步骤3：构建SCGD-YOLO网络模型，所述SCGD-YOLO网络模型包含骨干网络、颈部网络、检测头；

优选地，所述构建的SCGD-YOLO网络模型包括：输入图像首先经过骨干网络进行特征提取，通过卷积层、批量归一化和激活函数，网络逐步提取出图像的低级和高级特征，经过多层的特征提取，捕捉图像中的空间信息和语义信息；将提取出的特征信息输入到颈部网络进行特征融合，通过颈部网络中的特征金字塔，将不同层的特征进行融合；最后将特征融合信息送入检测头中，输出每个网络所预测的目标信息，并整合输出图像的类别标签、框坐标和置信度。

优选地，所述SCGD-YOLO网络模型是以YOLOv8为基线模型进行改进，首先在骨干网络与颈部网络引入改进后的C2f-CAG与C2f-CFG模块替换原本的C2f模块，其次利用全新的特征金字塔结构SCOK代替原本颈部网络的特征金字塔，最后将头部网络的解耦头结构替换为包含共享卷积的轻量化检测头LSDC。

优选地，所述改进后的C2f-CAG与C2f-CFG模块中，C2f-CAG结构引入Transformer中的CAFormer模块，所述CAFormer模块的令牌混合器为自注意力层，使用TransNext中的Convolutional GLU门控机制替代CAFormer模块中的MLP层，GLU通过自适应的方式控制信息流的传递，利用卷积操作代替传统的全连接层；C2f-CFG结构引入了Transformer中的ConvFormer模块，所述ConvFormer模块的令牌混合器为可分离卷积，可分离卷积由逐深度卷积和逐点卷积构成，深度卷积用于提取空间特征，逐点卷积用于提取通道特征，同时也采用Convolutional GLU门控机制替代ConvFormer模块中的MLP层，所述C2f-CAG与所述C2f-CFG两种模块搭配使用。

优选地，所述Convolutional GLU门控机制为一种基于门控机制的非线性激活函数，表达式为：GLU(x)＝(W₁x)⊙σ(W₂x)，其中，W₁x为输入的线性变换，作为特征提取部分，W₂x为另一个线性变换，作为门控部分，σ(·)是sigmoid激活函数，输出控制在0到1之间的门控，⊙表示元素级乘法。

优选地，所述全新的特征金字塔SCOK中，引入SPD-Conv用以提取小目标信息，所述SPD-Conv由一个空间到深度层和一个非步长卷积层组成，SPD-Conv对特征映射进行下采样，并保留通道维度中的所有信息，所述SPD-Conv中的小目标信息与特征层的小目标信息进行拼接处理后，将其输送到SPlit-Omni-Kernel模块进行特征融合，并输出到检测头中进行小目标检测与定位。

优选地，所述SPlit-Omni-Kernel模块，根据CSP残差思想，输入特征分成两个分支，其中一个分支经过Omni-Kernel模块处理，另一分支保持不变，并在最终通过特征级联实现多尺度信息的重构。其中Omni-Kernel模块包含大分支、全局分支、局部分支。

优选地，所述共享卷积的轻量化检测头LSDC中，首先采用1×1的卷积用以调整通道数，然后采用2个3×3的卷积作为共享权值卷积代替原本的12个3×3卷积用以特征提取，通过引入细节增强卷积在特征提取阶段捕获小目标信息，并在1×1的卷积引入归一化，以及在特征提取器的卷积上引入归一化，所述归一化的流程推导如下：

其中，N×C×H×W为定义的输入特征图x的大小，归一化的方法是：首先将通道数分为多组，假设将通道数分为G组，则每组包含C'＝C/G，针对于G组，每组对其进行计算均值μ_g和方差其中用于计算每个组中的每个通道的归一化，对每个元素进行归一化处理，并且引入可训练的缩放因子γ和偏移量β。

优选地，所述细节增强卷积中，包含五个并行部署的卷积层，包括普通卷积、角度差分卷积、中心差分卷积、水平差分卷积和垂直差分卷积，用于恢复图像的空间分辨率并增强细节部分。

步骤4：将训练数据集的图片与标签送入构建的SCGD-YOLO网络模型进行训练，并根据验证集的结果调整相应超参数获得最佳训练结果；

优选地，所述训练方法为：训练过程中未使用任何预训练的模型，图像的输入大小设置为640×640像素，训练200个epoch，batch设置为16，初始学习率为0.01，使用随机梯度下降(SGD)来进行参数优化，并在训练完成后保存最后的权重文件。

步骤5：将测试集中待检测的图片送入训练好的SCGD-YOLO网络模型中进行小目标检测，并输出检测结果。

与现有技术相比，本发明所达到的有益效果是：

(1)本发明针对骨干网络与颈部网络中C2f模块中的Bottleneck在复杂环境下对小目标检测能力弱及其MLP中包含大量参数，设计了全新的轻量化Bottleneck模块，在改善网络的同时减少了模型的参数量与计算量，使得延迟开销最小化。

(2)本发明设计了全新的特征金字塔模块，通过提取P2特征层的小目标信息，将小目标信息与之融合，提高了不同部分的特征融合及对无人机图像中小目标的捕获能力，在车辆密集堆叠、阳光照射环境等环境下也能保持良好的检测精度，能够提高无人机在不同环境下的适应能力。

(3)针对解耦头在网络模型中所占参数量较大，设计了全新的检测头，在保留解耦头的前提下，引入共享卷积模块降低参数量，并引入细节增强卷积提高捕获小目标信息的能力，使得在保证精度的前提下实现检测头轻量化。

(4)本发明提出的SCGD-YOLO算法有着精度高、参数少、易部署的特点，具有很强的实用性与极大的应用前景。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

在附图中：

图1为本发明实施例的总体流程图；

图2为本发明实施例的改进模型图；

图3为本发明实施例C2f-CAG与C2f-CFG的结构示意图；

图4为本发明实施例全新的特征金字塔SCOK的结构示意图；

图5为图4中SPlit-Omni-Kernel模块的结构示意图；

图6为图5中Omni-Kernel模块的结构示意图；

图7为本发明实施例共享权值检测头LSDC的结构示意图；

图8为原始模型在车辆密集堆叠情况下的检测效果图；

图9为本发明实施例SCGD-YOLO在车辆密集堆叠情况下检测效果图；

图10为原始模型在阳光照射环境下的检测效果图；

图11为本发明实施例SCGD-YOLO在阳光照射环境下检测效果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例结合图1至图11，具体提供如下技术方案：一种基于SCGD-YOLO网络的无人机视角下的小目标检测方法，结合图1具体包括以下步骤：

步骤1：在网络上获取无人机视角下小目标的开源数据集，该类数据集包含十种类别，其中以小目标为主；

在本实施例中，采用VisDrone 2019数据集来作为训练、验证和测试的实验数据集，该数据集由天津大学机器学习和数据挖掘实验室AISKYEYE团队收集，收集的是无人机在不同位置、角度、环境下所拍摄的物体，包含10个种类，训练集的分配占比为6471张图片，验证集的分配占比为548张，测试集的分配占比为1610张，图像所包含的十个种类的物体为汽车、行人、自行车、人物、三轮车、货车、敞篷三轮车、公交车、摩托车、卡车，其中大部分以小目标为主体，是专门用于小目标检测的数据集。

步骤2：配置网络模型所需的网络环境；

在本实施例中，所配置的网络环境为：Ubuntu 16.04LTS的操作系统，采用16GB显存的NVIDIA GTX3090 GPU的网络进行实验运行，并使用Python 3.8.16，且Pytorch版本1.13.1和torchvision 0.14.1。

步骤3：构建SCGD-YOLO网络模型，SCGD-YOLO模型是以YOLOv8为基线模型进行改进，该模型包含骨干网络(Backbone)、颈部网络(Neck)、检测头(Head)，首先在骨干网络与颈部网络引入改进后的C2f-CAG与C2f-CFG模块来替换原本的C2f模块，其次设计了全新的特征金字塔结构SCOK代替原本颈部网络的特征金字塔，最后将头部网络的解耦头结构替换为包含共享卷积的轻量化检测头LSDC。

在本实施例中结合图2，SCGD-YOLO网络模型图中，输入图像首先经过骨干网络进行特征提取，通过卷积层、批量归一化和激活函数，网络逐步提取出图像的低级和高级特征，经过多层的特征提取，可以捕捉到图像中的空间信息和语义信息；随后将提取出的特征信息输入到颈部网络进行特征融合，通过颈部网络中的特征金字塔，将不同层的特征进行融合；最后将特征融合信息送入检测头中，模型会输出每个网络所预测的目标信息，最后整合输出图像的类别标签、框坐标和置信度。

进一步的，本发明将骨干网络与主干网络中的C2f模块替换为C2f-CAG与C2f-CFG模块，两种模块的结构如图3所示，C2f-CAG结构引入了Transformer中的CAFormer模块，该模块的令牌混合器为自注意力层，可以更加精确的分辨哪些通道在特征提取过程中更为重要，从而动态地调整每个通道地权重，提高了模型的特征选择能力，同时使用TransNext中的Convolutional GLU门控机制替代CAFormer模块中的MLP层，GLU可以通过自适应的方式控制信息流的传递，从而增强了模型的非线性表达能力，且利用卷积操作代替了传统的全连接层，从而显著减少了模型的参数量，减轻了计算负担，同理，C2f-CFG结构引入了Transformer中的ConvFormer模块，该模块的令牌混合器为可分离卷积，可分离卷积由逐深度卷积和逐点卷积构成，深度卷积用于提取空间特征，逐点卷积用于提取通道特征，从而达到减少计算量，提升计算效率的目的，同时也采用上述GLU代替MLP层，C2f-CAG与C2f-CFG两种模块搭配使用，在保证检测精度不下降的前提下，参数量更小，更加轻量化。

示例性的，GLU作为一种基于门控机制的非线性激活函数，表达式如下：

GLU(x)＝(W₁x)⊙σ(W₂x) (1)

其中，W₁x为输入的线性变换，作为特征提取部分，W₂x为另一个线性变换，作为门控部分，σ(·)是sigmoid激活函数，输出控制在0到1之间的门控，⊙表示元素级乘法。

进一步的，针对小目标信息提取与融合效果差，在颈部网络中设计了全新的特征金字塔结构SCOK，在本实施例中结合图4，图4为本发明实施例全新的特征金字塔SCOK的结构示意图，SPD-Conv由一个空间到深度层和一个非步长卷积层组成，相比于CNN架构中的步长卷积层和池化层会导致小目标信息的丢失，SPD-Conv对特征映射进行下采样，但会保留通道维度中的所有信息，因此不会有信息丢失，因此引入SPD-Conv用以提取小目标信息。SPD-Conv中的小目标信息与P3特征层的小目标信息进行整合后，考虑到特征信息融合不够充分，且将小目标信息全部进行处理会使得参数量大幅上升，于是设计了SPlit-Omni-Kernel模块，具体结合图5，图5为图4中SPlit-Omni-Kernel模块的结构示意图，根据CSP残差思想，输入特征分成两个分支，其中一个分支经过Omni-Kernel模块处理，另一分支保持不变，并在最终通过特征级联实现多尺度信息的重构。

示例性的，其中Omni-Kernel模块如图6所示，输入特征图经过1×1卷积处理后，随后分别经过大分支，包含15×1的深度卷积、15×15的深度卷积、1×15的深度卷积来捕捉不同方向的小目标信息；全局分支由一个双域通道注意力模块(DCAM)和一个基于频率的空间注意力模块(FSAM)组成，采用双域处理，可弥补大分支无法覆盖的全局域；局部分支采用简单的1×1的深度卷积层，在不增加模型复杂度的情况下，提高了特征信息的利用率，最后这3种分支的结果与输入侧的1×1卷积输出的特征图进行拼接再经过一个1×1卷积处理，其中大分支中深度卷积K的取值影响模型的参数量与精确度，因此经过测试本发明将K的取值设为15，实现精确度与参数量的平衡。

在本实施例中结合图7，将头部网络的解耦头结构替换为包含共享卷积的轻量化检测头LSDC，如图7所示。原始模型采用的检测头为解耦头，该检测头将目标分类任务与边界框回归任务分成了两个独立的过程，该方法可以一定程度上提高网络的特征提取能力，但由于每一个回归任务都需要两个3×3的卷积来提取和处理特征，以及一个1×1的卷积用来调整边界框，输出边界框预测信息，而该网络模型需要分别完成P3、P4、P5三个尺度的特征层的检测，因此需要12个3×3的卷积和6个1×1的卷积，极大的增加了模型的参数量和计算量。针对该问题，采用两个共享权重的卷积来代替12个3×3的卷积用来进行图像特征的提取，同时考虑到权重共享虽然可以使参数量和计算量降低，但也会丢失一部分小目标信息，使得精度降低，因此引入了细节增强卷积用来在特征提取阶段捕获小目标信息，以维持精度不下降。通过大量研究发现，组归一化(GN)方法已经被证明过可以提高检测头的分类和定位的精度，因此尝试在1×1的卷积引入GN，以及在特征提取器的卷积上引入GN来弥补精度损失，GN的流程推导如下：

公式(2)(3)中，假定输入特征图x的大小为N×C×H×W，GN的方法是首先将通道数分为多组，假设将通道数分为G组，则每组包含C'＝C/G，针对于这G组，每组对其进行计算均值μg和方差公式(4)中，计算每个组中的每个通道的归一化，公式(5)中，对每个元素进行归一化处理，并且引入可训练的缩放因子γ和偏移量β，用于恢复模型的表达能力。

步骤4：将训练数据集中图片与标签送入网络模型进行训练，并根据验证集的结果调整相应超参数获得最佳训练结果。

在本实施例中，进行训练的训练方法为：训练过程中未使用任何预训练的模型，图像的输入大小设置为640×640像素，训练200个epoch，batch设置为16，初始学习率为0.01，使用随机梯度下降(SGD)来进行参数优化，并在训练完成后保存最后的权重文件。

步骤5：将测试集中待检测的图片送入训练好的SCGD-YOLO模型中进行小目标检测。

在本实施例中，下面将对消融实验实验结果进行分析，以验证各个模块在模型当中所起的作用，消融实验结果如下表1所示。

表1：消融实验(√表示将该模块加入模型中)

示例性的，由表1消融实验结果可知，与基准模型YOLOv8s相比，引入新型的特征金字塔网络后，小目标检测的mAP50与mAP50-95分别提升了2.9％和2％，参数量与模型大小有一定程度的上升，说明针对于小目标的特征金字塔能够更好地捕获小目标的特征以提高精度，但由于引入了更多的小目标特征信息使得参数量与模型体积上升。

进一步的，针对于YOLOv8模型中C2f模块的改进，由于在颈部网络的C2f模块引入了可分离卷积进行轻量化，且在主干网络中的C2f模块中使用了自注意力机制，因此引入C2f-CAG和C2f-CFG模块后，根据实验结果可知平均检测精度在损失很小的情况下，使得模型的参数量下降了10.6％，模型体积减少了2.2MB。针对于基准模型的解耦头进行改进后的LSDC检测头，使得模型的参数量下降了15.3％，模型体积减少了1.7MB，且mAP50仅下降了0.1％，证明该检测头具有轻量化的作用。将本发明所提出的模块进行随机组合，模型的mAP50与mAP50-95均有提升，且参数量与基准模型相比有所下降，但由于引入小目标特征信息会导致模型体积大小有所上升。最后加入所有模块得到的网络模型，相比于原来的基准模型，模型的mAP50与mAP50-95分别上升了2.4％和1.7％，参数量下降了27.5％，且模型体积下降了4.3MB，更加有利于部署到无人机中，满足无人机视角的小目标检测任务。

优选地，为表现该类算法在不同场景下的适用性，另选择选择TinyPerson数据集进行泛化实验。TinyPerson数据集以远距离和大背景下的微小目标检测作为设计的基准，这些图像从互联网收集，该数据集的关键特点是将人分为两类：海上人员和陆地人员，海上人员包括在船上的人，躺在水里的人等，而陆地人员包括其他所有人，该数据集的目标大多为小目标，因此用于小目标检测的数据集。泛化实验的结果如下表2所示。

表2：泛化实验结果

模型	P(％)	R(％)	mAP50(％)	mAP50-95(％)	Parameters(％)	Modelsize/MB
							YOLOv8s	44.5	29.6	28.3	9.14	11.13	21.5
Ours	47.2	33.7	31.4	9.83	8.06	17.1

示例性的，由表2的泛化实验结果可知，改进后的模型相比于基准模型在TinyPerson数据集上精确率(P)、召回率(R)和平均精度(mAP50)分别提升了2.7％、4.1％、3.1％，且参数量下降了27.6％，模型体积大小减少了4.4MB，充分验证了本文改进算法具有良好的通用性和普适性。

优选地，本申请将做两组对比实验，第一组是将本文算法SCGD-YOLO与YOLO系列其他算法进行比较，第二组则是与近年来目标检测领域其他主流算法进行比较，对比试验结果如下表3、4所示。

表3：与YOLO系列算法对比试验

模型	P(％)	R(％)	mAP50(％)	Parameters(M)
					YOLOv5s	42.5	31.9	31.0	7.04
YOLOv7-tiny	46.4	36.4	34.1	6.03
					YOLOv7	51.3	42.0	39.6	36.53
YOLOv8s	50.3	38.3	39.1	11.13
					YOLOv10s	50.2	38.7	39.4	7.22
YOLOv11s	49.7	37.9	38.6	9.42
					Ours	53.7	39.5	41.5	8.06

示例性的，由表3的对照试验可知，本发明提出的SCGD-YOLO算法，与其他YOLO系列算法在精确度与平均精度上都显著领先，且模型参数量在YOLO系列算法中也处于较为轻量。

表4：与其他主流算法对比试验

示例性的，由表4的对照实验可知，本发明提出的SCGD-YOLO算法，相比于其他主流算法在精确度与平均精度上都遥遥领先，且参数量远低于其他算法，在模型部署上更具有优势。

在本实施例中，为演示发明达到的效果，结合图8、图9、图10和图11进行说明。将改进模型的检测图与原始模型检测图进行对比，如图8所示，在车辆密集的情况下，原始模型可以检测到大部分的车辆与行人，但位于图片右下角边缘的摩托车与行人由于只有一半图像，因此未能识别出来，而通过如图9所示，改进后的模型即使在车辆密集的情况下，仍能识别出右下角漏检的行人与摩托车；如图10所示，在阳光照射情况下，会使得部分信息被覆盖难以提取，原始模型可以检测到大部分车辆与行人，但位于图片左上角与右侧的行人由于阳光照射以及车辆遮挡未能识别出，而通过如图11所示，改进后的模型在阳光照射以及车辆遮挡的情况下，仍能识别出行人，对比图可以看出改进后的模型在不同环境下仍能保证优于原模型的检测精度。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于SCGD-YOLO网络的无人机视角下的小目标检测方法，其特征在于：包括以下步骤：

步骤2：配置网络模型所需的网络环境；

2.根据权利要求1所述的一种基于SCGD-YOLO网络的无人机视角下的小目标检测方法，其特征在于：所述构建的SCGD-YOLO网络模型包括：输入图像首先经过骨干网络进行特征提取，通过卷积层、批量归一化和激活函数，网络逐步提取出图像的低级和高级特征，经过多层的特征提取，捕捉图像中的空间信息和语义信息；将提取出的特征信息输入到颈部网络进行特征融合，通过颈部网络中的特征金字塔，将不同层的特征进行融合；最后将特征融合信息送入检测头中，输出每个网络所预测的目标信息，并整合输出图像的类别标签、框坐标和置信度。

3.根据权利要求1所述的一种基于SCGD-YOLO网络的无人机视角下的小目标检测方法，其特征在于：所述SCGD-YOLO网络模型是以YOLOv8为基线模型进行改进，首先在骨干网络与颈部网络引入改进后的C2f-CAG与C2f-CFG模块替换原本的C2f模块，其次利用全新的特征金字塔结构SCOK代替原本颈部网络的特征金字塔，最后将头部网络的解耦头结构替换为包含共享卷积的轻量化检测头LSDC。

4.根据权利要求3所述的一种基于SCGD-YOLO网络的无人机视角下的小目标检测方法，其特征在于：所述改进后的C2f-CAG与C2f-CFG模块中，C2f-CAG结构引入Transformer中的CAFormer模块，所述CAFormer模块的令牌混合器为自注意力层，使用TransNext中的Convolutional GLU门控机制替代CAFormer模块中的MLP层，GLU通过自适应的方式控制信息流的传递，利用卷积操作代替传统的全连接层；

所述C2f-CFG结构引入了Transformer中的ConvFormer模块，所述ConvFormer模块的令牌混合器为可分离卷积，可分离卷积由逐深度卷积和逐点卷积构成，深度卷积用于提取空间特征，逐点卷积用于提取通道特征，同时也采用Convolutional GLU门控机制替代ConvFormer模块中的MLP层，所述C2f-CAG与所述C2f-CFG两种模块搭配使用。

5.根据权利要求4所述的一种基于SCGD-YOLO网络的无人机视角下的小目标检测方法，其特征在于：所述Convolutional GLU门控机制为一种基于门控机制的非线性激活函数，表达式为：GLU(x)＝W₁x)⊙σ(W₂x)，其中，W₁x为输入的线性变换，作为特征提取部分，W₂x为另一个线性变换，作为门控部分，σ(·)是sigmoid激活函数，输出控制在0到1之间的门控，⊙表示元素级乘法。

6.根据权利要求3所述的一种基于SCGD-YOLO网络的无人机视角下的小目标检测方法，其特征在于：所述全新的特征金字塔SCOK中，引入SPD-Conv用以提取小目标信息，所述SPD-Conv由一个空间到深度层和一个非步长卷积层组成，SPD-Conv对特征映射进行下采样，并保留通道维度中的所有信息，所述SPD-Conv中的小目标信息与特征层的小目标信息进行拼接处理后，将其输送到SPlit-Omni-Kernel模块进行特征融合，并输出到检测头中进行小目标检测与定位。

7.根据权利要求6所述的一种基于SCGD-YOLO网络的无人机视角下的小目标检测方法，其特征在于：所述SPlit-Omni-Kernel模块，根据CSP残差思想，输入特征分成两个分支，其中一个分支经过Omni-Kernel模块处理，另一分支保持不变，并在最终通过特征级联实现多尺度信息的重，且所述Omni-Kernel模块包含大分支、全局分支、局部分支。

8.根据权利要求3所述的一种基于SCGD-YOLO网络的无人机视角下的小目标检测方法，其特征在于：所述共享卷积的轻量化检测头LSDC中，首先采用1×1的卷积用以调整通道数，然后采用2个3×3的卷积作为共享权值卷积代替原本的12个3×3卷积用以特征提取，通过引入细节增强卷积在特征提取阶段捕获小目标信息，并在1×1的卷积引入归一化，以及在特征提取器的卷积上引入归一化，所述归一化的流程推导如下：

9.根据权利要求8所述的一种基于SCGD-YOLO网络的无人机视角下的小目标检测方法，其特征在于：所述细节增强卷积中，包含五个并行部署的卷积层，包括普通卷积、角度差分卷积、中心差分卷积、水平差分卷积和垂直差分卷积，用于恢复图像的空间分辨率并增强细节部分。

10.根据权利要求1所述的一种基于SCGD-YOLO网络的无人机视角下的小目标检测方法，其特征在于：所述训练方法为：训练过程中未使用任何预训练的模型，通过使用随机梯度下降进行参数优化，并在训练完成后保存最后的权重文件。