[go: up one dir, main page]

CN117689865A - 一种基于特征和融合模式搜索的目标检测方法及系统 - Google Patents

一种基于特征和融合模式搜索的目标检测方法及系统 Download PDF

Info

Publication number
CN117689865A
CN117689865A CN202211025096.8A CN202211025096A CN117689865A CN 117689865 A CN117689865 A CN 117689865A CN 202211025096 A CN202211025096 A CN 202211025096A CN 117689865 A CN117689865 A CN 117689865A
Authority
CN
China
Prior art keywords
fusion
feature
features
network
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211025096.8A
Other languages
English (en)
Inventor
张蕊
郭家明
支天
黄迪
张曦珊
郭崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN202211025096.8A priority Critical patent/CN117689865A/zh
Publication of CN117689865A publication Critical patent/CN117689865A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种基于特征和融合模式搜索的目标检测方法和系统,包括:构建包括融合特征搜索单元和融合模式搜索单元的特征融合网络;融合特征搜索单元从图片的多尺度特征中搜索得到各尺度下的最优特征;从所有最优特征中选择两个特征作为候选特征对,融合模式搜索单元根据候选特征对,从包括多个候选融合操作的操作集中搜索得到融合策略,对候选特征对进行特征融合,得到融合特征;基于融合特征确定图片中检测目标的预测位置类别。使用了神经网络搜索算法并根据上述关键因素设计融合特征搜索单元和融合模式搜索单元,减小了搜索时的计算开销和内存开销并有效找到好的结构。

Description

一种基于特征和融合模式搜索的目标检测方法及系统
技术领域
本发明涉及图像处理和深度学习目标检测技术领域,并特别涉及一种基于特征和融合模式搜索的目标检测方法及系统。
背景技术
现在的深度学习目标检测框架主要由三个部分组成:主干网络,特征融合网络,检测头组成。其中主干网络一般是resnet,vgg,mobilenet等图像识别中常用的网络,用于提取图片中的特征。特征融合网络则通过对主干网络提取得到的多尺度特征进行融合来提高目标检测精度。检测头则根据融合后的特征来输出检测框位置和大小。
特征融合网络是该框架中的关键部分,现有的技术往往通过设计多尺度特征的融合路径来提高检测性能。
现有的特征融合网络往往通过将两个特征相加来进行融合。然而,不同层次的特征应该与不同大小的物体相关联,所以常用的加法操作作为融合操作可能会导致不同层次特征之间的冲突,并损害融合网络的性能。另外,现有融合网络的输入特征固定为主干网络中特定的层,比如,主干网络每个阶段的最后一层。然而,这样便忽略了从其他层选择特征可能会获得更好的性能。
发明内容
本发明的目的是提高上述现有技术的检测精度,提出了一种基于特征和融合模式搜索的目标检测方法,其中包括:
步骤1、获取已标记位置类别标签的训练图片,构建包括融合特征搜索单元和融合模式搜索单元的特征融合网络;
步骤2、该融合特征搜索单元从该训练图片的多尺度特征中搜索得到各尺度下的最优特征;从所有最优特征中选择两个特征作为候选特征对,该融合模式搜索单元根据该候选特征对,从包括多个候选融合操作的操作集中搜索得到融合策略,对该候选特征对进行特征融合,得到融合特征;基于该融合特征确定该训练图片中检测目标的预测位置类别;
步骤3、以该预测位置类别和该位置类别标签构建损失函数,训练该特征融合网络,得到最终模型;将待目标检测图片的多尺度特征输入该最终模型,得到其融合特征,以得到该待目标检测图片的目标位置类别。
所述的基于特征和融合模式搜索的目标检测方法,其中该特征融合网络还包括融合路径搜索单元;
该步骤2包括:该融合路径搜索单元对各尺度下的该最优特征的通道进行分组,该融合路径搜索单元将每个该最优特征的通道通道划分为K组,k(k=1,…,K)组中尺度为s的特征可以表示为Fs,k,该融合路径搜索单元采用n选1的搜索操作来选择不同尺度的特征由/>和/>构成该候选特征对。
所述的基于特征和融合模式搜索的目标检测方法,其中该操作集包括空间维自注意力操作、通道维自注意力操作、空间维注意力操作、通道维注意力操作与加法操作。
所述的基于特征和融合模式搜索的目标检测方法,其中通过主干网络提取该训练图片的多尺度特征,其中将该主干网络输出同一尺度特征的层作为同一网络阶段,该融合特征搜索单元在每个网络阶段的第一层的输出特征、中间层的输出特征和顶层的输出特征中搜索出该最优特征。
本发明提出了一种基于特征和融合模式搜索的目标检测系统,其中包括:
初始模块,用于获取已标记位置类别标签的训练图片,构建包括融合特征搜索单元和融合模式搜索单元的特征融合网络;
搜索模块,用于使该融合特征搜索单元从该训练图片的多尺度特征中搜索得到各尺度下的最优特征;从所有最优特征中选择两个特征作为候选特征对,该融合模式搜索单元根据该候选特征对,从包括多个候选融合操作的操作集中搜索得到融合策略,对该候选特征对进行特征融合,得到融合特征;基于该融合特征确定该训练图片中检测目标的预测位置类别;
检测模块,用于以该预测位置类别和该位置类别标签构建损失函数,训练该特征融合网络,得到最终模型;将待目标检测图片的多尺度特征输入该最终模型,得到其融合特征,以得到该待目标检测图片的目标位置类别。
所述的基于特征和融合模式搜索的目标检测系统,其中该特征融合网络还包括融合路径搜索单元;
该搜索模块用于:该融合路径搜索单元对各尺度下的该最优特征的通道进行分组,该融合路径搜索单元将每个该最优特征的通道通道划分为K组,k(k=1,…,K)组中尺度为s的特征可以表示为Fs,k,该融合路径搜索单元采用n选1的搜索操作来选择不同尺度的特征由/>和/>构成该候选特征对。
所述的基于特征和融合模式搜索的目标检测系统,其中该操作集包括空间维自注意力操作、通道维自注意力操作、空间维注意力操作、通道维注意力操作与加法操作。
所述的基于特征和融合模式搜索的目标检测系统,其中通过主干网络提取该训练图片的多尺度特征,其中将该主干网络输出同一尺度特征的层作为同一网络阶段,该融合特征搜索单元在每个网络阶段的第一层的输出特征、中间层的输出特征和顶层的输出特征中搜索出该最优特征。
本发明提出了一种存储介质,用于存储执行所述任意一种基于特征和融合模式搜索的目标检测方法的程序。
本发明提出了一种客户端,用于所述的任意一种基于特征和融合模式搜索的目标检测系统。
由以上方案可知,本发明的优点在于:
当主干网络为ResNet50时,在实现相似检测精度时,相比现有最先进的搜索网络NAS-FPN,本文方法的参数量和计算量分别减少29.6%和22.3%,相比现有人工设计网络FPN,本文方法的平均检测精度可以提高2.1%。当主干网络为VGG时,相比现有最先进的搜索网络Auto-FPN,本文方法的平均检测精度提高了1.7%。
附图说明
图1为本发明融合网络搜索框架的整体结构;
图2为融合模式搜索单元结构图;
图3为特征维度被划分为两组时的融合过程图;
图4为融合模式搜索单元结构图;
图5为时间开销预测网络的网络结构。
具体实施方式
发明人在对深度学习检测框架中的特征融合网络的研究中发现,现有的特征融合网络设计大多只考虑融合路径,而忽略了融合方式和融合特征选择这两个关键因素。本发明专注于从更高的角度设计融合网络的架构。为了提高融合多尺度特征的能力,不同于现有的只考虑融合路径的工作,本发明考虑了三个方面:输入融合特征、融合路径和融合操作。
本发明在考虑以上设计因素的同时,还要考虑到算法部署到目标平台时的硬件开销。目前,目标检测算法广泛应用于安防监控,自动驾驶,医疗影像处理,机器人等各个场景。为了保证算法可以在目标硬件上高效运行,本发明需要在设计算法时考虑目标平台的硬件特性。然而,要在以上巨大的设计空间中,实现精度,计算能效,参数量之间的良好权衡无疑非常困难。因此,本发明使用了神经结构搜索算法,它在自动有效地在搜索空间中发现最佳网络方面有显著的效果。基于上述分析,本发明提出了一种新的网络结构搜索框架来设计硬件感知的注意力感知融合网络。具体来说,本发明包括以下关键技术点:
关键点1,提出特征融合网络设计的三个关键因素;技术效果:从更全面的角度设计特征融合网络,提高检测精度;
关键点2,使用了神经网络搜索算法并根据上述关键因素设计三个搜索单元:融合特征搜索单元、融合路径搜索单元和融合模式搜索单元。技术效果:设计搜索单元时实现了权重复用和分组融合,减小了搜索时的计算开销和内存开销并有效找到好的结构;
关键点3,把在目标硬件上特征融合网络的硬件开销作为搜索目标;技术效果:在目标硬件上能实现精度和计算开销的良好权衡。
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。
本发明使用基于进化算法的神经架构搜索方法来解决网络结构设计问题。下文首先介绍AFN(基于注意力的特征融合网络attention-aware fusion network)的结构和搜索空间,然后介绍如何根据目标硬件平台的特性搜索硬件感知的特征融合网络。
基于注意力的特征融合网络:
本发明提出的AFN旨在融合多尺度特征并提高目标检测框架的分类和定位能力。图1显示了本发明提出的网络搜索框架的整体结构。AFN将来自主干网络的特征作为输入,生成融合特征。AFN是可扩展的,可以堆叠在任何主干网络和检测头网络之间。
为了搜索网络结构,AFN由三种单元组成:融合特征搜索单元、融合路径搜索单元和融合模式搜索单元。这三种单元构成了AFN中的层。将整个AFN结构记为SAFN,假设AFN包含T+1层:SAFN={L0,L1,…,LT},每层产生N种不同尺度的特征:
第一层L0将来自主干网络的M个候选特征作为输入,并针对不同的尺度输出最合适的N个特征。本发明通过融合特征搜索单元搜索L0的结构。
此外,接下来的T层Li(i=1,…,T)融合了从前一层Li-1产生的N个特征并保持特征数量不变。最终输入至检测头的特征即为最后一层产生的N个特征。
为了提高融合多尺度特征的能力,Li的结构由融合路径搜索单元和融合模式搜索单元决定。融合路径搜索单元选择最优的跨尺度连接,同时融合模式搜索单元确定多个注意力机制中的最优融合操作。通过这三种基本单元,本发明将整个搜索空间划分为可单独改变的一系列选择,这样本发明在搜索空间内的不同的网络结构之间实现了权重共享,从而减小了搜索时的计算开销和存储开销。接下来,本发明将详细描述这三种基本单元。
融合特征搜索单元:
融合特征搜索单元旨在从主干网络的不同层中选择多尺度的最佳特征。通常,本发明假设生成具有相同空间大小的特征图的层处于同一网络阶段。为了提供更多的选择,本发明从每个阶段的第一层、中间层和顶层中选择特征作为候选特征,而不仅仅是顶层。这三种层分别代表了每个阶段的空间信息最强、语义信息和空间信息平衡和语义信息最强的特征。将来自第i个主干阶段的特征表示为其中ni为第i阶段的层数,上标表示层的索引。
本发明以ResNet-50为例,从3-5阶段中选择特征作为输入,因此候选特征可以表示为假设Pcandidate中总共有M个候选特征,它是AFN第一层L0的输入。L0产生N特征/>对应于N不同的尺度。空间大小从/>到/>以因子2逐渐下采样。尺度s的每个输出特征/>使用融合特征搜索单元/>选择,该单元应用选择操作/>对候选特征Pcandidate,表示为/>
为了生成具有更丰富多尺度信息的特征,选择操作要么选择一个候选特征,要么选择其中两个特征的和(特征将首先下采样或上采样为目标大小)。
对于M候选特征,可能的操作数为最后,选定的特征后面总是跟着一个3x3卷积、一个批归一化和一个ReLU激活函数。
融合模式搜索单元:
融合模式搜索单元决定融合多尺度特征的操作。除了常用的加法运算外,还有很多不同的注意力机制在不同方面表现出很强的融合能力。因此,将不同种类的注意力机制与加法操作一起视为候选融合操作,表示为A={A1,A2,…,AQ},其中Q是候选融合操作的数量。
本发明了构建以下5种融合操作。这些融合操作涵盖了应用注意力机制的所有维度选择,以及用于生成注意力权重的所有特征选择。这些融合操作的细节如图4所示。融合模式搜索单元中用于融合特征和/>的候选融合操作./>是和输出特征有相同尺度的特征。/>从其他尺度上采样或下采样得到的特征。对于第三种和第四种操作,输入特征的位置可以被交换。
1、空间维自注意力(Spatial-wise self-attention):这个操作使用1×1卷积计算两个特征的注意力权重,并且在这两个权重之间应用SoftMax函数。这两个注意力权重与特征具有相同的空间大小,但它们的通道数都是1。然后将特征与相应的注意力权重相乘并相加。
2、通道维自注意力(Channel-wise self-attention):这个操作与空间维自注意力(Spatial-wise self-attention)类似。唯一的区别是注意力权重是通过全局池化生成的,因此它们具有与特征相同的通道数,但它们的空间大小为1。
3、空间维注意力(Spatial-wise attention):在这个操作中,一个特征将乘以一个注意力图,这个图是使用另一个特征经过1×1卷积计算出来的。注意力图与特征具有相同的空间大小,但通道数为1。最后将两个特征相加。
4、通道维注意力(Channel-wise attention):这个操作与空间维注意力(Spatial-wise attention)类似。不同之处在于注意力权重是通过全局池化生成的,并且具有与特征相同的通道数,但注意力权重的空间大小为1。
5、加法(Add):这个操作会直接将两个特征相加。
在层Li中具有输出尺度s的融合操作As需要特征和/>t≠s作为输入。其中尺度s和主干网络的尺度有关,若主干网络为resnet50输出有五种尺度,则s分别为3,4,5stage输出尺度及5stage降采样(ratio=0.5)一次,降采样两次。
融合操作As是通过在集合A中根据神经网络搜索进行一个n选1操作得到的。那么,层Li中尺度s对应的融合模式搜索单元/>可以表示为/>
融合路径搜索单元:
融合路径搜索单元的设计有两个关键点。
1)根据现有特征融合网络的各种结构,本发明构建搜索空间时遵循一个设计原则,即融合操作的输入总是包括与输出特征具有相同尺度的前一层的特征。该原则通过保留当前尺度的信息并从另一个尺度的特征聚合跨尺度信息来提高融合效率。
2)如融合模式搜索单元中所述,本发明使用的融合操作都是双输入函数。因此,为了在减少计算开销的同时融合更多尺度,本发明在融合之前将特征通道分为几组。如图3所示,基于上述几点,本发明首先将每个尺度特征的通道划分为K组。那么对于Li层,k(k=1,…,K)组中尺度为s的特征可以表示为融合路径搜索单元/>采用n选1的操作来选择不同尺度的特征/>然后特征/>和特征/>被融合模式搜索单元融合。为了融合不同尺度的输出特征,本发明加上了一个融合卷积。
搜索算法:
本发明采用了基于进化算法的神经结构搜索方法在上述搜索空间中找到最优结构。如上所述,三种单元构成了整个搜索空间。每个单元包含一个基于神经网络搜索N选1的选择操作,所有这些操作形成一个路径,即一种网络结构。
由于所有这些路径共享参数并组成一个超网络,本发明可以训练超网络并把它作为本发明搜索空间中所有网络结构(路径)的性能估计器。因为搜索的结构被划分为了多个单元,当某个单元变动时,便不会更改网络上的所有参数,只有变动的单元对应的参数会发生改变,即在不同结构间共享了参数。搜索空间随着搜索单元的增多变的非常大,但显然所需存储的参数并不会很多。
受GreedyNAS的启发,本发明采用多路径采样策略,并贪心地过滤比较差的路径来训练超网络。当超网络训练完成后,本发明将超网络的性能作为评分函数的一部分,并执行进化算法以获得最优网络结构。接下来本发明将详细介绍搜索过程。
参考DARTS算法,本发明将原始训练数据划分为两个不相交的集合:训练集Dtrain和验证集Dvar。在本发明的搜索过程中,训练集Dtrain用于训练超网络的参数,验证Dval用于验证超网络的性能。本发明为每个类别的对象随机选择20张图像构成验证集Dval,其余图像构成了训练集Dtrain
本发明的搜索过程分为三个阶段:预训练阶段、贪心训练阶段和进化算法阶段。
在预热阶段,搜索单元中的所有操作都被均匀采样(随机选择)并使用训练集Dtrain训练。预训练阶段对整个搜索过程非常重要。在搜索过程开始时,所有操作的权重都没有得到充分训练。如果在这时开始贪心训练,那么收敛更快而不是性能更好的操作将在贪心训练中更具有优势,这样,搜索就会偏离最优值。在预训练阶段之后,所有的操作都应该得到充分的训练。
在贪心训练阶段,本发明采用GreedyNAS方法。在训练过程中,本发明保留一个大小为的候选池/>且最初候选池/>中的路径是从搜索空间中随机选择。在每次训练迭代中,本发明以∈的概率从候选池中采样m条路径,并以1-∈的概率从整个搜索空间中采样。这m个路径将在Dval上进行测试。结果将按目标函数Fgreedy排序。然后将前k条路径并用于更新候选池/>当候选池已满时,将丢弃Fgreedy值最低的路径。
在贪心训练阶段完成后,本发明获得了一个超网络作为不同网络结构的性能估计器。然后本发明以候选池中的前n条路径作为初始种群执行进化算法。本发明通过使用目标函数Fevolution来评估网络结构。在这些评估的架构中,本发明选择top-n作为父代来生成子网络。其中子网络由变异和交叉各产生一半网络。本发明在迭代中重复这个过程,神经架构搜索结果是最后一个种群中目标函数得分最高的网络结构。
对于所有实验,本发明将候选池的大小设置为500,样本路径数m为10,所选路径数k为5。在贪心训练过程中,本发明将池采样概率从0线性提高到0.8。预热阶段和贪心训练阶段伪代码如下述算法1所示。使用进化算法获得网络结构伪代码如下述算法2所示。
硬件感知的搜索目标
硬件感知的目标函数为了实现搜索得到的网络结构实现硬件开销和检测准确率的良好权衡,本发明需要将硬件开销加入本发明的搜索目标。在搜索过程中,本发明使用目标函数来表示搜索目标并对网络结构进行排序。因此,本发明设计的目标函数同时考虑精度和目标硬件上网络的存储和计算开销。在贪心训练超网络时目标函数为:
Fgreedy=-Lvalt*T(Arch)
M*M(Arch
其中Lval为网络在Dval上的平均损失函数,T(Arch)为网络在目标硬件上的计算时间开销,M(Arch)为网络参数的存储开销。
在执行进化算法时目标函数为:
Fevolution=mAPvalt*T(Arch)
M*M(Arch)
其中mAPval为函数在网络在Dal的平均检测精度。
时间开销T(Arch)预测:
上述目标函数中,平均损失函数Lval,平均检测精度mAPval可以在搜索过程中得到,参数存储开销也可以直接计算得到,而对于计算时间开销T(Arch)很难直接得到。虽然本发明能直接得到网络结构对应的计算量,但在GPU或者神经处理芯片上计算量和计算时间往往不是线性相关。因此,本发明训练了预测神经网络P用于估计网络的计算时间开销T(Arch)。神经网络P的网络结构如图5所示。
本发明在搜索前从搜索空间中随机采样N个网络结构,分别将这些网络结构在目标硬件平台上运行M次并记录运行时间,取M次的平均值记录下来,作为训练数据。然后使用采集到的数据训练神经网络P。损失函数为:
在搜索过程中,本发明可以直接使用训练收敛的网络P的输出估计计算时间开销T(Arch)。
算法1.超网络训练
算法2.进化算法
以下为与上述方法实施例对应的系统实施例,本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在上述实施方式中。
本发明提出了一种基于特征和融合模式搜索的目标检测系统,其中包括:
初始模块,用于获取已标记位置类别标签的训练图片,构建包括融合特征搜索单元和融合模式搜索单元的特征融合网络;
搜索模块,用于使该融合特征搜索单元从该训练图片的多尺度特征中搜索得到各尺度下的最优特征;从所有最优特征中选择两个特征作为候选特征对,该融合模式搜索单元根据该候选特征对,从包括多个候选融合操作的操作集中搜索得到融合策略,对该候选特征对进行特征融合,得到融合特征;基于该融合特征确定该训练图片中检测目标的预测位置类别;
检测模块,用于以该预测位置类别和该位置类别标签构建损失函数,训练该特征融合网络,得到最终模型;将待目标检测图片的多尺度特征输入该最终模型,得到其融合特征,以得到该待目标检测图片的目标位置类别。
所述的基于特征和融合模式搜索的目标检测系统,其中该特征融合网络还包括融合路径搜索单元;
该搜索模块用于:该融合路径搜索单元对各尺度下的该最优特征的通道进行分组,该融合路径搜索单元将每个该最优特征的通道通道划分为K组,k(k=1,…,K)组中尺度为s的特征可以表示为Fs,k,该融合路径搜索单元采用n选1的搜索操作来选择不同尺度的特征由/>和/>构成该候选特征对。
所述的基于特征和融合模式搜索的目标检测系统,其中该操作集包括空间维自注意力操作、通道维自注意力操作、空间维注意力操作、通道维注意力操作与加法操作。
所述的基于特征和融合模式搜索的目标检测系统,其中通过主干网络提取该训练图片的多尺度特征,其中将该主干网络输出同一尺度特征的层作为同一网络阶段,该融合特征搜索单元在每个网络阶段的第一层的输出特征、中间层的输出特征和顶层的输出特征中搜索出该最优特征。
本发明提出了一种存储介质,用于存储执行所述任意一种基于特征和融合模式搜索的目标检测方法的程序。
本发明提出了一种客户端,用于所述的任意一种基于特征和融合模式搜索的目标检测系统。
本发明还提出了一种硬件感知的高效特征融合网络搜索方法,其特征在于,包括:
初始模块,用于获取已标记位置类别标签的训练图片,构建包括融合特征搜索单元、融合路径搜索单元和融合模式搜索单元的特征融合网络;
融合模块,用于使该融合特征搜索单元从该训练图片的多尺度特征中搜索得到各尺度下的最优特征;对各尺度下的该最优特征的通道进行分组,该融合路径搜索单元从各分组中搜索得到候选特征,构建多个由两个候选特征构成的候选特征对;根据该候选特征对,该融合模式搜索单元从包括多个候选融合操作的操作集中搜索得到融合策略,并以该融合策略对该候选特征对进行特征融合,得到每个该候选特征对的融合特征;基于该融合特征确定该训练图片中检测目标的预测位置类别;
训练模块,用于以该预测位置类别和该位置类别标签构建损失函数;以该融合特征搜索单元、该融合路径搜索单元和该融合模式搜索单元的搜索操作为路径,所有路径共享相同的参数并组成超网络,并基于路径执行的硬件开销构建的目标函数和该损失函数确定该超网络的网络结构参数,得到最终模型;
检测模块,用于将待目标检测图片的多尺度特征输入该最终模型,得到其融合特征,以得到该待目标检测图片的目标位置类别。
所述的硬件感知的高效特征融合网络搜索方法,其特征在于,该训练模块包括:
预训练模块,该融合特征搜索单元、该融合路径搜索单元和该融合模式搜索单元中所有搜索操作被均匀采样,并使用训练集Dtrain训练该特征融合网络;
贪心训练模块,保留一个大小为的路径候选池/>在每次训练迭代中,以∈的概率从该候选池中采样m条路径,并以1-∈的概率从由多有路径构成的搜索空间中采样;这m个路径将在测试集Dval上进行测试,测试结果按目标函数Fgreedy排序,将前k条路径用于更新候选池/>当候选池/>已满时,将/>中Fgreedy值最低的路径丢弃;
进化训练模块,在该贪心训练步骤得到的超网络作为性能估计器;以候选池中的前n条路径作为初始种群执行进化算法,通过目标函数Fevolution评估该前n条路径的网络结构;在评估的网络结构中,选择评分top-n作为父代,生成子网络,其中子网络由变异和交叉各产生一半网络;以Fevolution分数最高的网络作为该超网络最终的网络结构。
所述的硬件感知的高效特征融合网络搜索方法,其特征在于,该目标函数Fgreedy为:
Fgreedy=-Lvalt*T(Arch)
M*M(Arch)
其中Lval为网络在Dval上的平均损失函数,T(Arch)为网络在目标硬件上的计算时间开销,M(Arch)为网络参数的存储开销;
目标函数Fevolution为:
Fevolution=mAPvalt*T(Arch)
M*M(Arch)
其中mAPval为函数在网络在Dval的平均检测精度。
所述的硬件感知的高效特征融合网络搜索方法,其特征在于,通过将网络结构输入预测模型得到该时间开销T(Arch);从该搜索空间中随机采样多个网络结构,在目标硬件平台上运行多次并记录运行时间,取多次运行时间的平均值作为训练数据,训练神经网络得到该预测模型。
本发明还提出了一种基于特征和路径搜索的目标检测系统,其中包括:
初始模块,用于获取已标记位置类别标签的训练图片,构建包括融合特征搜索单元和融合路径搜索单元的特征融合网络;
搜索模块,用于使该融合特征搜索单元从该训练图片的多尺度特征中搜索得到各尺度下的最优特征;对各尺度下的该最优特征的通道进行分组,该融合路径搜索单元从各分组中搜索得到候选特征,构建多个由两个候选特征构成的候选特征对;基于预设的融合策略对该候选特征对进行特征融合,得到每个该候选特征对的融合特征,以确定该训练图片中检测目标的预测位置类别;
检测模块,用于以该预测位置类别和该位置类别标签构建损失函数,训练该特征融合网络,得到最终模型;将待目标检测图片的多尺度特征输入该最终模型,得到其融合特征,以得到该待目标检测图片的目标位置类别。
所述的基于特征和路径搜索的目标检测系统,其中该特征融合网络还包括融合模式搜索单元;
该搜索模块用于:根据该候选特征对,该融合模式搜索单元从包括多个候选融合操作的操作集中搜索得到融合策略,并以该融合策略对该候选特征对进行特征融合,得到每个该候选特征对的融合特征;
其中该操作集包括空间维自注意力操作、通道维自注意力操作、空间维注意力操作、通道维注意力操作与加法操作。
所述的基于特征和路径搜索的目标检测系统,其中通过主干网络提取该训练图片的多尺度特征,其中将该主干网络输出同一尺度特征的层作为同一网络阶段,该融合特征搜索单元在每个网络阶段的第一层的输出特征、中间层的输出特征和顶层的输出特征中搜索出该最优特征。
所述的基于特征和路径搜索的目标检测系统,其中融合路径搜索单元将每个该最优特征的通道通道划分为K组,k(k=1,…,K)组中尺度为s的特征可以表示为Fs,k,该融合路径搜索单元采用n选1的搜索操作来选择不同尺度的特征由/>和/>构成该候选特征对。
本发明还提出了一种存储介质,用于存储执行所述任意一种基于特征和路径搜索的目标检测方法的程序。
本发明还提出了一种客户端,用于所述的任意一种基于特征和路径搜索的目标检测系统。

Claims (10)

1.一种基于特征和融合模式搜索的目标检测方法,其特征在于,包括:
步骤1、获取已标记位置类别标签的训练图片,构建包括融合特征搜索单元和融合模式搜索单元的特征融合网络;
步骤2、该融合特征搜索单元从该训练图片的多尺度特征中搜索得到各尺度下的最优特征;从所有最优特征中选择两个特征作为候选特征对,该融合模式搜索单元根据该候选特征对,从包括多个候选融合操作的操作集中搜索得到融合策略,对该候选特征对进行特征融合,得到融合特征;基于该融合特征确定该训练图片中检测目标的预测位置类别;
步骤3、以该预测位置类别和该位置类别标签构建损失函数,训练该特征融合网络,得到最终模型;将待目标检测图片的多尺度特征输入该最终模型,得到其融合特征,以得到该待目标检测图片的目标位置类别。
2.如权利要求1所述的基于特征和融合模式搜索的目标检测方法,其特征在于,该特征融合网络还包括融合路径搜索单元;
该步骤2包括:该融合路径搜索单元对各尺度下的该最优特征的通道进行分组,该融合路径搜索单元将每个该最优特征的通道通道划分为K组,k(k=1,…,K)组中尺度为s的特征可以表示为Fs,k,该融合路径搜索单元采用n选1的搜索操作来选择不同尺度的特征由/>和/>构成该候选特征对。
3.如权利要求1所述的基于特征和融合模式搜索的目标检测方法,其特征在于,该操作集包括空间维自注意力操作、通道维自注意力操作、空间维注意力操作、通道维注意力操作与加法操作。
4.如权利要求1所述的基于特征和融合模式搜索的目标检测方法,其特征在于,通过主干网络提取该训练图片的多尺度特征,其中将该主干网络输出同一尺度特征的层作为同一网络阶段,该融合特征搜索单元在每个网络阶段的第一层的输出特征、中间层的输出特征和顶层的输出特征中搜索出该最优特征。
5.一种基于特征和融合模式搜索的目标检测系统,其特征在于,包括:
初始模块,用于获取已标记位置类别标签的训练图片,构建包括融合特征搜索单元和融合模式搜索单元的特征融合网络;
搜索模块,用于使该融合特征搜索单元从该训练图片的多尺度特征中搜索得到各尺度下的最优特征;从所有最优特征中选择两个特征作为候选特征对,该融合模式搜索单元根据该候选特征对,从包括多个候选融合操作的操作集中搜索得到融合策略,对该候选特征对进行特征融合,得到融合特征;基于该融合特征确定该训练图片中检测目标的预测位置类别;
检测模块,用于以该预测位置类别和该位置类别标签构建损失函数,训练该特征融合网络,得到最终模型;将待目标检测图片的多尺度特征输入该最终模型,得到其融合特征,以得到该待目标检测图片的目标位置类别。
6.如权利要求5所述的基于特征和融合模式搜索的目标检测系统,其特征在于,该特征融合网络还包括融合路径搜索单元;
该搜索模块用于:该融合路径搜索单元对各尺度下的该最优特征的通道进行分组,该融合路径搜索单元将每个该最优特征的通道通道划分为K组,k(k=1,…,K)组中尺度为s的特征可以表示为Fs,k,该融合路径搜索单元采用n选1的搜索操作来选择不同尺度的特征由/>和/>构成该候选特征对。
7.如权利要求6所述的基于特征和融合模式搜索的目标检测系统,其特征在于,该操作集包括空间维自注意力操作、通道维自注意力操作、空间维注意力操作、通道维注意力操作与加法操作。
8.如权利要求6所述的基于特征和融合模式搜索的目标检测系统,其特征在于,通过主干网络提取该训练图片的多尺度特征,其中将该主干网络输出同一尺度特征的层作为同一网络阶段,该融合特征搜索单元在每个网络阶段的第一层的输出特征、中间层的输出特征和顶层的输出特征中搜索出该最优特征。
9.一种存储介质,用于存储执行如权利要求1到4所述任意一种基于特征和融合模式搜索的目标检测方法的程序。
10.一种客户端,用于权利要求5到8所述的任意一种基于特征和融合模式搜索的目标检测系统。
CN202211025096.8A 2022-08-25 2022-08-25 一种基于特征和融合模式搜索的目标检测方法及系统 Pending CN117689865A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211025096.8A CN117689865A (zh) 2022-08-25 2022-08-25 一种基于特征和融合模式搜索的目标检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211025096.8A CN117689865A (zh) 2022-08-25 2022-08-25 一种基于特征和融合模式搜索的目标检测方法及系统

Publications (1)

Publication Number Publication Date
CN117689865A true CN117689865A (zh) 2024-03-12

Family

ID=90125064

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211025096.8A Pending CN117689865A (zh) 2022-08-25 2022-08-25 一种基于特征和融合模式搜索的目标检测方法及系统

Country Status (1)

Country Link
CN (1) CN117689865A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118917389A (zh) * 2024-10-11 2024-11-08 南京信息工程大学 一种基于注意力机制的扩散模型架构搜索方法和系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118917389A (zh) * 2024-10-11 2024-11-08 南京信息工程大学 一种基于注意力机制的扩散模型架构搜索方法和系统

Similar Documents

Publication Publication Date Title
Liu et al. Progressive neural architecture search
Ding et al. Where to prune: Using LSTM to guide data-dependent soft pruning
CN114626506B (zh) 一种基于注意力机制的神经网络单元结构搜索方法及系统
CN116089883B (zh) 用于提高已有类别增量学习新旧类别区分度的训练方法
CN111429977B (zh) 一种新的基于图结构注意力的分子相似性搜索算法
Zhang et al. Joint discriminative representation learning for end-to-end person search
CN113780146B (zh) 基于轻量化神经架构搜索的高光谱图像分类方法及系统
CN112486467B (zh) 一种双重交互关系和注意力机制的交互式服务推荐方法
CN119150925B (zh) 基于混合卷积操作的生成对抗网络架构搜索方法和系统
CN119623515B (zh) 一种基于相似性代理辅助的演化神经架构搜索方法和系统
CN116310466B (zh) 基于局部无关区域筛选图神经网络的小样本图像分类方法
CN114298278A (zh) 一种基于预训练模型的电工装备性能预测方法
CN113989655A (zh) 基于自动化深度学习的雷达或声呐图像目标检测与分类方法
Huang et al. Ponas: Progressive one-shot neural architecture search for very efficient deployment
Ganepola et al. Automating generative adversarial networks using neural architecture search: A review
CN112434734A (zh) 基于动态分类器序列组合的选择性集成方法
CN113920514A (zh) 一种面向目标检测的高效进化神经网络架构搜索方法
CN115546879B (zh) 用于表情识别的细粒度识别模型及方法
CN117689865A (zh) 一种基于特征和融合模式搜索的目标检测方法及系统
CN120011202B (zh) 基于域自适应的跨项目缺陷预测方法及系统
Wang et al. Multi-objective neural architecture search based on diverse structures and adaptive recommendation
Xue et al. Fast and unsupervised neural architecture evolution for visual representation learning
CN117671231A (zh) 基于特征和路径搜索的目标检测方法及系统
CN117689864A (zh) 硬件感知的高效特征融合网络搜索方法及系统
CN116110492A (zh) 一种蛋白质相互作用网络比对方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination