[go: up one dir, main page]

CN119600273B - 一种针对目标检测器的通用测评方法和系统 - Google Patents

一种针对目标检测器的通用测评方法和系统

Info

Publication number
CN119600273B
CN119600273B CN202411745052.1A CN202411745052A CN119600273B CN 119600273 B CN119600273 B CN 119600273B CN 202411745052 A CN202411745052 A CN 202411745052A CN 119600273 B CN119600273 B CN 119600273B
Authority
CN
China
Prior art keywords
loss function
sub
target
candidate
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202411745052.1A
Other languages
English (en)
Other versions
CN119600273A (zh
Inventor
胡胜山
李博文
周子淇
李明慧
万伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202411745052.1A priority Critical patent/CN119600273B/zh
Publication of CN119600273A publication Critical patent/CN119600273A/zh
Application granted granted Critical
Publication of CN119600273B publication Critical patent/CN119600273B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种针对目标检测器的通用测评方法,其从目标检测器的输出中为每个真实物体平均分配固定数量的候选框作为攻击目标,一方面在空域中通过候选框坐标归0攻击和前景‑背景分离攻击来改变预测框的位置、大小和标签;另一方面在频域中聚焦图像的高频信息,将噪声集中在代表语义的高频区域。在两个角度上提升攻击效果和对抗样本的隐蔽性,保证评测方法的准确性。本发明能够解决现有基于扰动的攻击方法和基于补丁的攻击方法无法评测所有的目标检测器的技术问题,以及现有基于扰动的攻击方法由于产生的是图像级全局扰动,通过对非关键对象进行攻击优化会产生不必要的计算成本、易于被人类所感知到的技术问题。

Description

一种针对目标检测器的通用测评方法和系统
技术领域
本发明属于计算机视觉技术领域,更具体地,涉及一种针对目标检测器的通用测评方法和系统。
背景技术
在计算机视觉领域,目标检测器在处理复杂场景和提高检测精度方面有了显著的进展。目标检测涉及分类和回归子任务,需要同时对物体进行定位和识别,即提供边界框位置和分类结果。现有的目标检测器主要分为双阶段检测器和单阶段检测器;双阶段检测器(如R-CNN、Faster R-CNN和Cascade R–CNN等)首先通过RPN生成候选区域,然后对这些区域进行精确的分类和回归;而单阶段检测器(如YOLO和TOOD等),在单个评估步骤中直接预测整个图像中的对象类别和边界框坐标。
随着目标检测器在自动驾驶、智能监控、人脸识别等关键领域的应用越来越广泛,其安全性和鲁棒性问题也日益凸显。在实际应用中,目标检测器可能会遭受到各种攻击,尤其是对抗攻击,攻击者通过在输入数据中加入精心设计的微小扰动导致模型输出错误。因此,如何评估目标检测器的鲁棒性成为了一个亟待解决的问题。
为了解决这个问题,研究人员已经提出了多种攻击方法来评估目标检测器的鲁棒性,现有的攻击方法主要分为两种:第一种是在物理世界中使用基于补丁的攻击方法,该方法是通过生成一个与图像无关的允许被察觉到的补丁,然后将此补丁放置在图像中的任何位置来欺骗目标检测器;第二种是在数字世界中基于扰动的攻击方法,该方法通过在图像上添加细微的、人眼难以察觉的扰动来欺骗目标检测器,这些扰动可以是噪声、像素级的修改或其他类型的图像变换。
然而,上述两种攻击方法都存在一些不可忽略的缺陷:第一,这两种方法都是依赖于目标检测器的特定模块,极大地限制了攻击的可扩展性,并不是一个通用的评测框架,因此不能评测所有的目标检测器;第二,基于扰动的攻击方法产生的是图像级全局扰动,通过对非关键对象(如背景)进行攻击优化会产生不必要的计算成本,易于被人类所感知到,同时,攻击有意义的目标和无关的背景元素可能导致评测结果不准确。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种针对目标检测器的通用测评方法,其目的在于,解决现有基于扰动的攻击方法和基于补丁的攻击方法无法评测所有的目标检测器的技术问题,以及现有基于扰动的攻击方法由于产生的是图像级全局扰动,通过对非关键对象进行攻击优化会产生不必要的计算成本、易于被人类所感知到的技术问题,以及攻击有意义的目标和无关的背景元素会导致评测结果不准确的技术问题;本发明依赖的对抗攻击直接利用目标检测器后处理阶段之前输出的候选框,而不依赖其任何内部结构来进行攻击评测。
为实现上述目的,按照本发明的一个方面,提供了一种针对目标检测器的通用测评方法,包括如下步骤:
(1)获取图像x,将获取的图像x输入到待测评的目标检测器,以得到多个候选框,从分类和回归两个角度分别从所有候选框中选择k个边界框,分别作为回归角度的攻击目标和分类角度的攻击目标。
(2)根据步骤(1)得到的回归角度的攻击目标和分类角度的攻击目标计算空域部分的损失函数,根据图像x计算频域部分的损失函数,利用得到的空域部分的损失函数和频域部分的损失函数对扰动δ进行迭代训练,直到达到最大迭代次数为止,从而得到对抗样本,并将该对抗样本输入待测评的目标检测器,以得到待测评的目标检测器的检测结果。
优选地,步骤(1)包括以下步骤:
(1-1)获取图像x,将获取的图像x输入待测评的目标检测器,以得到多个候选框,以及每个候选框的位置坐标和类别预测分数集合,将类别预测分数集合中最高的类别预测分数对应的类别作为该候选框的预测类别。
(1-2)针对步骤(1-1)获取的所有候选框而言,计算其中每个候选框与其对应的真实目标框的交并比IoU分数,根据获取的IoU分数从大到小的顺序对所有候选框进行排列。
(1-3)根据步骤(1-1)得到的所有候选框的预测类别,从步骤(1-2)得到的排列结果中筛选出其预测类别与对应的真实目标框的标签完全一致的多个候选框;
(1-4)从步骤(1-2)得到的排列结果中选择排名前k位的候选框,作为回归角度的攻击目标;其中k的取值范围是5到50,优选为15。
(1-5)从步骤(1-3)得到的多个候选框中选择排名前k位的候选框,作为分类角度的攻击目标。
优选地,步骤(2)包括以下步骤:
(2-1)针对步骤(1-4)和(1-5)得到的所有候选框中的每一个候选框而言,将该候选框的左上角坐标和右下角坐标向原点坐标(0,0)靠近,以得到该候选框对应的、空域中的回归损失函数Jloc
(2-2)针对步骤(1-4)和(1-5)得到的所有候选框中的每一个候选框而言,根据步骤(1-1)中得到的该第n个候选框的类别预测分数集合 获取该第n个候选框对应的、空域中的分类损失函数Jcls,其中表示第n个候选框对应的真实目标框的标签的类别预测分数,K表示预先设置的待测评的目标检测器可检测的类别总数,表示第n个候选框对应的第K个类别(即背景)的类别预测分数;
(2-3)针对步骤(1-4)和(1-5)得到的所有候选框中的每一个候选框而言,将步骤(2-1)得到的该第n个候选框对应的回归损失函数Jloc和步骤(2-2)得到的该第n个候选框对应的分类损失函数Jcls按比例进行相加,以得到该第n个候选框对应的、空域部分的损失函数Jsa
(2-4)采用离散小波变换DWT方法将图像x分解为一个低频成分xll、一个高频成分xhh和两个中频成分xlh和xhl
(2-5)使用逆离散小波变换IDWT方法对步骤(2-4)得到的低频成分xll和高频成分xhh进行信号重构,以得到重构后的图像;
(2-6)获取添加扰动δ后的对抗样本x+δ,并使用上述步骤(2-4)和(2-5)的公式对该添加扰动δ后的对抗样本x+δ进行处理,以分别获取低频部分重构后的对抗样本φ(x+δ)和高频部分重构后的对抗样本ψ(x+δ);
(2-7)根据步骤(2-5)和(2-6)得到的低频部分重构后的对抗样本φ(x+δ)、低频部分重构后的图像φ(x)、高频部分重构后的对抗样本ψ(x+δ)、高频部分重构后的图像ψ(x)获取频域损失函数Jfa
(2-8)将步骤(2-3)得到的空域损失函数、以及步骤(2-7)得到的频域损失函数相加,以得到总损失函数Jtotal,并根据总损失函数Jtotal、并利用梯度下降优化扰动δ,以得到优化后的扰动;
(2-9)对步骤(2-8)得到的优化后的扰动进行裁剪,以得到裁剪后的扰动;
(2-10)使用步骤(2-8)的损失函数Jtotal对步骤(2-9)得到的裁剪后的扰动进行迭代优化,直到达到最大迭代次数epoch为止,从而得到最后优化后的扰动,并将最后优化后的扰动与图像x组合为对抗样本。
(2-11)对步骤(2-10)得到的对抗样本进行裁剪处理,以得到裁剪后的对抗样本;
(2-12)将步骤(2-11)得到的裁剪后的对抗样本输入待测评的目标检测器进行检测,以得到检测结果。
优选地,步骤(2-1)中的回归损失函数Jloc采用Smooth L1损失函数,且有:
其中表示步骤(1-4)和(1-5)得到的所有候选框中的第n个候选框,表示第n个预定义的、左上角和右下角坐标均为(0,0)的目标边界框,且有n∈[1,N],N表示步骤(1-4)和(1-5)得到的候选框的总数量,SmoothL1表示Smooth L1损失函数。
优选地,步骤(2-2)中空域中的分类损失函数Jcls是采用以下公式:
步骤(2-3)中空域部分的损失函数Jsa是采用以下公式:
Jsa=Jloc+λJcls
其中λ∈[0,1000]。
优选地,步骤(2-4)中的具体公式如下:
xll=LxLT,xhh=HxHT,xlh=LxHT,xhl=HxLT
其中L表示DWT方法中使用的低通滤波器对应的系数矩阵,H表示DWT方法中使用的高通滤波器对应的系数矩阵。
步骤(2-5)中的具体公式如下:
φ(x)=LTxllL=LT(LxLT)L
ψ(x)=HTxhhH=HT(HxHT)H
其中φ(x)表示低频部分重构后的图像,ψ(x)表示高频部分重构后的图像。
优选地,步骤(2-7)中的具体公式如下:
Jfa=SmoothL1(φ(x+δ),φ(x))―SmoothL1(ψ(x+δ),ψ(x))
步骤(2-8)中的具体公式如下:
Jtotal=Jfa+Jsa
其中lr表示学习率,其取值为0.03。
优选地,步骤(2-9)中的裁剪处理是对于步骤(2-8)得到的优化后的扰动中的每个像素而言,如果其像素值大于ε,则将该像素值设置为ε,如果其像素值小于-ε,则将该像素值设置为-ε,如果其像素值大小在[-ε,ε]之间,则保持该像素值不变,ε的取值范围是0到32/255;
步骤(2-11)是将对抗样本的大小裁剪为像素大小为[0,1]之间。
优选地,检测结果包括mAP50、mAP75、IW-SSIM、TV等指标,用于评价待测评的目标检测器的鲁棒性。
按照本发明的另一方面,提供了一种针对目标检测器的通用测评系统,包括:
第一模块,用于获取图像x,将获取的图像x输入到待测评的目标检测器,以得到多个候选框,从分类和回归两个角度分别从所有候选框中选择k个边界框,分别作为回归角度的攻击目标和分类角度的攻击目标。
第二模块,用于根据第一模块得到的回归角度的攻击目标和分类角度的攻击目标计算空域部分的损失函数,根据图像x计算频域部分的损失函数,利用得到的空域部分的损失函数和频域部分的损失函数对扰动δ进行迭代训练,直到达到最大迭代次数为止,从而得到对抗样本,并将该对抗样本输入待测评的目标检测器,以得到待测评的目标检测器的检测结果。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
1、由于本发明采用了步骤(1-1)到步骤(1-3),在目标检测器后处理阶段之前的输出中选择候选框作为攻击目标,因此本发明的测评方法不依赖于目标检测器的特定组件,实现了一个通用的评测框架;
2、由于本发明采用了步骤(1-4)到步骤(1-5),为每个真实目标从分类和回归两个角度分别选择前k个高质量边界框作为攻击目标,保证了图像中的每个目标都被均匀地攻击,从而能够全面准确地评估目标检测器的鲁棒性;
3、由于本发明采用了步骤(2-1)到步骤(2-12),在空域中利用定向诱导来移动预测框改变其大小和位置,并设计了前景-背景分离攻击使得预测框的分类标签贴近背景;在频域中应用离散小波变换方法将图像分解为高频和低频成分,并将噪声集中在代表语义的高频区域,从而避免对非关键对象的无效攻击,提高了评测效率和准确率;
4、由于本发明采用了步骤(2-9)和步骤(2-11),攻击中产生的对抗样本隐蔽性很好,不易于被人类感知到,提高了评测方法的准确性。
附图说明
图1是本发明针对目标检测器的通用测评方法的整体框架示意图;
图2是本发明中双轨攻击目标选择策略的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明的基本思路在于,从目标检测器的输出中为每个真实物体平均分配固定数量的候选框作为攻击目标,一方面,在空域中通过候选框坐标归0攻击和前景-背景分离攻击来改变预测框的位置、大小和标签;另一方面,在频域中聚焦图像的高频信息,将噪声集中在代表语义的高频区域。在两个角度上提升攻击效果和对抗样本的隐蔽性,保证评测方法的准确性。
具体而言,不同于现有方法利用目标检测器的某些特定组件,为了实现一个通用的评测方法,本发明只考虑目标检测器在后处理阶段之前的输出结果。然而,目标检测器生成的大量候选框也引入了关于攻击目标的模糊性,从而产生不必要的计算开销。鉴于目标检测模型通常对分类和回归任务进行联合优化,本发明提出一种双轨攻击目标选择策略,从后处理阶段之前的输出中选择高质量的候选框作为攻击目标。然后采用定向扰动来移动和压缩预测框并改变分类结果,以误导目标检测器的输出。此外,本发明将将扰动集中在图像的高频区域,以干扰目标检测器对关键对象的关注,从而提高评测效率。
在本发明的实验中,通过在八个常用的目标检测器和两个数据集上测试,发现针对目标检测器的攻击性能十分强大,mAP分数大幅下降,因此可以全面评估目标检测器的鲁棒性和安全性。其原因在于,本方法从分类和回归两个角度为真实目标分配固定数量的攻击目标和设计空域攻击来误导检测器的输出,同时结合频域信息进一步提高扰动约束下的攻击效果。
如图1所示,本发明提供了一种针对目标检测器的通用测评方法,包括如下步骤:
(1)获取图像x,将获取的图像x输入到待测评的目标检测器,以得到多个候选框,如图2所示,从分类和回归两个角度分别从所有候选框中选择k个边界框,分别作为回归角度的攻击目标和分类角度的攻击目标;
本步骤包括以下步骤:
(1-1)获取图像x,将获取的图像x输入待测评的目标检测器,以得到多个候选框,以及每个候选框的位置坐标和类别预测分数集合,将类别预测分数集合中最高的类别预测分数对应的类别作为该候选框的预测类别。
(1-2)针对步骤(1-1)获取的所有候选框而言,计算其中每个候选框与其对应的真实目标框的交并比(Intersection over Union,简称IoU)分数,根据获取的IoU分数从大到小的顺序对所有候选框进行排列。
(1-3)根据步骤(1-1)得到的所有候选框的预测类别,从步骤(1-2)得到的排列结果中筛选出其预测类别与对应的真实目标框的标签完全一致的多个候选框;
(1-4)从步骤(1-2)得到的排列结果中选择排名前k位的候选框,作为回归角度的攻击目标。
具体而言,k的取值范围是5到50,优选为15。
(1-5)从步骤(1-3)得到的多个候选框中选择排名前k位的候选框,作为分类角度的攻击目标。
经过上述处理,对于图像上的每个真实目标框都获得了2k个攻击目标。
上述步骤(1-1)到步骤(1-5)的优点在于,从目标检测器后处理阶段之前的输出中,为每个真实目标从分类和回归两个角度分别选择前k个高质量候选框作为攻击目标,解决了次优边界框不能有效攻击和各目标在攻击中权重不同的问题,保证了评测方法的通用性和科学性。
(2)根据步骤(1)得到的回归角度的攻击目标和分类角度的攻击目标计算空域部分的损失函数,根据图像x计算频域部分的损失函数,利用得到的空域部分的损失函数和频域部分的损失函数对扰动δ进行迭代训练,直到达到最大迭代次数为止,从而得到对抗样本,并将该对抗样本输入待测评的目标检测器,以得到待测评的目标检测器的检测结果。
本步骤包括以下步骤:
(2-1)针对步骤(1-4)和(1-5)得到的所有候选框中的每一个候选框而言,将该候选框的左上角坐标和右下角坐标向原点坐标(0,0)靠近,以得到该候选框对应的、空域中的回归损失函数Jloc
具体而言,本步骤中的回归损失函数Jloc采用Smooth L1损失函数,且有:
其中表示步骤(1-4)和(1-5)得到的所有候选框中的第n个候选框,表示第n个预定义的、左上角和右下角坐标均为(0,0)的目标边界框,且有n∈[1,N],N表示步骤(1-4)和(1-5)得到的候选框的总数量,SmoothL1表示Smooth L1损失函数。
本步骤的优点在于,使预测框的坐标与预定义的无意义目标区域的坐标对齐。考虑到图像中的目标往往位于中心区域,本发明迫使预测框的左上角和右下角坐标接近边缘点,误导预测框的位置和大小。
(2-2)针对步骤(1-4)和(1-5)得到的所有候选框中的每一个候选框而言,根据步骤(1-1)中得到的该第n个候选框的类别预测分数集合 获取该第n个候选框对应的、空域中的分类损失函数Jcls,其中表示第n个候选框对应的真实目标框的标签的类别预测分数,K表示预先设置的待测评的目标检测器可检测的类别总数,表示第n个候选框对应的第K个类别(即背景)的类别预测分数;
空域中的分类损失函数Jcls是采用以下公式:
本步骤的优点在于,通过最小化图像中预测框真实标签的分数,同时最大化背景类的分数来实施前景-背景分离攻击,使图像中的目标向背景收敛,从而导致检测器分类错误。
(2-3)针对步骤(1-4)和(1-5)得到的所有候选框中的每一个候选框而言,将步骤(2-1)得到的该第n个候选框对应的回归损失函数Jloc和步骤(2-2)得到的该第n个候选框对应的分类损失函数Jcls按比例进行相加,以得到该第n个候选框对应的、空域部分的损失函数Jsa
空域部分的损失函数Jsa是采用以下公式:
Jsa=Jloc+λJcls
其中,λ∈[0,1000],其优选取值为100。
(2-4)采用离散小波变换(Discrete Wavelet Transform,简称DWT)方法将图像x分解为一个低频成分xll、一个高频成分xhh和两个中频成分xlh和xhl
本步骤中的具体公式如下:
xll=LxLT,xhh=HxHT,xlh=LxHT,xhl=HxLT
其中L表示DWT方法中使用的低通滤波器对应的系数矩阵,H表示DWT方法中使用的高通滤波器对应的系数矩阵。
(2-5)使用逆离散小波变换(Inverse DiscreteWavelet Transform,简称IDWT)方法对步骤(2-4)得到的低频成分xll和高频成分xhh进行信号重构,以得到重构后的图像;
本步骤中的具体公式如下:
φ(x)=LTxllL=LT(LxLT)L
ψ(x)=HTxhhH=HT(HxHT)H
其中φ(x)表示低频部分重构后的图像,ψ(x)表示高频部分重构后的图像。
(2-6)获取添加扰动δ后的对抗样本x+δ,并使用上述步骤(2-4)和(2-5)的公式对该添加扰动δ后的对抗样本x+δ进行处理,以分别获取低频部分重构后的对抗样本φ(x+δ)和高频部分重构后的对抗样本ψ(x+δ);
(2-7)根据步骤(2-5)和(2-6)得到的低频部分重构后的对抗样本φ(x+δ)、低频部分重构后的图像φ(x)、高频部分重构后的对抗样本ψ(x+δ)、高频部分重构后的图像ψ(x)获取频域损失函数Jfa
本步骤中的具体公式如下:
Jfa=SmoothL1(φ(x+δ),φ(x))―SmoothL1(ψ(x+δ),ψ(x))
本步骤的优点在于,放大了对抗样本和正常图像之间高频成分的差异,同时约束低频成分的差异,将更大比例的扰动引导到高频区域,从而提高对抗样本的攻击性能和隐蔽性,
(2-8)将步骤(2-3)得到的空域损失函数、以及步骤(2-7)得到的频域损失函数相加,以得到总损失函数Jtotal,并根据总损失函数Jtotal、并利用梯度下降优化扰动δ,以得到优化后的扰动;
本步骤中的具体公式如下:
Jtotal=Jfa+Jsa
其中lr表示学习率,其取值为0.03。
(2-9)对步骤(2-8)得到的优化后的扰动进行裁剪,以得到裁剪后的扰动;
具体而言,本步骤中的裁剪处理是对于步骤(2-8)得到的优化后的扰动中的每个像素而言,如果其像素值大于ε,则将该像素值设置为ε,如果其像素值小于-ε,则将该像素值设置为-ε,如果其像素值大小在[-ε,ε]之间,则保持该像素值不变,ε的取值范围是0到32/255,优选为8/255。
本步骤的优点在于,保证了扰动的隐蔽性。
(2-10)使用步骤(2-8)的损失函数Jtotal对步骤(2-9)得到的裁剪后的扰动进行迭代优化,直到达到最大迭代次数epoch为止,从而得到最后优化后的扰动,并将最后优化后的扰动与图像x组合为对抗样本。
具体而言,本发明中最大迭代次数epoch的取值范围是1到150,优选为50。
(2-11)对步骤(2-10)得到的对抗样本进行裁剪处理,以得到裁剪后的对抗样本;
具体而言,本步骤是将对抗样本的大小裁剪为像素大小为[0,1]之间。
本步骤的优点在于,提高了对抗样本的不可感知性。
(2-12)将步骤(2-11)得到的裁剪后的对抗样本输入待测评的目标检测器进行检测,以得到检测结果。
具体而言,本发明中的检测结果包括mAP50、mAP75、IW-SSIM、TV等指标,该检测结果用于评价待测评的目标检测器的鲁棒性。
实验结果
本发明的实验环境:在Ubuntu 20.04操作系统下,CPU为Intel(R)Xeon(R)Silver4210R CPU@2.40GHz,GPU为2块NVIDIA 3090 24GB,内存为256GB,采用Pytorch编程实现本发明的算法。具体设置如下:本发明将对抗扰动的上限ε设置为8/255,超参数λ设置为100,训练轮数epoch设置为50,batch size大小为1,学习率为0.03。
为了说明本发明方法的通用性和有效性,选取了八个常用的目标检测器:FasterR-CNN(FR),Cascade R-CNN(CR),Sparse R-CNN(SR),SABL Faster R-CNN(SFR),RepPoints(RP),TOOD,Deformable DETR(D.DETR)以及YOLOv5,在MS-COCO、PASCAL VOC两个数据集上对八个常用的目标检测器进行了测试,评估结果如下表1所示:
表1
上表1结果显示,本发明提出的方法在不同数据集上都能很好地评估目标检测器的漏洞,在IoU阈值为50%和75%时可以导致mAP分数显著降低,这足以证明对抗攻击的质量。值得注意的是,像Cascade R-CNN和RepPoints这样的模型表现出较差的鲁棒性,其mAP值在数据集中大幅下降。因此本发明提出的基于对抗攻击的检测器通用评测方法能全面准确地评估目标检测器的鲁棒性,一方面,从目标检测器的输出中为每个真实物体平均分配固定数量的候选框作为攻击目标,保证了评测方法对所有检测器的适用性;另一方面,在空域中通过候选框坐标归0攻击和前景-背景分离攻击来改变预测框的位置、大小和标签,在频域中将噪声集中在代表语义的高频区域,攻击质量的提高也确保了评测方法的准确性。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种针对目标检测器的通用测评方法,其特征在于,包括如下步骤:
(1)获取图像x,将获取的图像x输入到待测评的目标检测器,以得到多个候选框,从分类和回归两个角度分别从所有候选框中选择k个边界框,分别作为回归角度的攻击目标和分类角度的攻击目标;步骤(1)包括以下步骤:
(1-1)获取图像x,将获取的图像x输入待测评的目标检测器,以得到多个候选框,以及每个候选框的位置坐标和类别预测分数集合,将类别预测分数集合中最高的类别预测分数对应的类别作为该候选框的预测类别;
(1-2)针对步骤(1-1)获取的所有候选框而言,计算其中每个候选框与其对应的真实目标框的交并比IoU分数,根据获取的IoU分数从大到小的顺序对所有候选框进行排列;
(1-3)根据步骤(1-1)得到的所有候选框的预测类别,从步骤(1-2)得到的排列结果中筛选出其预测类别与对应的真实目标框的标签完全一致的多个候选框;
(1-4)从步骤(1-2)得到的排列结果中选择排名前k位的候选框,作为回归角度的攻击目标;其中k的取值范围是5到50;
(1-5)从步骤(1-3)得到的多个候选框中选择排名前k位的候选框,作为分类角度的攻击目标;
(2)根据步骤(1)得到的回归角度的攻击目标和分类角度的攻击目标计算空域部分的损失函数,根据图像x计算频域部分的损失函数,利用得到的空域部分的损失函数和频域部分的损失函数对扰动δ进行迭代训练,直到达到最大迭代次数为止,从而得到对抗样本,并将该对抗样本输入待测评的目标检测器,以得到待测评的目标检测器的检测结果;步骤(2)包括以下步骤:
(2-1)针对步骤(1-4)和(1-5)得到的所有候选框中的每一个候选框而言,将该候选框的左上角坐标和右下角坐标向原点坐标(0,0)靠近,以得到该候选框对应的、空域中的回归损失函数Jloc
(2-2)针对步骤(1-4)和(1-5)得到的所有候选框中的每一个候选框而言,根据步骤(1-1)中得到的该第n个候选框的类别预测分数集合获取该第n个候选框对应的、空域中的分类损失函数Jcls,其中表示第n个候选框对应的真实目标框的标签的类别预测分数,K表示预先设置的待测评的目标检测器可检测的类别总数,表示第n个候选框对应的第K个类别的类别预测分数,该第K个类别就是背景;
(2-3)针对步骤(1-4)和(1-5)得到的所有候选框中的每一个候选框而言,将步骤(2-1)得到的该第n个候选框对应的回归损失函数Jloc和步骤(2-2)得到的该第n个候选框对应的分类损失函数Jcls按比例进行相加,以得到该第n个候选框对应的、空域部分的损失函数Jsa
(2-4)采用离散小波变换DWT方法将图像x分解为一个低频成分xll、一个高频成分xhh和两个中频成分xlh和xhl
(2-5)使用逆离散小波变换IDWT方法对步骤(2-4)得到的低频成分xll和高频成分xhh进行信号重构,以得到重构后的图像;
(2-6)获取添加扰动δ后的对抗样本x+δ,并使用上述步骤(2-4)和(2-5)的公式对该添加扰动δ后的对抗样本x+δ进行处理,以分别获取低频部分重构后的对抗样本φ(x+δ)和高频部分重构后的对抗样本ψ(x+δ);
(2-7)根据步骤(2-5)和(2-6)得到的低频部分重构后的对抗样本φ(x+δ)、低频部分重构后的图像φ(x)、高频部分重构后的对抗样本ψ(x+δ)、高频部分重构后的图像ψ(x)获取频域损失函数Jfa
(2-8)将步骤(2-3)得到的空域损失函数、以及步骤(2-7)得到的频域损失函数相加,以得到总损失函数Jtotal,并根据总损失函数Jtotal、并利用梯度下降优化扰动δ,以得到优化后的扰动;
(2-9)对步骤(2-8)得到的优化后的扰动进行裁剪,以得到裁剪后的扰动;
(2-10)使用步骤(2-8)的损失函数Jtotal对步骤(2-9)得到的裁剪后的扰动进行迭代优化,直到达到最大迭代次数epoch为止,从而得到最后优化后的扰动,并将最后优化后的扰动与图像x组合为对抗样本;
(2-11)对步骤(2-10)得到的对抗样本进行裁剪处理,以得到裁剪后的对抗样本;
(2-12)将步骤(2-11)得到的裁剪后的对抗样本输入待测评的目标检测器进行检测,以得到检测结果。
2.根据权利要求1所述的针对目标检测器的通用测评方法,其特征在于,
步骤(2-1)中的回归损失函数Jloc采用Smooth L1损失函数,且有:
其中表示步骤(1-4)和(1-5)得到的所有候选框中的第n个候选框,表示第n个预定义的、左上角和右下角坐标均为(0,0)的目标边界框,且有n∈[1,N],N表示步骤(1-4)和(1-5)得到的候选框的总数量,SmoothL1表示Smooth L1损失函数。
3.根据权利要求2所述的针对目标检测器的通用测评方法,其特征在于,
步骤(2-2)中空域中的分类损失函数Jcls是采用以下公式:
步骤(2-3)中空域部分的损失函数Jsa是采用以下公式:
Jsa=Jloc+λJcls
其中λ∈[0,1000]。
4.根据权利要求3所述的针对目标检测器的通用测评方法,其特征在于,
步骤(2-4)中的具体公式如下:
xll=LxLT,xhh=HxHT,xlh=LxHT,xhl=HxLT
其中L表示DWT方法中使用的低通滤波器对应的系数矩阵,H表示DWT方法中使用的高通滤波器对应的系数矩阵;
步骤(2-5)中的具体公式如下:
φ(x)=LTxllL=LT(LxLT)L
ψ(x)=HTxhhH=HT(HxHT)H
其中φ(x)表示低频部分重构后的图像,λ(x)表示高频部分重构后的图像。
5.根据权利要求4所述的针对目标检测器的通用测评方法,其特征在于,
步骤(2-7)中的具体公式如下:
Jfa=SmoothL1(φ(x+δ),φ(x))-SmoothL1(ψ(x+δ),ψ(x))步骤(2-8)中的具体公式如下:
Jtotal=Jfa+Jsa
其中lr表示学习率,其取值为0.03。
6.根据权利要求5所述的针对目标检测器的通用测评方法,其特征在于,
步骤(2-9)中的裁剪处理是对于步骤(2-8)得到的优化后的扰动中的每个像素而言,如果其像素值大于ε,则将该像素值设置为ε,如果其像素值小于-ε,则将该像素值设置为-ε,如果其像素值大小在[-ε,ε]之间,则保持该像素值不变,ε的取值范围是0到32/255;
步骤(2-11)是将对抗样本的大小裁剪为像素大小为[0,1]之间。
7.根据权利要求6所述的针对目标检测器的通用测评方法,其特征在于,检测结果包括mAP50、mAP75、IW-SSIM、TV指标,用于评价待测评的目标检测器的鲁棒性。
8.一种采用权利要求1所述的针对目标检测器的通用测评方法的系统,其特征在于,包括:
第一模块,用于获取图像x,将获取的图像x输入到待测评的目标检测器,以得到多个候选框,从分类和回归两个角度分别从所有候选框中选择k个边界框,分别作为回归角度的攻击目标和分类角度的攻击目标;
第二模块,用于根据第一模块得到的回归角度的攻击目标和分类角度的攻击目标计算空域部分的损失函数,根据图像x计算频域部分的损失函数,利用得到的空域部分的损失函数和频域部分的损失函数对扰动δ进行迭代训练,直到达到最大迭代次数为止,从而得到对抗样本,并将该对抗样本输入待测评的目标检测器,以得到待测评的目标检测器的检测结果。
CN202411745052.1A 2024-12-02 2024-12-02 一种针对目标检测器的通用测评方法和系统 Active CN119600273B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202411745052.1A CN119600273B (zh) 2024-12-02 2024-12-02 一种针对目标检测器的通用测评方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202411745052.1A CN119600273B (zh) 2024-12-02 2024-12-02 一种针对目标检测器的通用测评方法和系统

Publications (2)

Publication Number Publication Date
CN119600273A CN119600273A (zh) 2025-03-11
CN119600273B true CN119600273B (zh) 2025-12-02

Family

ID=94835528

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202411745052.1A Active CN119600273B (zh) 2024-12-02 2024-12-02 一种针对目标检测器的通用测评方法和系统

Country Status (1)

Country Link
CN (1) CN119600273B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018137357A1 (zh) * 2017-01-24 2018-08-02 北京大学 一种目标检测性能优化的方法
CN118229954A (zh) * 2024-03-08 2024-06-21 云南大学 一种端到端的生成不可感知对抗补丁的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117689953A (zh) * 2023-12-19 2024-03-12 湖南大学 基于频域特征重要感知的可迁移对抗攻击方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018137357A1 (zh) * 2017-01-24 2018-08-02 北京大学 一种目标检测性能优化的方法
CN118229954A (zh) * 2024-03-08 2024-06-21 云南大学 一种端到端的生成不可感知对抗补丁的方法

Also Published As

Publication number Publication date
CN119600273A (zh) 2025-03-11

Similar Documents

Publication Publication Date Title
US9147255B1 (en) Rapid object detection by combining structural information from image segmentation with bio-inspired attentional mechanisms
CN103279957B (zh) 一种基于多尺度特征融合的遥感图像感兴趣区域提取方法
WO2023193401A1 (zh) 点云检测模型训练方法、装置、电子设备及存储介质
CN108830225B (zh) 太赫兹图像中目标物体的检测方法、装置、设备及介质
CN114219909B (zh) 三维重建方法以及相关装置
CN111798490B (zh) 一种视频sar车辆目标检测方法
CN106096505B (zh) 基于多尺度特征协同表示的sar目标识别方法
CN116958792B (zh) 一种辅助sar车辆目标检测的去虚警方法
CN114330652A (zh) 一种目标检测攻击方法和装置
CN101183428A (zh) 一种图像检测方法及装置
CN102842133A (zh) 一种局部特征描述方法
CN119600273B (zh) 一种针对目标检测器的通用测评方法和系统
CN116109855B (zh) 一种基于剪切波网络和方向注意机制的图像分类方法
CN112163606A (zh) 基于块对比度加权的红外小目标检测方法
Sha et al. A novel visibility semantic feature-aided pedestrian detection scheme for autonomous vehicles
CN110119782A (zh) 基于fpga的sar图像变化检测方法
Sheng et al. Fuzzy preprocessing and clustering analysis method of underwater multiple targets in forward looking sonar image for AUV tracking
Ma et al. An information theory constrained unsupervised region of interest segmentation for active underwater small target detection
CN101719276B (zh) 一种检测图像中物体的方法和装置
Regentova et al. Image segmentation using Ncut in the wavelet domain
CN119964019B (zh) 一种实时检测农田卫星遥感图像的方法
CN120088829B (zh) 一种基于人脸识别的流量分析方法及系统
CN118229964B (zh) 基于全流水线改良的小目标检测方法
CN120655904B (zh) 基于混合特征融合和集成学习的侧扫声呐目标识别方法
CN119741604B (zh) 一种三维雷达图谱的道路隐性病害识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant