CN115019036A - 一种学习非目标知识的小样本语义分割方法 - Google Patents
一种学习非目标知识的小样本语义分割方法 Download PDFInfo
- Publication number
- CN115019036A CN115019036A CN202210505033.6A CN202210505033A CN115019036A CN 115019036 A CN115019036 A CN 115019036A CN 202210505033 A CN202210505033 A CN 202210505033A CN 115019036 A CN115019036 A CN 115019036A
- Authority
- CN
- China
- Prior art keywords
- background
- query
- feature map
- prototype
- query feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种学习非目标知识的小样本语义分割方法,首先采用骨干网络对图像进行特征提取,分别得到关于查询和支持图像的特征图,然后利用特殊设计的背景损失函数优化背景原型对背景知识的学习,然后利用背景原型对查询特征图中的背景区域进行挖掘和排除,以该区域的查询特征图形成干扰物体原型,然后利用干扰物体原型在背景排除后的查询特征图中排除干扰物体区域,最后获得关于目标的分割最终结果。本发明利用了背景区域的一般性和背景区域与干扰区域的互补性,可以简单高效的挖掘并排除查询图像中的背景和干扰物体,大大提高了小样本目标的语义分割精度,实用性很强。
Description
技术领域
本发明属于计算机视觉算法研究领域,涉及一种学习非目标知识的小样本语义分割方法,具体涉及一种学习非目标知识的小样本语义分割方法。具体涉及一种在小样本的条件下,对非目标区域(背景和干扰物体)进行逐步排除,层进式的完成小样本语义分割任务的方法。
背景技术
由于全卷积网络架构的提出,深度学习在语义分割领域取得了里程碑式进展。然而大多数方法采用的是全监督的学习方案并需要大量标注的数据用于网络的训练。虽然全监督的方式在语义分割上可以实现良好的性能,但是对于大量数据的需求,使得人们要进行大量的费时费力的图像标注。因此,为了缓解这个问题,小样本语义分割提出在仅有几张标注的图像作为支持集在查询图像中分割出训练阶段未见过的类别目标物体。
目前,大量的传统基于深度学习的小样本语义分割研究通常首先对来自查询和支持图像提取特征,然后利用支持图像对应的二值掩码来获得类别原型,最后,使用该类表示原型通过匹配网络在查询图像中的分割出目标对象。虽然取得了一些成绩,但这些方法都侧重于从支持集中更有效地挖掘出目标类别信息,这常常在难区分地模糊区域预测出错误地分割结果。因此,急需提出一种简单高效地利用非目标区域对模糊区域进行有效排除的小样本语义分割方法。
发明内容
要解决的技术问题
为了避免现有技术的不足之处,本发明提出一种学习非目标知识的小样本语义分割方法,通过学习图像中非目标知识,对非目标区域(背景和干扰物体)进行逐步排除,层进式的完成小样本语义分割任务的方法。
技术方案
一种学习非目标知识的小样本语义分割方法,其特征在于步骤如下:
步骤1:随机初始化1个高斯分布且维度为C的背景原型向量PBG,将该原型扩展成和查询特征图同样的尺度大小后,与查询特征图串联在一起,通过1个由2个3x3卷积层组成的简单的分割网络,得到关于背景的预测分割结果;
对分割结果背景损失函数进行优化:
其中,i和j表示空间位置的坐标,表示查询或者支持图像的背景预测结果,Mq/s表示查询或者支持图像的真实标注的分割图,log(·)表示以e为底的对数运算,∑表示求和运算,N表示物体的像素点的总数量,Z表示图像的尺度大小,q和s分别表示查询和支持图像,α是1个超参数用于平衡第二项;
步骤2:将背景原型向量PBG扩展成和查询特征图同样的尺度大小后,再次与查询特征图串联在一起维度为2C,经过1个1x1的卷积层降维为C,然后再与扩展的支持原型串联成维度为2C的特征,经过1个1x1的卷积层得到排除背景且目标物体激活的查询特征图再通过1个由2层3x3卷积组成的简单的分割网络,得到关于目标物体的初步分割结果;
步骤3:以0.5作为预测分数的阈值,将步骤1中的背景的预测分割结果和步骤2中目标物体的初步分割结果形成对应的二值背景掩码图像与二值目标掩码图像;接着,将背景掩码图像与目标掩码图像的共同的补集区域作为干扰物体潜在区域YDO,然后将YDO与查询特征逐元素相乘并求均值后得到查询图像中干扰物体的原型PDO;
步骤4:利用步骤3中获得的干扰物体的原型PDO,将其扩展成和查询特征图同样的尺度大小后,再与步骤2中的查询特征图串联在一起,经过1个1x1的卷积层得到排除干扰物体的查询特征图,再通过1个由2个3x3卷积层组成的简单的分割网络,得到关于目标物体的最终分割结果。
有益效果
本发明提出的一种学习非目标知识的小样本语义分割方法,首先采用骨干网络对图像进行特征提取,分别得到关于查询和支持图像的特征图,然后利用特殊设计的背景损失函数优化背景原型对背景知识的学习,然后利用背景原型对查询特征图中的背景区域进行挖掘和排除,更进一步,在背景排除后的查询特征图中利用支持图像的原型获得关于目标的初步分割结果,将初步分割结果和背景区域的共同的补集区域作为干扰物体的潜在区域,以该区域的查询特征图形成干扰物体原型,然后利用干扰物体原型在背景排除后的查询特征图中排除干扰物体区域,最后获得关于目标的分割最终结果。本发明利用了背景区域的一般性和背景区域与干扰区域的互补性,可以简单高效的挖掘并排除查询图像中的背景和干扰物体,大大提高了小样本目标的语义分割精度,实用性很强。
本发明与现有技术相比,没有执着于如何从支持图像中构建关于目标类别信息的有效表达,而是挖掘存在于图像中的非目标知识,通过设计学习背景原型对背景区域进行排除,并在排除后的查询特征中进一步利用干扰物体原型对干扰物体予以排除,从而获得排除非目标区域的关于目标物体的分割结果。
附图说明
图1是本发明的实现流程图;
图2是查询图像;
图3是支持图像;
图4是查询图像的背景分割结果;
图5是查询图像的目标真实标注;
图6是支持图像的目标真实标注;
图7是查询图像的目标物体初步分割结果;
图8是查询图像中干扰物体的潜在区域。
具体实施方式
现结合实施例、附图对本发明作进一步描述:
用于实施的硬件环境是:因特睿Xeon Gold 6240R 2.4GHZ服务器、英伟达GeForce RTX 3090显卡、编程语言是python,深度学习框架是pytorch。我们用pytorch框架实现发明中提出的方法。实验中所使用的训练和测试的图像来源于PASCAL VOC 2012:http://host.robots.ox.ac.uk/pascal/VOC/voc2012/。训练集共包含20个类别,其中15类用于训练,另外5类用于测试。
参照图1的方法流程图,本发明具体实施如下:
步骤1:首先利用固定的骨干网络对图2查询图像和图3支持图像进行特征提取,然后利用随机初始化1个高斯分布且维度为C的背景原型向量PBG,将该原型扩展成和查询特征图同样的尺度大小后,与查询特征图串联在一起,通过1个由2个3x3卷积层组成的简单的分割网络,得到图4中关于背景的分割结果。该背景分割结果利用如下背景损失函数进行优化,从而优化背景原型的学习。
背景损失函数的计算公式为:
其中,i和j表示空间位置的坐标,表示查询或者支持图像的背景预测结果,Mq/s表示查询或者支持图像的真实标注的分割图,log(·)表示以e为底的对数运算,∑表示求和运算,N表示物体的像素点的总数量,Z表示图像的尺度大小,q和s分别表示查询和支持图像,α是1个超参数用于平衡第二项。
步骤2:利用步骤1中已学习的背景原型向量PBG,将其扩展成和查询特征图同样的尺度大小后,再次与查询特征图串联在一起维度为2C,经过1个1x1的卷积层降维为C,然后再与扩展的支持原型串联成维度为2C的特征,经过1个1x1的卷积层得到排除背景且目标物体激活的查询特征图再通过1个由2层3x3卷积组成的简单的分割网络,得到关于目标物体的初步分割结果。
步骤3:利用步骤1中的背景的预测分割结果和步骤2中目标物体的初步分割结果,形成对应的二值背景掩码图像与二值目标掩码图像。接着,将背景掩码图像与目标掩码图像的共同的补集区域作为干扰物体潜在区域YDO,然后将YDO与查询特征逐元素相乘并求均值后得到查询图像中干扰物体的原型PDO。
步骤4:利用步骤3中中获得的干扰物体的原型PDO,将其扩展成和查询特征图同样的尺度大小后,再与步骤2中的查询特征图串联在一起,经过1个1x1的卷积层得到排除干扰物体的查询特征图,再通过1个由2个3x3卷积层组成的简单的分割网络,得到关于目标物体的最终分割结果。
本发明最终在1个支持样本的设定下以ResNet-50为骨干网络在PASCAL VOC2012数据集上达到了64.2%的mIOU(真实值和预测值两个集合的交集和并集之比),验证了该方法可行性和有效性。
Claims (1)
1.一种学习非目标知识的小样本语义分割方法,其特征在于步骤如下:
步骤1:随机初始化1个高斯分布且维度为C的背景原型向量PBG,将该原型扩展成和查询特征图同样的尺度大小后,与查询特征图串联在一起,通过1个由2个3x3卷积层组成的简单的分割网络,得到关于背景的预测分割结果;
对分割结果背景损失函数进行优化:
其中,i和j表示空间位置的坐标,表示查询或者支持图像的背景预测结果,Mq/s表示查询或者支持图像的真实标注的分割图,log(·)表示以e为底的对数运算,∑表示求和运算,N表示物体的像素点的总数量,Z表示图像的尺度大小,q和s分别表示查询和支持图像,α是1个超参数用于平衡第二项;
步骤2:将背景原型向量PBG扩展成和查询特征图同样的尺度大小后,再次与查询特征图串联在一起维度为2C,经过1个1x1的卷积层降维为C,然后再与扩展的支持原型串联成维度为2C的特征,经过1个1x1的卷积层得到排除背景且目标物体激活的查询特征图再通过1个由2层3x3卷积组成的简单的分割网络,得到关于目标物体的初步分割结果;
步骤3:以0.5作为预测分数的阈值,将步骤1中的背景的预测分割结果和步骤2中目标物体的初步分割结果形成对应的二值背景掩码图像与二值目标掩码图像;接着,将背景掩码图像与目标掩码图像的共同的补集区域作为干扰物体潜在区域YDO,然后将YDO与查询特征逐元素相乘并求均值后得到查询图像中干扰物体的原型PDO;
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202210505033.6A CN115019036B (zh) | 2022-05-10 | 2022-05-10 | 一种学习非目标知识的小样本语义分割方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202210505033.6A CN115019036B (zh) | 2022-05-10 | 2022-05-10 | 一种学习非目标知识的小样本语义分割方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| CN115019036A true CN115019036A (zh) | 2022-09-06 |
| CN115019036B CN115019036B (zh) | 2024-02-27 |
Family
ID=83069669
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202210505033.6A Active CN115019036B (zh) | 2022-05-10 | 2022-05-10 | 一种学习非目标知识的小样本语义分割方法 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN115019036B (zh) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN115861858A (zh) * | 2023-02-16 | 2023-03-28 | 之江实验室 | 基于背景过滤的小样本学习农作物冠层覆盖度计算方法 |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2019144575A1 (zh) * | 2018-01-24 | 2019-08-01 | 中山大学 | 一种快速行人检测方法及装置 |
| CN111583284A (zh) * | 2020-04-22 | 2020-08-25 | 中国科学院大学 | 一种基于混合模型的小样本图像语义分割方法 |
| CN112419352A (zh) * | 2020-11-24 | 2021-02-26 | 复旦大学 | 一种基于轮廓的小样本语义分割方法 |
| CN113569865A (zh) * | 2021-09-27 | 2021-10-29 | 南京码极客科技有限公司 | 一种基于类别原型学习的单样本图像分割方法 |
| CN113610097A (zh) * | 2021-08-09 | 2021-11-05 | 西安电子科技大学 | 基于多尺度相似指导网络的sar舰船目标分割方法 |
-
2022
- 2022-05-10 CN CN202210505033.6A patent/CN115019036B/zh active Active
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2019144575A1 (zh) * | 2018-01-24 | 2019-08-01 | 中山大学 | 一种快速行人检测方法及装置 |
| CN111583284A (zh) * | 2020-04-22 | 2020-08-25 | 中国科学院大学 | 一种基于混合模型的小样本图像语义分割方法 |
| CN112419352A (zh) * | 2020-11-24 | 2021-02-26 | 复旦大学 | 一种基于轮廓的小样本语义分割方法 |
| CN113610097A (zh) * | 2021-08-09 | 2021-11-05 | 西安电子科技大学 | 基于多尺度相似指导网络的sar舰船目标分割方法 |
| CN113569865A (zh) * | 2021-09-27 | 2021-10-29 | 南京码极客科技有限公司 | 一种基于类别原型学习的单样本图像分割方法 |
Non-Patent Citations (1)
| Title |
|---|
| 青晨;禹晶;肖创柏;段娟;: "深度卷积神经网络图像语义分割研究进展", 中国图象图形学报, no. 06, 16 June 2020 (2020-06-16) * |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN115861858A (zh) * | 2023-02-16 | 2023-03-28 | 之江实验室 | 基于背景过滤的小样本学习农作物冠层覆盖度计算方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN115019036B (zh) | 2024-02-27 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN110322495B (zh) | 一种基于弱监督深度学习的场景文本分割方法 | |
| CN110738207B (zh) | 一种融合文字图像中文字区域边缘信息的文字检测方法 | |
| CN108171233B (zh) | 使用基于区域的深度学习模型的对象检测的方法和设备 | |
| CN108549893B (zh) | 一种任意形状的场景文本端到端识别方法 | |
| CN110852349B (zh) | 一种图像处理方法、检测方法、相关设备及存储介质 | |
| Nakamura et al. | Scene text eraser | |
| Tang et al. | Saliency detection via combining region-level and pixel-level predictions with CNNs | |
| WO2021017261A1 (zh) | 识别模型训练方法、图像识别方法、装置、设备及介质 | |
| US10262214B1 (en) | Learning method, learning device for detecting lane by using CNN and testing method, testing device using the same | |
| Yang et al. | Boxsnake: Polygonal instance segmentation with box supervision | |
| EP3620958A1 (en) | Learning method, learning device for detecting lane through lane model and testing method, testing device using the same | |
| Khalil et al. | Text detection and script identification in natural scene images using deep learning | |
| CN107784288A (zh) | 一种基于深度神经网络的迭代定位式人脸检测方法 | |
| CN114693923B (zh) | 一种基于上下文和注意力的三维点云语义分割方法 | |
| CN115039144A (zh) | 手写中的数学检测 | |
| Lv et al. | Nuclei R-CNN: improve mask R-CNN for nuclei segmentation | |
| CN116075820A (zh) | 用于搜索图像数据库的方法、非暂时性计算机可读存储介质和设备 | |
| Li et al. | Deep grouping model for unified perceptual parsing | |
| Xu et al. | A probability-driven framework for open world 3D point cloud semantic segmentation | |
| CN111353325B (zh) | 关键点检测模型训练方法及装置 | |
| US20240005685A1 (en) | Geospatial image data processing to detect nodes and interconnections | |
| CN108810319B (zh) | 图像处理装置和图像处理方法 | |
| CN115019036A (zh) | 一种学习非目标知识的小样本语义分割方法 | |
| KR102864472B1 (ko) | 기계 학습을 위한 이미지 처리 장치 및 방법 | |
| CN114241481B (zh) | 基于文本骨架的文本检测方法、装置和计算机设备 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| GR01 | Patent grant | ||
| GR01 | Patent grant |