CN116452418A - 低分辨率图像目标识别的方法、装置及系统 - Google Patents
低分辨率图像目标识别的方法、装置及系统 Download PDFInfo
- Publication number
- CN116452418A CN116452418A CN202310228214.3A CN202310228214A CN116452418A CN 116452418 A CN116452418 A CN 116452418A CN 202310228214 A CN202310228214 A CN 202310228214A CN 116452418 A CN116452418 A CN 116452418A
- Authority
- CN
- China
- Prior art keywords
- resolution image
- resolution
- super
- low
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种低分辨率图像目标识别的方法、装置及系统,所述方法包括实时获取包含低分辨率目标的原始图像;利用目标检测法从所述原始图像中检测出低分辨率目标图像;将所述低分辨率目标图像输入至预先训练好的识别模型,获得识别结果;其中,所述预先训练好的识别模型包括顺次设置的超分辨率图像生成器和高分辨率图像分类器,所述超分辨率图像生成器基于所述低分辨率目标图像生成超分图像;所述高分辨率图像分类器基于所述超分图像生成识别结果。本发明利用超分辨率图像生成器基于低分辨率目标图像生成超分图像;利用高分辨率图像分类器基于超分图像生成识别结果,能更好地提升低分辨率图像目标的识别精度。
Description
技术领域
本发明属于图像处理领域,具体涉及一种低分辨率图像目标识别的方法、装置及系统。
背景技术
在视频监控、航拍监视等应用中,当视觉采集设备距离目标较远或采集的视野场景较大时,会出现即使在高分辨的图像中,感兴趣的区域(ROI,Region of Interest)也很小的现象。这些ROI通常呈现出低分辨率特性,如广场监控中视频可能是4K的分辨率,但其中人脸ROI可能仅有十几或几十个像素的分辨率,再比如无人机执行地域搜索时,在兼顾搜索范围和发现识别目标同时,所捕获的目标在图像中的分辨率也可能只有十几个像素的分辨率。与已超越人类识别精度的ImageNet高分辨率图像识别任务相比,这些低分辨率目标识别任务难度要大得多、识别精度也要低得多。
近年来,多种针对低分辨率图像目标识别方法被提出,公开号为CN109543548A的中国发明专利申请,提出了一种人脸识别方法、装置及存储介质,通过构建高分辨率识别网络和低分辨率识别网络并分别训练这两个分支网络,缩小对同一目标高、低分辨率图像特征表达之间的差异性。公告号为CN109063565B的中国发明专利中,提出了一种低分辨率人脸识别方法及装置,以及公开号为CN114463812A的中国发明专利申请中,提出了基于双通道多分支融合特征蒸馏的低分辨率人脸识别方法,除了构建高、低分辨率两个分支识别网络进行训练,还通过知识蒸馏指导训练,使得低分辨率人脸图像输出特征逼近高分辨率人脸图像特征。公告号为CN114463812A的中国发明专利申请中,提出了一种低分辨率人脸识别方法及设备,公开号为CN110647820A的中国发明专利申请中,提出了基于特征空间超分辨映射的低分辨率人脸识别方法,以及公告号为CN110321803B的中国发明专利中,提出的一种基于SRCNN的交通标志识别方法,都是采用将低分辨率图像或图像特征放大或超分,以实现更好的识别速度和精度。
以上方法虽然一定程度上提高了识别精度、降低了计算代价,但是大多需要以高、低分辨率两个分支对图像进行特征提取,且主要面向的是人脸识别和交通标志识别等特定任务设计的轻量化识别网络,难以扩展应用至飞机、车辆、行人等其他类别目标的识别。
发明内容
针对上述问题,本发明提出一种低分辨率图像目标识别的方法、装置及系统,能更好地提升低分辨率图像目标的识别精度。
为了实现上述技术目的,达到上述技术效果,本发明通过以下技术方案实现:
第一方面,本发明提供了一种低分辨率图像目标识别的方法,包括:
实时获取包含低分辨率目标的原始图像;
利用目标检测法从所述原始图像中检测出低分辨率目标图像;
将所述低分辨率目标图像输入至预先训练好的识别模型,获得识别结果;
其中,所述预先训练好的识别模型包括顺次设置的超分辨率图像生成器和高分辨率图像分类器,所述超分辨率图像生成器基于所述低分辨率目标图像生成超分图像;所述高分辨率图像分类器基于所述超分图像生成识别结果。
可选地,所述高分辨率图像分类器包括顺次设置的第一特征抽取层、第二特征抽取层、第三特征抽取层、第四特征抽取层、第五特征抽取层和非线性映射分类器头;
所述非线性映射分类器头包括顺次设置的全连接层、批归一化层、LeakyReLU激活层和线性分类器;所述线性分类器输出的逻辑值个数等于待分类的目标类别个数;
所述第五特征抽取层包括独立设置的第一特征输出块、第二特征输出块和第三特征输出块,三者的输出特征按通道拼接后连接至所述非线性映射分类器头的全连接层。
可选地,所述高分辨率图像分类器的最优模型参数通过以下步骤训练获得:
对获取到的高分辨率图像进行带参数的高斯模糊数据增广操作,生成训练数据集;所述高斯模糊数据增广操作的参数包括核大小和方差;
基于标签平滑损失函数方法,利用所述训练数据集训练高分辨率图像分类器,获得高分辨率图像分类器的最优模型参数。
可选地,在训练过程中,每代采用余弦模拟退火曲线调整学习率大小,采用带动量的随机梯度下降算法更新模型参数。
可选地,所述高斯模糊操作的核大小μ取值为5,方差σ从0.1到0.5之间随机取值。
可选地,所述超分辨率图像生成器包括:顺次设置的卷积层、残差层和M个上采样操作模块;
每个上采样操作模块先通过卷积将通道数扩大4倍,再采用PixelShuffle将分辨率扩大2倍,M个上采样操作模块可扩大2M倍;
当不同分辨率的低分辨率目标图像输入至超分辨率图像生成器后,根据低分辨率目标图像的实际大小进行超分,获得统一大小的超分图像。
可选地,所述超分辨率图像生成器的最优模型参数通过以下步骤训练获得:
将获取到的高分辨率图像进行下采样,获得对应的低分辨率图像;
将所述低分辨率图像输入至超分辨率图像生成器,得到超分图像;
基于所述超分图像与其对应的高分辨率图像计算超分损失;
将所述超分图像与其对应的高分辨图像送入高分辨率图像分类器提取特征,计算感知损失;
以损失函数取值最小为目标,生成超分辨率图像生成器的最优模型参数;所述损失函数为L=αLs+βLp,其中,Ls表示超分损失,Lp表示感知损失;α和β表示对应项的加权权重;
在进行反向传播时,仅对超分辨率图像生成器进行模型参数更新,高分辨率图像分类器的模型参数不做更新。
可选地,所述超分损失的计算公式为:
Ls=||xh-xs||2
其中,||·||2表示L2范数;xh为高分辨率图像,xs为超分图像;xh通过下采样获得低分辨率图像xl,xl经过超分辨率图像生成器可获得超分图像xs;
所述感知损失的计算公式为:
其中,||·||1表示L1范数;为从高分辨率图像提取的特征,是xh送入已训练好的高分辨率图像分类器的第五特征抽取层的3个特征输出块的激活输出特征;为从超分图像提取的特征,是xs送入已训练好的高分辨率图像分类器的第五特征抽取层的3个特征输出块的激活输出特征。
第二方面,本发明提供了一种低分辨率图像目标识别的装置,包括:
图像获取模块,用于实时获取包含低分辨率目标的原始图像;
检测模块,用于利用目标检测法从所述原始图像中检测出低分辨率目标图像;
识别模块,用于将所述低分辨率目标图像输入至预先训练好的识别模型,获得识别结果;
其中,所述预先训练好的识别模型包括顺次设置的超分辨率图像生成器和高分辨率图像分类器,所述超分辨率图像生成器基于所述低分辨率目标图像生成超分图像;所述高分辨率图像分类器基于所述超分图像生成识别结果。
第三方面,本发明提供了一种低分辨率图像目标识别的系统,包括存储介质和处理器;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据第一方面中任一项所述的方法。
与现有技术相比,本发明的有益效果:
本发明利用超分辨率图像生成器基于低分辨率目标图像生成超分图像;利用高分辨率图像分类器基于超分图像生成识别结果,能更好地提升低分辨率图像目标的识别精度。
本发明在训练高分辨率图像分类器时,通过拼接主干网输出的多组特征后输入非线性映射分类器头,提升分类器的识别能力;同时,采用高斯模糊操作对高分辨率训练图像进行数据增广,使得低分辨率图像目标经过超分辨率图像生成器处理输出的结果与高分辨率图像目标经过高斯模糊处理输出的结果更加相似,进一步提升了高分辨率图像分类器的学习效果。
本发明在训练超分辨率图像生成器时,采用已经训练好的高分辨率图像分类器(参数保持不变)提取特征计算感知损失,与现有基于ImageNet预训练模型提取的特征计算感知损失相比,可以避免数据不一致导致的特征差异问题;同时,与现有同步训练高分辨率图像分类器提取特征计算感知损失相比,可以避免生成器和分类器同时优化的矛盾和冲突。
实验结果表明,以上训练方式可以提高2%~6%的低分辨率目标识别精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图,其中:
图1是本发明实施例1提供的一种低分辨率图像目标识别的方法的流程图;
图2是本发明实施例1提供的高分辨率图像分类器的网络结构示意图;
图3是本发明实施例1提供的一种低分辨率图像目标识别的方法中所使用的高分辨率图像、高斯模糊图像、低分辨率图像和超分图像示例;
图4是本发明实施例1提供的超分辨率图像生成器的网络结构示意图;
图5是本发明实施例1提供的一种低分辨率图像目标识别的方法中预测数据流图;
图6是本发明实施例2提供的一种低分辨率图像目标识别的装置的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
另外,若本发明实施例中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
实施例1
本发明实施例中提供了一种低分辨率图像目标识别的方法,如图1所示,包括以下步骤:
(1)实时获取包含低分辨率目标的原始图像;
(2)利用目标检测法从所述原始图像中检测出低分辨率目标图像;
(3)将所述低分辨率目标图像输入至预先训练好的识别模型,获得识别结果;
其中,所述预先训练好的识别模型包括顺次设置的超分辨率图像生成器和高分辨率图像分类器,所述超分辨率图像生成器基于所述低分辨率目标图像生成超分图像;所述高分辨率图像分类器基于所述超分图像生成识别结果。
在本发明实施例的一种具体实施方式中,如图2所示,所述高分辨率图像分类器包括顺次设置的第一特征抽取层、第二特征抽取层、第三特征抽取层、第四特征抽取层、第五特征抽取层和非线性映射分类器头;
所述非线性映射分类器头包括顺次设置的全连接层、批归一化层、LeakyReLU激活层和线性分类器;所述线性分类器输出的逻辑值个数等于待分类的目标类别个数;
所述第五特征抽取层包括第一特征输出块、第二特征输出块和第三特征输出块,三者的输出特征按通道拼接后连接至所述非线性映射分类器头的全连接层;
本发实施例中高分辨率图像分类器,通过拼接主干网(顺次设置的第一特征抽取层、第二特征抽取层、第三特征抽取层、第四特征抽取层、第五特征抽取层)输出的多组特征后输入非线性映射分类器头,以提升分类器的识别能力。
在本发明实施例的一种具体实施方式中,所述高分辨率图像分类器的最优模型参数通过以下步骤训练获得:
对获取到的高分辨率图像进行带参数的高斯模糊数据增广操作,生成训练数据集;所述高斯模糊数据增广操作的参数包括核大小和方差;本发明实施例中,采用高斯模糊对高分辨率训练图像进行数据增广,使得低分辨率图像目标经过超分辨率图像生成器处理输出的结果与高分辨率图像目标经过高斯模糊处理输出的结果更加相似,进一步提升了高分辨率图像分类器的学习效果;在具体实施过程中,所述核大小μ取值为5,方差σ从0.1到0.5之间随机取值。
基于标签平滑损失函数方法,利用所述训练数据集训练高分辨率图像分类器,获得高分辨率图像分类器的最优模型参数;
在训练过程中,每代采用余弦模拟退火曲线调整学习率大小,采用带动量的随机梯度下降算法更新模型参数。
在本发明实施例的一种具体实施方式中,所述超分辨率图像生成器包括:顺次设置的卷积层、残差层和M个上采样操作模块;
所述残差层包括16个残差模块;
每个上采样操作模块先通过卷积将通道数扩大4倍,再采用PixelShuffle将分辨率扩大2倍;M个上采样操作模块可扩大2M倍;当M=3时表示图像扩大8倍。若原始分辨率为28×28像素,扩大8倍则为224×224像素,极大地提高了目标表示的信息量。
当不同分辨率的低分辨率目标图像输入至超分辨率图像生成器后,根据低分辨率目标图像的实际大小进行超分,获得统一大小的超分图像。
在本发明实施例的一种具体实施方式中,所述超分辨率图像生成器的最优模型参数通过以下步骤训练获得
将获取到的高分辨率图像进行下采样,获得对应的低分辨率图像;
将所述低分辨率图像输入至超分辨率图像生成器,得到超分图像;
基于所述超分图像与其对应的高分辨率图像计算超分损失;
将所述超分图像与其对应的高分辨图像送入高分辨率图像分类器提取特征,计算感知损失;
以损失函数取值最小为目标,生成超分辨率图像生成器的最优模型参数;所述损失函数为L=αLs+βLp,其中,Ls表示超分损失,Lp表示感知损失;α和β表示对应项的加权权重;
在进行反向传播时,仅对超分辨率图像生成器进行模型参数更新,高分辨率图像分类器的模型参数不做更新。
其中,所述超分损失的计算公式为:
Ls=||xh-xs||2
其中,||·||2表示L2范数;xh为高分辨率图像,xs为超分图像;xh通过下采样获得低分辨率图像xl,xl经过超分辨率图像生成器可获得超分图像xs;
所述感知损失的计算公式为:
其中,||·||1表示L1范数;为高分辨率图像提取的特征,是xh送入已训练好的高分辨率图像分类器骨干网第5阶段3个模块的激活输出特征;/>为超分图像提取的特征,是xs送入已训练好的高分辨率图像分类器骨干网第五特征抽取层的3个特征输出块的激活输出特征。
下面结合一具体实施方式对本发明实施例中的方法进行详细说明。
步骤S1:获取高分辨率图像,作为训练数据集。
根据具体应用任务的不同,训练数据集的构建也不相同,主要包括自建和依托已有高分辨率数据集重构等方式,如:
广域场所监控识别任务,对于待识别的目标采用放大目标区域,并结合目标检测算法对目标进行捕获;也可以采用现有的高分辨率图像数据集进行重构,如人脸识别、行人识别可以依托已公开的高分辨率图像数据构建。
航拍目标搜索识别任务,对于待识别的目标可以采用无人机对目标进行航拍,通过放大目标等方式来获取包含目标的高分辨率图像;同时,对于超高清的图像,可以采用目标检测等方式同时获取多个目标图像。
通用目标细粒度识别任务,对于待识别的目标采用搜索引擎等工具,由互联网获取大量高分辨率图像来构建数据集。
步骤S2:构建并训练识别模型中的高分辨率图像分类器。
如图2所示,高分辨率图像分类器结构以深度学习网络模型的第一、第二、第三、第四、第五特征抽取层作为分类器主干结构,删除剩余的下采样、全连接等操作,并将第五特征抽取层的3个基本操作块的输出特征F1、F2和F3,按通道拼接后连接一个非线性映射分类器头。
其中,深度学习网络模型可以是VGG16、VGG19、ResNet34、ResNet50、MobileNetV2、Swin Transformer等,符合多个特征抽取层且最后一个特征抽取层由3个主要基本操作块组成的网络均可;
其中,非线性映射分类器头包括一个全连接层、批归一化层、LeakyReLU激活层和一个线性分类器。
以VGG16为例,第五特征抽取层包含3个特征输出块,每个特征输出块包含一个卷积操作和一个ReLU操作,输出通道数为512的特征图,经全局均值池化操作输出512维向量,通道拼接后维度为1536维的特征向量,经非线性映射分类器头的全连接层映射到1024维,经BN层和参数为0.1的LeakyReLU激活后,送入线性分类器,分类器输出的逻辑值个数等于待分类的目标类别个数。对于没有BN层的VGG16可以在LeakyReLU后增加一个丢弃率为0.5的Dropout层,增加模块的泛化能力。
以ResNet50为例,第五特征抽取层包含3个特征输出块,每个特征输出块由一个残差模块构成,输出通道数为2048的特征图,经全局均值池化操作输出2048维向量,通道拼接后维度为6142维的特征向量,经非线性映射分类器头的全连接层映射到1024维,经BN层和参数为0.1的LeakyReLU激活后,送入线性分类器,分类器输出的逻辑值个数等于待分类的目标类别个数。
为了训练识别模型中的高分辨率图像分类器,设置参数包括:
采用标签平滑损失函数指导训练,初始学习率为0.01,学习总代数为60代,每代采用余弦模拟退火曲线调整学习率大小,采用带动量的随机梯度下降算法更新参数,动量参数为0.9。
采用高分辨率图像的训练数据集进行训练。其中,数据输入模型前执行数据增广操作,除水平随机翻转等常见操作外,特别地,包括一种带参数的高斯模糊数据增广操作,实现用模糊高分辨率图像模拟低分辨率图像提高分类器适应能力。
具体地,所述高分辨率图像分类器训练所采用的高斯模糊操作的参数,优选设定核大小为μ、方差为σ。在本实施例中提供参数μ、σ的一种优选的设置:μ=5,σ∈[0.1,0.5]。
如图3所示,通过高斯模糊操作的高分辨率图像在细节上与原始图像存在较大差异,而通过超分网络生成的超分图具有非常类似的效果,这样等同于利用超分图像进行了高分辨率分类器的学习,具有更好的泛化能力。表1展示了所提方法在使用高斯模糊操作条件下与不适用高斯模糊操作的性能对比。
注:HR-HR表示224×244像素高分辨率数据进行训练和测试,LR-LR表示56×56像素低分辨率数据进行训练和测试,无高斯模糊表示本发明方法不使用高斯模糊数据增广。
步骤S3:构建并训练识别模型中的超分辨率图像生成器。
如图4所示,超分辨率图像生成器结构以SRGAN模型生成器进行构建。其中,SRGAN模型生成器中的PReLU激活函数统一采用Swish激活函数进行替换,以提高超分效果。
具体的,SRGAN模型生成器包括16个残差模块,M个上采样操作模块,每个上采样操作先通过卷积将通道数扩大4倍,再采用PixelShuffle将分辨率扩大2倍,M个模块操作可扩大2M倍,如当M=3时表示扩大8倍。若原始分辨率为28×28像素,扩大8倍则为224×224像素,极大地提高了目标表示的信息量。
具体地,对于输入的不同分辨率的低分辨率图像,根据低分辨率图像的实际大小进行适当的超分,获得统一大小的超分图像;其中,所述适当的超分将根据具体分辨率进行自适应调整:
当低分辨率图像单边像素在7~20像素时,统一缩放至14像素;
当低分辨率图像单边像素在21~41像素时,统一缩放至28像素;
当低分辨率图像单边像素在42~83像素时,统一缩放至56像素;
当低分辨率图像单边像素在84~167像素时,统一缩放至112像素。
假设统一缩放后的单边像素为P,则超分辨率图像生成器网络采用的上采样倍数M=log2(224/P),当P=56时,M=2;当P=28时,M=3;当P=14时,M=4。
具体地,SRGAN模型技术的相关方法见Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network.CVPR 2017,为现有技术,为此本发明中不做过多的赘述。
为了训练识别模型中的超分辨率图像生成器,设计如下损失函数:
L=αLs+βLp
其中,Ls表示超分损失,Lp表示感知损失;α和β表示对应项的加权权重。具体地,
(1)超分损失
Ls=||xh-xs||2
其中,||·||2表示L2范数;xh为高分辨率图像,xs为超分图像;xh通过下采样获得低分辨率图像xl,xl经过超分辨率图像生成器可获得超分图像xs。
(2)感知损失
其中,||·||1表示L1范数;为高分辨率图像提取的特征,是xh送入已训练好的高分辨率图像分类器骨干网第五特征抽取层3个特征输出块的激活输出特征;Fs i(i=1,2,3)为超分图像提取的特征,是xs送入已训练好的高分辨率图像分类器骨干网第五特征抽取层3个特征输出块的激活输出特征。
具体地,所述超分辨率图像生成器学习设置包括:
采用联合超分损失与感知损失指导训练,初始学习率为0.0001,学习总代数为60代,每间隔25代调整学习率大小为原来的0.1倍,采用Adam优化器算法更新参数。
具体地,所述超分辨率图像生成器采用高分辨率图像训练数据集进行训练。其中,低分辨率图像由高分辨率图像通过下采样得到,低分辨率图像输入超分辨率图像生成器,得到超分图像,然后与对应高分辨图像计算超分损失,同时将高分辨图像和超分图像送入高分辨率图像分类器提取特征,计算感知损失。反向传播时,仅对超分辨率图像生成器进行参数更新,高分辨率图像分类器不做更新。
步骤S4:对包含低分辨率目标的原始图像,先检测获取其中的低分辨率目标图像区域,生成低分辨率目标图像,再利用训练好的识别模型进行分类识别。
如图5所示,在预测时,先获取到的包含低分辨率目标的原始图像,然后检测获取其中的低分辨率目标图像区域,生成低分辨率目标图像,对于检测的任意一个低分辨率目标图像,依次输入超分辨率图像生成器和高分辨率图像分类器,输出识别结果。其中,依次输入表示先将低分辨率目标图像送入超分辨率图像生成器,输出超分图像,再将超分图像送入高分辨率图像分类器,输出识别结果。整个计算过程可一次性接续完成。
实施例2
本发明实施例中提供了一种低分辨率图像目标识别的装置,如图6所示,包括:
图像获取模块,用于实时获取包含低分辨率目标的原始图像;
检测模块,用于利用目标检测法从所述原始图像中检测出低分辨率目标图像;
识别模块,用于将所述低分辨率目标图像输入至预先训练好的识别模型,获得识别结果;
其中,所述预先训练好的识别模型包括顺次设置的超分辨率图像生成器和高分辨率图像分类器,所述超分辨率图像生成器基于所述低分辨率目标图像生成超分图像;所述高分辨率图像分类器基于所述超分图像生成识别结果。
实施例3
基于与实施例1相同的发明构思,本发明实施例中提供了一种低分辨率图像目标识别的系统,包括存储介质和处理器;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据实施例1中任一项所述的方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (10)
1.一种低分辨率图像目标识别的方法,其特征在于,包括:
实时获取包含低分辨率目标的原始图像;
利用目标检测法从所述原始图像中检测出低分辨率目标图像;
将所述低分辨率目标图像输入至预先训练好的识别模型,获得识别结果;
其中,所述预先训练好的识别模型包括顺次设置的超分辨率图像生成器和高分辨率图像分类器,所述超分辨率图像生成器基于所述低分辨率目标图像生成超分图像;所述高分辨率图像分类器基于所述超分图像生成识别结果。
2.根据权利要求1所述的一种低分辨率图像目标识别的方法,其特征在于:所述高分辨率图像分类器包括顺次设置的第一特征抽取层、第二特征抽取层、第三特征抽取层、第四特征抽取层、第五特征抽取层和非线性映射分类器头;
所述非线性映射分类器头包括顺次设置的全连接层、批归一化层、LeakyReLU激活层和线性分类器;所述线性分类器输出的逻辑值个数等于待分类的目标类别个数;
所述第五特征抽取层包括独立设置的第一特征输出块、第二特征输出块和第三特征输出块,三者的输出特征按通道拼接后连接至所述非线性映射分类器头的全连接层。
3.根据权利要求2所述的一种低分辨率图像目标识别的方法,其特征在于:所述高分辨率图像分类器的最优模型参数通过以下步骤训练获得:
对获取到的高分辨率图像进行带参数的高斯模糊数据增广操作,生成训练数据集;所述高斯模糊数据增广操作的参数包括核大小和方差;
基于标签平滑损失函数方法,利用所述训练数据集训练高分辨率图像分类器,获得高分辨率图像分类器的最优模型参数。
4.根据权利要求3所述的一种低分辨率图像目标识别的方法,其特征在于:在训练过程中,每代采用余弦模拟退火曲线调整学习率大小,采用带动量的随机梯度下降算法更新模型参数。
5.根据权利要求3所述的一种低分辨率图像目标识别的方法,其特征在于:所述高斯模糊操作的核大小μ取值为5,方差σ从0.1到0.5之间随机取值。
6.根据权利要求2所述的一种低分辨率图像目标识别的方法,其特征在于:所述超分辨率图像生成器包括:顺次设置的卷积层、残差层和M个上采样操作模块;
每个上采样操作模块先通过卷积将通道数扩大4倍,再采用PixelShuffle将分辨率扩大2倍,M个上采样操作模块可扩大2M倍;
当不同分辨率的低分辨率目标图像输入至超分辨率图像生成器后,根据低分辨率目标图像的实际大小进行超分,获得统一大小的超分图像。
7.根据权利要求5所述的一种低分辨率图像目标识别的方法,其特征在于,所述超分辨率图像生成器的最优模型参数通过以下步骤训练获得:
将获取到的高分辨率图像进行下采样,获得对应的低分辨率图像;
将所述低分辨率图像输入至超分辨率图像生成器,得到超分图像;
基于所述超分图像与其对应的高分辨率图像计算超分损失;
将所述超分图像与其对应的高分辨图像送入高分辨率图像分类器提取特征,计算感知损失;
以损失函数取值最小为目标,生成超分辨率图像生成器的最优模型参数;所述损失函数为L=αLs+βLp,其中,Ls表示超分损失,Lp表示感知损失;α和β表示对应项的加权权重;
在进行反向传播时,仅对超分辨率图像生成器进行模型参数更新,高分辨率图像分类器的模型参数不做更新。
8.根据权利要求6所述的一种低分辨率图像目标识别的方法,其特征在于:所述超分损失的计算公式为:
Ls=||xh-xs||2
其中,||·||2表示L2范数;xh为高分辨率图像,xs为超分图像;xh通过下采样获得低分辨率图像xl,xl经过超分辨率图像生成器可获得超分图像xs;
所述感知损失的计算公式为:
其中,||·||1表示L1范数;为从高分辨率图像提取的特征,是xh送入已训练好的高分辨率图像分类器的第五特征抽取层的3个特征输出块的激活输出特征;为从超分图像提取的特征,是xs送入已训练好的高分辨率图像分类器的第五特征抽取层的3个特征输出块的激活输出特征。
9.一种低分辨率图像目标识别的装置,其特征在于,包括:
图像获取模块,用于实时获取包含低分辨率目标的原始图像;
检测模块,用于利用目标检测法从所述原始图像中检测出低分辨率目标图像;
识别模块,用于将所述低分辨率目标图像输入至预先训练好的识别模型,获得识别结果;
其中,所述预先训练好的识别模型包括顺次设置的超分辨率图像生成器和高分辨率图像分类器,所述超分辨率图像生成器基于所述低分辨率目标图像生成超分图像;所述高分辨率图像分类器基于所述超分图像生成识别结果。
10.一种低分辨率图像目标识别的系统,其特征在于,包括存储介质和处理器;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据权利要求1-8中任一项所述的方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202310228214.3A CN116452418A (zh) | 2023-03-10 | 2023-03-10 | 低分辨率图像目标识别的方法、装置及系统 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202310228214.3A CN116452418A (zh) | 2023-03-10 | 2023-03-10 | 低分辨率图像目标识别的方法、装置及系统 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN116452418A true CN116452418A (zh) | 2023-07-18 |
Family
ID=87129211
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CN202310228214.3A Pending CN116452418A (zh) | 2023-03-10 | 2023-03-10 | 低分辨率图像目标识别的方法、装置及系统 |
Country Status (1)
| Country | Link |
|---|---|
| CN (1) | CN116452418A (zh) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN118338143A (zh) * | 2024-04-11 | 2024-07-12 | 四川新视创伟超高清科技有限公司 | 一种多目标的发现方法及发现系统 |
| CN119130892A (zh) * | 2024-01-08 | 2024-12-13 | 四川文理学院 | 一种超大图像典型区域筛选方法及系统 |
| CN119445753A (zh) * | 2024-12-12 | 2025-02-14 | 扬州科曼德智能科技有限公司 | 一种基于边缘计算的火灾报警系统 |
-
2023
- 2023-03-10 CN CN202310228214.3A patent/CN116452418A/zh active Pending
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN119130892A (zh) * | 2024-01-08 | 2024-12-13 | 四川文理学院 | 一种超大图像典型区域筛选方法及系统 |
| CN118338143A (zh) * | 2024-04-11 | 2024-07-12 | 四川新视创伟超高清科技有限公司 | 一种多目标的发现方法及发现系统 |
| CN119445753A (zh) * | 2024-12-12 | 2025-02-14 | 扬州科曼德智能科技有限公司 | 一种基于边缘计算的火灾报警系统 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN111767882B (zh) | 一种基于改进yolo模型的多模态行人检测方法 | |
| CN111639692B (zh) | 一种基于注意力机制的阴影检测方法 | |
| Yin et al. | FD-SSD: An improved SSD object detection algorithm based on feature fusion and dilated convolution | |
| CN116452418A (zh) | 低分辨率图像目标识别的方法、装置及系统 | |
| CN115240119A (zh) | 一种基于深度学习的视频监控中行人小目标检测方法 | |
| CN114549563A (zh) | 一种基于DeepLabV3+的复合绝缘子实时分割方法及系统 | |
| CN111524135A (zh) | 基于图像增强的输电线路细小金具缺陷检测方法及系统 | |
| US20180114071A1 (en) | Method for analysing media content | |
| CN110956126A (zh) | 一种联合超分辨率重建的小目标检测方法 | |
| CN108647585A (zh) | 一种基于多尺度循环注意力网络的交通标识符检测方法 | |
| CN114639042A (zh) | 基于改进CenterNet骨干网络的视频目标检测算法 | |
| CN108334848A (zh) | 一种基于生成对抗网络的微小人脸识别方法 | |
| CN112528782A (zh) | 水下鱼类目标检测方法及装置 | |
| CN112149591B (zh) | 用于sar图像的ssd-aeff自动桥梁检测方法及系统 | |
| CN115497140B (zh) | 一种基于YOLOv5l和注意力机制的实时表情识别方法 | |
| CN110781744A (zh) | 一种基于多层次特征融合的小尺度行人检测方法 | |
| CN116403133A (zh) | 一种基于YOLO v7改进的车辆检测算法 | |
| CN113780305A (zh) | 一种基于两种线索交互的显著性目标检测方法 | |
| CN113409327B (zh) | 一种基于排序与语义一致性约束的实例分割改进方法 | |
| CN115115713A (zh) | 一种统一时空融合的环视鸟瞰图感知方法 | |
| CN117975167B (zh) | 弱矿斑矿石分选方法、装置、可读存储介质及设备 | |
| CN118470714B (zh) | 一种基于决策级特征融合建模的伪装物体语义分割方法、系统、介质及电子设备 | |
| CN113673478B (zh) | 基于深度学习全景拼接的港口大型设备检测与识别方法 | |
| CN114332989B (zh) | 一种多任务级联卷积神经网络的人脸检测方法及系统 | |
| Gong et al. | AED-YOLO11: A Small Object Detection Model Based on YOLO11 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PB01 | Publication | ||
| PB01 | Publication | ||
| SE01 | Entry into force of request for substantive examination | ||
| SE01 | Entry into force of request for substantive examination |