[go: up one dir, main page]

CN116935316A - 联合高分辨率CNN和轻量级Transformer的密集人群计数方法 - Google Patents

联合高分辨率CNN和轻量级Transformer的密集人群计数方法 Download PDF

Info

Publication number
CN116935316A
CN116935316A CN202310922245.9A CN202310922245A CN116935316A CN 116935316 A CN116935316 A CN 116935316A CN 202310922245 A CN202310922245 A CN 202310922245A CN 116935316 A CN116935316 A CN 116935316A
Authority
CN
China
Prior art keywords
feature
attention
density
network
crowd
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310922245.9A
Other languages
English (en)
Other versions
CN116935316B (zh
Inventor
周欣
王明涛
陈媛媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202310922245.9A priority Critical patent/CN116935316B/zh
Publication of CN116935316A publication Critical patent/CN116935316A/zh
Application granted granted Critical
Publication of CN116935316B publication Critical patent/CN116935316B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供联合高分辨率CNN和轻量级Transformer的密集人群计数方法,包括以下步骤:利用固定高斯核法计算人群图像中人头的尺度大小,生成用于网络训练的监督密度图;构建基于高分辨率特征提取网络HRNet和轻量级Transformer的人群计数网络;对人群数据集进行数据增广,利用训练集对构建的计数网络进行多密度图训练,筛选保存最优模型;利用测试集对得到的最优网络模型进行测试,并通过对网络预测的密度图像素值进行累加求和,得到图片人群最终的计数结果。本发明不仅能够保持人群特征高分辨率输出,而且可以融合多尺度信息,提升了人群计数的鲁棒性;显著提升了模型的收敛速度和泛化性能。

Description

联合高分辨率CNN和轻量级Transformer的密集人群计数方法
技术领域
本发明涉及人群计数技术领域,具体涉及一种联合高分辨率CNN和轻量级Transformer的密集人群计数方法。
背景技术
人群计数旨在通过计算机视觉技术获取图像中人群数量。这项技术具有重要的学术研究价值和应用价值,在公共安防、智能监控和疫情防控等领域被广泛应用。还可以扩展细胞镜检测、车辆计数等相关领域。目前,很多基于深度学习的人群计数方法被不断提出。特别是基于深度神经网络的密度估计法。这种方法利用经过精心构建的网络模型对密度图进行回归,然后通过对预测密度图积分求和来得到总人数。
(一)分析关于人群计数的专利技术
申请号为201911161705.0的中国发明专利申请《人群密度估计方法》根据预设阈值使用AlexNet网络将人群图片数据集分为密集与稀疏两类,然后针对这两类图像密度特征的不同将其分别送入对应的特征提取网络,从而获取更好有效的人群密度估计特征。但该方法需分别训练AlexNet分类网络、密集数据特征提取网络和稀疏数据特征提取网络,导致计算过程繁琐复杂,且图片数据的分类选择错误将会严重影响计数准确度。
申请号为202010170236.5的中国发明专利申请《基于级联高分辨卷积神经网络的密集人群计数算法》利用级联式高分辨卷积神经网络CHRNet提取密集人群图像高分辨率特征,并采用分区域损失加权的方式,通过使用MSE和计数误差两种损失函数进行网络参数优化。其不足之处在于该算法人为设定不同区域及两种不同损失之间的权重,而密度图的优化质量对权重的设置较为敏感,计数结果会因权重设置不当造成较大的偏差。
申请号为202211557637.1的中国发明专利申请《一种基于多尺度融合卷积网络的人群计数方法及系统》,提出在VGG16初级特征提取网络后使用多尺度融合卷积网络的来有效提取多尺度信息。但该方法的主干网络采用单列结构,难以实现多层次特征的提取和融合,且多尺度融合卷积网络的融合方式较为简单,不利于对高复杂度的图像场景进行有效的建模。
(二)分析基于深度神经网络的人群计数研究
Li等人提出了一种名为CSRNet的基于VGG-16架构的计数网络(《Proceedingsofthe IEEE Conference on ComputerVision and Pattern Recognition》会议纪要,2018年第1091-1100页)。该网络通过在后端网络中增加空洞卷积层来拓展感知范围和特征提取能力。然而,CSRNet网络中存在大量池化操作、步长大于1的卷积层,生成的密度图大小仅为原始输入大小的1/8,可能无法包含足够多的小尺度目标特征信息,导致其在一些复杂场景下的性能受到限制。对于密集人群或小尺度目标,低分辨率特征不利于精确预测。
Gao等人在提出的计数网络SCAR中引入了空间和通道注意力机制(《Neurocomputing》期刊,2019年第363卷第1-8页)。空间注意力机制用于编码整张图像的像素级上下文信息,以提高模型在像素级上预测密度图的精度;通道注意力机制则用于提取不同的特征信息,使模型对噪声背景更加稳健。该模型中使用的这两种注意力机制可以更好地关注局部细节,但难以捕获全局特征来进行全局上下文建模,从而影响模型对于整个场景的理解。
Liang等人提出了基于Vision Transformer(ViT)的人群计数网络TransCrowd(《Science China
Information Sciences》期刊,2022年第6期第104-120页),成功地将Transformer引入到人群计数领域。该模型采用ViT作为主干网络来进行全局上下文建模,并于弱监督的形式取得较为理想的计数结果。然而,基于纯ViT的计数模型往往计算成本较高,导致模型难以训练和优化,更不利于模型在移动端的部署应用。
发明内容
本发明旨在克服前述的现有技术中存在的多尺度特征融合不够紧密、特征分辨率较低、网络难以训练等难题,提供一种能保持人群特征高分辨率并提升人群预测精度的方法。
本发明采用改进的高分辨率特征提取网络HRNet作为前端网络,将其特征图输出大小维持在原始输入大小的1/4,产生丰富的高分辨率表示,有助于保持感受野信息的丰富性,进一步提高提高预测密度图的准确度;采用轻量的ViT Encoder来建模复杂的全局上下文,并使用多尺度特征增强加来加强特征提取,有效缓解多尺度变化、透视效应等因素对计数结果的影响。
为了达到上述目的,本发明提供一种联合高分辨率CNN和轻量级Transformer的密集人群计数方法,包括以下步骤:
步骤S1:利用固定高斯核法计算人群图像中人头的尺度大小,生成用于网络训练的监督密度图;
步骤S2:构建基于高分辨率特征提取网络HRNet和轻量级Transformer的人群计数网络;
步骤S3:对人群数据集进行数据增广,利用训练集对步骤S2中构建的计数网络进行多密度图训练,筛选保存最优模型;
步骤S4:利用测试集对步骤S3得到的最优网络模型进行测试,并通过对网络预测的密度图像素值进行累加求和,得到图片人群最终的计数结果。
进一步地,步骤S2的具体过程如下:
步骤S2-1:利用预训练的高分辨率特征提取网络HRNet下的特征提取模块Stage1-4提取输入图像的初级特征,得到四个分辨率不同、通道数不同的初级特征图。进一步利用核大小为1×1的卷积层分别对分辨率最高的三个初级特征图作特征提取,得到三个不同分辨率大小的初级密度图density map1、density map2和density map3,这三个初级密度图的通道数为1,垂直高度和水平宽度分别为原始输入尺度的1/4、1/8和1/16;
步骤S2-2:构建多注意力模块,基于四个不同分辨率的初级特征图,分别执行多种注意力操作,并按通道连接方式融合形成新的注意力特征图;
步骤S2-3:构建并行的多尺度增强模块和ViT Encoder特征提取模块,利用并行连接的ViT编码器和多尺度增强模块对融合后的注意力特征图进行全局上下文建模及多尺度特征增强;
步骤S2-4:构建解码器模块,将特征增强及全局上下文建模后的特征图送入解码器模块进行解码,以将特征图尺寸恢复到原始输入大小,预测得到最终的预测密度图density map4。
进一步地,步骤S2-2的具体过程如下:
步骤S2-2-1:将四个初级特征图送入自注意力和通道注意力子模块,每一个初级特征图分别产生自注意力特征子图和通道注意力特征子图;
步骤S2-2-2:使用一个动态权重生成机制(由卷积层和sigmoid激活函数组成的网络)为这两种注意力特征子图计算权重;
步骤S2-2-3:将输出的这两种权重相加得到总权重,权重的和被用于对这两种注意力权重输出进行归一化;
步骤S2-2-4:使用预先生成的自注意力特征子图和通道注意力特征子图分别与它们的归一化后的权重相乘,随后相加形成加权后的注意力特征图;
步骤S2-2-5:以最大分辨率的注意力特征图为基准,采用近邻插值方法对其它三分支输出的注意力特征图进行上采样,并按通道连接的方式融合成包含480通道的注意力特征图。
进一步地,步骤S2-3的具体过程:
步骤S2-3-1:将步骤S2-2得到的注意力特征图分别输入ViT编码器和多尺度增强模块中的空洞卷积子模块,输出两个中间特征图;
步骤S2-3-2:使用卷积层将ViT编码器输出的特征图的通道和空洞卷积模块输出的特征图的通道调为一致,以元素加法的方式将两种通道相同的中间特征图相加;
步骤S2-3-3:将步骤S2-3-2融合后的特征图送入多尺度增强模块中的可变形卷积子模块,得到进一步增强后的特征图;
步骤S2-3-4:将ViT编码器输出并经通道转换后的特征图与步骤S2-3-3得到的增强后的特征图以元素相加的方式相加,得到进一步融合后的特征图。
进一步地,步骤S3对人群数据集进行数据增广,并进行多密度图监督训练,具体过程如下:
步骤S3-1:为了增强训练数据,使用随机裁剪和水平翻转,其中,裁剪尺寸为256×256,翻转概率为0.5;
步骤S3-2:通过计算最终预测的密度图(density map4)和预测的初级密度图(density map1、density map2、density map3)与它们的GT密度图之间的加权损失之和来进行多密度图监督训练,以增强中间特征图的鲁棒性,进而促进最终密度图回归的准确性;
步骤S3-3:筛选保存最优模型。
本发明与现有技术相比,其优点在于:(1)本发明以改进的高分辨率特征提取网络HRNet为主干网络,不仅能够保持人群特征高分辨率输出,而且可以融合多尺度信息,从而使得预测的特征图在空间上更加精确,特别是对于密集人群或小尺度目标。(2)本发明使用了一种轻量级的ViT Encoder来建模复杂的全局上下文,并联合多种注意力操作(自注意力、通道注意力)来平衡特征图的全局信息和局部细节,帮助模型更好地区分不同的人群区域和复杂背景,减轻了遮挡、背景和透视等问题的干扰,进一步提升了人群计数的鲁棒性。(3)本发明在CNN分支中构建了结构简单且高效的多尺度特征增强模块,有效地弥补了主干网络在采样操作过程中可能丢失的特征细节,并在一定程度上解决了多尺度问题导致的计数精度不高的问题。(4)本发明采用多密度图监督训练策略进行网络参数优化,充分汇集来自网络不同层、不同分辨率的特征信息进行特征交互。利用不同分辨率密度图之间的相关性,从而更好地学习场景中人群分布状况,显著提升了模型的收敛速度和泛化性能。
附图说明
图1为本方面的流程示意图;
图2为HRNet Stage 1-4模块流程图;
图3为多注意力模块(MAM)流程图;
图4为多尺度增强模块流程图。
具体实施方式
如图1所示,本实施例提出的一种联合高分辨率CNN和轻量级Transformer的密集人群计数方法,包括如下步骤:
步骤S1:利用固定高斯核法计算机人群图像中人头的尺度大小,生成用于网络训练的监督密度图,即将核大小为15的高斯核与图像中人头标注坐标进行卷积。通过这样的处理,每个人头的高斯相应区域大小近似等于人头实际大小,单个人头区域的像素值累加和等于1;
步骤S2:构建基于高分辨率特征提取网络HRNet和轻量级Transformer的人群计数网络;
步骤S3:对人群计数数据集进行数据增广,利用训练集对步骤S2中构建的计数网络进行多密度图监督训练,筛选保持最优模型;
步骤S4:利用测试集对步骤S3得到的最优网络模型进行测试,并通过对网络预测的密度图像素值进行累加求和,得到图片人群最终的计数结果。
在本实施例中,步骤S2的具体过程如下:
步骤S2-1:利用预训练的高分辨率特征提取网络HRNet下的特征提取模块Stage1-4提取输入图像(H,W,3)的初级特征,得到四个分辨率递减、通道数递增的初级特征图。这四个初级特征图的尺度大小分别为(H/4,W/4,32)、(H/8,W/8,64)、(H/16,W/16,128)和(H/32,W/32,256)。其中,H、W分别为输入图像的垂直高度和水平宽度,后面的数值3、32、64、128、256表示通道数。特征提取模块Stage1-4的操作流程如图2所示。进一步利用核大小为1×1的卷积层分别对分辨率最高的三个初级特征图作特征提取,得到三个不同分辨率大小的初级密度图density map1、density map2和density map3。如图1虚线部分所示,这三个初级密度图的通道数为1,垂直高度和水平宽度分别为原始输入尺度的1/4、1/8和1/16;
步骤S2-2:构建多注意力模块,基于四个不同分辨率的初级特征图,分别执行多种注意力操作,并按通道连接方式融合形成新的注意力特征图,操作过程如图3所示;
步骤S2-3:构建并行的多尺度增强模块和ViT Encoder特征提取模块,利用并行连接的ViT编码器和多尺度增强模块对融合后的注意力特征图进行全局上下文建模及多尺度特征增强;
步骤S2-4:构建解码器模块,将特征增强及全局上下文建模后的特征图送入解码器模块进行解码,以将特征图尺寸恢复到原始输入大小,得到最终的预测密度图densitymap4(H,W,1)。
在本实施例中,步骤S2-2的具体过程如下:
步骤S2-2-1:将四个初级特征图送入自注意力和通道注意力子模块,每一个初级特征图Fa分别产生自注意力特征子图Fs和通道注意力特征子图Fc
步骤S2-2-2:使用一个动态权重生成网络为这两种注意力特征子图计算权重M1、M2。动态权重生成网络由一层核大小为3×3的普通卷积层和一个sigmoid激活函数组成;
步骤S2-2-3:将输出的这两种权重相加得到总权重M3,权重的和被用于对这两种注意力权重输出进行归一化;
步骤S2-2-4:使用预先生成的自注意力特征子图Fs和通道注意力特征子图Fc分别与它们的归一化后的权重相乘,得到特征图F's=M1/M3☉Fs,F'c=M2/M3☉Fc,其中☉表示元素乘法操作。随后相加形成加权后的注意力特征图FY=F's+F'c
步骤S2-2-5:以最大分辨率的注意力特征图为基准,采用近邻插值方法对其它三分支输出的注意力特征图进行上采样,并按通道连接的方式融合成包含480通道的注意力特征图。
在本实施例中,步骤S2-3的具体过程:
步骤S2-3-1:将步骤S2-2得到的注意力特征图分别输入ViT Encoder和多尺度增强模块中的空洞卷积子模块ACM,输出两个中间特征图。如图4所示,空洞卷积子模块ACM由三个并行分支构成,分别包含空洞率为1、2和4的普通卷积层。目的是为了进一步扩大感受野和融合不同尺度的特征;
步骤S2-3-2:使用卷积层将ViT编码器输出的特征图的通道和空洞卷积模块输出的特征图的通道调为一致,以元素加法的方式将两种通道相同的中间特征图相加;
步骤S2-3-3:将步骤S2-3-2融合后的特征图送入多尺度增强模块中的可变形卷积子模块DCM,得到进一步增强后的特征图。在这个子模块中,参数设置类似于ACM模块,采用了一个三分支的可变形卷积组设计。这三个子分支并行处理输入特征图,使得模型能够在不同的特征层面上捕捉更丰富的几何形状和结构信息。另外,在每个分支的最后一层可变形卷积层之后进行通道注意力操作来提高计数准确率。具体地,DCM子模块以特征Fa作为输入,依次通过三组不同尺度的可变形卷积层,捕获得到特征然后,/>被送入AFS网络,生成注意力权重/>其中,AFS由一个平均池化、一个全连接层和一个Sigmoid激活函数组成。紧接着,在预先生成的/>和权重/>之间进行乘法运算,得到特征其中☉表示元素乘法操作。随后聚合成多尺度特征/>其中,/>表示通道拼接操作;
步骤S2-3-4:将ViT编码器输出并经通道转换后的特征图与步骤S2-3-3得到的增强后的特征图以元素相加的方式相加,得到进一步融合后的特征图。
在本实施例中,步骤S3对人群计数数据中进行数据增广,并进行多密度图监督训练,具体过程如下:
步骤S3-1:为了增强训练数据,使用随机裁剪和水平翻转,其中,裁剪尺寸为256×256,翻转概率为0.5;
步骤S3-2:通过计算最终预测的密度图(density map4)和预测的初级密度图(density map1、density map2、density map3)与它们的GT密度图之间的加权损失之和来进行多密度图监督训练,以增强中间特征图的鲁棒性,进而促进最终密度回归的准确性。权重分别设置为0.3、0.2、0.15和0.1;
步骤S3-3:筛选保存最优模型。以训练中最低的平均绝对误差MAE为依据,保存效果最好的模型。

Claims (5)

1.联合高分辨率CNN和轻量级Transformer的密集人群计数方法,其特征在于,包括以下步骤:
步骤S1:利用固定高斯核法计算人群图像中人头的尺度大小,生成用于网络训练的监督密度图;
步骤S2:构建基于高分辨率特征提取网络HRNet和轻量级Transformer的人群计数网络;
步骤S3:对人群数据集进行数据增广,利用训练集对步骤S2中构建的计数网络进行多密度图训练,筛选保存最优模型;
步骤S4:利用测试集对步骤S3得到的最优网络模型进行测试,并通过对网络预测的密度图像素值进行累加求和,得到图片人群最终的计数结果。
2.根据权利要求1所述的联合高分辨率CNN和轻量级Transformer的密集人群计数方法,其特征在于,步骤S2的具体过程如下:
步骤S2-1:利用预训练的高分辨率特征提取网络HRNet下的特征提取模块Stage1-4提取输入图像的初级特征,得到四个分辨率不同、通道数不同的初级特征图;利用核大小为1×1的卷积层分别对分辨率最高的三个初级特征图作特征提取,得到三个不同分辨率大小的初级密度图densitymap1、densitymap2和densitymap3,这三个初级密度图的通道数为1,垂直高度和水平宽度分别为原始输入尺度的1/4、1/8和1/16;
步骤S2-2:构建多注意力模块,基于四个不同分辨率的初级特征图,分别执行多种注意力操作,并按通道连接方式融合形成新的注意力特征图;
步骤S2-3:构建并行的多尺度增强模块和ViTEncoder特征提取模块,利用并行连接的ViT编码器和多尺度增强模块对融合后的注意力特征图进行全局上下文建模及多尺度特征增强;
步骤S2-4:构建解码器模块,将特征增强及全局上下文建模后的特征图送入解码器模块进行解码,以将特征图尺寸恢复到原始输入大小,预测得到最终的预测密度图densitymap4。
3.根据权利要求2所述的联合高分辨率CNN和轻量级Transformer的密集人群计数方法,其特征在于,步骤S2-2的具体过程如下:
步骤S2-2-1:将四个初级特征图送入自注意力和通道注意力子模块,每一个初级特征图分别产生自注意力特征子图和通道注意力特征子图;
步骤S2-2-2:使用一个动态权重生成机制为这两种注意力特征子图计算权重;
步骤S2-2-3:将输出的这两种权重相加得到总权重,权重的和被用于对这两种注意力权重输出进行归一化;
步骤S2-2-4:使用预先生成的自注意力特征子图和通道注意力特征子图分别与它们的归一化后的权重相乘,随后相加形成加权后的注意力特征图;
步骤S2-2-5:以最大分辨率的注意力特征图为基准,采用近邻插值方法对其它三分支输出的注意力特征图进行上采样,并按通道连接的方式融合成包含480通道的注意力特征图。
4.根据权利要求3所述的联合高分辨率CNN和轻量级Transformer的密集人群计数方法,其特征在于,步骤S2-3的具体过程:
步骤S2-3-1:将步骤S2-2得到的注意力特征图分别输入ViT编码器和多尺度增强模块中的空洞卷积子模块,输出两个中间特征图;
步骤S2-3-2:使用卷积层将ViT编码器输出的特征图的通道和空洞卷积模块输出的特征图的通道调为一致,以元素加法的方式将两种通道相同的中间特征图相加;
步骤S2-3-3:将步骤S2-3-2融合后的特征图送入多尺度增强模块中的可变形卷积子模块,得到进一步增强后的特征图;
步骤S2-3-4:将ViT编码器输出并经通道转换后的特征图与步骤S2-3-3得到的增强后的特征图以元素相加的方式相加,得到进一步融合后的特征图。
5.根据权利要求4所述的联合高分辨率CNN和轻量级Transformer的密集人群计数方法,其特征在于,步骤S3对人群数据集进行数据增广,并进行多密度图监督训练,具体过程如下:
步骤S3-1:为了增强训练数据,使用随机裁剪和水平翻转,其中,裁剪尺寸为256×256,翻转概率为0.5;
步骤S3-2:通过计算最终预测的密度图densitymap4和预测的初级密度图densitymap1、densitymap2、densitymap3与它们的GT密度图之间的加权损失之和来进行多密度图监督训练,以增强中间特征图的鲁棒性,进而促进最终密度图回归的准确性;
步骤S3-3:筛选保存最优模型。
CN202310922245.9A 2023-07-26 2023-07-26 联合高分辨率CNN和轻量级Transformer的密集人群计数方法 Active CN116935316B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310922245.9A CN116935316B (zh) 2023-07-26 2023-07-26 联合高分辨率CNN和轻量级Transformer的密集人群计数方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310922245.9A CN116935316B (zh) 2023-07-26 2023-07-26 联合高分辨率CNN和轻量级Transformer的密集人群计数方法

Publications (2)

Publication Number Publication Date
CN116935316A true CN116935316A (zh) 2023-10-24
CN116935316B CN116935316B (zh) 2025-11-18

Family

ID=88384103

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310922245.9A Active CN116935316B (zh) 2023-07-26 2023-07-26 联合高分辨率CNN和轻量级Transformer的密集人群计数方法

Country Status (1)

Country Link
CN (1) CN116935316B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118644486A (zh) * 2024-08-15 2024-09-13 南京信息工程大学 基于双路多尺度融合网络的人群计数方法、系统
CN119734711A (zh) * 2025-03-03 2025-04-01 浙江机电职业技术大学 基于深度学习的智能网联汽车多模态感知与决策系统
CN119942464A (zh) * 2025-04-07 2025-05-06 湖北工业大学 一种密集场景人群计数方法、装置、电子设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460912A (zh) * 2020-03-12 2020-07-28 南京理工大学 基于级联高分辨卷积神经网络的密集人群计数算法
US20210183484A1 (en) * 2019-12-06 2021-06-17 Surgical Safety Technologies Inc. Hierarchical cnn-transformer based machine learning
CN114359822A (zh) * 2021-12-01 2022-04-15 福建新大陆软件工程有限公司 一种基于transformer技术的人群聚集告警方法
CN115457464A (zh) * 2022-09-06 2022-12-09 燕山大学 基于transformer和CNN的人群计数方法
GB202217424D0 (en) * 2021-11-22 2023-01-04 Aeronautic Polytechnic Method of crowd density estimation based on multi-scale feature fusion of residual network
CN115578436A (zh) * 2022-10-13 2023-01-06 安徽理工大学 一种基于多级特征并行交互融合的单目深度预测方法
WO2023019875A1 (zh) * 2021-08-16 2023-02-23 平安科技(深圳)有限公司 车辆损失检测方法、装置、电子设备及存储介质
CN116229295A (zh) * 2023-02-28 2023-06-06 西安电子科技大学 基于融合卷积注意力机制的遥感图像目标检测方法
CN116258627A (zh) * 2022-12-13 2023-06-13 河南大学 一种极端退化人脸图像超分辨率恢复系统和方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210183484A1 (en) * 2019-12-06 2021-06-17 Surgical Safety Technologies Inc. Hierarchical cnn-transformer based machine learning
CN111460912A (zh) * 2020-03-12 2020-07-28 南京理工大学 基于级联高分辨卷积神经网络的密集人群计数算法
WO2023019875A1 (zh) * 2021-08-16 2023-02-23 平安科技(深圳)有限公司 车辆损失检测方法、装置、电子设备及存储介质
GB202217424D0 (en) * 2021-11-22 2023-01-04 Aeronautic Polytechnic Method of crowd density estimation based on multi-scale feature fusion of residual network
CN114359822A (zh) * 2021-12-01 2022-04-15 福建新大陆软件工程有限公司 一种基于transformer技术的人群聚集告警方法
CN115457464A (zh) * 2022-09-06 2022-12-09 燕山大学 基于transformer和CNN的人群计数方法
CN115578436A (zh) * 2022-10-13 2023-01-06 安徽理工大学 一种基于多级特征并行交互融合的单目深度预测方法
CN116258627A (zh) * 2022-12-13 2023-06-13 河南大学 一种极端退化人脸图像超分辨率恢复系统和方法
CN116229295A (zh) * 2023-02-28 2023-06-06 西安电子科技大学 基于融合卷积注意力机制的遥感图像目标检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LIN S F 等: "Estimation of number of people in crowded scenes using perspective transformation", IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS-PART A: SYSTEMS AND HUMANS, vol. 31, no. 6, 31 December 2001 (2001-12-31), pages 645 - 654 *
严芳芳;吴秦;: "多通道融合分组卷积神经网络的人群计数算法", 小型微型计算机系统, no. 10, 15 October 2020 (2020-10-15) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118644486A (zh) * 2024-08-15 2024-09-13 南京信息工程大学 基于双路多尺度融合网络的人群计数方法、系统
CN119734711A (zh) * 2025-03-03 2025-04-01 浙江机电职业技术大学 基于深度学习的智能网联汽车多模态感知与决策系统
CN119942464A (zh) * 2025-04-07 2025-05-06 湖北工业大学 一种密集场景人群计数方法、装置、电子设备及存储介质
CN119942464B (zh) * 2025-04-07 2025-07-15 湖北工业大学 一种密集场景人群计数方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN116935316B (zh) 2025-11-18

Similar Documents

Publication Publication Date Title
CN116935316B (zh) 联合高分辨率CNN和轻量级Transformer的密集人群计数方法
Li et al. Sign language recognition based on computer vision
CN112818969B (zh) 一种基于知识蒸馏的人脸姿态估计方法及系统
CN110852267B (zh) 基于光流融合型深度神经网络的人群密度估计方法及装置
CN113688723A (zh) 一种基于改进YOLOv5的红外图像行人目标检测方法
CN115601403B (zh) 一种基于自注意力机制的事件相机光流估计方法及装置
CN111369522B (zh) 基于生成对抗卷积神经网络的光场显著性目标检测方法
CN113011329A (zh) 一种基于多尺度特征金字塔网络及密集人群计数方法
CN113505640B (zh) 一种基于多尺度特征融合的小尺度行人检测方法
CN115187786A (zh) 一种基于旋转的CenterNet2目标检测方法
CN111144329A (zh) 一种基于多标签的轻量快速人群计数方法
CN111507184B (zh) 基于并联空洞卷积和身体结构约束的人体姿态检测方法
CN115116139B (zh) 基于图卷积网络的多粒度人体动作分类方法
CN114898284B (zh) 一种基于特征金字塔局部差异注意力机制的人群计数方法
CN115731392B (zh) 一种基于改进YOLOv4网络的目标检测方法
CN116704408A (zh) 一种基于双交叉注意力自编码器的视频异常检测方法
CN112989952B (zh) 一种基于遮罩引导的人群密度估计方法及装置
CN115880471A (zh) 一种异步事件流的稠密光流估计方法及装置
CN119274125B (zh) 一种基于尺度注意力的人群计数方法
CN114519844A (zh) 一种基于视觉转化器的人群密度估计方法及系统
CN116935494B (zh) 一种基于轻量化网络模型的多人坐姿识别方法
CN118736364A (zh) 一种稀疏注意力和多尺度特征融合的红外弱小目标检测方法
Wang et al. Research on the multi-scale network crowd density estimation algorithm based on the attention mechanism
CN119027647A (zh) 一种基于变分编码的小样本目标检测方法
CN119181111A (zh) 一种用于快速人体穴位识别的acu-yolo深度学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant