CN116935316A

CN116935316A - 联合高分辨率CNN和轻量级Transformer的密集人群计数方法

Info

Publication number: CN116935316A
Application number: CN202310922245.9A
Authority: CN
Inventors: 周欣; 王明涛; 陈媛媛
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2023-07-26
Filing date: 2023-07-26
Publication date: 2023-10-24
Anticipated expiration: 2043-07-26
Also published as: CN116935316B

Abstract

本发明提供联合高分辨率CNN和轻量级Transformer的密集人群计数方法，包括以下步骤：利用固定高斯核法计算人群图像中人头的尺度大小，生成用于网络训练的监督密度图；构建基于高分辨率特征提取网络HRNet和轻量级Transformer的人群计数网络；对人群数据集进行数据增广，利用训练集对构建的计数网络进行多密度图训练，筛选保存最优模型；利用测试集对得到的最优网络模型进行测试，并通过对网络预测的密度图像素值进行累加求和，得到图片人群最终的计数结果。本发明不仅能够保持人群特征高分辨率输出，而且可以融合多尺度信息，提升了人群计数的鲁棒性；显著提升了模型的收敛速度和泛化性能。

Description

联合高分辨率CNN和轻量级Transformer的密集人群计数方法

技术领域

本发明涉及人群计数技术领域，具体涉及一种联合高分辨率CNN和轻量级Transformer的密集人群计数方法。

背景技术

人群计数旨在通过计算机视觉技术获取图像中人群数量。这项技术具有重要的学术研究价值和应用价值，在公共安防、智能监控和疫情防控等领域被广泛应用。还可以扩展细胞镜检测、车辆计数等相关领域。目前，很多基于深度学习的人群计数方法被不断提出。特别是基于深度神经网络的密度估计法。这种方法利用经过精心构建的网络模型对密度图进行回归，然后通过对预测密度图积分求和来得到总人数。

(一)分析关于人群计数的专利技术

申请号为201911161705.0的中国发明专利申请《人群密度估计方法》根据预设阈值使用AlexNet网络将人群图片数据集分为密集与稀疏两类，然后针对这两类图像密度特征的不同将其分别送入对应的特征提取网络，从而获取更好有效的人群密度估计特征。但该方法需分别训练AlexNet分类网络、密集数据特征提取网络和稀疏数据特征提取网络，导致计算过程繁琐复杂，且图片数据的分类选择错误将会严重影响计数准确度。

申请号为202010170236.5的中国发明专利申请《基于级联高分辨卷积神经网络的密集人群计数算法》利用级联式高分辨卷积神经网络CHRNet提取密集人群图像高分辨率特征，并采用分区域损失加权的方式，通过使用MSE和计数误差两种损失函数进行网络参数优化。其不足之处在于该算法人为设定不同区域及两种不同损失之间的权重，而密度图的优化质量对权重的设置较为敏感，计数结果会因权重设置不当造成较大的偏差。

申请号为202211557637.1的中国发明专利申请《一种基于多尺度融合卷积网络的人群计数方法及系统》，提出在VGG16初级特征提取网络后使用多尺度融合卷积网络的来有效提取多尺度信息。但该方法的主干网络采用单列结构，难以实现多层次特征的提取和融合，且多尺度融合卷积网络的融合方式较为简单，不利于对高复杂度的图像场景进行有效的建模。

(二)分析基于深度神经网络的人群计数研究

Li等人提出了一种名为CSRNet的基于VGG-16架构的计数网络(《Proceedingsofthe IEEE Conference on ComputerVision and Pattern Recognition》会议纪要，2018年第1091-1100页)。该网络通过在后端网络中增加空洞卷积层来拓展感知范围和特征提取能力。然而，CSRNet网络中存在大量池化操作、步长大于1的卷积层，生成的密度图大小仅为原始输入大小的1/8，可能无法包含足够多的小尺度目标特征信息，导致其在一些复杂场景下的性能受到限制。对于密集人群或小尺度目标，低分辨率特征不利于精确预测。

Gao等人在提出的计数网络SCAR中引入了空间和通道注意力机制(《Neurocomputing》期刊，2019年第363卷第1-8页)。空间注意力机制用于编码整张图像的像素级上下文信息，以提高模型在像素级上预测密度图的精度；通道注意力机制则用于提取不同的特征信息，使模型对噪声背景更加稳健。该模型中使用的这两种注意力机制可以更好地关注局部细节，但难以捕获全局特征来进行全局上下文建模，从而影响模型对于整个场景的理解。

Liang等人提出了基于Vision Transformer(ViT)的人群计数网络TransCrowd(《Science China

Information Sciences》期刊，2022年第6期第104-120页)，成功地将Transformer引入到人群计数领域。该模型采用ViT作为主干网络来进行全局上下文建模，并于弱监督的形式取得较为理想的计数结果。然而，基于纯ViT的计数模型往往计算成本较高，导致模型难以训练和优化，更不利于模型在移动端的部署应用。

发明内容

本发明旨在克服前述的现有技术中存在的多尺度特征融合不够紧密、特征分辨率较低、网络难以训练等难题，提供一种能保持人群特征高分辨率并提升人群预测精度的方法。

本发明采用改进的高分辨率特征提取网络HRNet作为前端网络，将其特征图输出大小维持在原始输入大小的1/4，产生丰富的高分辨率表示，有助于保持感受野信息的丰富性，进一步提高提高预测密度图的准确度；采用轻量的ViT Encoder来建模复杂的全局上下文，并使用多尺度特征增强加来加强特征提取，有效缓解多尺度变化、透视效应等因素对计数结果的影响。

为了达到上述目的，本发明提供一种联合高分辨率CNN和轻量级Transformer的密集人群计数方法，包括以下步骤：

步骤S1：利用固定高斯核法计算人群图像中人头的尺度大小，生成用于网络训练的监督密度图；

步骤S2：构建基于高分辨率特征提取网络HRNet和轻量级Transformer的人群计数网络；

步骤S3：对人群数据集进行数据增广，利用训练集对步骤S2中构建的计数网络进行多密度图训练，筛选保存最优模型；

步骤S4:利用测试集对步骤S3得到的最优网络模型进行测试，并通过对网络预测的密度图像素值进行累加求和，得到图片人群最终的计数结果。

进一步地，步骤S2的具体过程如下：

步骤S2-1：利用预训练的高分辨率特征提取网络HRNet下的特征提取模块Stage1-4提取输入图像的初级特征，得到四个分辨率不同、通道数不同的初级特征图。进一步利用核大小为1×1的卷积层分别对分辨率最高的三个初级特征图作特征提取，得到三个不同分辨率大小的初级密度图density map1、density map2和density map3，这三个初级密度图的通道数为1，垂直高度和水平宽度分别为原始输入尺度的1/4、1/8和1/16；

步骤S2-2：构建多注意力模块，基于四个不同分辨率的初级特征图，分别执行多种注意力操作，并按通道连接方式融合形成新的注意力特征图；

步骤S2-3：构建并行的多尺度增强模块和ViT Encoder特征提取模块，利用并行连接的ViT编码器和多尺度增强模块对融合后的注意力特征图进行全局上下文建模及多尺度特征增强；

步骤S2-4：构建解码器模块，将特征增强及全局上下文建模后的特征图送入解码器模块进行解码，以将特征图尺寸恢复到原始输入大小，预测得到最终的预测密度图density map4。

进一步地，步骤S2-2的具体过程如下：

步骤S2-2-1：将四个初级特征图送入自注意力和通道注意力子模块，每一个初级特征图分别产生自注意力特征子图和通道注意力特征子图；

步骤S2-2-2：使用一个动态权重生成机制(由卷积层和sigmoid激活函数组成的网络)为这两种注意力特征子图计算权重；

步骤S2-2-3：将输出的这两种权重相加得到总权重，权重的和被用于对这两种注意力权重输出进行归一化；

步骤S2-2-4：使用预先生成的自注意力特征子图和通道注意力特征子图分别与它们的归一化后的权重相乘，随后相加形成加权后的注意力特征图；

步骤S2-2-5：以最大分辨率的注意力特征图为基准，采用近邻插值方法对其它三分支输出的注意力特征图进行上采样，并按通道连接的方式融合成包含480通道的注意力特征图。

进一步地，步骤S2-3的具体过程：

步骤S2-3-1：将步骤S2-2得到的注意力特征图分别输入ViT编码器和多尺度增强模块中的空洞卷积子模块，输出两个中间特征图；

步骤S2-3-2：使用卷积层将ViT编码器输出的特征图的通道和空洞卷积模块输出的特征图的通道调为一致，以元素加法的方式将两种通道相同的中间特征图相加；

步骤S2-3-3：将步骤S2-3-2融合后的特征图送入多尺度增强模块中的可变形卷积子模块，得到进一步增强后的特征图；

步骤S2-3-4：将ViT编码器输出并经通道转换后的特征图与步骤S2-3-3得到的增强后的特征图以元素相加的方式相加，得到进一步融合后的特征图。

进一步地，步骤S3对人群数据集进行数据增广，并进行多密度图监督训练，具体过程如下：

步骤S3-1：为了增强训练数据，使用随机裁剪和水平翻转，其中，裁剪尺寸为256×256，翻转概率为0.5；

步骤S3-2：通过计算最终预测的密度图(density map4)和预测的初级密度图(density map1、density map2、density map3)与它们的GT密度图之间的加权损失之和来进行多密度图监督训练，以增强中间特征图的鲁棒性，进而促进最终密度图回归的准确性；

步骤S3-3:筛选保存最优模型。

本发明与现有技术相比，其优点在于：(1)本发明以改进的高分辨率特征提取网络HRNet为主干网络，不仅能够保持人群特征高分辨率输出，而且可以融合多尺度信息，从而使得预测的特征图在空间上更加精确，特别是对于密集人群或小尺度目标。(2)本发明使用了一种轻量级的ViT Encoder来建模复杂的全局上下文，并联合多种注意力操作(自注意力、通道注意力)来平衡特征图的全局信息和局部细节，帮助模型更好地区分不同的人群区域和复杂背景，减轻了遮挡、背景和透视等问题的干扰，进一步提升了人群计数的鲁棒性。(3)本发明在CNN分支中构建了结构简单且高效的多尺度特征增强模块，有效地弥补了主干网络在采样操作过程中可能丢失的特征细节，并在一定程度上解决了多尺度问题导致的计数精度不高的问题。(4)本发明采用多密度图监督训练策略进行网络参数优化，充分汇集来自网络不同层、不同分辨率的特征信息进行特征交互。利用不同分辨率密度图之间的相关性，从而更好地学习场景中人群分布状况，显著提升了模型的收敛速度和泛化性能。

附图说明

图1为本方面的流程示意图；

图2为HRNet Stage 1-4模块流程图；

图3为多注意力模块(MAM)流程图；

图4为多尺度增强模块流程图。

具体实施方式

如图1所示，本实施例提出的一种联合高分辨率CNN和轻量级Transformer的密集人群计数方法，包括如下步骤：

步骤S1：利用固定高斯核法计算机人群图像中人头的尺度大小，生成用于网络训练的监督密度图，即将核大小为15的高斯核与图像中人头标注坐标进行卷积。通过这样的处理，每个人头的高斯相应区域大小近似等于人头实际大小，单个人头区域的像素值累加和等于1；

步骤S3：对人群计数数据集进行数据增广，利用训练集对步骤S2中构建的计数网络进行多密度图监督训练，筛选保持最优模型；

在本实施例中，步骤S2的具体过程如下：

步骤S2-1：利用预训练的高分辨率特征提取网络HRNet下的特征提取模块Stage1-4提取输入图像(H，W，3)的初级特征，得到四个分辨率递减、通道数递增的初级特征图。这四个初级特征图的尺度大小分别为(H/4，W/4，32)、(H/8，W/8，64)、(H/16，W/16，128)和(H/32，W/32，256)。其中，H、W分别为输入图像的垂直高度和水平宽度，后面的数值3、32、64、128、256表示通道数。特征提取模块Stage1-4的操作流程如图2所示。进一步利用核大小为1×1的卷积层分别对分辨率最高的三个初级特征图作特征提取，得到三个不同分辨率大小的初级密度图density map1、density map2和density map3。如图1虚线部分所示，这三个初级密度图的通道数为1，垂直高度和水平宽度分别为原始输入尺度的1/4、1/8和1/16；

步骤S2-2：构建多注意力模块，基于四个不同分辨率的初级特征图，分别执行多种注意力操作，并按通道连接方式融合形成新的注意力特征图，操作过程如图3所示；

步骤S2-4：构建解码器模块，将特征增强及全局上下文建模后的特征图送入解码器模块进行解码，以将特征图尺寸恢复到原始输入大小，得到最终的预测密度图densitymap4(H，W，1)。

在本实施例中，步骤S2-2的具体过程如下：

步骤S2-2-1：将四个初级特征图送入自注意力和通道注意力子模块，每一个初级特征图F_a分别产生自注意力特征子图F_s和通道注意力特征子图F_c；

步骤S2-2-2：使用一个动态权重生成网络为这两种注意力特征子图计算权重M₁、M₂。动态权重生成网络由一层核大小为3×3的普通卷积层和一个sigmoid激活函数组成；

步骤S2-2-3：将输出的这两种权重相加得到总权重M₃，权重的和被用于对这两种注意力权重输出进行归一化；

步骤S2-2-4：使用预先生成的自注意力特征子图F_s和通道注意力特征子图F_c分别与它们的归一化后的权重相乘，得到特征图F'_s＝M₁/M₃☉F_s，F'_c＝M₂/M₃☉F_c，其中☉表示元素乘法操作。随后相加形成加权后的注意力特征图F_Y＝F'_s+F'_c；

在本实施例中，步骤S2-3的具体过程：

步骤S2-3-1：将步骤S2-2得到的注意力特征图分别输入ViT Encoder和多尺度增强模块中的空洞卷积子模块ACM，输出两个中间特征图。如图4所示，空洞卷积子模块ACM由三个并行分支构成，分别包含空洞率为1、2和4的普通卷积层。目的是为了进一步扩大感受野和融合不同尺度的特征；

步骤S2-3-3：将步骤S2-3-2融合后的特征图送入多尺度增强模块中的可变形卷积子模块DCM，得到进一步增强后的特征图。在这个子模块中，参数设置类似于ACM模块，采用了一个三分支的可变形卷积组设计。这三个子分支并行处理输入特征图，使得模型能够在不同的特征层面上捕捉更丰富的几何形状和结构信息。另外，在每个分支的最后一层可变形卷积层之后进行通道注意力操作来提高计数准确率。具体地，DCM子模块以特征F_a作为输入，依次通过三组不同尺度的可变形卷积层，捕获得到特征然后，/>被送入AFS网络，生成注意力权重/>其中，AFS由一个平均池化、一个全连接层和一个Sigmoid激活函数组成。紧接着，在预先生成的/>和权重/>之间进行乘法运算，得到特征其中☉表示元素乘法操作。随后聚合成多尺度特征/>其中，/>表示通道拼接操作；

在本实施例中，步骤S3对人群计数数据中进行数据增广，并进行多密度图监督训练，具体过程如下：

步骤S3-2：通过计算最终预测的密度图(density map4)和预测的初级密度图(density map1、density map2、density map3)与它们的GT密度图之间的加权损失之和来进行多密度图监督训练，以增强中间特征图的鲁棒性，进而促进最终密度回归的准确性。权重分别设置为0.3、0.2、0.15和0.1；

步骤S3-3:筛选保存最优模型。以训练中最低的平均绝对误差MAE为依据，保存效果最好的模型。

Claims

1.联合高分辨率CNN和轻量级Transformer的密集人群计数方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的联合高分辨率CNN和轻量级Transformer的密集人群计数方法，其特征在于，步骤S2的具体过程如下：

步骤S2-1：利用预训练的高分辨率特征提取网络HRNet下的特征提取模块Stage1-4提取输入图像的初级特征，得到四个分辨率不同、通道数不同的初级特征图；利用核大小为1×1的卷积层分别对分辨率最高的三个初级特征图作特征提取，得到三个不同分辨率大小的初级密度图densitymap1、densitymap2和densitymap3，这三个初级密度图的通道数为1，垂直高度和水平宽度分别为原始输入尺度的1/4、1/8和1/16；

步骤S2-3：构建并行的多尺度增强模块和ViTEncoder特征提取模块，利用并行连接的ViT编码器和多尺度增强模块对融合后的注意力特征图进行全局上下文建模及多尺度特征增强；

步骤S2-4：构建解码器模块，将特征增强及全局上下文建模后的特征图送入解码器模块进行解码，以将特征图尺寸恢复到原始输入大小，预测得到最终的预测密度图densitymap4。

3.根据权利要求2所述的联合高分辨率CNN和轻量级Transformer的密集人群计数方法，其特征在于，步骤S2-2的具体过程如下：

步骤S2-2-2：使用一个动态权重生成机制为这两种注意力特征子图计算权重；

4.根据权利要求3所述的联合高分辨率CNN和轻量级Transformer的密集人群计数方法，其特征在于，步骤S2-3的具体过程：

步骤S2-3-1：将步骤S2-2得到的注意力特征图分别输入ViT编码器和多尺度增强模块中的空洞卷积子模块,输出两个中间特征图；

5.根据权利要求4所述的联合高分辨率CNN和轻量级Transformer的密集人群计数方法，其特征在于，步骤S3对人群数据集进行数据增广，并进行多密度图监督训练，具体过程如下：

步骤S3-2：通过计算最终预测的密度图densitymap4和预测的初级密度图densitymap1、densitymap2、densitymap3与它们的GT密度图之间的加权损失之和来进行多密度图监督训练，以增强中间特征图的鲁棒性，进而促进最终密度图回归的准确性；

步骤S3-3:筛选保存最优模型。