基于残差神经网络改进的密集人群计数方法

史劲霖; 周良辰; 闾国年; 林冰仙

doi:10.12082/dqxxkx.2021.200604

地球信息科学学报 >

2021 , Vol. 23 >Issue 9: 1537 - 1547

DOI: https://doi.org/10.12082/dqxxkx.2021.200604

基于残差神经网络改进的密集人群计数方法

史劲霖 ^,¹ ,
周良辰 ¹^,²^,³ ,
闾国年 ¹^,²^,³ ,
林冰仙 ^,¹^,²^,³^,^*

展开

1. 南京师范大学地理科学学院,南京 210023
2. 江苏省地理信息资源开发与利用协同创新中心,南京 210023
3. 南京师范大学虚拟地理环境教育部重点实验室,南京 210023

*林冰仙（1984— ）,女,江苏南通人,博士,副教授。从事虚拟地理环境研究。E-mail: lbx1984@hotmail.com

史劲霖（1994— ）,男,江苏常州人,硕士。从事深度学习算法、虚拟地理环境构建研究。E-mail: sjl_njnu@163.com

收稿日期: 2020-10-15

网络出版日期: 2021-11-25

基金资助

国家重点研发计划项目子课题(2017YFB0503503)

版权

收起

Improved Dense Crowd Counting Method based on Residual Neural Network

SHI Jinlin ^,¹ ,
ZHOU Liangchen ¹^,²^,³ ,
LV Guonian ¹^,²^,³ ,
LIN Bingxian ^,¹^,²^,³^,^*

Expand

1. School of Geography Science, Nanjing Normal University, Nanjing 210023, China
2. Jiangsu Center for Collaborative Innovation in Geographical Information Resource Development andApplication, Nanjing 210023, China
3. Key Laboratory of Virtual Geographic Environment, Nanjing Normal University, Ministry of Education, Nanjing 210023, China

*LIN Bingxian, E-mail: lbx1984@hotmail.com

Received date: 2020-10-15

Online published: 2021-11-25

Supported by

National Key Research and Development Program of China(2017YFB0503503)

Copyright

Fold

摘要

为避免密集人群踩踏事件发生,从监控图像中准确获取密集人群人数信息非常重要。针对密集人群计数难度大、人群目标小、场景尺度变化大等特点,本文提出一种新型神经网络结构VGG-ResNeXt。本网络使用VGG-16的前10层作粗粒度特征提取器,使用改进的残差神经网络作为细粒度特征提取器。利用改进的残差神经网络“多通道,共激活”的特点,使得单列式人群计数神经网络获得了多列式人群计数网络的优点（即从小目标、多尺度的密集人群图像中提取更多人群特征）,同时避免了多列式人群计数网络训练难度大、结构冗余等缺点。实验结果表明本模型在UCF-CC-50数据集、ShangHaiTech B数据集和UCF-QNRF数据集中取得了最高精度,MAE指标分别优于其他同期模型7.5%、18.8%和2.4%,证明了本模型的在计数精度方面的有效性。本研究成果可以有效帮助城市管理,有效缓解公安疏导压力,保障人民生命财产安全。

关键词： 图像; 密集人群; 人群计数; 特征提取; 神经网络; 单列式神经网络; 改进残差结构

本文引用格式

史劲霖 , 周良辰 , 闾国年 , 林冰仙 . 基于残差神经网络改进的密集人群计数方法[J]. 地球信息科学学报, 2021 , 23(9) : 1537 -1547 . DOI: 10.12082/dqxxkx.2021.200604

Abstract

In order to avoid crowd trampling, it is very important to accurately obtain information on the number of crowds from surveillance images. Early crowd counting studies used a feature engineering approach, in which human-designed feature extraction algorithms were used to obtain features that represented the number of people to be counted. However, the counting accuracy of such methods is not sufficient to meet the practical requirements when facing heavily occluded counting scenes with large changes in scene scale. In recent years, with the development of neural network, breakthroughs have been made in image classifications, object detections, and other fields. Neural network methods have also advanced the accuracy and robustness of dense crowd counting. In view of the difficulty of counting dense crowds, small crowd targets, and large changes in scene scale, this paper proposes a new neural network structure named: VGG-ResNeXt. The features extracted by VGG-16 are used as general-purpose visual description features. ResNet has more hidden layers, more activation functions and has more powerful feature extraction capabilities to extract more features from crowd images. Improved residual structure ResNeXt expands on the base of ResNet to further enhance feature extraction capabilities while maintaining the same computing power requirements and number of parameters. Therefore, in this paper, the first 10 layers of VGG-16 are used as the coarse-grained feature extractor, and the improved residual neural network ResNeXt is used as the fine-grained feature extractor. With the improved residual neural network feature of "multi-channel, co-activation", the single-column crowd counting neural network obtains the advantages of the multicolumn crowd counting network (i.e., extracting more features from dense crowd images with small targets and multiple scales), while avoiding the disadvantages of the multicolumn crowd counting network, such as the difficulty of training and structural redundancy. The experimental results show that our model achieves the highest accuracy in the UCF-CC-50 dataset with a very large number of people per image, the ShangHaiTech PartB dataset with a sparse crowd, and the UCF-QNRF dataset with the largest number of images currently included. Our model outperforms other models in the same period by 7.5%, 18.8%, and 2.4%, respectively, in MAE in the above three datasets, demonstrating the effectiveness of the model in improving counting accuracy in dense crowds. The results of this research can effectively help city management, relieve the pressure on public security, and protect people's lives and property.

Key words： images; dense crowd; crowd counting; feature extraction; neural networks; single column-based CNN; improved ResNet

1 引言

随着现代化和城市化的不断推进,城市人口不断上涨。为防止类似上海外滩踩踏事件的再次发生,学者们对密集人群展开一系列研究。其中密集人群计数方法可以在监控视频等图像画面中获取密集人群人数信息,有效的辅助管理者进行人群及时疏散,保护行人生命财产安全,备受研究者重视。

在密集人群计数方法研究早期阶段采用特征工程方法。该类方法认为通过人为设计特征提取算法,可以获得代表人数的特征并进行计数。Wojek^[1]提出滑动窗口检测识别为代表的识别的方法：通过不同识别方法,如小波^[2]、梯度方向直方图^[3]、组合贝叶斯算法^[4]、头肩检测算法^[5]等,进行识别行人并计数。虽然在计数精度上有所提升,但是基于识别的方法在人群遮挡严重的情况中无法提取到预先设置的识别特征,导致计数精度严重下降。为了解决遮挡的问题,学者们提出基于回归的方法：从图像中提取计数特征后建立特征和人数之间的映射关系进行计数。尝试使用前景特征、边缘特征、纹理和图像梯度信息^[6,7,8,9]进行回归从而求得人数信息。虽然这些方法在一定程度上解决了严重遮挡的问题,但是预先设置的特定特征提取算法和映射关系在面对人群密度、光照环境、遮挡程度等变化时鲁棒性差,计数精度难以满足实际应用。

近年来随着神经网络技术的发展,凭借其强大的特征提取能力,在图像处理、信息挖掘、人工智能等领域取得巨大进展。根据密集人群计数神经网络结构,基于神经网络的密集人群计数方法分为单列式神经网络（Single Column Based CNN,S-CNN）和多列式神经网络（Multi-column Based CNN, M-CNN）。单列式神经网络：密集人群计数网络仅由单个单列式神经网络组成。自从Wang^[9]、Fu^[10]提出使用简单网络进行密集人群计数,不断有学者在网络结构^{[11,12,13,14]}、训练方法^[15]、融合其他信息^[16]等方面对单列式神经网络进行创新。相较于特征工程的方法,单列式神经网络计数方法精度有很大的提升,此外模型结构紧凑及训练与使用方面相比于多列式网络更方便。神经网络方法与特征工程方法同样需要面对严重遮挡、杂乱无章、尺度变化大、光照不均等挑战^[17]。有些学者认为单个单列式神经网络无法一次性应对上述所有问题^[18],提出使用多列式神经网络方法。使用不同列的神经网络处理密集人群复杂特征场景中的不同方面,最后综合结果进行输出^[19]。虽然多列式神经网络可比单列式提取出更多的人群特征信息,但是存在训练难度大、人为定义结构冗余和大量参数用于将图像分类至各列神经网络等缺陷^[12]。

本文针对单列式人群计数神经网络对多尺度人群图像特征提取能力不足,多列式计数神经网络存在结构冗余、训练/应用难度大等问题,提出在单列式神经网络中使用ResNeXt残差结构强化特征提取能力,进而获得更高的计数精度。利用该改进残差结构拥有更多隐藏层和“多通道,共激活”的特点,使得单列式网络获得了多列式神经网络多通道特征提取能力,同时避免了多列式结构冗余、训练/使用难度大等问题。

2 研究基础

2.1 ResNet

随着神经网络的发展,研究者们发现通过堆砌更多的神经网络模块使得神经网络变得更“深”,可以获得更多的特征信息,进而获得更好的精度表现^[20,21]。这一结论在ImageNet^[22]数据集分类比赛的结果中得到证实。但是根据He^[23]发现随着神经网络结构深度的增加出现了精度下降（Accuracy Degradation）和梯度消失（Gradient Vanishing）现象。其中精度下降的原因不是因为更深的模型对数据集过拟合,而是在一个合适深度的模型中盲目的加入更多的层数反而会导致误差更大。梯度消失的原因是数据分布不均匀,而在链式求导过程中累积相乘操作。如果值分布始终在（0,1）范围内数次相乘后梯度则会消失。为解决上述问题He提出了ResNet残差神经网络。该结构与其他网络结构最显著的不同点在于：在主径的基础上存在一个“捷径”（shortcut）：将上一层的输入通过卷积核为 1×1的卷积层调整维度和大小后,与主径处理的结果进行相加。这使得数据可以跨层流动,有效解决了精度随着深度的增加反而下降的问题。由于残差结构的加入,恒等部分导数值始终为1,多次重复相乘不会出现梯度消失的情况。残差神经网络解决精度下降和梯度消失问题,推动了神经网络结构向更深的方向发展。更深的网络拥有更多的隐藏层,更多次函数激活,这使得网络获得了更强大的特征提取和泛化能力。在密集人群计数任务中,由于遮挡、衣着、光照等因素影响,不同人群图像中的计数特征差异大,需要计数神经网络拥有更强的特征提取和泛化能力,因此本文在单列式计数神经网络中增加拥有更多隐藏层的残差神经网络来强化特征提取和泛化能力。

2.2 ResNeXt

在He的研究基础上,许多研究者提出了改进方案^[24,25,26]。本文采用了ResNext^[27]结构,该结构对ResNet的基本单元结构进行基数扩充。对ResNet进行基数的扩充主要优点如下：① 基数是神经网络继深度和宽度后另外一个度量维度。实验证明在神经网络随着深度和宽度的增加,精度提升不明显时,基数的增加更有效的帮助模型获得更高精度。② 虽然采用“分开-转换-合并”思想设计的多通道结构,与Inception系列模型^[28]不同的是ResNeXt无需为每个新数据集/任务调整结构,它们的拓扑结构相同。这使得该结构在拥有更强大表现能力的同时算力需求和参数数量保持不变。在ImageNet-5K数据集和COCO检测数据集中ResNeXt相比于同样深度的ResNet均取得了更高的精度结果^[27]。

多列式密集人群计数神经网络设计思想与Inception系列类似：对不同尺度的人群图像设计不同的结构进行处理,但预先设计的多列结构在面对新数据时适应性不强^[27]。因此本文使用ResNeXt结构使单列式神经网络结构获得了多通道结构“分开-转换-合并”方法带来的特征表达能力与精度的提升,同时保持了单列式人群神经网络在模型复杂度、算力需求方面的优势。ResNeXt网络结构的高鲁棒性可以有效的帮助计数网络在复杂计数环境中取得更高的计数精度。

3 研究方法

根据2.1和2.2节中的讨论,本文提出一种新型密集人群计数神经网络。由于使用VGG-16和ResNeXt分别作为粗/细粒度特征提取器,命名为VGG-ResNeXt。网络总体结构如图1所示。

显示原图|下载原图ZIP|生成PPT

图1 VGG-ResNeXt 网络结构

Fig. 1 The structure of VGG-ResNeXt

本网络主要由二部分组成：用于对密集人群图像进行特征提取的Encoder部分和用于特征解码的Decoder部分。

3.1 Encoder部分

虽然VGG-16^[20]作为目标分类网络,其学习到的特征被当成通用的视觉描述特征在图像超分^[29]、显著性判断^[30]等方面有广泛的引用。VGG-16由于其强大的迁移学习能力以及灵活的结构被在众多密集人群计数神经网络结构使用^[31,32,33]。因此本文同样使用VGG-16的前10层作为人群特征的粗粒度提取器。该部分命名为Front。人群图像经过Front部分特征提取可视化效果如图2所示,其中深蓝色部分为该区域没有检测到特征信息,而颜色越浅并且越红,表明越来越多的特征被检测到。

显示原图|下载原图ZIP|生成PPT

图2 Front部分特征提取结果与原图对比

Fig. 2 Comparison of Front feature extraction results with the original image

从图2可以看出,经过Front层的特征提取,模型对图像中面积较大,占像素较多的物体更感兴趣。但是密集人群计数特征由较小且密集的人头部分特征组成。因此在ResLayers部分,本文希望通过残差神经网络强大的特征提取能力,对较小的人头特征进行进一步的提取。

本文通过残差神经网络来强化单列式人群计数神经网络特征提取,通过对比发现使用基数为32的ResNeXt-50的Layer3作为该部分的特征提取器计数精度优于使用ResNet结构,因此本文特征提取器选择ResNeXt作为细粒度特征提取器。具体实验数据对比数据在4.5节中进行展示。经过ResLayers提取部分结果可视化如图3所示。

显示原图|下载原图ZIP|生成PPT

图3 ResLayers提取特征可视化

Fig. 3 Visualization of feature extracted by ResLayers

从特征图中可以明显看出,经过ResLayers,更多的计数特征被提取。

3.2 Decoder部分

DownDim部分使用卷积核大小为1×1的卷积把Encoder部分提取的高维度特征信息从1024维降低至512维。受到Li^[12]的启发,本文的Backend部分采用扩张卷积（Dilated Convolutional Neural）进行特征的解码,其优点在于参数相同的情况下可以让模型获得更大的感受野。使用3×3的卷积核,膨胀值（dilation）为2,padding为2。共有6层,各层通道数为[512, 512, 512, 256, 128, 64]。最后输出可视化结果如图4所示。

显示原图|下载原图ZIP|生成PPT

图4 Decoder可视化结果

Fig. 4 Visualization of Decoder

4 实验与分析

4.1 实验数据来源

许多研究机构开放了他们实验所用的密集人群计数数据集。这些数据集包含了密集人群图像文件和对应的真值标注文件。其中标注真值为人群图像中人头中心位置,以图像坐标对（X,Y）的形式记录。在众多密集人群计数数据集中,本文选择具最有代表性的4个数据集进行实验,与其他研究者进行精度结果对比（表1）。

表1 密集人群计数数据集统计信息

Tab. 1 Statistics of dense crowd counting databases

数据集名称	平均分辨率 /pix	总人数/人	平均每幅人数/人
UCF-CC-50^[34]	2101×2888	63 953	1279
ShangHaiTech-PartA^[35]	589×868	16 270	540
ShangHaiTech-PartB^[35]	768×1024	49 022	122
UCF-QNRF^[36]	2013×2902	1 006 912	838

（1）UCF-CC-50 数据集：由中弗洛里达大学发布的密集人群数据集。该数据集包含了63 974个人,平均每张图像包含高达1279人,其中最高单张图像包含4633人,如图5所示。该数据集用以评估模型在极端密集人群表现。

显示原图|下载原图ZIP|生成PPT

图5 UCF-CC-50数据集示例数据

Fig. 5 Sample data of UCF-CC-50 dataset

（2）ShangHaiTech PartA数据集：由上海科技大学发布的密集人群数据集,共包含1198张图像,共计330 165个人。该数据集分为A、B部分。其中A部分包含482张图像,300张训练图像和182张测试图像,来自于互联网公开数据,如图6所示。

显示原图|下载原图ZIP|生成PPT

图6 ShangHaiTech PartA数据集示例数据

Fig. 6 Sample data of ShangHaiTech dataset PartA

（3）ShangHaiTech PartB数据集：上海科技大学发布的密集人群数据集,B部分包含400张训练图像和316张测试图像。图像来自于上海市的步行街和商圈,平均每张人数为123人,如图7所示。数据集B用来评估模型在较稀疏人群中的计数表现。

显示原图|下载原图ZIP|生成PPT

图7 ShangHaiTech PartB数据集示例数据

Fig. 7 Sample data of ShangHaiTech dataset PartB

（4）UCF-QNRF 数据集：由中弗洛里达大学发布的密集人群数据集。一共包含了1535张人群图像,其中训练集1201张,测试集334张。如图8所示。该数据集平均每张图像包含838人,最多一张包含12 864人。该数据集场景丰富、样本图像较多,因此被用来评估模型在综合场景中的表现。

显示原图|下载原图ZIP|生成PPT

图8 UCF-QNRF数据集示例数据

Fig. 8 Sample data of UCF-QNRF dataset

4.2 标定真值处理

在密集人群计数任务中由于严重遮挡无法完整观察到整个行人,因此使用人头部分特征来代表整个行人。4.1节中介绍的密集人群计数数据集中提供的标定真值记录的是每个人头位置的图像坐标。单个像素坐标点无法代表整个人头部分特征,针对不同的数据集,本文采用以下2种真值处理方法,使得真值尽可能包括人头部分。

（1）固定大小的高斯核模糊：该方法主要是针对人群较为稀疏的情况。以人头位置的像素坐标为中心,使用高斯核模糊将真值范围从单个像素点扩大至小斑块来包含人头区域。具体公式如下：

（1）

M i, j = 1 2 π δ 2 exp - i - n - 1 2 + j - n - 1 2 2 δ 2

在图像坐标系中,真值标定的每个人头中心位置记为（i, j）。根据不同的数据集对标准差

δ

和核大小

n

进行设置。该方法适用于人头大小均匀且较为稀疏、人群分布不均匀的人群数据集。该方法处理后真值可视化如图9所示。

显示原图|下载原图ZIP|生成PPT

图9 固定大小的高斯核模糊真值处理结果

Fig. 9 Result of ground truth processed by Fixed-size Gaussian kernel blur

（2） K邻近动态高斯核模糊：该方法考虑到相机透视的影响,即近处的人头大小大于远处,近处人数小于远处。将模拟真值范围大小与最近的K个标定真值像素点的距离进行关联。更直观一点的解释：如果周围的真值点距离当前点较远,则将当前真值缩放范围扩大,反之则缩小。具体公式如下：

（2）

F x = ∑ i = 1 N G σ i x

（3）

σ i = β d i ¯

式中： N表示真值中总人数;G表示2D高斯函数;

d i ¯

表示当前真值点与K个最邻近真值人头点距离的平均值,该值经过比例因子

β

缩放,作为2D高斯函数中的标准差

σ

。该方法适用于人群较为密集的数据集。该方法处理后真值可视化如图10所示。

显示原图|下载原图ZIP|生成PPT

图10 K邻近动态高斯核模糊真值处理结果

Fig. 10 Result of ground truth processed by K-adjacent dynamic Gaussian kernel blur

4.3 损失函数

与其他密集人群计数研究者一样,本文同样采用MAE和MSE来评价模型精度,公式如下：

（4）

MAE = 1 N ∑ i = 1 N C I i - C ˆ I i

（5）

MSE = 1 N ∑ i = 1 N C I i - C ˆ I i 2

式中：N表示测试图像数量;

C I i

是指该图像中真实的人数;

C ˆ (I i)

是指模型预测出该图像中的人数。

4.4 训练细节

本模型参数初始化策略如下：Front部分VGG16前十层和ResNeXt部分,分别加载在ImageNet中预训练的模型。其余部分的初始化策略如下：卷积层权重部分使用均值为0,标准差为0.01的正态分布初始化。bias部分使用常数0进行赋值。BN层权重部分使用常数1初始化,bias部分使用常数0进行赋值。训练机器系统为Ubuntu16.04.5。训练框架为Pytorch1.1,TorchVision为0.3.0。训练显卡为TeslaV100。受Smith^[37]的启发,在训练时设定较小的学习率（1e-5）进行训练。本文分别采用训练批次大小分别为1、2、4、6、8,选择最高精度的结果进行展示。实验部分对2个网络模型进行精度评估：VGG-ResNet与VGG-ResNeXt,其中VGG-ResNet网络将ResNeXt结构替换为ResNet,目的是为了对比ResNeXt相较于ResNet对于密集人群计数的有效性。

经过4.2节处理的真值范围在（0, 1）且存在部分人群较为稀疏、值分布较为分散的情况。由于加载的预训练模型参数和初始学习率较小,训练会产生初始损失值为0的情况,导致无法反向传播。为了获得初始损失值继续训练,对处理后的真值进行放大数倍操作。

4.5 结果与评估

（1）UCF-CC-50数据集:该数据集平均每幅图像人数高达1200人,图像数量较少,因此本文采用交叉验证的方式进行精度评估。对该数据集使用K邻近动态高斯核模糊的方法进行真值处理,其中K值设置为3,缩放系数为0.1。训练批次大小为1,结果如下（表2）。

表2 UCF-CC-50数据集中实验结果

Tab. 2 Results in UCF-CC-50 dataset

方法	MAE	MSE
Zhang et al^[38]	467.0	498.5
MCNN^[35]	377.6	509.1
Cascaded-MTL^[39]	322.8	397.9
SwitchingCNN^[32]	318.1	439.2
CP-CNN^[40]	295.8	320.9
CSRNet^[12]	266.1	397.5
SANet^[13]	258.4	334.9
TEDNet^[14]	249.4	354.5
VGG-ResNet	229.6	319.4
LMCNN^[41]	219.2	297.1
VGG-ResNeXt	202.6	297.9

从结果可以看出本模型在人群极度密集情况下的计数精度MAE高于同期多列式计数神经网络^[41]16.6;高于同期单列式计数神经网络^[14]46.8。证明本模型在高密度人群计数精度提升方面的有效性。

（2）ShangHaiTechA数据集：本文在该数据集中使用K邻近动态高斯核模糊,对处理后的真值扩大100倍,训练批次大小为8,结果如表3所示。

表3 ShangHaiTechA数据集实验结果

Tab. 3 Results in ShangHaiTechA dataset

方法	MAE	MSE
Zhang等^[38]	181.8	277.7
MCNN^[35]	110.2	173.2
Cascaded-MTL^[39]	101.3	152.4
Switching-CNN^[32]	90.4	135.0
VGG-ResNet	78.9	138.4
CP-CNN^[40]	73.6	106.4
VGG-ResNeXt	72.5	106.7
LMCNN^[41]	69.3	106.4

由于该数据集人群图像尺度、人数和视角变化大,本模型在精度方面仅次于增加了全局特征感知结构的多列式模型LMCNN^[41]。证明本模型强化了单列式神经网络面对尺度变化大的图像时的特征提取能力。

（3）ShangHaiTechB数据集：由于该数据集中的人群较为稀疏,因此使用固定大小的高斯核模糊。核大小设置为15,标准差设置为4。与ShangHaiTechPartA类似,将处理后的真值放大1000倍。训练的批次大小为6,实验结果如下（表4）。

表4 ShangHaiTechB数据集实验结果

Tab. 4 Results in ShangHaiTechB dataset

方法	MAE	MSE
ACSCP^[42]	17.2	27.4
SaCNN^[43]	16.2	25.8
IG-CNN^[11]	13.6	21.1
L2R^[44]	13.7	21.4
DRSAN^[45]	11.1	18.2
LMCNN^[41]	11.1	14.4
CSRNet^[12]	10.6	16
VGG-ResNet	9.1	14.8
VGG-ResNeXt	8.6	14.2

结果表明,在人数较少的数据集中同样取得了更高的精度表现,比同期单列式计数神经网络^[12]精度提升2;比同期多列式计数神经网络^[41]精度提升2.5。

（4）UCF-QNRF数据集：该数据集的人群密度与UCF-CC-50类似,使用K邻近动态高斯核模糊,K值设置为3,缩放系数为0.1。对K邻近高斯模糊后的真值扩大1000倍。训练的批次大小为10。

实验结果表明（表5）,本模型在图像数量最多的综合性密集人群计数数据集中取得了最高精度。证明本模型在综合环境中计数精度高于其他密集人群计数神经网络。

表5 UCF-QNRF数据集实验结果

Tab. 5 Results in UCF-QNRF dataset

方法	MAE	MSE
Idrees^[35]	315.0	508.0
Cascaded-MTL^[39]	252.0	514.0
SwitchingCNN^[32]	228.0	445.0
CL^[36]	132.0	191.0
HA-CCN^[46]	118.1	180.4
TEDNet^[14]	113.0	188.0
CAN^[16]	107.0	183.0
VGG-ResNet	106.7	173.6
VGG-ResNeXt	104.4	178.9

由于本模型侧重于密集人群计数精度的提升,为强化特征提取加入ResNeXt结构。因此Encoder部分将特征图缩小至原图的1/16,在后续上采样过程中难以生成高质量的特征图,本模型生成的人群分布密度图结果图11所示。

显示原图|下载原图ZIP|生成PPT

图11 UCF-CC-50数据集实验结果可视化

Fig. 11 Experimental result of UCF-CC-50 dataset

在VGG-ResNet与VGG-ResNeXt结构的对比中,ResNeXt在计数精度和鲁棒性方面优于ResNet结构,证明了本研究利用“多通道,共激活”提升单列式神经网络的特征提取能力的有效性。

5 结论

本文针对单列式人群计数神经网络特征提取能力和鲁棒性弱于多列式人群计数神经网络,多列式人群计数神经网络结构冗余、难以训练和使用的情况,提出新型密集人群计数神经网络VGG-ResNeXt。VGG-16前10层提取粗粒度特征后,使用“多通道,共激活”的改进残差结构ResNeXt进行细粒度特征提取,强化了单列式人群计数神经网络对尺度变化较大人群图像的特征提取能力,避免了多列式神经网络参数庞大、结构复杂,难以训练和使用等缺点。在密集人群计数数据集中实验表明,本网络在人群极其密集数据集UCF-CC-50、稀疏人群数据集ShangHaiTech PartB和综合场景数据集UCF-QNRF中取得最优精度,其中MAE指标相较于同期模型分别降低7.5%、18.8%和2.4%。证明了本模型在多尺度密集人群特征提取和计数精度提升方面的有效性。改进残差神经网络更多的池化操作使得特征图尺寸过小导致人群分布密度图生成质量较差。人群密度分布图可以更好展示密集人群具体分布情况,更有效的辅助城市管理。因此本文后续研究重点为提升密集人群计数精度的同时提升人群分布密度图生成质量。

参考文献

原文顺序 | 文献年度倒序 | 文中引用次数倒序

[1]	Dollár P, Wojek C, Schiele B, et al. Pedestrian detection: An evaluation of the state of the art[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(4):743-761. DOI PMID

[2]	Viola P, Jones M J, Snow D. Detecting pedestrians using patterns of motion and appearance[J]. International Journal of Computer Vision, 2005, 63(2):153-161. DOI

[3]	Dalal N, Triggs B. Histograms of oriented gradients for human detection[J]. Proceedings-2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, CVPR 2005, 2005, I:886-893.

[4]	Wu B, Nevatia R. Detection of multiple, partially occluded humans in a single image by Bayesian combination of edgelet part detectors[C]. Proceedings of the IEEE International Conference on Computer Vision, 2005, I:90-97.

[5]	Lin S F, Chen J U, Chao H X. Estimation of number of people in crowded scenes using perspective transformation[J]. IEEE Transactions on Systems Man and Cybernetics - Part A Systems and Humans, 2001, 31(6):645-654. DOI

[6]	Chan A B, Vasconcelos N. Bayesian Poisson regression for crowd counting[J]. Proceedings of the IEEE International Conference on Computer Vision, 2009:545-551.

[7]	Ryan D, Denman S, Fookes C, et al. Crowd counting using multiple local features [C]//Digital Image Computing: Techniques and Applications. IEEE, 2009:81-88.

[8]	Chen K, Loy C C, Gong S G, et al. Feature mining for localised crowd counting[C]// 2012 British Machine Vision Conference, 2012(21):1-11.

[9]	Wang C, Zhang H, Yang L, et al. Deep people counting in extremely dense crowds [C]//the 23rd ACM international conference. ACM, 2015:1299-1302.

[10]	Fu M, Xu P, Li X, et al. Fast crowd density estimation with convolutional neural networks[J]. Engineering Applications of Artificial Intelligence, 2015, 43(8):81-88. DOI

[11]	Sam D B, Sajjan N N, Babu R V. Divide and grow: capturing huge diversity in crowd images with incrementally growing CNN[EB/OL]. 2018: arXiv: 1807.09993. https://arxiv.org/abs/1807.09993

[12]	Li Y H, Zhang X F, Chen D M. CSRNet: dilated convolutional neural networks for understanding the highly congested scenes[EB/OL]. 2018: arXiv: 1802.10062. https://arxiv.org/abs/1802.10062

[13]	Cao X K, Wang Z P, Zhao Y Y, Scale aggregation network for accurate and efficient crowd counting [C]//2018 European Conference on Computer Vision, 2018:757-773.

[14]	Jiang X, Xiao Z, Zhang B, et al. Crowd counting and density estimation by trellis encoder-decoder networks [C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. IEEE, 2019:6126-6135.

[15]	Skaug C, Ai H, Bai B. End-to-end crowd counting via joint learning local and global count [C]//2016 International Conference on Image Processing (ICIP). IEEE, 2016:1215-1219.

[16]	Liu W Z, Salzmann M Fua P. Context-aware crowd counting[EB/OL]. arXiv preprint arXiv:1811.10452, 2018.

[17]	Sindagi V A, Patel V M. A survey of recent advances in CNN-based single image crowd counting and density estimation[EB/OL]. 2017: arXiv: 1707.01202. https://arxiv.org/abs/1707.01202

[18]	Zhang Y, Zhou D, Chen S, et al. Single image crowd counting via multi-column convolutional neural network [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. 2016: 589-597.

[19]	Onoro R D, Lopez S R J. Towards perspective-free object counting with deep learning [C]//2016 European Conference on Computer Vision.Springer, 2016: 615-629.

[20]	Karen S, Andrew Z. Very deep convolutional networks for large-scale image recognition[EB/OL]. arXiv preprint arXiv:1409.1556, 2014.

[21]	Szegedy C, Liu W, Jia Y Q, et al. Going deeper with convolutions[J]. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2015:1-9.

[22]	Russakovsky O, Deng J, Su H, et al. ImageNet large scale visual recognition challenge[J]. International Journal of Computer Vision, 2015, 115(3):211-252. DOI

[23]	He K M, Zhang X Y, Sun J. Deep residual learning for image recognition [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition.IEEE, 2016:770-778.

[24]	He T, Zhang Z, Zhang H, et al. Bag of tricks for image classification with convolutional neural networks[EB/OL]. arXiv preprint arXiv:1812.01187, 2019.

[25]	He K M, Zhang X Y, Ren S Q, et al. Identity mappings in deep residual networks[C]. arXiv preprint arXiv:1603.05027, 2016.

[26]	Sergey Z, Nikos K. Wide residual networks[EB/OL]. arXiv preprint arXiv:1605.07146, 2016.

[27]	Xie S N, Girshick R, Dollár P, et al. Aggregated residual transformations for deep neural networks[EB/OL]. 2016: arXiv: 1611.05431. https://arxiv.org/abs/1611.05431

[28]	Szegedy C, Vanhoucke V, Ioffe S, et al. Rethinking the inception architecture for computer vision[EB/OL]. 2015: arXiv: 1512.00567. https://arxiv.org/abs/1512.00567

[29]	Wang X, Yu K, Wu S, et al. ESRGAN: Enhanced super-resolution generative adversarial networks[C]. // Computer Vision - ECCV 2018 Workshops, 2019: arXiv preprint arXiv:1809.00219, 2018.

[30]	Kruthiventi S S S, Ayush K, Babu R V. DeepFix: a fully convolutional neural network for predicting human eye fixations[J]. IEEE Transactions on Image Processing, 2017, 26(9):4446-4456. DOI PMID

[31]	Boominathan L, Kruthiventi S S S, Babu R V. CrowdNet: a deep convolutional network for dense crowd counting[EB/OL]. 2016: arXiv: 1608.06197. https://arxiv.org/abs/1608.06197

[32]	Sam D B, Surya S, Babu R V. Switching convolutional neural network for crowd counting[EB/OL]. 2017: arXiv: 1708.00199. https://arxiv.org/abs/1708.00199

[33]	Sindagi V A Patel V M. Generating high-quality crowd density maps using contextual pyramid CNNs[EB/OL]. 2017: arXiv: 1708.00953. https://arxiv.org/abs/1708.00953

[34]	Idrees H, Saleemi I, Seibert C, et al. Multi-source multi-scale counting in extremely dense crowd images [C]//2013 IEEE International Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2013:2547-2554.

[35]	Zhang Y, Zhou D, Chen S, et al. Single-image crowd counting via multi-column convolutional neural network [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2016:589-597.

[36]	Idrees H, Tayyab M, Athrey K, et al. Composition loss for counting, density map estimation and localization in dense crowds [C]//2018 IEEE European Conference on Computer Vision (ECCV). IEEE, 2018:8-14.

[37]	Smith S L, Le Q V. A Bayesian perspective on generalization and stochastic gradient descent[EB/OL]. 2017: arXiv: 1710.06451. https://arxiv.org/abs/1710.06451

[38]	Zhang C, Li H, Wang X, et al. Cross-scene crowd counting via deep convolutional neural networks [C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2015:833-841.

[39]	Sindagi V A, Patel V M. CNN-based cascaded multi-task learning of high-level prior and density estimation for crowd counting[EB/OL]. 2017: arXiv: 1707.09605. https://arxiv.org/abs/1707.09605

[40]	Sindagi V A, Patel V M. Generating high-quality crowd density maps using contextual pyramid CNNs[EB/OL]. 2017: arXiv: 1708.00953. https://arxiv.org/abs/1708.00953

[41]	付倩慧, 李庆奎, 傅景楠, 等. 基于空间维度循环感知网络的密集人群计数模型[J]. 计算机应用, 2020(10-12):1-7. [ Fu Q H, Li Q K, Fu J N, Dense crowd counting model based on spatial dimensional circular perception network[J]. Journal of Computer Applications, 2020(10-12):1-7. ]

[42]	Shen Z, Xu Y, Ni B, et al. Crowd counting via adversarial cross-scale consistency pursuit [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. IEEE, 2018:5245-5254.

[43]	Zhang L, Shi M J, Chen Q B. Crowd counting via scale-adaptive convolutional neural network[EB/OL]. 2017: arXiv: 1711.04433. https://arxiv.org/abs/1711.04433

[44]	Liu X L, van de Weijer J, Bagdanov A D. Leveraging unlabeled data for crowd counting by learning to rank[EB/OL]. 2018: arXiv: 1803.03095. https://arxiv.org/abs/1803.03095

[45]	Liu L, Wang H, Li G, et al. Crowd counting using deep recurrent spatial-aware network [C]//Twenty-Seventh International Joint Conference on Artificial Intelligence. 2018:849-855.

[46]	Sindagi V A, Patel V M. HA-CCN: Hierarchical attention-based crowd counting network[J]. IEEE Transactions on Image Processing, 2019(99):1-1.

Options

文章导航

模态框（Modal）标题

摘要

本文引用格式

Abstract

1 引言

2 研究基础

2.1 ResNet

2.2 ResNeXt

3 研究方法

图1 VGG-ResNeXt 网络结构

3.1 Encoder部分

图2 Front部分特征提取结果与原图对比

图3 ResLayers提取特征可视化

3.2 Decoder部分

图4 Decoder可视化结果

4 实验与分析

4.1 实验数据来源

表1 密集人群计数数据集统计信息

图5 UCF-CC-50数据集示例数据

图6 ShangHaiTech PartA数据集示例数据

图7 ShangHaiTech PartB数据集示例数据

图8 UCF-QNRF数据集示例数据

4.2 标定真值处理

图9 固定大小的高斯核模糊真值处理结果

图10 K邻近动态高斯核模糊真值处理结果

4.3 损失函数

4.4 训练细节

4.5 结果与评估

表2 UCF-CC-50数据集中实验结果

表3 ShangHaiTechA数据集实验结果

表4 ShangHaiTechB数据集实验结果

表5 UCF-QNRF数据集实验结果

图11 UCF-CC-50数据集实验结果可视化

5 结论

参考文献