Crowd Density Estimation Method Considering Video Geographic Mapping

  • SUN Yinping ,
  • ZHANG Xingguo , * ,
  • SHI Xinyu ,
  • LI Qize
Expand
  • School of Geographic Sciences, Xinyang Normal University, Xinyang 464000, China
*ZHANG Xingguo, E-mail:

Received date: 2021-09-15

  Revised date: 2021-11-19

  Online published: 2022-08-25

Supported by

National Natural Science Foundation of China(41401436)

Natural Science Foundation of Henan Province(202300410345)

Nanhu Scholars Program for Young Scholars of XYNU

Abstract

Aiming at the problem that the existing crowd counting methods cannot achieve accurate counting and map visualization of complex crowds, a crowd density estimation method considering video geographic mapping is proposed. Firstly, based on Deeplab V3+model, a crowd semantic segmentation model suitable for complex scenarios is constructed by transfer learning. Combining video with GIS, the high-precision homography matrix between video and crowd scene map is calculated according to four or more pixel coordinates between video frame and the corresponding geographic coordinates. Based on the crowd semantic segmentation model and the solved homography matrix, the crowd areas in videos are projected to the map. Secondly, to improve the accuracy of crowd number, two different partition schemes: equidistant and grid partition, are designed to divide the camera Field of View (FOV). According to the semantic segmentation result, the crowd density of each sub-region using different partition schemes is counted. Based on the crowd density and area of each sub-region, the total number in the camera FOV is calculated. Thirdly, based on the solved homography matrix, the semantic segmentation result of the crowd in the real-time video can be projected to the 2D map and the crowd number can be counted through the crowd density. In order to obtain accurate crowd density, we took a playground as the experimental area and collected multiple crowd surveillance videos at different times and under different crowd conditions. The experimental results show that: (1) the crowd semantic segmentation model constructed in this paper can achieve high-precision crowd segmentation in large scenes, with an accuracy of 94.11%; (2) Combining video with GIS, the polygon area of the crowd was filled through the point symbol of person style, the crowd mapping and visual expression were realized, and the goal of crowd localization, measurement, and spatial analysis was achieved; (3) Accurate counting of surveillance video crowd was realized, and the camera FOV was divided into many sub-areas, which is conducive to improving the crowd counting accuracy. Compared to the crowd density estimation method based on density map, the method proposed in this paper is suitable for large scenes with high altitude and high density, especially in the areas where the texture of people's head isn't clear and crowd characteristics are obscured. Our method can effectively improve the accuracy of crowd counting and map visualization and can be used for crowd supervision in large-scale events, stations, shopping malls, and sports venues.

Cite this article

SUN Yinping , ZHANG Xingguo , SHI Xinyu , LI Qize . Crowd Density Estimation Method Considering Video Geographic Mapping[J]. Journal of Geo-information Science, 2022 , 24(6) : 1130 -1138 . DOI: 10.12082/dqxxkx.2022.210555

1 引言

随着城市化进程加速,大型商场、车站、娱乐场所因人群聚集而引发的打架斗殴、踩踏事件时有发生,人群的实时监管已成为当前安保工作最为关注的核心内容之一[1]。当前,对于人群监管主要采用人工和信息技术相结合的方式,其中,视频监控系统是最为常用的手段之一。摄像机价格低廉,可获取实时、高清、真实的视频数据。摄像机有移动摄像机和固定摄像机,前者视域随摄像机的不断移动而变化,后者则因其位置的固定而视域确定。对于关注的大场景,基于固定摄像机视频进行语义分析可以表征场景下人群长期的活动规律和行为特点,在城市中得到了广泛使用[2]。近年来,以深度学习为代表的人工智能技术发展迅速,基于视频的目标检测、目标跟踪、语义分割精度得到了极大提升,部分成果已在安防中得到应用。然而,视频监控网络中,各摄像机分散独立,难以协同,无法提供统一视角下目标的分布、方位及尺寸信息,加大了突发事件时空分析的难度[3]。而地理信息具有明确的空间参考,可对目标进行统一定位、一览和综合分析,将视频与地理信息相结合,将有助于大场景下目标的实时监管和综合研判,提高安保工作的效率[4-5]。视频与GIS协同的人群状态感知模型已成为当前研究的热点之一[6]
当前,基于视频的人群检测与计数方法已取得了大量的研究成果,主要包括两大方面,即基于视频分析的方法和基于视频GIS的分析方法。在视频分析方面,常用的算法可分为3大类,即基于动态特征的人群检测、基于纹理特征的人群检测、基于深度学习的人群检测[7-8]。基于动态特征的人群检测多采用视频中临近帧差或背景帧差的方法,得到目标分布区域,根据区域的大小进行回归估 计[9]。该方法适合于人群稀疏、处于移动状态的情况。基于纹理特征的人群检测主要采用视频中人群的纹理、颜色、形状、边缘等特征,进行回归估计人数[10]。该方法适合于人群密集场景。基于深度学习的人群检测算法,如C3F-VGG[11]、CSRNet[12]、SANet[13]、SFCN+[14]等,通过训练的方式实现人群密度的估计及计数。该方法需搜集大量的样本,对于类似场景精度较高,其他场景精度较低,泛化能力差。在视频GIS方面,利用GIS相关技术可统一监控场景人群图像的参考系,实现视频数据在GIS空间坐标系的映射[15]。例如部分学者通过将视频中提取的光流实时映射到GIS中,展示与分析人群运动状态,实现视频人群的空间化[16];通过在地理参考下提取人群运动矢量场,分析人群运动模式以及预测人群运动趋势,估算人群的运动速率,实现人群异常行为的检测与监测[17]。国内外学者基于视频GIS提出的众多算法,解决了不同监控场景间人群图像的空间尺度多样化问题。但因摄像机姿态的差异性、场景的复杂性,致使监控区域密集人群的计数精度受到较大影响,同时也缺乏较好的地图可视化效果[18]
针对复杂场景下人群计数精度较低、人群难以地图可视化的问题,本文引入人群语义分割模型提取人群区域,设计视域分区策略估计人群密度,提出了一种顾及视频地理映射的人群密度估计方法。该方法不仅能实现视频人群的高精度计数,也能通过目标点符号均匀填充人群多边形的方式,实现视频人群的地图可视化。本文所提方法,可为高空高密度场景下的人群监管提供新的决策方式,对公共安全、城市空间设计等具有重要意义。

2 研究方法

2.1 技术路线

本文以实时人群视频、高清遥感影像、地图为基础,从GIS视角探讨人群空间化及计数方法。该方法主要针对于固定摄像机监控的大场景人群,包括人群地图映射以及地理空间下人群计数两大过程,如图1。人群地图映射是基于构建的人群语义分割模型,提取视频中的人群语义信息,基于单应矩阵将人群映射至地理空间。地理空间下人群计数是通过视域分区,训练各子区人群密度,根据各子区人群密度计算视域内总人数,并通过人群目标点集实现了人群的地图可视化。
图1 顾及视频地理映射的人群密度估计技术流程

Fig. 1 Technical flow chart of crowd density estimation considering video geographic mapping

2.2 人群地图映射

(1)人群语义分割
本文以Deeplab v3+网络模型为基础,构建了适合大场景的人群语义分割模型。该模型最大的特点是使用编码-解码器结构,并引入了空洞卷积,在不损失信息的情况下加大感受野,分割精度高、运行速度快,可实现端到端的语义分割[19-20]
为了构建面向高精度的人群语义模型,首先需要采集大量的人群视频进行标注,得到模型所需的样本。然后,通过迁移学习的方式进行训练,得到所需的人群语义分割模型。该模型运用具有动量的随机梯度下降优化算法,分段调度,具有Resnet-18 网络初始化权重。最后,基于该模型进行实时人群语义分割,并得到视频中人群所在区域集合As, A S = { A j },其中Aj代表各个人群多边形,j从1到n
(2)单应矩阵求解
为了实现人群区域的空间化,需解算视频图像空间与地理空间的映射矩阵。本文采用单应法,首先在视频帧中选取4个及以上控制点,设其像素坐标为 P n ( X n , Y n )。然后,在高精度遥感影像中选取相应的同名点,设其地理坐标为 P ' n ( X ' n , Y ' n )。根据选取的4对及以上同名点计算该摄像机的单应矩阵,如式(1)。其中,由Hij所构成的矩阵H是一个3 ×3的矩阵,可实现视频帧图像坐标至地理坐标的转换,其逆矩阵可实现相反的坐标转换。对于部署多个摄像机的场景,则需分别计算各摄像机对应的单应矩阵。
X ' n Y ' n 1 = H 11 H 12 H 13 H 21 H 31 H 22 H 32 H 23 H 33 X n Y n 1
(3)人群空间映射
人群空间映射,即根据求解的单应矩阵将视频中各人群多边形映射至地理空间。具体过程如图2所示,主要包括:① 在计算机上输入人群场景的实时监控视频,得到当前视频帧;② 对输入视频帧进行语义分割,输出每帧人群多边形集合As;③ 基于求解的单应矩阵,将人群各多边形Aj的像素坐标转换成地理坐标;④ 将映射后的各多边形,在GIS中的多边形图层中进行展示。
图2 人群空间映射方法

Fig. 2 Crowd spatialization method

2.3 地理空间下人群计数

(1)视域分区
当前,人群的计数方法侧重于对整个视频图像空间整体进行回归分析,忽视了深度图对人群计数的影响。在高空视频监控中,其计数精度明显降低。在视频传感器成像时,远近物体成像精度有所差异,视频中所显示的目标尺寸呈“近大远小”的规律。具体而言:根据成像规律,位于摄像机视域内的目标,在距离摄像机中心较近时,所占整幅视频帧的面积较大;在距离摄像机中心较远时,所占面积较小。因此,为了提高人群计数精度,不同深度应采取不同的人群密度计算方法。
本文以映射后的人群多边形为基础,将视域划分为多个区域,分区统计人群密度。为了综合分析不同分区下人群密度统计的精度,设计了2种分区方案,即等距分区和格网分区。等距分区是沿视线方向对视域按等间隔划分为多个子区,如图3(a),将视域划分了5个子区。格网分区是将视域划分为mn列的正方形网格,如图3(b),其中网格边长为20 m。
图3 视域分区示意图

Fig. 3 Schematic diagram of FOV partition

(2)各子区人群密度计算
在地理空间下,采取统计求均值的方法计算各子区的人群密度。① 统计每帧映射至地图的各人群多边形的人数及面积;然后,基于统计的人数和面积计算该多边形单位面积内人群目标数目,即各人群多边形人群密度,其计算如式(2)。② 判断每帧中各人群多边形所属的子区,并将每帧中人群多边形与视域各子区相交,得到各子区内所有的人群多边形;对于某一子区,将子区内所有人群多边形的人群密度求取平均值,即为该子区的最终人群密度 T i ¯,其中i表示各子区。若某一人群多边形横跨2个子区,则需定位多边形中心点,中心点所在的子区即为该多边形所属的子区。各子区人群密度计算,需采集大量样本数据,以提高各子区人群密度计算精度。
T q = N q / S q
式中:Tq为各人群多边形的人群密度;Nq为各人群多边形的人数;Sq为各人群多边形的面积。
(3)视域人口总数计算
基于已计算的各子区人群密度 T i ¯,就可对当前视频进行人群计数。首先,得到视域中所有的人群分布多边形;然后,判断各多边形所在的子区;最后,根据多边形所在子区的人群密度、该多边形的面积,即可计算出当前视域的总人数,其计算方法如式(3)所示。
N = i = 1 i = k S i ' T i ¯
式中:N为视域总人数;k为子区个数;i为子区编号;S'i为各子区人群多边形面积; T i ¯为各子区人群密度。
(4)人群地图可视化
为了在地图中直观的表达人群的空间分布状态,本文在GIS多边形图层中展示映射后的人群多边形区域,并在区域内填充人群目标点符号。首先,在人群多边形内均匀添加等距线,并将其合并为一个整体,得到其总长度L;然后,根据该多边形相应的人数mL,可计算每个点的位置。以其中一个人群多边形地图可视化为例,从映射后多边形轮廓线的开始位置,每间隔L/m距离得到一个点的坐标,依此类推(图4)。通过这种目标点符号均匀填充人群多边形的方式,可对视频监控中静态和动态人群进行地图可视化。
图4 人群地图可视化示意图

Fig. 4 The crowd map visualization

3 实验与分析

3.1 实验环境及数据

本文基于MATLAB 2019b、VS2012、ArcGIS10.2开展相关实验,选择某学校操场作为实验区,在实验区高空约33 m处部署了一个高清摄像机。为获得实验区准确的人群密度,本文采集不同时间、不同运动状态的2000帧人群图像,并保证人群样本均匀分布且覆盖操场整个实验区,如图5所示,图中每个白色圆点均为一个人群多边形的中心点。其中,人群图像中的1200帧,按照3:2的比例分为训练集和测试集,并根据视频帧中的语义信息,将实验区分为操场、道路、建筑、树和人5类,构建了人群语义分割模型(Net)。该Net训练环境为:GPU RTX 2080 Ti,CPU i9-9820X,内存32G,训练时长约15 min,测试集准确率为94.11%。人群图像中的800帧用于人群密度以及人数的计算,其中640帧计算人群密度,160帧进行人群数目实际预测。
图5 实验区平面图

Fig. 5 The 2D map of the experimental area

3.2 实验分析

3.2.1 人群地图可视化及映射偏差分析

人群地图可视化,是对视频中人群图像进行语义分割,基于视频图像空间与地理空间解算的单应矩阵,将视频中各人群多边形映射至地理空间,并在GIS中的多边形图层中进行展示的过程。本文选择实验区视频帧和平面电子地图14个位置点作为控制点,计算该实验区摄像机的单应矩阵;然后,使用Net模型对人群视频帧进行语义分割,提取各视频帧人群多边形,并将人群各多边形Aj的像素坐标转换成地理坐标;基于求解的单应矩阵、实验区高清遥感地图,将人群多边形映射至地理空间,映射过程如图6所示。
图6 人群空间映射

Fig. 6 Crowd spatialization

在二维地图中,用目标点符号均匀填充人群多边形,可对人群进行地图可视化。图7(a)为一帧图像语义分割后的人群多边形,图7(b)为其人群地图可视化效果。实验结果表明,根据本文所提出的顾及视频地理映射的人群密度估计方法,可将大场景下的人群精准映射至地理空间,实现人群的地图可视化。该方法不仅为大型活动、车站、商场、运动场馆的人群监管提供了新的决策方式,也解决了人群难以直观可视化的问题,具有一定的实用价值。
图7 人群可视化

Fig. 7 Crowd visualization

本文方法主要面向大场景、高空摄像机,单应矩阵求解基于高清遥感影像和视频图像中4个及以上同名点来解算。该方法对人群进行映射是一种近似,但对大场景具有适用性。为了分析映射偏差,本文设计了人群映射偏差实验,如图8中的某一人群区域,视频中人群语义分割后的多边形为 Area1,而实际人群脚部所占区域为Area2,二者存在差异。理论上,Area2是人群真正的区域,Area1是人群所在区域的近似。为了查看人群地理映射后的偏差,本文将Area1和Area2按照单应矩阵进行了地理映射,从图8可以看出映射后多边形Pg1和Pg2存在差异,因摄像机透视成像问题,距离摄像机越远Pg1和Pg2相差越大。
图8 人群地图映射偏差

Fig. 8 The Geo-mapping deviation of crowd

3.2.2 人群密度估计及预测

本文选取人群图像中的640帧用于人群密度估计。为区分不同分区方式对统计结果的影响,按照等距分区和格网分区分别计算人群密度。具体步骤为:首先,计算640帧各人群多边形人数Nq及面积Sq,计算各人群多边形的人群密度Tq;然后,统计各子区内所有的人群多边形,计算各子区人群密度 T i ¯。若统计子区内人数为空,则根据就近原则和对称原则填充该子区人群密度。如图9(a),1区人群密度 T 1 ¯为0.55,2区人群密度 T 2 ¯为0.43,3区人群密度 T 3 ¯为0.22,4区人群密度 T 4 ¯为0.12,5区人群密度 T 5 ¯为0.09。整体来看,1~5子区的人群密度由大变小。如图9(b)为格网分区的人群密度,从分布情况来看,距离摄像机中心越远,各子区人群密度越小,同一水平线上的子区人群密度大致接近。究其原因,该特征是因为摄像机透视成像引起的,距离摄像机越近,人群映射变形越小,反之远处人群映射后变形较大。
图9 等距分区和格网分区的人群密度

Fig. 9 Crowd density map of equidistant partition and grid partition

基于等距分区和格网分区统计的人群密度,本文选取了160个关键帧进行预测实验。具体步骤为:首先,对视频帧进行语义分割及地图映射;然后,计算映射后各人群多边形面积,统计各子区内人群多边形总面积;最后,根据等距分区和格网分区的各子区人群密度,分别预测各子区人口数目,如式(4)所示。
T P = S ' i × T i ¯
式中:TP为预测的各子区人口数目;i为视域各子区; S ' i为各子区人群多边形总面积; T i ¯为各子区人群密度。
为了验证人群计数效果,本文设计了单帧人群计数准确率指标,如式(5)所示。
P A = m / M × 100 %
式中:PA为单帧人群计数准确率;m为单帧预测正确的人群多边形个数;M为单帧人群多边形总个数。
本文基于人群图像中的160帧,通过等距分区和格网分区,分别计算了各帧人群预测准确率,如图10所示。实验结果表明:① 格网分区整体精度高于等距分区,表明更细的分区有利于提高计数精度;② 部分视频帧2种分区准确率较为接近,其原因为人群分布较为均匀,反之人群聚集两种分区准确率相差较大;③ 群体目标较多时准确率较高,个体目标较多时准确率较低。
图10 2种分区人群准确率对比

Fig. 10 The prediction accuracy of different video frames under two classification rules

3.2.3 算法对比与分析

在当前众多的人群计数方法中,SFCN+算法以Resnet-101为主干,通过训练人员头部特征生成人群密度图来实现图像中人群数目的统计,在拥挤的人群场景下显示出强大的密度回归能力[21]。本文基于实验区高密集度的典型视频帧,分别采用本文方法以及SFCN+算法进行对比。在实验中,本文选取了不同场景类别的160帧图像,基于SFCN+算法和格网分区算法进行测试,人群检测效果如图11。基于2种算法预测的每帧总人数以及真实人数,本文计算了人群计数验证准确率,如式(6)所示。
A = 1 - | p - q | q × 100 %
图11 密集场景人群检测结果

Fig. 11 Crowd detection results in dense scenes

式中:A为人群计数验证准确率;p为预测总人数; q为各帧真实人数。
图12所示的是2种算法的人群计数验证准确率,基于SFCN+算法的验证准确率A最高为74%,最低仅为33%;而基于格网分区的准确率最高为80%,最低为66%。整体来看,本文所提的格网分区算法的人群验证准确率高于SFCN+算法;单帧来看,存在几帧SFCN+算法略高于格网分区,分析后发现该场景人员稀少、人群分布稀疏,致使二者准确率差异不明显。本文通过分析SFCN+算法的人群密度图,发现其准确率较低的主要原因是:在高空和高密集度的场景下,SFCN+算法识别人员头部特征困难,易造成距离摄像机较近区域的单个人员漏检、较远距离区域的人群计数偏少、整幅图像部分物体(树木所在区)类别错分的问题。而格网分区则采用了语义分割的方式,对整个人员特征进行识别,有效避免了SFCN+算法人员头部特征识别困难的问题,尤其在人员头部纹理不清晰、人员相互遮挡的区域,其优势更加明显。因此,SFCN+算法适合于人员头部纹理清晰的小场景,而在高空高密集度的大场景中本文方法更具有适用性。
图12 2种算法人群计数准确率对比

Fig. 12 Comparison of crowd counting accuracy of different algorithms

4 结论与讨论

面向复杂的人群场景,本文提出了一种顾及视频地理映射的人群密度估计方法。该方法构建了人群语义分割模型提取视频中人群区域,基于单应矩阵将视频中人群区域实时映射至地图,并采用视域分区统计的策略估计人群密度,最后将人群区域均匀填充其相应的人群目标点符号,实现人群的地图可视化。本文通过理论分析及实验验证,得出以下主要结论:
(1)构建的人群语义分割模型测试精度高达94.11%,能实现监控视频中人群的高精度分割,可达到实际应用水平。
(2)结合GIS,将视频中人群区域实时映射至地图中,并将多边形区域均匀填充其相应人数的点集,并以人的示意符号表达,可实现较好的人群地图可视化效果。
(3)通过等距分区与格网分区实验,发现格网分区的人群预测准确率整体高于等距分区,表明视域更细的分区将有利于提高人群计数精度。
(4)经本文方法与SFCN+算法对比,发现SFCN+算法在高空高密集度的大场景中识别人员头部特征困难,验证准确率最低仅为33%;而本文基于语义分割的方式识别整个人员特征,即使在人员纹理特征不清晰、人员相互遮挡严重的区域其验证准确率仍不低于为66%。实验表明,本文方法在人群密集的大场景中适用性更强,能有效避免现有算法难以识别人员头部特征信息而影响人群计数精度的问题。
本文所提的顾及视频地理映射的人群密度估计方法,能有效解决人群难以精准计数及地图可视化的问题。然而,该方法尚存在一定的局限性,如个体、群体混合场景中人群计数精度稍有下降,人群语义分割效率虽然有了提升,但尚无法达到实时分割效率,导致人群的地图映射非实时性等。为了精准感知人群的状态,除了其分布,还有人群运动方向、异常检测、预测等也至关重要,是后续研究的重点。
[1]
方志祥. 人群动态的观测理论及其未来发展思考[J]. 地球信息科学学报, 2021, 23(9):1527-1536.

DOI

[ Fang Z X The theory prospect of crowd dynamics-oriented observation[J]. Journal of Geo-information Science, 2021, 23(9):1527-1536. ] DOI: 10.12082/dqxxkx.2021.200787

DOI

[2]
张兴国. 地理场景协同的多摄像机目标跟踪研究[D]. 南京: 南京师范大学, 2014.

[ Zhang X G. Research on multi-camera target tracking with geographic scene collaboration[D]. Nanjing: Nanjing Normal University, 2014. ]

[3]
Xie Y J, Wang M Z, Liu X J, et al. Integration of GIS and moving objects in surveillance video[J]. ISPRS International Journal of Geo-information, 2017, 6(4):94. DOI: 10.3390/ijgi6040094

DOI

[4]
张兴国, 刘学军, 王思宁, 等. 监控视频与2D地理空间数据互映射[J]. 武汉大学学报·信息科学版, 2015, 40(8):1130-1136.

[ Zhang X G, Liu X J, Wang S N, et al. Mutual mapping between surveillance video and 2D geospatial data[J]. Geomatics and Information Science of Wuhan University, 2015, 40(8):1130-1136. ] DOI: 10.13203/j.whugis20130817

DOI

[5]
王美珍, 刘学军, 孙开新, 等. 最优视频子集与视频时空检索[J]. 计算机学报, 2019, 42(9):2004-2023.

[ Wang M Z, Liu X J, Sun K X, et al. Optimum video subset and spatial-temporal video retrieval[J]. Chinese Journal of Computers, 2019, 42(9):2004-2023. ] DOI: 10.11897/SP.J.1016.2019.02004

DOI

[6]
宋宏权, 刘学军, 闾国年, 等. 区域人群状态的实时感知监控[J]. 地球信息科学学报, 2012, 14(6):686-692,697.

DOI

[ Song H Q, Liu X J, Lv G N, et al. Real-time monitoring for the regional crowds status[J]. Journal of Geo-information Science, 2012, 14(6):686-692, 697. ] DOI: 10.3724/SP.J.1047.2012.00686

DOI

[7]
蒋妮, 周海洋, 余飞鸿. 基于计算机视觉的目标计数方法综述[J]. 激光与光电子学进展, 2021, 58(14):43-59.

[ Jiang N, Zhou H Y, Yu F H. A survey of computer vision based object counting methods[J]. Laser & Optoelectronics Progress, 2021, 58(14):43-59. ] DOI: 10.3788/LOP202158.1400002

DOI

[8]
余鹰, 朱慧琳, 钱进, 等. 基于深度学习的人群计数研究综述[J]. 计算机研究与发展, 2021, 58(12):2724-2747.

[ Yu Y, Zhu H L, Qian J, et al. Survey on deep learning based crowd counting[J]. Journal of Computer Research and Development, 2021, 58(12):2724-2747. ] DOI: 10.7544/issn1000-1239.2021.20200699

DOI

[9]
屈晶晶, 辛云宏. 连续帧间差分与背景差分相融合的运动目标检测方法[J]. 光子学报, 2014, 43(7):219-226.

[ Qu J J Xin Y H. Combined continuous frame difference with background difference method for moving object detection[J]. Acta Photonica Sinica, 2014, 43(7):219-226. ] DOI: 10.3788/gzxb20144307.0710002

DOI

[10]
Chan A B, Vasconcelos N. Bayesian Poisson regression for crowd counting[C]. Proceedings of the IEEE International Conference on Computer Vision, 2009:545-551. DOI: 10.1109/ICCV.2009.5459191

DOI

[11]
Gao J Y, Lin W, Zhao B, et al. C3frame-work: An open-source PyTorch code for crowd countingarXiv preprint arXiv: 1907. 02724, 2019.

[12]
Li Y H, Zhang X F, Chen D M. CSRNET: Dilated convolutional neural networks for understanding the highly congested scenes[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018:1091-1100. DOI: 10.1109/CVPR.2018.00120

DOI

[13]
Cao X K, Wang Z P, Zhao Y Y, et al. Scale aggregation network for accurate and efficient crowd counting[C]. Proceedings of the European Conference on Computer Vision, 2018:757-773. DOI: 10.1007/978-3-030-01228-1_45

DOI

[14]
Wang Q, Gao J Y, Lin W, et al. Learning from synthetic data for crowd counting in the wild[C]. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 2019:8198-8207. DOI: 10.1109/CVPR.2019.00839

DOI

[15]
宋宏权, 刘学军, 闾国年, 等. 一种可跨摄像机的人群密度估计模型[J]. 中国安全科学学报, 2013, 23(12):139-145.

[ Song H Q, Liu X J, Lv G N, et al. A cross-camera adaptive crowd density estimation model[J]. China Safety Science Journal, 2013, 23(12):139-145. ] DOI: 10.16265/j.cnki.issn1003-3033.2013.12.024

DOI

[16]
邓仕虎, 张兴国, 王小勇, 等. 视频和GIS协同的人群状态感知模型[J]. 信阳师范学院学报(自然科学版), 2018, 31(1):59-63.

[ Deng S H, Zhang X G, Wang X Y, et al. Crowd status analysis based on surveillance videos and GIS[J]. Journal of Xinyang Normal University (Natural Science Edition), 2018, 31(1):59-63. ] DOI: 10.3969/j.issn.1003-0972.2018.01.011

DOI

[17]
宋宏权, 王丰, 刘学军, 等. 地理环境下的群体运动分析与异常行为检测[J]. 地理与地理信息科学, 2015, 31(4):1-5,11,133.

[ Song H Q, Wang F, Liu X J, et al. Crowd movement analysis and abnormal behavior detection under geographical environment[J]. Geography and Geo-Information Science, 2015, 31(4):1-5,11,133. ] DOI: 10.3969/j.issn.1672-0504.2015.04.001

DOI

[18]
Zhang X G, Shi X Y, Luo X Y, et al. Real-Time web map construction based on multiple cameras and GIS. ISPRS International Journal of Geo-Information, 2021, 10(12):803. DOI: 10.3390/ijgi10120803

DOI

[19]
Chen, L C Zhu, Y K, Papandreou G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]. European Conference on Computer Vision, 2018:833-851. DOI: 10.1007/978-3-030-01234-2_49

DOI

[20]
Fu H, Fu B H, Shi P H. An improved segmentation method for automatic mapping of cone karst from remote sensing data based on DeepLabV3+ model[J]. Remote Sensing, 2021, 13(3):441. DOI: 10.3390/RS13030441

DOI

[21]
Wang Q, Gao J Y, Lin W, et al. NWPU-Crowd: A large-scale benchmark for crowd counting and localization[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(6):2141-2149. DOI: 10.1109/TPAMI.2020.3013269

DOI

Outlines

/