地球信息科学理论与方法

融合多源空间数据的城镇人口分布估算

  • 朱守杰 , 1 ,
  • 杜世宏 , 2, * ,
  • 李军 1 ,
  • 商硕硕 2 ,
  • 杜守基 2
展开
  • 1.中国矿业大学(北京) 地球科学与测绘工程学院,北京 100091
  • 2.北京大学遥感与地理信息系统研究所,北京 100871
*杜世宏(1975— ),男,甘肃靖远人,博士,副教授,主要从事空间知识表达与挖掘,空间数据智能理解以及时空统 计与环境应用。E-mail:

朱守杰(1995— ),男,安徽六安人,硕士生,主要从事多源数据融合、人口地理研究。E-mail:

收稿日期: 2019-12-18

  要求修回日期: 2020-03-06

  网络出版日期: 2020-10-25

基金资助

国家重点研发计划项目(2017YFC1503002)

版权

版权所有,未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。

Estimating Population Distribution in Cities and Towns though Fusing Multi-source Spatial Data

  • ZHU Shoujie , 1 ,
  • DU Shihong , 2, * ,
  • LI Jun 1 ,
  • SHANG Shuoshuo 2 ,
  • DU Shouji 2
Expand
  • 1. China University of Mining & Technology, Beijing, College of Geoscience and Surveying Engineering, Beijing 100091, China
  • 2. Peking University, Institute of Remote Sensing and GIS, Beijing 100871, China
*DU Shihong, E-mail:

Received date: 2019-12-18

  Request revised date: 2020-03-06

  Online published: 2020-10-25

Supported by

National Key Research and Development Pro-gram of China(2017YFC1503002)

Copyright

Copyright reserved © 2020

摘要

精细尺度的城镇人口空间分布是分析人类-资源-环境相互关系的重要指标。本文提出了一种融合地理空间大数据和高分辨率遥感数据估计精细尺度城镇人口分布的方法。通过对比各指标与人口相关性,选取R²>0.7的建筑面积、到道路距离、夜间灯光强度、商服中心、EAHSI指数、幼儿园、公园、小学、加油站、医院、公交车站、长途汽车站作为影响人口分布的变量因子。结合城市功能区数据确定人口分布区域,利用随机森林模型对宁波市2018年人口数据进行了500 m格网空间化,从而得出宁波市城镇人口空间分布图。最后,基于随机森林模型的变量因子重要性分析宁波市人口空间分布的影响因素。研究结果表明,本文所提出的城镇人口分布模型在街道尺度的估算精度为81.2%,平均相对误差MRE为0.29、RMSE为3279.89;网格级别的MRE为17.16,RMSE为1149.9,因此模型能精确地反演城镇内部街道人口分布信息。通过对变量因子重要性进行比较,发现建筑面积重要性约为0.22,对宁波市人口估算影响最大;到道路的距离、夜间灯光强度、商服中心、EAHSI(Elevation-Adjusted Human Settlement Index)、幼儿园、公园对宁波市人口估算具有重要作用。本文在格网级别进行的人口分布精度验证对于研究城市精细人口分布具有重大意义。

本文引用格式

朱守杰 , 杜世宏 , 李军 , 商硕硕 , 杜守基 . 融合多源空间数据的城镇人口分布估算[J]. 地球信息科学学报, 2020 , 22(8) : 1607 -1616 . DOI: 10.12082/dqxxkx.2020.190783

Abstract

The finer-scale spatial distribution of population within cities and towns is of great significance for studying the human-resource-environment interrelationships and supporting smart city construction and resource allocation. It also helps the government to assist disaster assessments and land use planning, manage the distribution of population and resource, and promote urban sustainable development. However, existing population spatialization methods are insufficient to spatialize population in cities and towns at fine scales. With the rapid development of geospatial big data and the popularity of high-resolution remote sensing data, this study proposes a method to estimate urban population distribution at fine scales through fusing multi-source spatial data. First, a total of 12 variables having large correlations (R²>0.7) with the population were selected to estimate the population distribution in Ningbo city, including the build-up area, distance to the road, nighttime lights, business service center, EAHSI index, kindergarten, park, primary school, gas station, hospital, and bus station and coach station. First, the population distribution areas are determined by urban functional zones, then a random forest model was used to train a population estimation model with the selected 12 variables; finally, the 2018 population data of the Ningbo were redistributed into 500 m grids by the trained estimation model. The importance of the chosen variables were analyzed using the random forest model. The results demonstrate that the presented population estimation model reaches an accuracy of 81.2% at sub-district scale with the MRE of 0.29 and the RMSE of 3279.89. Therefore, the population estimation model presented in this study can accurately predict the population distribution at the sub-district. This study also conducted the accuracy verification at the grid scale with the MRE of 17.16 and the RMSE of 1149.9. According to the importance of variables computed by the random forest model, it is found that the importance of the variable building area is about 0.22, which has the largest influence on the population distribution, followed by the variables, distance to road, nighttime lights, business service center, EAHSI ( Elevation-Adjusted Human Settlement Index), kindergarten, and park. The accuracy verification at the grid level is of great significance for studying the fine population distribution in cities. However, the estimation accuracy is still not very high in some cases where the populations of some grids are either overestimated or underestimated. The lack of building height information is a possible reason. In addition, deep learning methods will be explored to improve accuracy in future.

1 引言

随着我国经济和城镇化快速发展,大量农村人口涌向城镇,使得城镇内部人口分布格局发生了根本性变化。精细尺度的城镇人口分布信息是可持续发展、国土空间规划、减灾救灾等国家战略的重要数据支撑。现阶段,我国人口数据获取得主要手段是人口普查。虽然人口普查数据具有权威性、系统性、准确性等优势,但人口普查数据存在更新周期长(10年一次)、空间分辨率低、耗时费力等不足。实时可靠的城镇人口空间分布信息对于解决资源配置、减灾救灾[1]和城市结构优化等[2,3]具有重要作用。
人口空间化可将粗略尺度的人口普查数据合理分配到精细空间尺度的规则单元上,以满足对精细尺度城镇人口空间分布的需求。融合多源空间数据进行精细尺度上空间化模拟是大数据时代人口估算的主要方式。Ural等[4]采用空间插值方法,结合乡镇街道办尺度的人口普查数据,绘制详细尺度人口空间分布图。Holt等[5]提出Dasymetric映射方法,利用多种辅助数据分解人口普查数据。一些全球人口数据集就是采用Dasymetric方法生成的,如全球栅格人口数据集GPW(Gridded Population of the World)。然而,人口空间插值方法只能估算粗略尺度的人口分布[6],对于详细尺度的城镇人口分布估计有较大误差。因此,张尧等[7-10]采用不透水面、夜间灯光与人口普查等数据建立线性回归关系来估算人口。随着机器学习方法地广泛应用,Stevens等[11]使用随机森林方法建立估算模型。由于我国城市空间结构复杂、人口分布空间异质性强,然而现有的利用不透水面、夜光、建筑物多边形等数据来反演人口分布的方法没有系统考虑影响人口分布的众多指标因素,如Mossoux等[12]利用高分辨率遥感数据提取的建筑物多边形数据建立人口估算模型比较适用于的这个位于非洲城市结构单一的科摩罗岛国,然而这些方法无法直接应用于我国当下复杂城市结构的人口分布估算。随着移动位置服务LBS(Location Based Services)技术地发展,公共交通、手机信令、签到数据、POI(Point of Interest)数据和GPS(Global Positioning System)定位数据可计算城市结构、经济活力和交通承载能力等指标,从而反映人口分布[13]。刘凌波和淳锦等[14-15]使用手机信令数据分解人口普查数据,绘制武汉市精细尺度的人口分布图。但是,移动电话基站具有可变的有效发射机功率,使得基于手机信令数据生成的泰森多边形与实际无线电覆盖范围并不一致。而且,由于涉及个人隐私问题,大范围手机数据不易获得。
综上所述,本文通过融合多源空间数据(特别是城市功能数据)[16],建立了详细的人口指标体系,采用随机森林算法拟合多元非线性回归模型估算精细尺度城镇人口分布。城市功能数据从根本上解决了人口空间分布的空间异质性问题,POI(兴趣点数据)和道路数据在一定程度上细化了人口在城镇内部地分布,而NPP/VIIRS夜光数据和改良的EAHSI指数(Elevation-Adjusted Human Settlement Index)[17]可提高模型准确性。此外,本文采用宁波市真实人口数据作为验证数据,检验城镇人口分布的估算精度。

2 研究区概况与数据源

2.1 研究区概况

浙江省宁波市是中国东南沿海重要的港口城市、长江三角洲南翼经济中心,同时还是“海上丝绸之路”东方始发港。宁波经济持续快速发展,已成为国内经济最活跃的地区之一。根据宁波市统计数据显示,2018年宁波市总面积为9816 km²,永久居民603.0万,常住人口820.2万。图1是宁波市各区平均人口密度图,来自于宁波市国土局。
图1 2018年宁波市区平均人口密度

Fig. 1 Ningbo population density map in 2018

2.2 数据源

本文采用的数据包括NPP/VIIRS夜间灯光、Landsat 8植被指数、DEM(Digital Elevation Model)、POI、城市功能、建筑物多边形数据、路网、人口和行政边界等数据。详细信息如下:
(1)NPP/VIIRS夜间灯光数据[18]:美国新一代极轨运行卫星系统预备项目(National Polar-orbiting Operational Environmental Satellite System Preparatory Project,NPP)卫星携带的VIIRS(Visible infrared Imaging Radiometer)传感器共有22个波段。其中白天/夜间波段(Day/Night Band,DNB)星下地面分辨率为375 m,可识别微弱灯光源,对地表照明分布刻画更准确。本文夜光数据主要包括2018年11个月平均辐射亮度信息(6月数据缺失),如图2所示。
图2 2018年宁波市VIIRS年度复合夜光数据

Fig. 2 Ningbo VIIRS annual compound DNB data in 2018

(2)植被指数数据由Landsat 8卫星影像提取[19],空间分辨率为30 m,主要用于计算改良后的人类居住指数(图3)。
图3 2018年宁波市EAHSI指数

Fig. 3 Ningbo EAHSI index in 2018

(3)数字高程模型(DEM)数据为ASTER GDEM V2全球数字高程数据[20](数据来源于中国科学院计算机网络信息中心地理空间数据云平台http://www.gscloud.cn),空间分辨率为30 m。
(4)POI数据来自百度地图服务[21]http://map.baidu.com),共30万条记录,包括商业机构、教育设施(如幼儿园、小学、中学)、公园、公交站点、加油站和医院等。
(5)城市功能区数据由高分遥感数据结合POI数据自动分类提取[16]http://geoscape.pku.edu.cn/),共分12类:林地、绿地、水体、交通、未开发(城市、村镇内部未开发的土地、裸土)、农业用地、工业用地、商业用地、学校机构、一类居住(以低层住宅为主的用地)、二类居住(以多、中、高层住宅为主的用地)和三类居住(棚户区、农村宅基地等)(图4)。
图4 2018年宁波市城市功能区数据

Fig. 4 Ningbo urban functional-zones data in 2018

(6)建筑物多边形数据与路网数据来源于宁波市国土局。
(7)人口数据包括2类:乡镇级人口统计数据和真实人口数据。前者源于中国人口普查数据[22],真实人口数据是以矢量点形式分布的人口数据,每个矢量点,代表一个人;来自宁波市国土局。真实人口数据是根据每个人的居住地址分配产生,因此比人口普查数据更精确,更能反应真实常住人口的详细空间分布,用于验证人口估计的精度。
(8)乡镇级行政边界数据(图5)来源于宁波市国土局。
图5 2018年宁波市街道乡镇

Fig. 5 Ningbo sub-district and town map in 2018

3 研究方法

3.1 指标选取

本文融合多种数据来估计人口,但这些数据本身往往相关,因此通过分析各变量因子与人口分布的相关性(R²),选取相关性高的变量作为解释变量来训练模型。一共考虑了18种变量因子,通过对比街道乡镇级别的人口密度与各指标的相关性大小,并且考虑到部分指标如大学、地铁等在宁波市分布较少,对于宁波城镇人口估算作用较小,最终选取相关性R²>0.7的12个变量来训练模型,包括建筑面积、到道路距离、夜间灯光强度、商服中心、EAHSI指数、幼儿园、公园、小学、加油站、医院、公交车站、长途汽车站(图6)。
图6 街道人口密度与解释变量的相关性

Fig. 6 Correlations between sub-district population and explanatory variables

3.2 技术路线

本文融合多源空间数据和城市功能区数据,并采用随机森林算法拟合多元非线性回归模型来估计精细尺度的城镇人口分布。估计方法主要包括 4个步骤(图7)。
图7 融合多源空间数据的城镇人口估计方法

Fig. 7 Estimating population distribution in cities and towns though fusing multi-source spatial data

(1)首先对夜光、Landsat 8和DEM等数据进行预处理,包括将所有空间数据统一转换到WGS-84坐标系,再投影到UTM(Universal Transverse Mercator)坐标系。建立宁波地区500 m的网格数据,以此来统计每个网格内的植被指数、夜光强度和POI核密度值等。
(2)结合城市功能区数据去除非居住区统计值,与乡镇街道行政边界叠加,得到乡镇街道单元的夜光强度、POI核密度、建筑总面积等数据。
(3)把街道单元统计指标作为解释变量,人口普查数据作为因变量,采用随机森林回归训练人口估算模型。
(4)对比分析估算的人口空间分布数据与实际人口数据,逐网格进行精度验证。

3.3 数据预处理

本文采用的与人口分布有关的数据包括:POI数据、道路、夜光强度、植被指数、DEM、改良的人类居住指数、建筑物多边形数据和城市功能区等数据。预处理流程如下:
(1)POI核密度计算
POI数据是离散分布的点数据。在研究POI与人口数据的依赖关系时,需要基于离散的POI数据估计连续密度分布,即计算每个栅格周围的点密度。因此对离散的各类POI点进行核密度分析,从而定量表达出网格单元各POI指标大小。
(2)道路距离计算
道路可达性与人口分布成正相关[1]。采用最邻近算法计算网格单元离各级道路的距离,并依据道路等级赋予相应权重,最终获得每个网格单元的交通可达性。
(3)夜光强度
采用双线性插值法将NPP/VIIRS夜间灯光数据的空间分辨率重采样为500 m。为消除夜光数据的偶然误差,计算NPP/VIIRS的年平均灯光数据(式(1))。
A _ R = 1 n i = 1 12 R i
式中: A _ R 为夜间灯光反射率平均值; R i 为第i月夜间灯光反射率。由于缺少6月数据,所以n=11。
为消除NPP/VIIRS数据背景噪声,取中国四大湖(鄱阳湖、洞庭湖、太湖、洪泽湖)的6个月平均湖心夜光值作为夜间灯光强度阈值,获得宁波地区NPP/VIIRS夜间灯光修正数据。最终确定平均夜光阈值为0.2954。
(4)人类居住指数改进
人类居住指数HSI(Human Settlement Index)是由夜间灯光和植被指数推导出的与人口分布相关的一个指标[17]。由于原始指标是基于低分辨率EVI植被数据的(250 m),本文对其进行了改进。本文使用了30 m分辨率Landsat 8影像提取的植被指数,NDVI(Normalized Difference Vegetation Index)的阈值依据下列原则确定:NDVI小于0时,一般认为是水体;NDVI值小于0.157,一般认为是城市;NDVI指数大于0.727时,完全被植被覆盖[23,24],因此本文NDVI阈值区间选为0.157~0.727之间。对NPP/VIIRS进行标准化处理(式(2))。
VIIR S nor = VIIRS - VIIR S min VIIR S max - VIIR S min
式中: VIIR S nor 为标准化的夜光值; VIIR S max 为最大夜光值; VIIR S min 为最小夜光值。
基于标准化后的夜光数据 VIIR S nor 和植被指数NDVI,可计算出人类居住指数HIS(式(3))。

HSI = ( 1 - NDVI ) + VIIR S nor ( 1 - VIIR S nor ) + NDVI + VIIR S nor × NDVI

式中: VIIR S nor 为标准化的夜光值; NDVI 为植被指数。
在中国,大多数居住区都位于低海拔地区。为了提高在更高空间分辨率下人口估计精度,解决未照明区HSI的高估问题,对HSI进行了高程修正。平均海拔高度和平均人口密度的回归结果表明,这两个变量高度相关。根据平均人口密度与平均海拔的关系,将HSI修正为方程EAHSI(图3),以考虑海拔对人类住区的影响。海拔高度低于250 m对人口分布没有显著影响。因此,只对250 m以上的像素进行校正(式(4))[17]
EAHSI = ( 1 - N DVI ) + VIIR S nor ( 1 - VIIR S nor ) + NDVI + VIIR S nor × NDVI × e - 0.003 DEM
式中: VIIR S nor 为标准化的夜光值; NDVI 为植被指数; DEM 为高程值。
(5)城镇功能区与建筑面积
城镇功能区数据反映了城镇地表形态、格局和城市功能,与人口分布密切相关。对高分辨率卫星影像和兴趣点(POI)数据进行提取和分类,可获得功能区数据,类别包括:居住区、商业区、工业区、学校等,总体分类精度达到85%,居住区精度高达92%。居住功能区数据很好地度量了人口分布的空间异质性问题,解决了人口空间分布位置不准确的问题。
建筑高度信息缺失一直是提高估计人口空间分布精度的一个限制因素。传统人口空间分布只利用建筑物多边形底部面积来分析与人口数量的关系。对于高层建筑,只统计建筑底面积可能低估人口。本文将对居住区细分为一类居住、二类居住和三类居住,可降低建筑高度信息缺失对人口估计的影响。

3.4 随机森林回归模型

随机森林回归方法可用于拟合人口分布与解释变量的非线性关系。随机森林是一种非参数化方法,允许各种数据类型参与分析,有利于学习不同类型数据间的相互作用关系[25]。作为决策树的集成估算器,随机森林算法允许学习、构建上百棵回归树,并基于这些回归树的结果,产生最终地估算结果。本文采用scikit-learn python库实现随机森林回归模型[26]来拟合各指标数据与人口分布间的关系。主要步骤如下:
(1)训练数据准备:为避免将人口分配到非居住区,采用城镇功能区数据直接提取居住区域和各指标数据,街道人口密度作为模型的自变量。
(2)样本和增长:为构建d颗回归树,基于Bootstrap方法从n个原始数据中提取k个训练样本,剩余的数据用于模型验证。在构造回归树时,从12个独立变量中随机选择mm<12)个变量作为候选分支节点。每个回归树从上到下递归生长,并且树的最大数量和树的层次是增长的终止条件。
(3)OOB验证:这d颗回归树构成随机森林模型,其估算性能通过袋外精度进行评估(式(5))。
(4)人口估算:通过随机森林回归模型来估算网格内人口数量。
R RF 2 = 1 - i = 1 m ( y i - y ˆ i ) 2 m σ ˆ 2 y
式中: y i 代表OOB响应变量; y ˆ i 是RF模型的估算值; σ ˆ y 2 是估算值的方差;m是OOB样本数。

3.5 精度验证

现有精度验证方法是将估算的网格人口汇总到街道统计单元与人口普查数据对比验证。我们拥有宁波市的真实人口数据,准确度高达90%。因此,不仅可在街道单元上进行精度验证,还可直接在网格级别进行精度验证。选取相对误差RE(Relative Error)、平均相对误差MRE(Mean Relative Error)、均方根误差RMSE(Root Mean Square Error)作为标准来进行评价。相对误差(RE)衡量网格和街道级别的估算精度(式(6))。
RE = PO P m - PO P a PO P a
式中: PO P m 是估计人口; PO P a 是实际人口。
对于估算人口整体准确性可以由RE绝对值的平均值MRE来度量(式(7))。
MRE = i = 1 n ( RE ) i n
式中:n是含有真实人口的网格数。
由于MRE只能估算含有真实人口的网格,对于原本没有人口却高估的网格无法显示出其误差影响,因此使用均方根误差RMSE来评估网格级别人口估算精度(式(8))。
RMSE = 1 n i = 1 n ( PO P m - PO P a ) 2
式中:n是含有真实人口以及估算人口网格总数;其中 PO P m 是估计人口;而 PO P a 是实际人口。

4 结果与分析

4.1 街道尺度结果分析

随机森林模型采用70%的样本来训练模型,30%的样本来验证估计模型的精度。图8为街道尺度人口密度预测值与真实值,其OOB验证精度为81.2%。
图8 街道尺度人口密度预测值与真实值

Fig. 8 Predicted and true values of street-level population density

由街道验证数据的相对误差RE图9)和整体平均相对误差MRE为0.29、RMSE为3279.89可知,人口估计模型整体精度相较于现有人口空间化模型得到了极大地提高。郭巨街道估算人口相对误差较大,RE误差为2.12。模拟人口误差最小的街道有4个:周巷镇、众和街道、岔路街、匡堰镇,RE误差分别为-0.03、-0.01、0.01、0.03。对相对误差较大的郭巨街道进行分析,发现其位于宁波市北仑区最东部,三面环海,夜间灯光数据可能受海水反射影响而过大;建筑大多以棚户为主,功能区分类时存在误分,因此在分配人口时产生了模拟值与实际值不符合的情况。
图9 2018年宁波市街道人口估算相对误差分布

Fig. 9 Relative error distribution map of Ningbo population estimation at sub-district level in 2018

4.2 格网尺度结果分析

本文采用宁波市国土局提供的真实人口分布点数据,对城镇人口估算精度进行检验。图10是随机森林模型估算的分辨率为500 m的宁波市人口网格分布图,每个网格代表该地区分布的人口数,网格颜色越深代表人口数越多。从图10可看出,估算人口和官方2018年发布的宁波市6区2县级市2县的人口分布高度相似,但是格网级别的人口空间分布具有更加精细的尺度,更能反映局部区域的人口分布。人口主要集中分布在宁波市中心区域,即海曙、江北、镇海、鄞州4个区交接区域。慈溪、余姚的人口分布呈现出由中心向两边扩散趋势。宁海、象山县的人口分布比较稀疏。
图10 2018年宁波市500 m网格人口空间分布

Fig. 10 Spatial distribution of Ningbo population at 500 meter grid in 2018

由网格人口误差分布图(图11)可知,网格级别的MRE为17.16,RMSE为1149.95,远小于现有工作在乡镇级别的RMSE[27],因此本文方法在街道尺度和网格尺度人口估算精度都得到了提升。由于网格级别人口分布较为分散,还对网格级别RMSE精度验证进行了分层估算探索。把网格人口数分为0~100、100~1000、1000~10 000和10 000人以上4个区间,相应的RMSE分别为396.06、471.97、2655.48和12 871.36。由分区后的结果可知,在网格人口数较大时模型拟合效果不太理想,可能与样本尺度大小选择有关。总体来说,融合多源空间数据的人口估算精度得到了很大的提升。
图11 2018年宁波市500 m网格人口相对误差分布

Fig. 11 Relative errors distribution of Ningbo population at 500 m grid in 2018

4.3 变量因子重要性

为评价各变量因子对人口估算的影响程度,对各变量因子重要性进行了评价。随机森林模型中变量的特征重要性是对拟合模型的影响程度。图12为本文人口估算模型的主要变量的特征重要性,对模型影响最大的变量是建筑面积,重要性约0.22。这说明如果这个变量不参与模型估算,将使模型的准确率下降22%。其他比较重要的变量有:到道路的距离、夜间灯光强度、商服中心、EAHSI(人类居住指数)、幼儿园、公园等。宁波市作为新兴发展城市,其基础设施如道路、照明等逐步完善,商务区与住宅区分化合理明确,因此建筑面积、道路、夜间灯光强度等变量因子与人口分布具有显著的相关性。城市发展具有集聚效应,周边的教育资源(如幼儿园)、休闲购物(如公园、商服中心)等基础设施同样对人口分布具有十分明显的影响,EAHSI(改善的人类居住指数)与人口分布同样具有较强相关性。
图12 人口估算模型主要变量的重要性分析

Fig. 12 Variable importance for population estimation model

人口分布往往与社会经济条件、生活设施以及交通便利度密切相关,通过变量因子的重要性图可以得出人口空间化过程中仅仅考虑夜光、不透水面等数据是较为片面的[6],会导致反演人口与夜光等数据形成强重叠性,容易造成人口的过高或过低估计。本研究揭示了到道路距离、商服中心等指标对人口空间分布同样具有重要贡献度,因此在人口空间化过程中应充分考虑这些因素的相互作用,共同影响人口空间分布估算。

5 结论与讨论

通过结合遥感、GIS等数据,构建人口空间化模型可以客观、详细地估算精细尺度城镇人口空间分布。现有人口估算模型不能有效地解决人口分布空间异质性的问题。因此,本文融合多源空间数据,通过构建随机森林回归模型,对宁波市城镇人口分布进行估算。采用城市功能区数据确定人口分布范围,对各统计指标进行分类清洗,能够很好地利用人口空间分布空间异质性规律。还对人类居住指数进行了改进,考虑POI和道路数据,增加了人口估算指标体系的丰富性。采用随机森林模型建模各指标对同一网格单元地相互作用,从而估算精细尺度的城镇人口空间分布。精度验证结果表明,本文人口估算模型在街道尺度估算精度优于现有方法。与真实人口点数据对比实验表明本文人口估算模型在精细尺度总体精度良好。研究表明:
(1)本文融合多种数据来估算人口,但这些数据本身往往是相关的,通过分析18种变量因子与人口分布的相关性(R²)。最终选取相关性R²>0.7的12个变量作为解释变量来估算人口,包括:建筑面积、到道路距离、夜间灯光强度、商服中心、EAHSI指数、幼儿园、公园、小学、加油站、医院、公交车站、长途汽车站。
(2)本文训练得到的街道尺度的估算模型精度为81.2%,街道验证数据的相对误差(图5)和整体平均相对误差MRE为0.29、RMSE为3279.89。因此,本文人口估算模型可以精确地估算出街道级别的人口空间分布。此外,还在网格尺度进行了精度验证,MRE为17.16,RMSE为1149.9,精度也满足实际需求。
(3)本文评价了各解释变量对人口估算的影响程度。对人口估算影响最大的变量是建筑面积,重要性约0.22;其次是到道路的距离、夜间灯光强度、商服中心、EAHSI(人类居住指数)、幼儿园、公园,这些变量对人口估算也具有重要作用。
本文方法在格网级别的人口估算精度存在部分MRE和RMSE过大的问题。可能有2个方面原因:解释变量不足(如缺乏手机信令数据),或者选取训练样本与估算样本尺度相差较大,导致部分网格过高或者过低估算人口。后续工作可将城市和农村地区分别建模,以解决区域跨度较大的问题,还将基于功能区数据进一步探讨人口的时空动态分布。
[1]
Ehrlich D, Melchiorri M, Florczyk A, et al. Remote sensing derived built-up area and population density to quantify global exposure to five natural hazards over time[J]. Remote Sensing, 2018,10(9):1378-1397.

DOI

[2]
Gaughan A E, Stevens F R, Linard C, et al. High resolution population distribution maps for southeast asia in 2010 and 2015[J]. PLoS One, 2013,8(2):e55882.

DOI PMID

[3]
Bakillah M, Liang S, Mobasheri A, et al. Fine-resolution population mapping using OpenStreetMap points-of-interest[J]. International Journal of Geographical Information Science, 2014,28(9):1940-1963.

DOI

[4]
Ural S, Hussain E, Shan J. Building population mapping with aerial imagery and GIS data[J]. International Journal of Applied Earth Observation and Geoinformation, 2011,13(6):841-852.

DOI

[5]
Holt J B, Lo C P, Hodler T W. Dasymetric estimation of population density and areal interpolation of census data[J]. Cartography and Geographic Information Science, 2004,31(2):103-121.

DOI

[6]
Bai Z, Wang J, Wang M, et al. Accuracy assessment of multi-source gridded population distribution datasets in China[J]. Sustainability, 2018,10(5):1363-1377.

DOI

[7]
Zhang Y, Gao J, Ni S. Use of normalized difference built-up index in automatically mapping urban areas from TM imagery[J]. International Journal of Remote Sensing, 2003,24(3):583-594.

DOI

[8]
Azar D, Graesser J, Engstrom R, et al. Spatial refinement of census population distribution using remotely sensed estimates of impervious surfaces in Haiti[J]. International Journal of Remote Sensing, 2010,31(21):5635-5655.

DOI

[9]
Ural S, Hussain E, Shan J. Building population mapping with aerial imagery and GIS data[J]. International Journal of Applied Earth Observation and Geoinformation, 2011,13(6):841-852.

DOI

[10]
张秋媛, 彭明春, 王崇云, 等. 基于DMSP/OLS夜间灯光数据的贵州省人口分布及影响因子分析[J]. 云南大学学报(自然科学版), 2019,41(5):992-1000.

[ Zhang Q Y, Peng M C, Wang C Y, et al. Population distribution of Guizhou Province based on DMSP/OLS night lighting data[J]. Journal of Yunnan University (Natural Sciences Edition, 2019,41(5):992-1000. ]

[11]
Stevens F R, Gaughan A E, Linard C, et al. Disaggregating census data for population mapping using random forests with remotely-sensed and ancillary data[J]. PLoS One, 2015,10(2):e107042.

[12]
Mossoux S, Kervyn M, Soulé H, et al. Mapping population distribution from high resolution remotely sensed imagery in a data poor setting[J]. Remote Sensing, 2018,10(9):1409.

DOI

[13]
Yao Y, Liu X, Li X, et al. Mapping fine-scale population distributions at the building level by integrating multisource geospatial big data[J]. International Journal of Geographical Information Science, 2017,31(6):1220-1244.

[14]
Liu L, Peng Z, Wu H, et al. Exploring urban spatial feature with dasymetric mapping based on mobile phone data and LUR-2SFCAe method[J]. Sustainability, 2018,10(7):2432.

DOI

[15]
淳锦, 张新长, 黄健锋, 等. 基于POI数据的人口分布格网化方法研究[J]. 地理与地理信息科学, 2018,34(4):89-95,130.

[ Chun J, Zhang X Z, Huang J F, et al. A gridding method of redistributing population based on POIs[J]. Geography and Geo-information science, 2018,34(4):89-95,130. ]

[16]
Zhang X, Du S, Wang Q. Hierarchical semantic cognition for urban functional zones with VHR satellite images and POI data[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2017,132:170-184.

[17]
Yang X, Yue W, Gao D. Spatial improvement of human population distribution based on multi-sensor remote-sensing data: an input for exposure assessment[J]. International Journal of Remote Sensing, 2013,34(15):5569-5583.

[18]
Elvidge C D, Baugh K E, Zhizhin M, et al. Why VIIRS data are superior to DMSP for mapping nighttime lights[J]. Proceedings of the Asia Pacific Advanced Network, 2013,35:62-69.

[19]
Liu H, Zhang Y, Zhang X, et al. Monitoring vegetation coverage in Tongren from 2000 to 2016 based on Landsat7 ETM+ and Landsat8[J]. Anais da Academia Brasileira de Ciencias, 2018,90(3):2721-2730.

DOI PMID

[20]
Morais J D, Faria T S, Elmiro M A T, et al. Altimetry assessment of ASTER GDEM v2 and SRTM v3 digital elevation models: A case study in urban area of belo horizonte, MG, BRAZIL[J]. Boletim De Ciências Geodésicas, 2017,23(4):654-668.

[21]
Yao Y, Li X, Liu X, et al. Sensing spatial distribution of urban land use by integrating Points of Interest and Google Word2Vec model[J]. International Journal of Geographical Information Science, 2016,31(4):1-24.

[22]
马忠东. 改革开放40年中国人口迁移变动趋势——基于人口普查和1%抽样调查数据的分析[J]. 中国人口科学, 2019(3):16-28,126.

[ Ma Z D. Trends of migration in china in four-decades of economic reform: an analysis based on censuses and 1% national population surveys[J]. Chinese Journal of Population Science, 2019(3):16-28,126. ]

[23]
白燕英, 高聚林, 张宝林. 基于Landsat8影像时间序列NDVI的作物种植结构提取[J]. 干旱区地理, 2019,42(4):893-901.

[ Bai Y Y, Gao J L, Zhang B L. Extraction of crop planting structure based on time-series NDVI of Landsat8 images[J]. Arid Land Geography, 2019,42(4):893-901. ]

[24]
Liang S, Liu T, Chen Z, et al. Remote sensing monitoring of drought based on landsat8 and NDVI-Ts characteristic space method[J]. International Conference on Computer & Computing Technologies in Agriculture, 2017,545:116-125. ]

[25]
Li K, Chen Y, Li Y. The random forest-based method of fine-resolution population spatialization by using the international space station nighttime photography and social sensing data[J]. Remote Sensing, 2018,10(10):1650.

[26]
Breiman L, Breiman L, Cutler R A. Random forests machine learning[J]. Journal of Clinical Microbiology, 2001,2:199-228.

[27]
胡云锋, 赵冠华, 张千力. 基于夜间灯光与LUC数据的川渝地区人口空间化研究[J]. 地球信息科学学报, 2018,20(1):68-78.

[ Hu Y F, Zhao G H, Zhang Q L. Spatial distribution of population data based on nighttime light and LUC data in the Sichuan Chongqing region[J]. Journal of Geo-information Science, 2018,20(1):68-78. ]

文章导航

/