Spatialization of Population in the Bohai Rim Region Using Random Forest Model

  • GAO Xuemei ,
  • YANG Xuchao , * ,
  • CHEN Bairu ,
  • LIN Lin
Expand
  • Ocean College, Zhejiang University, Zhoushan 316021, China
*YANG Xuchao

Received date: 2021-08-31

  Revised date: 2022-01-05

  Online published: 2022-08-25

Supported by

National Natural Science Foundation of China(41971019)

Open Research Fund of National Earth Observation Data Center(NODAOP2020018)

Abstract

The spatialization of population at a fine resolution can reflect the explicit size and detailed distribution of the population. It can provide fine-scale data sources for scientific research and policy making. As a national key area of urbanization development in China's main functional zoning and the intensive area of optimizing the development strategy layout, the Bohai Rim Region is one of the areas with relatively high population density and developed economy in China. In this study, the random forest model was applied to multi-source data and points of interest to estimate the population distribution in impervious areas with a spatial resolution of 30 m in the Bohai region. The estimated results were compared with those of the World Pop dataset and other regional studies with the same spatial resolution. Based on the results, the importance of input variables was analyzed. The results showed that the overall accuracy of the simulation predicted in this study was 10% higher than that of the World Pop dataset. Compared with the World Pop population data, the 30-m resolution of our result provided detailed information of population distributions in the Bohai Rim Region. ​Compared with research results in other regions at the same resolution, the accuracy was partially improved. Built-up areas and points-of-interest were the most important indicators of population distribution in the Bohai Rim. Social factors had a higher correlation with population distribution. The main factors affecting the population distribution varied from region to region.

Cite this article

GAO Xuemei , YANG Xuchao , CHEN Bairu , LIN Lin . Spatialization of Population in the Bohai Rim Region Using Random Forest Model[J]. Journal of Geo-information Science, 2022 , 24(6) : 1150 -1162 . DOI: 10.12082/dqxxkx.2022.210524

1 引言

人口数据是科学研究和政策制定的重要数据源,常应用于灾害风险评估[1-3]、城市发展规划[4]、公共卫生[5]、疫情防控[6]等领域。在过去的几十年里,世界上许多国家经历了人口的快速增长和城市大面积扩张,特别是发展中国家[7],不断增长的人口成为城市面临的主要挑战之一。人口信息的不确定性(如规模、位置和迁移)已成为许多政府迫切需要解决的决策问题[8]。人口普查数据是各种人口研究工作的主要数据来源,由于所需周期长,工作量大,成本高,通常每10年以行政区为统计单元发布。然而,在实际应用中人口普查数据有许多不足,如时间分辨率和空间分辨率低、直观表达性差、不支持空间运算和分析等[9]。随着计算机科学和遥感技术的发展,“经济社会数据空间化”逐渐成为学术界研究的热点[10-11],人口数据空间化是其中重要的研究方向之一。
人口数据空间化是利用参数和模型反演人口在一定时间和空间上分布情况的方法,对人口普查数据进行空间离散化处理,可以明确地反映人口的规模和详细分布。近些年来,人们开发了各种方法来将人口普查数据在空间上分解为网格单元,如面积加权[12]、地理加权回归[13-14]、分区密度制图[15-16]等。这些方法产生了许多覆盖大地理区域的网格化人口数据集,例如Gridded Population of the World (GPW)[17]、LandScan[18]、WorldPop[19]以及中国人口空间分布公里网格数据[20]等。上述数据集大多空间分辨率均为 1 km,较难满足精细化尺度的研究需求,譬如灾害风险精细化评估。WorldPop数据集[19]是目前空间分辨率最高的开放人口数据集,为中南美洲、南美洲、非洲和亚洲提供了100 m分辨率的人口网格数据,但由于其使用的开源众包OpenStreetMap数据在中国等许多发展中国家质量较低,使其精度仍有较大的提升空间[21]
分区密度制图(Dasymetric Mapping)是一种生成高分辨率人口空间数据的常用制图方法[22]。分区密度制图的思想是使用不同种类的辅助变量生成权重图层,利用这一图层重新分配人口普查数据。在生成权重图层的方法中,以往研究表明随机森林算法比线性回归模型具有更好的精度[23-24]。采用线性回归模型的人口数据集普遍存在过低估计城市区域人口和过高估计乡村区域人口的问题[25]。近年来,一些研究已经成功地使用随机森林模型来进行高分辨率的人口空间化模拟[19,26-27]。谭敏等[28]使用随机森林模型对珠江三角洲2010年人口数据进行了30 m网格空间化模拟。
使用分区密度制图法绘制人口分布图的准确性在很大程度上取决于所使用的辅助变量。遥感辅助变量(如夜间灯光影像和土地覆被数据)被广泛应用于人口空间化模拟[29-34]。然而,这些中等空间分辨率的遥感数据并不能直接指示人类活动的存在,尤其是不足以反映复杂城市环境下的人口分布。
近年来,迅猛发展的移动位置服务产生了海量的地理空间大数据,为人口空间化模拟提供了新的数据源。兴趣点(Points of Interest,POI)数据是基于移动设备和位置服务的地理空间矢量点,通常显示在数字地图上,提供详细的地理坐标。POI数据包含了无法从卫星图像中提取的语义信息,这是POI数据优于遥感图像的显著特征。不同种类的POI可以揭示不同的人类活动状况,弥补了遥感数据在复杂城市环境下人口稠密地区的不足。目前POI已成功应用于宏观尺度和微观尺度的人口数据空间化研究。在宏观尺度上主要有国家尺度的WorldPop数据集[19]以及Ye等[35]对中国大陆2010年人口数据进行了100 m网格空间化;在微观尺度上主要的研究表现在城市人口数据的空间化模拟,如Zhou等[23]、朱守杰等[36]和淳锦等[37]对重庆、宁波和深圳等城市人口空间分布研究。由于使用的辅助变量数据类型和精度的不同,同一地区的人口分布估算尺度及结果存在差异。如要获得精细尺度的人口分布图,仍需对特定的区域进行针对性的辅助变量研究。环渤海地区是我国人口密度较高、经济发达的地区之一,将多源遥感数据和包括POI在内的地理空间大数据融合可以提高该地区人口空间化的精度。
本研究的目的是将包含丰富语义信息的POI数据引入人口空间化研究,通过融合多源遥感数据,为环渤海地区绘制比WorldPop数据集更精细的人口分布图。先前的一项研究表明,30 m和50 m空间分辨率的人口数据比分辨率为100 m的数据精度更 高[37]。因此,本研究以30 m空间分辨率为环渤海地区绘制了2010年和2020年人口分布图。为实现研究目标,本研究选取了一种将不同类别的POI融合使用的方法[35,38],这样提高了县级人口格网重分配的运算效率。然后,使用街道级(即乡镇/街道)的人口普查数据评估分配的人口,并将本文的人口分布图与WorldPop数据集以及其他地区同分辨率的人口分布图进行比较。最后,本文还讨论了随机森林模型中不同变量对于人口空间再分配的重要性。

2 研究区域与数据来源

2.1 研究区域

环渤海地区包括北京、天津、河北、辽宁和山东5个省市,覆盖了京津冀、山东半岛和辽中南三大城市群(图1)。2010年,该区域总人口约为2.3亿人,约占全国同期总人口的17.5%;区域土地总面积约为51.8万km2,约占全国陆地总面积的5.49%,已利用土地面积占84%以上。环渤海地区地势西北高东南低,北部和西部为高原和山地,中部和东部绝大多数为平原地区,区域内河流众多。受东亚季风环流支配,环渤海地区气候主要表现为温带季风性气候,夏季高温多雨,常常伴有旱、涝、风、霜、雹等天气现象,成为我国北方风暴潮灾害的多发地区。独特的地势使人口集中在中部和东部沿海地区,灾害发生后会造成较大的人员和财产经济损失。因而研究环渤海地区的人口分布特征,可以为该地区灾害风险评估与救援提供技术支持。
图1 环渤海地区位置示意

Fig. 1 Location of the Bohai Rim region

2.2 数据收集及处理

本文使用的9种数据包括人口统计数据、数字高程模型(Digital Elevation Model,DEM)、夜间灯光、归一化差异植被指数(Normalized Difference Vegetation Index,NDVI)、遥感建成区数据、POI、路网数据以及WorldPop数据集,详细信息如表1所示。
表1 数据来源及其类型

Tab. 1 Data sources and types

数据源 类型/分辨率 年份 数据来源
人口统计数据 表格 2010 《中国统计年鉴2011》第六次人口普查资料
2020 环渤海地区各市第七次人口普查统计公报
高程 栅格/1'' 美国宇航局(National Aeronautics and Space Administration,NASA)与日本经济产业省共同推出的ASTER GDEM V2数据集
坡度 栅格/1'' 基于DEM数据提取
夜间灯光 栅格/30'' 2010 美国国家海洋和大气管理局(National Oceanic and Atmospheric Administration,NOAA), DMSP/OLS传感器
栅格/500 m 2020 Chen等[39]生产的“类NPP-VIIRS”夜间灯光数据集
NDVI 栅格/250 m 2010/2020 MOD13Q1数据集
建成区 栅格/0.4'' 2012 德国航空航天中心的全球城市足迹数据(Global Urban Footprint,GUF)[40]
栅格/30 m 2018 Kuang等的CLUD-Urban产品[41]
POI 矢量点 2010 百度地图开放平台
2020 高德地图开发平台
路网 矢量线 2011 中国科学院资源与环境数据中心
2019 Open Street Map(OSM)
WorldPop数据集 栅格/3'' 2010/2020 WorldPop项目官网 http://www.worldpop.org/
人口统计数据来自2010年和2020年的第六、七次人口普查资料,并与对应的矢量行政边界进行匹配。环渤海地区2010年区县共有443个单元(辽宁省100个,京津冀地区204个,山东省139个),乡镇/街道共有6108个单元;2020年区县共有435个单元(辽宁省100个,京津冀地区199个,山东省136个),乡镇/街道目前收集到北京320个单元的数据。区县级人口普查数据用于模型建立,而街道级数据仅用于模型准确性评估。由于中国区县人口密度符合对数正态分布[42],在统计各个区县的总占有土地面积后再进行计算各个区县的人口密度,将人口密度取对数后的结果作为模型因变量。
本研究中使用的DEM数据是第2代的ASTER GDEM,由美国NASA与日本经济产业省共同推出,空间分辨率为1″,在Albers等面积圆锥投影下采用双线性内插法重采样至30 m。坡度数据使用ArcGIS 10.2软件Spatial Analyst工具-表面分析-坡度工具,由DEM数据派生得到。
NDVI数据来源于MODIS卫星的遥感产品MOD13Q1数据集,时间分辨率为16 d,即一年可获取23期影像。采用平均值法合成NDVImean,计算公式如下:
N D V I m e a n = M E A N ( N D V I 1 , N D V I 2 , , N D V I 23 )
式中: N D V I m e a n为年平均植被指数, N D V I 1 , N D V I 2 , , N D V I 23为每期植被指数。NDVI原始数据空间分辨率为250 m,采用双线性内插法重采样至30 m。
建成区数据使用德国航空航天中心的全球城市足迹数据(GUF)[40],空间分辨率约12 m;Kuang等[41]的CLUD-Urban产品制作了2000—2018年的长时间序列的城市用地数据,空间分辨率30 m。夜间灯光数据来源于美国国家海洋和大气管理局(NOAA)DMSP/OLS传感器提供的2010年Global Radiance 校准夜间灯产品,空间分辨率约为1 km,下载地址为:https://ngdc.noaa.gov/eog/dmsp/download_radcal.html;Chen等[39]生产的“类NPP-VIIRS”夜间灯光数据集是依据DMSP-OLS稳定夜间灯光数据和NPP-VIIRS夜间灯光数据的长时间序列数据,空间分布率500 m。将2个数据均重投影到Albers投影坐标系下。3种内插方法中,双线性内插法计算较简单,线状特征的块状化现象少,具有几何精度较高等优点。因此,上述两种数据采用使用双线性内插法重采样到30 m分辨率。
POI是一种包含丰富空间语义信息的地理空间大数据,与人口分布有较高的相关性。本文的2010年POI数据来自于百度地图开放平台( https://lbsyun.baidu.com/),从Ye等[35]整理后的数据中提取了环渤海地区20类947 630个数据点。2020年POI数据来自高德地图开放平台( https://lbs.amap.com/api/android-sdk/guide/map-data/poi/),参照2010年百度POI的类别收集到16类2 813 241个数据点。具体分类及各类数量见表2
表2 POI数据类别及数量

Tab. 2 POI data category and quantity

数据来源 数据类别 数量/个 数据类别 数量/个 数据类别 数量/个
百度地图开发平台 政府机构 79 721 高速服务区 4 756 医院 31 752
机场 84 收费站 2 637 学校科研院所 54 454
轨道交通站点 2 477 银行 58 171 公司企业 134 335
汽车站 1 409 商业大厦 5 864 公园广场 2 429
公交车站 78 166 零售行业 159 441 住宅小区 32 753
加油(气)站 22 649 宾馆酒店 21 539 其他 97 177
停车场 25 963 餐饮娱乐业 131 853
高德地图开发平台 政府机关及社会团体 385 066 高速服务区 295 422 体育休闲服务 114 001
交通设施服务 435 451 收费站 97 633 生活服务 188 239
加油(气)站 27 168 银行 43 109 风景名胜 83 195
道路附属设施 7 434 商业大厦 130 917 公共设施 36 549
金融保险服务 145 478 科教文化服务 495 534
商务住宅 215 414 公司企业 112 611
对POI数据的预处理,先利用ArcGIS10.2软件对每一类POI数据进行核密度估计,然后基于R语言randomForest包度量各类POI核密度对人口密度对数的重要性。按照式(2)计算每类POI权重。最后依据各类POI权重,将20类POI核密度图层融合成一个图层,并统计每个区县的平均POI核密度。考虑到搜索半径对结果的影响[43],根据前人的研究[4,38],将2000、1000和500 m共3种尺度融合后的POI核密度成果和另外5种变量(夜间灯光数据、NDVI、路网核密度、高程和坡度)建立随机森林模型,取验证精度最高的500 m作为核密度带搜索半径(具体建模和验证过程见第3节研究方法)。
W i = % I n c M S E i k = 1 20 % I n c M S E k
式中: W i表示第i类POI核密度的权重; % I n c M S E i表示第i类POI核密度的%IncMSE值; k = 1 20 % I n c M S E k表示20类POI核密度%IncMSE值的合。%IncMSE值是均方误差增大百分比,R语言randomForest包回归方法采用%IncMSE值对变量因子进行重要性度量[21]%IncMSE值越大,说明变量的重要性就越高。2020年的高德POI数据采用同样的方法处理。
主要路网与人口分布有密切的关系[29],路网数据获取自中国科学院资源与环境科学数据中心( https://www.resdc.cn/)和Open Street Map(OSM)。选取国道、省道、县道和城市道路,采用与POI数据相同的处理方式进行核密度分析后,合并成路网核密度变量。

3 研究方法

3.1 随机森林和分区密度制图技术

随机森林(Random Forest,RF)是一种使用多棵树进行训练和预测的统计学习方法[44]。它可以处理高维数据集,具有较高的可靠性和较低的时间复杂度。随机森林模型基本原理是在Cart决策树中引入Bagging算法进行多次有放回随机抽样,然后训练得到单个决策树分类器,完成对集成模型的构建。其特点是具有灵活和稳定的框架,允许不同类型的数据在建模过程中相互作用。与其他传统回归模型相比,随机森林不仅能够实现准确的预测,还可以避免过分拟合,并对于异常数值和噪音具有很高的适应性和容忍度[45]。本文人口分区密度制图的权重层利用R语言的randomForest包实现。
人口空间化数据的构建由3个步骤实现:建模、预测、分区密度制图。① 建模过程以区县级数据建立随机森林模型。选取去除水体后30 m分辨率的夜间灯光数据、NDVI、路网核密度、GUF、POI核密度、高程和坡度在区县内的平均值作为模型的自变量,各区县的人口密度对数作为因变量,应用randomForest包来构建自变量和因变量间的关系模型。② 预测过程是将县级人口在格网尺度重分配的过程。将每个自变量的30 m网格数据作为模型输入数据,得到预测人口对数网格数据。将每个网格值指数化后,得到初步人口网格数据。③ 按照各区县人口总数将网格值重新分配,需要对第二步得到的初步人口网格数据进行分区密度制图。将第二步得到得人口数据作为权重层,按式(3)重新分配人口统计数据。重新分配后得人口网格数据,即为环渤海地区30 m×30 m人口分布空间化成果。
P O P i = P O P c o u n t y j = 1 c o u n t y W j × W i
式中: P O P i代表第i个网格的人口; W i代表该网格的预测值; j = 1 c o u n t y W j计算该网格所在区县内所有网格的预测值总和; P O P c o u n t y代表该区县总人口。

3.2 精度检验

为了反映空间化模型的精度水平,我们在环渤海地区选取2010年6108个和2020年320个乡镇/街道普查数据,分别对2010年和2020年依据区县级模拟的30 m人口空间化数据,进行准确性测试。方法是计算模拟结果的3个精度分析指标——均方根误差(Root Mean Square Error,RMSE)、平均绝对误差(Mean Absolute Error,MAE)和相对均方根误差(%RMSE),并与World Pop数据集相应指标进行对比衡量。MAE代表人口预测和人口统计之间的平均相对误差,取误差的绝对值,然后计算其平均值,以避免正负值相互抵消;RMSE是人口预测和人口统计之间的均方根误差,反映了人口预测和人口统计之间的偏差程度;%RMSE由均方根误差除以普查数的平均值得到,反映了模型模拟的整体准确性[19]

4 结果分析

4.1 人口空间化结果

运用R语言实现随机森林算法,辽宁、京津冀和山东3个地区建立模型的十次十折交叉验证结果分别为:2010年模型R2结果是0.96、0.95、0.89;2020年模型R2结果是0.97、0.94、0.90。环渤海地区2010年和2020年区县级人口数据30 m分辨率的空间化结果,如图2所示。图2(a)和图2(b)分别为2010年和2020年30 m×30 m分辨率的环渤海地区人口空间分布数据,每个像素代表网格范围(900 m2)内的人口数。
图2 环渤海地区30 m网格人口空间分布

Fig. 2 Spatial distribution of population on 30 m grid in the Bohai Rim

为了更直观地展示人口分布地区差异,将2020年成果转换为人口密度表示,如图2(c)。从格网尺度人口分布数量来看,该地区2020年人口数的值域在0~57之间,比2010年人口有明显增加(2010年的人口数在0~43之间)。人口密度超过2000 人/km2的地区基本分布在地级市。从空间化后人口分布趋势来看,环渤海地区人口主要分布在平原地区,人口聚集现象明显。北京天津2个超大城市是人口的主要聚集地。省会和2个港口城市(大连、青岛)也是人口分布的“热点”。3个地区人口分布有各自的特征。山东省总体较其他2个地区的总人口密度更高,人口密度基本均大于100 人/km2;京津冀地区人口分布北低南高,沿着邯郸-邢台-石家庄-保定-北京-秦皇岛一线有明显的分界线。该线的北侧和西侧绝大部分地区人口密度小于100 人/km2;辽宁省人口集中在中部平原地区和城市中心,大部分地区人口密度在1000 人/km2左右。
图2(d)是2010年和2020年的人口差值图,橙色和红色表示2020年的人口增加的地区,绿色表示2020人口减少的地区。从图中可以看出,2020年比2010年城市人口明显增加。从放大图中可以看出,北京中心城区人口明显下降,通州部分地区人口有明显增长。这与北京现在正在进行的城市副中心建设相吻合[46]。而其他城市(如沈阳等)人口仍然向中心城区聚集。

4.2 精度检验和对比验证

将2010年30 m人口空间化数据汇总统计到环渤海地区6108个乡镇/街道进行精度验证,并与WorldPop数据集进行对比。表3计算了2个数据集预测值与统计数据的MAERMSE%RMSE,其中MAERMSE的单位为人,%RMSE为百分比无量纲。本研究对于环渤海地区总体人口分布的预测结果MAE为11 240人,RMSE为18 942人,%RMSE为49.02%。地区总体预测值和省份预测值均优于WorldPop数据集的结果。省份预测值中,京津冀的预测误差最低,MAERMSE指数高于地区总体结果,分别为10 721人和17 836人,%RMSE值仅低于总体0.17%。山东省的MAE和RMSE指数是3个地区中最低的,分别比辽宁省的低1684人和905人,但该省的模拟精度最高,%RMSE值比总体精度高9%。
表3 2010年精度检验指标计算结果

Tab. 3 Calculation results of accuracy test index in 2010

数据集 MAE RMSE %RMSE
环渤海地区 预测数据 11 240.09 18 942.01 49.02
WorldPop数据集 14 098.98 23 066.32 59.70
辽宁省 预测数据 11 277.59 19 308.57 67.92
WorldPop数据集 13 916.92 23 646.23 83.17
京津冀 预测数据 10 721.40 17 836.59 49.19
WorldPop数据集 13 058.71 22 040.99 60.78
山东省 预测数据 12 962.12 20 213.69 40.01
WorldPop数据集 15 782.21 24 026.49 47.55
由于目前七普数据还未完全公布,目前仅收集到北京320个乡镇/街道数据对2020年空间化成果进行精度验证。2020年模拟结果的MAE为21 500人,RMSE为36 634人,%RMSE为55.15%,均优于WorldPop数据集,如表4所示。
表4 2020年精度检验指标计算结果

Tab. 4 Calculation results of accuracy test index in 2020

数据集 验证区域 R2 MAE RMSE %RMSE
本文结果 北京320个街道 0.6669 21 499.69 36 633.69 55.15
WorldPop数据集 北京320个街道 0.4488 27 501.50 47 121.44 70.94
图3展示了2010年预测人口密度与统计人口密度之间的对数线性关系。根据第六次人口普查数据计算的人口密度,将环渤海地区6093个街道样本分为3组:低人口密度组(绿色)和高人口密度组(紫色)各占总样本数的20%,中等人口密度组(橙色)占总数的60%。通过拟合直线表示预测值与统计值的接近程度,当直线的斜率越接近1,截距越接近0,可决系数R2越接近1时,表示预测结果越准确。剔除统计人口零值和空间位置对应错误的数据,剩下6093个街道样本。本文预测成果总体精度高于WorldPop数据集,R2从0.8664提高到0.907。在高人口密度组和中人口密度组,本研究预测结果的拟合系数和R2都高于WorldPop数据集;而在低人口密度组拟合系数虽略低于WorldPop,但R2(0.3783)仍优于WorldPop数据集。2个数据集均在人口高密度区域出现低估现象,在人口低密度区域出现高估现象。
图3 2种数据集的人口预测结果在街道水平上的验证

Fig. 3 Scatterplots of the predicted and the census population density at the township level

为了观察本文成果与WorldPop数据集空间可视化效果的差异,本文选取了3个不同人口密度的地区,对2个数据集进行比较,同时也将3个城市的模拟结果与谷歌高精度影像对比。图4按照人口密集程度多少,从上到下依次是北京城区、大连城区、青岛郊区。为了统一渲染的分级方式,将本文成果块统计到空间分辨率90 m,即网格值代表90 m网格内的人口数,与WorldPop数据集在Albers投影下的空间分辨率92.72 m接近。World Pop数据展示了大体相似的人口分布状态,但是缺少了很多分布细节信息。本文成果比WorldPop数据集展现了更加丰富的人口分布信息,具有更接近影像的空间化效果,减少了人口在非居住区的数量,更加符合实际人口分布趋势。
图4 2个数据集对比谷歌影像的空间显示效果

Fig. 4 Comparison of the spatial display effect of Google Image between two datasets

4.3 与同类产品对比

本文与Zhou等[23]和谭敏等[28]的研究成果均是2010年30 m空间分辨率的人口分布图,使用的研究方法都是利用随机森林模型生成权重层的分区密度制图技术,但使用的辅助数据、解释变量和制图区域有很大差异(表5)。Zhou等[23]使用14类POI数据分别作为自变量拟合到预测模型中,而没有融合到一层,模型计算量增大,不适合大区域人口空间化模拟。谭敏等[28]构建模型使用13种变量,其中有道路有关的变量有6种。路网密度与铁路长度、国道长度、省道长度、县道长度存在强线性关系[47],这5个变量同时参与模型建立,极大地增加了自变量的相关性。与前2个研究区域相比,本研究区域面积更大,分别约为前面2个的100倍和10倍。相较于前两项研究分别选择重庆市和广东省人口最稠密的地区作为研究区域,人口密度跨度较小。本研究的研究区域环境更加复杂,研究区域的人口密度跨度更大。人口密度最高的天津市河北区28 175.45 人/km2,人口密度最低的承德市丰宁县40.81 人/km2。WorldPop数据集采用的矢量数据(如POI数据)大多来自Open Street Map(OSM)。OSM数据在我国数据质量参差不齐。本文采用从百度地图获取的商业POI数据是由受过培训的专业人员收集并经过严格地检查和校对的,且广泛应用于百度地图和导航应用程序。因此,该数据的位置和信息描述准确性是可靠的。此外,考虑到不同的城市的结构模式在不同的地区有所不同,某些类别的兴趣点和人口密度之间的相关性可能会有所不同。本文的环渤海地区分区域计算POI权重,并对每个区域单独建模,在大区域人口模拟过程中是必要的。
表5 本文成果与其他30 m成果的研究区域和数据类型比较

Tab. 5 Comparison of research areas and data types between the results of this paper and other 30 m research

数据集 研究区域 面积/km2 数据种类 变量数量 解释变量
Zhou等[23] 重庆九城区 5472.68 夜间灯光、POI、水域、DEM、坡度 18 夜间灯光强度、14类POI核密度、与水体距离、高程、坡度
谭敏等[28] 珠江三角洲 5.54万 夜间灯光、道路、水域、建成区、DEM、坡度 13 夜间光照强度、与道路的距离、与水的距离、坡度、高程、4种道路的长度等
本文成果 环渤海地区 51.8万 夜间灯光、道路、POI、建成区、NDVI、DEM、坡度 7 夜间灯光强度、道路核密度、融合后POI核密度、建成区、NDVI、高程、坡度
WorldPop
数据集
中美洲、南美洲、非洲和亚洲 土地利用、NPP、夜灯、平均年降水量 、平均年温度,POI、道路、河流、水体 74 13类土地利用(分类数据和欧式距离)、NPP、夜间灯光强度、平均年降水量 、平均年温度、、高程、坡度、到河流的距离、到道路的距离、20类POI(分类数据和欧式距离)

注:NPP是净初级生产力(Net Primary Productivity)的缩写。

选取与其他2个数据集相似的地区(天津市226个街道)进行精度对比验证,计算结果如表6所示。本文%RMSE结果为14.81%,模拟精度优于广州结果;R2结果为0.6124,比重庆少了0.13。表6最后一行WorldPop数据集的4项精度指标均是最低,30 m的空间化数据精度明显高于100 m分辨率。
表6 本文成果与其他30 m成果的精度验证比较

Tab. 6 Accuracy comparison between the results of this paper and other 30 m results

数据集 验证区域 R2 MAE RMSE %RMSE
Zhou等[23] 重庆200个街道 0.7469 1 889.70 2 785.04 -
谭敏等[28] 广州166个街道 - 7 146.73 13 530.23 17.68
本文结果 天津226个街道 0.6124 12 709.01 7 188.96 14.81
WorldPop数据集 天津226个街道 0.3110 18 277.56 9 584.90 19.74

4.4 变量因子重要性

R语言随机森林回归方法基于袋外数据(Out-of-Bag,OOB),采用平均精度减少法(%IncMSE值)对变量因子进行重要性度量[21]。%IncMSE值(均方误差增大百分比)越高,说明变量对RF回归的重要性就越大。图5显示了随机森林模型中变量因子对人口估算的影响程度。
图5 由随机森林模型生成的变量因素排序

Fig. 5 The importance ranking diagram of variable factors generated by the random forest model

根据图5可知,GUF和POI是模拟人口最重要的变量因子。这2个变量在3个省份地区中%IncMSE值都很高。虽然以DMSP/OLS为代表的的夜间灯光数据(Nighttime Light,NTL)被广泛用于人口估计[34],但像元溢出效应(Blooming Effect)和过饱和现象,限制了夜间灯光数据在精确估计人口分布方面的作用[13]。其中,像元溢出效应是一个主要的问题,导致夜间灯光数据的光照面积比实际城市面积大得多[48]。因此,在城市内部,POI能更好反映精细尺度的人口分布。此外,在高分辨率人口估计中,夜间灯光数据的空间分辨率限制也是夜间灯光重要性低于POI和GUF重要的原因之一。
地形因素在环渤海地区的重要性相对并不高,这与其他文章的研究结果[47,49]并不一致。但是地形因子在京津冀地区重要性相对较高,原因是该区域地貌差异较大,同时有高原(坝上草原)和平原,这 2种海拔差较大地貌形态。由于人口分布对平原低地的趋向性,人口分布两极化严重,人口空间异质性明显。
人口的分布不仅主要受自然环境条件的影响,更深受生产力发展水平制约。图5中,社会因素(POI、GUF等)的重要性值明显地高于自然因素(如地形等),表明社会因素比其他自然因素与人口分布的相关性更高。从3个区域总体%IncMSE值看,京津冀地区的变量重要性值普遍很高,辽宁省的变量重要性值差异很大。各个变量在不同地区的%IncMSE值也不尽相同,表明映射人口分布的主要因素因地区而异。

5 结论与讨论

随着计算机科学和遥感技术的发展,高分辨率的遥感数据和海量的地理空间大数据为反演更精确的人口数据提供了新的机会。本文利用夜灯、路网、兴趣点、建成区等多源遥感数据,基于随机森林模型和分区密度制图技术,将环渤海地区2010年和2020年的人口数据以30 m的分辨率进行空间化。精度验证结果表明,本文人口估算模型在街道尺度估算精度优于WorldPop数据集10%以上,对不同人口密度区域有更高的模拟精度。与100 m人口空间化数据在空间可视化效果差异体现在,本文30 m成果展现出了很多的卫星遥感影像所具备的空间特征,拥有更加丰富的人口分布信息,更加符合实际人口分布特征,与其他地区同类产品相比,模拟精度有部分提升。通过对变量因子重要性的度量,发现遥感建成区数据和POI是环渤海地区人口分布的最重要指示性指标,说明社会性因子在人口空间再分配有更高的相关性。地区间的变量重要性差异揭示了不同地区影响人口的因子有所不同。
本研究方法的不足与展望:① 目前常用的夜间灯光数据空间分辨率最高仅有500 m,虽然预处理时将其重采样为30 m,达到分辨率的空间统一,但该数据分辨率过低的问题并未从根本上解决。后续研究尝试引入替代数据以提高该数据的分辨率,例如人居指数[50]等;② 由于随机森林模型依赖于训练样本,即样本的范围决定了预测值的域,因此它不能完全揭示复杂地区的人口分布特征。后续研究设想对研究区域使用多种统计模型,探索人口空间量化的机制,更精确合理地选变量因子。
[1]
Aubrecht C, özceylan D, Steinnocher K, et al. Multi-level geospatial modeling of human exposure patterns and vulnerability indicators[J]. Natural Hazards, 2013, 68(1):147-163. DOI: 10.1007/s11069-012-0389-9

DOI

[2]
Zeng J, Zhu Z Y, Zhang J L, et al. Social vulnerability assessment of natural hazards on county-scale using high spatial resolution satellite imagery: A case study in the Luogang district of Guangzhou, South China[J]. Environmental Earth Sciences, 2012, 65(1):173-182. DOI: 10.1007/s12665-011-1079-8

DOI

[3]
Ahola T, Virrantaus K, Krisp J M, et al. A spatio-temporal population model to support risk assessment and damage analysis for decision-making[J]. International Journal of Geographical Information Science: Geovisual Analytics for Spatial Decision Support, 2007, 21(8):935-953. DOI: 10.1080/13658810701349078

DOI

[4]
Yao Y, Liu X, Li X, et al. Mapping fine-scale population distributions at the building level by integrating multisource geospatial big data[J]. International Journal of Geographical Information Science, 2017, 31(6):1220-1244. DOI: 10.1080/13658816.2017.1290252

DOI

[5]
Jia P, Sankoh O, Tatem A J. Mapping the environmental and socioeconomic coverage of the INDEPTH international health and demographic surveillance system network[J]. Health & Place, 2015, 36:88-96. DOI: 10.1016/j.healthplace.2015.09.009

DOI

[6]
贾建民, 袁韵, 贾轼. 基于人口流动的新冠肺炎疫情风险分析[J]. 中国科学基金, 2020, 34(6):667-674.

[ Jia J M, Yuan Y, Jia S. Risk Analysis of COVID-19 Based on Population Flow[J]. China Science Foundation, 2020, 34(6):667-674. ] DOI: 10.16262/j.cnki.1000-8217.2020.06.003

DOI

[7]
Gaughan A E, Stevens F R, Linard C, et al. High resolution population distribution maps for southeast Asia in 2010 and 2015[J]. PLoS One, 2013, 8(2):e55882. DOI: 10.1371/journal.pone.0055882

DOI

[8]
Su H, Wei H, Zhao J. Density effect and optimum density of the urban population in China[J]. Urban Studies, 2016, 54(7):1760-1777. DOI: 10.1177/0042098015624839

DOI

[9]
胡云锋, 王倩倩, 刘越, 等. 国家尺度社会经济数据格网化原理和方法[J]. 地球信息科学学报, 2011, 13(5):573-578.

DOI

[ Hu Y F, Wang Q Q, Liu Y, et al. Index system and transferring methods to build the national society and economy grid database[J]. Journal of Geo-information Science, 2011, 13(5):573-578. ]

DOI

[10]
柏中强, 王卷乐, 杨飞. 人口数据空间化研究综述[J]. 地理科学进展, 2013, 32(11):1692-1702.

DOI

[ Bo Z Q, Wang J L, Yang F. Research progress in spatialization of population data[J]. Progress in Geography, 2013, 32(11):1692-1702. ] DOI: 10.11820/dlkxiz.2013.11.012

DOI

[11]
李军, 胡云峰. 我国经济社会统计数据空间均匀程度分析[J]. 地域研究与开发, 2009, 28(3):130-134.

[ Li J Hu Y F. Study on the spatial unifomity of economic and social index based on geographic infomation system[J]. Areal Research and Dvelopment, 2009, 28(3):130-134. ] DOI: 10. 3969/j.issn.1003-2363.2009.03.029

DOI

[12]
Bakillah M, Liang S, Mobasheri A, et al. Fine-resolution population mapping using OpenStreetMap points-of-interest[J]. International Journal of Geographical Information Science, 2014, 28(9):1940-1963. DOI: 10.1080/13658816.2014.909045

DOI

[13]
Wang L, Wang S, Zhou Y, et al. Mapping population density in China between 1990 and 2010 using remote sensing[J]. Remote Sensing of Environment, 2018, 210:269-281. DOI: 10.1016/j.rse.2018.03.007

DOI

[14]
袁锦标, 曹永旺, 倪方舟, 等. 中国县域人口集聚空间格局及影响因素的空间异质性研究[J]. 地理与地理信息科学, 2020, 36(3):25-33.

[ Yuan J B, Cao Y W, Ni F Z, et al. A study on the spatial pattern of county population agglomeration and the spatial heterogeneity of Its influencing factors in China[J]. Geography and Geo-Information Science, 2020, 36(3):25-33. ] DOI: 10.3969/issn.1672-0504.2020.03.004

DOI

[15]
Lin J, Cromley R G. Evaluating geo-located Twitter data as a control layer for areal interpolation of population[J]. Applied Geography, 2015, 58:41-47. DOI: 10.1016/j.apgeog.2015.01.006

DOI

[16]
Qiu F, Cromley R. Areal interpolation and dasymetric modeling[J]. Geographical Analysis, 2013, 45(3):213-215. DOI: 10.1111/gean.12016

DOI

[17]
Balk D L, Deichmann U, Yetman G, et al. Determining global population distribution: methods, applications and data[J]. Adv Parasitol, 2006, 62:119-156. DOI: 10.1016/S0065-308X(05)62004-0

DOI

[18]
Bhaduri B, Bright E, Coleman P, et al. LandScan USA: A high-resolution geospatial and temporal modeling approach for population distribution and dynamics[J]. GeoJournal, 2007, 69(1-2):103-117. DOI: 10.1007/s10708-007-9105-9

DOI

[19]
Stevens F R, Gaughan A E, Linard C, et al. Disaggregating census data for population mapping using random forests with remotely-sensed and ancillary data[J]. PLoS One, 2015, 10(2):e107042. DOI: 10.1371/journal.pone.0107042

DOI

[20]
付晶莹, 江东, 黄耀欢. 中国公里网格人口分布数据集[J]. 地理学报, 2014, 69(s1):41-44.

DOI

[ Fu J Y, Dong J, Huan H Y. PopularionGrid_ China[J]. Acta Geographica Sinica, 2014, 69(s1):41-44. ] DOI: 10.11821/dlxb2014S006

DOI

[21]
邱歌. 基于随机森林模型的高精度人口数据空间化[D]. 呼和浩特: 内蒙古师范大学, 2019.

[ Qiu G. High-resolution population mapping using a random forest model: A case study in Zhengzhou, China[D]. Hohhot: Inner Mongolia Teaching University, 2019. ]

[22]
董南, 杨小唤, 蔡红艳. 人口数据空间化研究进展[J]. 地球信息科学学报, 2016, 18(10):1295-1304.

DOI

[ Dong N, Yang X H, Cai H Y. Research progress and perspective on the spatialization of population data[J]. Journal of Geo-information Science, 2016, 18(10):1295-1304. ] DOI: 10.3724/SPJ.1047.2016.01295

DOI

[23]
Zhou Y, Ma M, Shi K, et al. Estimating and interpreting fine-scale gridded population using random forest regression and multisource data[J]. ISPRS International Journal of Geo-Information, 2020, 9(6):369. DOI: 10.3390/ijgi9060369

DOI

[24]
王超, 阚瑷珂, 曾业隆, 等. 基于随机森林模型的西藏人口分布格局及影响因素[J]. 地理学报, 2019, 74(4):664-680.

DOI

[ Wang C, Kan A K, Zeng Y L, et al. Population distribution pattern and influencing factors in Tibet based on random forest model[J]. Acta Geographica Sinica, 2019, 74(4):664-680. ] DOI: 10.11821/dlxb201904004

DOI

[25]
刘艺, 杨歆佳, 刘劲松. 基于随机森林的人口密度模型优化试验研究[J]. 全球变化数据学报(中英文), 2020, 4(4):402-416.

[ Liu Y, Yang X J, Liu J S. Experimental study on optimization of population density models based on random forest[J]. Global Change Research Data Publishing & Repository, 2020, 4(4):402-416. ] DOI: 0.3974/geodp.2020.04.15

DOI

[26]
Gaughan A E, Stevens F R, Huang Z, et al. Spatiotemporal patterns of population in mainland China, 1990 to 2010[J]. Scientific Data, 2016, 3(1):160005. DOI: 10.1038/sdata.2016.5

DOI

[27]
Sorichetta A, Hornby G M, Stevens F R, et al. High-resolution gridded population datasets for Latin America and the Caribbean in 2010, 2015, and 2020[J]. Scientific Data, 2015, 2(1):150045. DOI: 10.1038/sdata.2015.45

DOI

[28]
谭敏, 刘凯, 柳林, 等. 于随机森林模型的珠江三角洲30 m格网人口空间化[J]. 地理科学进展, 2017, 36(10):1304-1312.

DOI

[ Tan M, Liu K, Liu L, et al. Spatialization of population in the Pearl River Delta in 30m grids using random forest model[J]. Progress in Geography, 2017, 36(10):1304-1312. ] DOI: 10.18306/dlkxiz2017.10.012

DOI

[29]
廖顺宝, 孙九林. 基于GIS的青藏高原人口统计数据空间化[J]. 地理学报, 2003, 58(1):25-33.

[ Liao S B, Sun J L. GIS based spatialization of population census data in Qinghai-Tibet Plateau[J]. Acta Geographica Sinica, 2003, 58(1):25-33. ] DOI: 10.11821/xb200301004.

DOI

[30]
马钰琪, 朱秀芳, 刘宪锋, 等. 基于夜间灯光数据和多地理因子数据的人口空间化方法--以辽宁省为例[J]. 北京师范大学学报(自然科学版), 2015, 51(S1):57-61.

[ Ma Y Q, Zhu X F, Liu X F, et al. A population spatialization method based on DMSP/OLS night time light data and weighted multi-geographic factors: The example of Liaoning Province[J]. Journal of Beijing Normal University (Natural Science), 2015,51( S1):57-61. ] DOI: 10.16360/j.cnki.bruns.2015.s1.009

DOI

[31]
胡云锋, 赵冠华, 张千力. 基于夜间灯光与LUC数据的川渝地区人口空间化研究[J]. 地球信息科学学报, 2018, 20(1):68-78.

DOI

[ Hu Y F, Zhao G H, Zhang Q L. Spatial distribution of population data based on nighttime light and LUC data in the Sichuan-Chongqing Region[J]. Journal of Geo-information Science, 2018, 20(1):68-78. ] DOI: 10.12082/dqxxkx.2018.170224

DOI

[32]
邹雅婧, 闫庆武, 黄杰, 等. 基于LJ1-01夜间灯光影像的苏锡常地区人口空间化研究[J]. 长江流域资源与环境, 2020, 29(5):1086-1094.

[ Zou Y J, Yan Q W, Huang J, et al. Modeling the population density of Su-Xi-Chang Region based on Luojia-1A nighttime light image[J]. Resources and Environment in the Yangtze Basin, 2020, 29(5):1086-1094. ] DOI: 10.11870/cjlyzyyhj202005004

DOI

[33]
王璇璇, 赵明松, 谢毅, 等. 基于NPP-VIIRS夜光遥感的江苏省人口数据空间化研究[J]. 黑龙江工程学院学报, 2020, 34(3):31-35.

[ Wang X X, Zhao M S, Xie Y, et al. Research on the population data spatialization based on NPP-VIIRS nighttime light data in Jiangsu Province[J]. Journal of Heilongjiang Institute of Technology, 2020, 34(3):31-35. ] DOI: 10.19352/j.cnki,issnI671-4679.2020.03,007

DOI

[34]
高义, 王辉, 王培涛, 等. 基于人口普查与多源夜间灯光数据的海岸带人口空间化分析[J]. 资源科学, 2013, 35(12):2517-2523.

[ Gao Y, Wang H, Wang P T, et al. Population spatial processing for Chinese coastal zones based on census and multiple night light data[J]. Resources Science, 2013, 35(12):2517-2523. ] DOI: CNKI:SUN:ZRZY.0.2013-12-024

DOI

[35]
Ye T, Zhao N, Yang X, et al. Improved population mapping for China using remotely sensed and points-of-interest data within a random forests model[J]. Science of The Total Environment, 2019, 658:936-946. DOI: 10.1016/j.scitotenv.2018.12.276

DOI

[36]
朱守杰, 杜世宏, 李军, 等. 融合多源空间数据的城镇人口分布估算[J]. 地球信息科学学报, 2020, 22(8):1607-1616.

[ Zhu S J, Du S H, Li J, et al. Estimating population distribution in cities and towns though fusing multi-source spatial data[J]. Journal of Geo-information Science, 2020, 22(8):1607-1616. ] DOI: 10.12082/dqxxkx.2020.190783

DOI

[37]
淳锦, 张新长, 黄健锋, 等. 基于POI数据的人口分布格网化方法研究[J]. 地理与地理信息科学, 2018, 34(4):83-89.

[ Chun J, Zhang X C, Huang J F, et al. A gridding method of redistributing population based on POIs[J]. Geography and Geo-information Science, 2018, 34(4):83-89. ] DOI: 10.3969/j.issn.1672-0504.2018.04.013

DOI

[38]
Yang X, Yao C, Chen Q, et al. Improved estimates of population exposure in low-elevation coastal zones of China[J]. International Journal of Environmental Research and Public Health, 2019, 16(20):4012. DOI: 10.3390/ijerph16204012

DOI

[39]
Chen Z, Yu B, Yang C, et al. An extended time series (2000-2018) of global NPP-VIIRS-like nighttime light data from a cross-sensor calibration[J]. Earth System Science Data, 2021, 13(3):889-906. DOI: 10.5194/essd-13-889-2021

DOI

[40]
Esch T, Heldens W, Hirner A, et al. Breaking new ground in mapping human settlements from space-The Global Urban Footprint[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2017, 134:30-42. DOI: 10.1016/j.isprsjp rs.2017.10.012

DOI

[41]
Kuang W, Zhang S, Li X, et al. A 30 m resolution dataset of China's urban impervious surface area and green space, 2000-2018[J]. Earth System Science Data, 2021, 13(1): 63-82. DOI: 10.5194/essd-13-63-2021

DOI

[42]
曾永明. 中国人口空间分布形态模拟与预测--基于“五普”和“六普”的分县尺度人口密度研究[J]. 人口与经济, 2016(6):48-61.

[ Zeng Y M Simulation and projection on the pattern of Chinese population spatial distribution: research with population density of county level based on the 5th and 6th population census of China[J]. Population & Economics, 2016(6):48-61. ] DOI: 10.3969/j.issn.1000-4149.2016.06.005

DOI

[43]
Shi X, Li M, Hunter O, et al. Estimation of environmental exposure: interpolation, kernel density estimation or snapshotting[J]. Annals of GIS, 2018, 25(1):1-8. DOI: 10.1080/19475683.2018.1555188

DOI

[44]
Breiman L. Random Forest[J]. Machine Learning, 2001, 45(1):5-32. DOI: 10.1023/A:1010933404324

DOI

[45]
Breiman L. Statistical Modeling: The Two Cultures[J]. Statistical Science, 2001, 16(3):199-231. DOI: 10.1214/ss/1009213726

DOI

[46]
人民网-北京频道. 北京:争取明年或到后年陆续将第二批行政事业单位搬到副中心[EB/OL]. http://bj.people.com.cn/n2/2021/12 01/c233088-35031445.html, 2021-12-01

[ Beijing: Strive to move the second batch of administrative institutions to the sub-center next year or the following year[EB/OL]. http://bj.people.com.cn/n2/2021/12 01/c233088-35031445.html, 2021-12-01

[47]
柏中强, 王卷乐, 杨雅萍, 等. 基于乡镇尺度的中国25省区人口分布特征及影响因素[J]. 地理学报, 2015, 70(8):1229-1242.

DOI

[ Bo Z Q , Wang J L, Yang Y P, et al. Characterizing spatial patterns of population distribution at township level across the 25 provinces in China[J]. Acta Geographica Sinica, 2015, 70(8):1229-1242. ] DOI: 10.11821/dlxb201508004

DOI

[48]
Liu Y, Delahunty T, Zhao N, et al. These lit areas are undeveloped: Delimiting China's urban extents from thresholded nighttime light imagery[J]. International Journal of Applied Earth Observation and Geoinformation, 2016, 50: 39-50. DOI: 10.1016/j.jag.2016.02.011

DOI

[49]
方瑜, 欧阳志云, 郑华, 等. 中国人口分布的自然成因[J]. 应用生态学报, 2012, 23(12):3488-3495.

[ Fang Y, Ouyang Z Y, Zheng H, et al. Natural forming causes of China population distribution[J]. Chinese Journal of Applied Ecology, 2012, 23(12):3488-3495. ] DOI: 10.13287/j.1001-9332.2012.0434

DOI PMID

[50]
杨续超, 高大伟, 丁明军, 等. 基于多源遥感数据及DEM的人口统计数据空间化--以浙江省为例[J]. 长江流域资源与环境, 2013, 22(6):729-734.

[ Yang X CB, Gao D W, Ding M J, et al. Modeling population density using multi-sensor remote sensing data and DEM: A case study of Zhejing Province[J]. Resources and Environment in the Yangtze Basin, 2013, 22(6):729-734. ]

Outlines

/