Journal of Geo-information Science >
Spatialization of Population in the Bohai Rim Region Using Random Forest Model
Received date: 2021-08-31
Revised date: 2022-01-05
Online published: 2022-08-25
Supported by
National Natural Science Foundation of China(41971019)
Open Research Fund of National Earth Observation Data Center(NODAOP2020018)
The spatialization of population at a fine resolution can reflect the explicit size and detailed distribution of the population. It can provide fine-scale data sources for scientific research and policy making. As a national key area of urbanization development in China's main functional zoning and the intensive area of optimizing the development strategy layout, the Bohai Rim Region is one of the areas with relatively high population density and developed economy in China. In this study, the random forest model was applied to multi-source data and points of interest to estimate the population distribution in impervious areas with a spatial resolution of 30 m in the Bohai region. The estimated results were compared with those of the World Pop dataset and other regional studies with the same spatial resolution. Based on the results, the importance of input variables was analyzed. The results showed that the overall accuracy of the simulation predicted in this study was 10% higher than that of the World Pop dataset. Compared with the World Pop population data, the 30-m resolution of our result provided detailed information of population distributions in the Bohai Rim Region. Compared with research results in other regions at the same resolution, the accuracy was partially improved. Built-up areas and points-of-interest were the most important indicators of population distribution in the Bohai Rim. Social factors had a higher correlation with population distribution. The main factors affecting the population distribution varied from region to region.
GAO Xuemei , YANG Xuchao , CHEN Bairu , LIN Lin . Spatialization of Population in the Bohai Rim Region Using Random Forest Model[J]. Journal of Geo-information Science, 2022 , 24(6) : 1150 -1162 . DOI: 10.12082/dqxxkx.2022.210524
表1 数据来源及其类型Tab. 1 Data sources and types |
数据源 | 类型/分辨率 | 年份 | 数据来源 |
---|---|---|---|
人口统计数据 | 表格 | 2010 | 《中国统计年鉴2011》第六次人口普查资料 |
2020 | 环渤海地区各市第七次人口普查统计公报 | ||
高程 | 栅格/1'' | 美国宇航局(National Aeronautics and Space Administration,NASA)与日本经济产业省共同推出的ASTER GDEM V2数据集 | |
坡度 | 栅格/1'' | 基于DEM数据提取 | |
夜间灯光 | 栅格/30'' | 2010 | 美国国家海洋和大气管理局(National Oceanic and Atmospheric Administration,NOAA), DMSP/OLS传感器 |
栅格/500 m | 2020 | Chen等[39]生产的“类NPP-VIIRS”夜间灯光数据集 | |
NDVI | 栅格/250 m | 2010/2020 | MOD13Q1数据集 |
建成区 | 栅格/0.4'' | 2012 | 德国航空航天中心的全球城市足迹数据(Global Urban Footprint,GUF)[40] |
栅格/30 m | 2018 | Kuang等的CLUD-Urban产品[41] | |
POI | 矢量点 | 2010 | 百度地图开放平台 |
2020 | 高德地图开发平台 | ||
路网 | 矢量线 | 2011 | 中国科学院资源与环境数据中心 |
2019 | Open Street Map(OSM) | ||
WorldPop数据集 | 栅格/3'' | 2010/2020 | WorldPop项目官网 http://www.worldpop.org/ |
表2 POI数据类别及数量Tab. 2 POI data category and quantity |
数据来源 | 数据类别 | 数量/个 | 数据类别 | 数量/个 | 数据类别 | 数量/个 |
---|---|---|---|---|---|---|
百度地图开发平台 | 政府机构 | 79 721 | 高速服务区 | 4 756 | 医院 | 31 752 |
机场 | 84 | 收费站 | 2 637 | 学校科研院所 | 54 454 | |
轨道交通站点 | 2 477 | 银行 | 58 171 | 公司企业 | 134 335 | |
汽车站 | 1 409 | 商业大厦 | 5 864 | 公园广场 | 2 429 | |
公交车站 | 78 166 | 零售行业 | 159 441 | 住宅小区 | 32 753 | |
加油(气)站 | 22 649 | 宾馆酒店 | 21 539 | 其他 | 97 177 | |
停车场 | 25 963 | 餐饮娱乐业 | 131 853 | |||
高德地图开发平台 | 政府机关及社会团体 | 385 066 | 高速服务区 | 295 422 | 体育休闲服务 | 114 001 |
交通设施服务 | 435 451 | 收费站 | 97 633 | 生活服务 | 188 239 | |
加油(气)站 | 27 168 | 银行 | 43 109 | 风景名胜 | 83 195 | |
道路附属设施 | 7 434 | 商业大厦 | 130 917 | 公共设施 | 36 549 | |
金融保险服务 | 145 478 | 科教文化服务 | 495 534 | |||
商务住宅 | 215 414 | 公司企业 | 112 611 |
表3 2010年精度检验指标计算结果Tab. 3 Calculation results of accuracy test index in 2010 |
数据集 | MAE | RMSE | %RMSE | |
---|---|---|---|---|
环渤海地区 | 预测数据 | 11 240.09 | 18 942.01 | 49.02 |
WorldPop数据集 | 14 098.98 | 23 066.32 | 59.70 | |
辽宁省 | 预测数据 | 11 277.59 | 19 308.57 | 67.92 |
WorldPop数据集 | 13 916.92 | 23 646.23 | 83.17 | |
京津冀 | 预测数据 | 10 721.40 | 17 836.59 | 49.19 |
WorldPop数据集 | 13 058.71 | 22 040.99 | 60.78 | |
山东省 | 预测数据 | 12 962.12 | 20 213.69 | 40.01 |
WorldPop数据集 | 15 782.21 | 24 026.49 | 47.55 |
表4 2020年精度检验指标计算结果Tab. 4 Calculation results of accuracy test index in 2020 |
数据集 | 验证区域 | R2 | MAE | RMSE | %RMSE |
---|---|---|---|---|---|
本文结果 | 北京320个街道 | 0.6669 | 21 499.69 | 36 633.69 | 55.15 |
WorldPop数据集 | 北京320个街道 | 0.4488 | 27 501.50 | 47 121.44 | 70.94 |
表5 本文成果与其他30 m成果的研究区域和数据类型比较Tab. 5 Comparison of research areas and data types between the results of this paper and other 30 m research |
数据集 | 研究区域 | 面积/km2 | 数据种类 | 变量数量 | 解释变量 |
---|---|---|---|---|---|
Zhou等[23] | 重庆九城区 | 5472.68 | 夜间灯光、POI、水域、DEM、坡度 | 18 | 夜间灯光强度、14类POI核密度、与水体距离、高程、坡度 |
谭敏等[28] | 珠江三角洲 | 5.54万 | 夜间灯光、道路、水域、建成区、DEM、坡度 | 13 | 夜间光照强度、与道路的距离、与水的距离、坡度、高程、4种道路的长度等 |
本文成果 | 环渤海地区 | 51.8万 | 夜间灯光、道路、POI、建成区、NDVI、DEM、坡度 | 7 | 夜间灯光强度、道路核密度、融合后POI核密度、建成区、NDVI、高程、坡度 |
WorldPop 数据集 | 中美洲、南美洲、非洲和亚洲 | 土地利用、NPP、夜灯、平均年降水量 、平均年温度,POI、道路、河流、水体 | 74 | 13类土地利用(分类数据和欧式距离)、NPP、夜间灯光强度、平均年降水量 、平均年温度、、高程、坡度、到河流的距离、到道路的距离、20类POI(分类数据和欧式距离) |
注:NPP是净初级生产力(Net Primary Productivity)的缩写。 |
表6 本文成果与其他30 m成果的精度验证比较Tab. 6 Accuracy comparison between the results of this paper and other 30 m results |
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
贾建民, 袁韵, 贾轼. 基于人口流动的新冠肺炎疫情风险分析[J]. 中国科学基金, 2020, 34(6):667-674.
[
|
[7] |
|
[8] |
|
[9] |
胡云锋, 王倩倩, 刘越, 等. 国家尺度社会经济数据格网化原理和方法[J]. 地球信息科学学报, 2011, 13(5):573-578.
[
|
[10] |
柏中强, 王卷乐, 杨飞. 人口数据空间化研究综述[J]. 地理科学进展, 2013, 32(11):1692-1702.
[
|
[11] |
李军, 胡云峰. 我国经济社会统计数据空间均匀程度分析[J]. 地域研究与开发, 2009, 28(3):130-134.
[
|
[12] |
|
[13] |
|
[14] |
袁锦标, 曹永旺, 倪方舟, 等. 中国县域人口集聚空间格局及影响因素的空间异质性研究[J]. 地理与地理信息科学, 2020, 36(3):25-33.
[
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
付晶莹, 江东, 黄耀欢. 中国公里网格人口分布数据集[J]. 地理学报, 2014, 69(s1):41-44.
[
|
[21] |
邱歌. 基于随机森林模型的高精度人口数据空间化[D]. 呼和浩特: 内蒙古师范大学, 2019.
[
|
[22] |
董南, 杨小唤, 蔡红艳. 人口数据空间化研究进展[J]. 地球信息科学学报, 2016, 18(10):1295-1304.
[
|
[23] |
|
[24] |
王超, 阚瑷珂, 曾业隆, 等. 基于随机森林模型的西藏人口分布格局及影响因素[J]. 地理学报, 2019, 74(4):664-680.
[
|
[25] |
刘艺, 杨歆佳, 刘劲松. 基于随机森林的人口密度模型优化试验研究[J]. 全球变化数据学报(中英文), 2020, 4(4):402-416.
[
|
[26] |
|
[27] |
|
[28] |
谭敏, 刘凯, 柳林, 等. 于随机森林模型的珠江三角洲30 m格网人口空间化[J]. 地理科学进展, 2017, 36(10):1304-1312.
[
|
[29] |
廖顺宝, 孙九林. 基于GIS的青藏高原人口统计数据空间化[J]. 地理学报, 2003, 58(1):25-33.
[
|
[30] |
马钰琪, 朱秀芳, 刘宪锋, 等. 基于夜间灯光数据和多地理因子数据的人口空间化方法--以辽宁省为例[J]. 北京师范大学学报(自然科学版), 2015, 51(S1):57-61.
[
|
[31] |
胡云锋, 赵冠华, 张千力. 基于夜间灯光与LUC数据的川渝地区人口空间化研究[J]. 地球信息科学学报, 2018, 20(1):68-78.
[
|
[32] |
邹雅婧, 闫庆武, 黄杰, 等. 基于LJ1-01夜间灯光影像的苏锡常地区人口空间化研究[J]. 长江流域资源与环境, 2020, 29(5):1086-1094.
[
|
[33] |
王璇璇, 赵明松, 谢毅, 等. 基于NPP-VIIRS夜光遥感的江苏省人口数据空间化研究[J]. 黑龙江工程学院学报, 2020, 34(3):31-35.
[
|
[34] |
高义, 王辉, 王培涛, 等. 基于人口普查与多源夜间灯光数据的海岸带人口空间化分析[J]. 资源科学, 2013, 35(12):2517-2523.
[
|
[35] |
|
[36] |
朱守杰, 杜世宏, 李军, 等. 融合多源空间数据的城镇人口分布估算[J]. 地球信息科学学报, 2020, 22(8):1607-1616.
[
|
[37] |
淳锦, 张新长, 黄健锋, 等. 基于POI数据的人口分布格网化方法研究[J]. 地理与地理信息科学, 2018, 34(4):83-89.
[
|
[38] |
|
[39] |
|
[40] |
|
[41] |
|
[42] |
曾永明. 中国人口空间分布形态模拟与预测--基于“五普”和“六普”的分县尺度人口密度研究[J]. 人口与经济, 2016(6):48-61.
[
|
[43] |
|
[44] |
[45] |
|
[46] |
人民网-北京频道. 北京:争取明年或到后年陆续将第二批行政事业单位搬到副中心[EB/OL]. http://bj.people.com.cn/n2/2021/12 01/c233088-35031445.html, 2021-12-01
[ Beijing: Strive to move the second batch of administrative institutions to the sub-center next year or the following year[EB/OL]. http://bj.people.com.cn/n2/2021/12 01/c233088-35031445.html, 2021-12-01
|
[47] |
柏中强, 王卷乐, 杨雅萍, 等. 基于乡镇尺度的中国25省区人口分布特征及影响因素[J]. 地理学报, 2015, 70(8):1229-1242.
[
|
[48] |
|
[49] |
方瑜, 欧阳志云, 郑华, 等. 中国人口分布的自然成因[J]. 应用生态学报, 2012, 23(12):3488-3495.
[
|
[50] |
杨续超, 高大伟, 丁明军, 等. 基于多源遥感数据及DEM的人口统计数据空间化--以浙江省为例[J]. 长江流域资源与环境, 2013, 22(6):729-734.
[
|
/
〈 | 〉 |