基于居住区识别和改进随机森林的山地城市人口 空间化方法
唐思怡(2000— ),女,重庆南岸人,硕士生,主要从资源环境遥感与GIS应用相关研究。E-mail: syitang@163.com |
Copy editor: 黄光玉 , 蒋树芳
收稿日期: 2024-12-17
修回日期: 2025-01-09
网络出版日期: 2025-03-25
基金资助
国家自然科学基金项目(42071277)
重庆市自然科学基金项目(CSTB2023NSCQ-MSX0643)
A Spatialization Method for Mountain Urban Population Based on Residence Identification and Improved Random Forest
Received date: 2024-12-17
Revised date: 2025-01-09
Online published: 2025-03-25
Supported by
National Natural Science Foundation of China(42071277)
Chongqing Natural Science Foundation of China(CSTB2023NSCQ-MSX0643)
【目的】地形导致了山地城市人口空间分布差异极大。山地城市的人口空间分布信息对科学研究和地区的政策制定、资源配置、灾害评估与防护等领域具有重要意义。【方法】为准确反映山地城市人口分布,本文提出了一种基于居住区识别和改进随机森林的山地城市人口空间化方法。该方法先识别了居住区格网并应用到特征提取阶段,避免了将人口分配到非居住区。然后,构建了山地城市特征变量数据集,考虑了山地城市人口分布的空间异质性和复杂性,通过GMM聚类算法对特征变量集进行聚类。采用Bootstrap采样法从各类中随机抽取等量的数据形成新的特征变量集并作为训练数据构建随机森林模型,实现了传统随机森林模型的改进。为验证该方法的有效性,本文以山地城市重庆市为实验区,得到了重庆市150 m格网人口空间化结果,将本方法模拟结果与传统随机森林模型、WorldPop数据集和LandScan数据集进行对比,并基于随机森林模型对各特征变量进行了重要性度量。【结果】本文方法的模拟结果整体精度达到82.9%,比传统随机森林模型的模拟结果提高了2.7%,比WorldPop数据集和LandScan数据集分别提高了2.94%和10.91%。在整个实验区,与WorldPop数据集和LandScan数据集相比,本文方法的MAE分别降低了212.63和35.11,RMSE分别降低了1 354.34和524.54;在高密度丘陵区和山地地区,本文方法的精度更好,展现出本文方法对山地城市人口空间化的有效性。【结论】此外,本文方法的模拟结果在不同人口密度区和不同地形区表现出比2个已开放的人口数据集更明显的人口分布异质性特征,展现了更为丰富的人口密度信息。
唐思怡 , 闵婕 . 基于居住区识别和改进随机森林的山地城市人口 空间化方法[J]. 地球信息科学学报, 2025 , 27(4) : 900 -914 . DOI: 10.12082/dqxxkx.2025.240692
[Objectives] The spatial distribution of the urban population in mountainous cities varies significantly due to the topography of the area. Information on the spatial distribution of populations in mountainous cities is crucial for scientific research, regional policymaking, resource allocation, and disaster assessment and protection. [Methods] Therefore, to accurately address the population distribution in these cities, this paper proposes a spatialization method based on residential identification and an improved random forest model. This method accounts for the spatial heterogeneity of population distribution in mountainous cities. To avoid assigning populations to non-residential areas, the grid of residential areas is first identified, and this grid is used during the feature variable selection stage. Next, a dataset of feature variables that reflect the characteristics of mountain cities is constructed. The spatial heterogeneity of population distribution is considered, and the feature variable set is clustered using the Gaussian Mixture Model algorithm. The Bootstrap sampling method is then used to randomly select an equal number of feature variables from each category, merging them into a new feature variable set, which is used as the training data to construct the Random Forest Model, thereby improving the traditional random forest approach. To verify the validity of the method, this paper uses Chongqing Municipality, a mountainous city, as the experimental area. The population spatialization results for Chongqing Municipality, based on a 150m grid, are obtained. These results are compared with those from the traditional random forest model, the WorldPop dataset, and the LandScan dataset. Additionally, the importance of each characteristic variable is measured using the random forest model. [Results] The experimental results show that the overall accuracy of the proposed method is 82.9%, which is 2.7% higher than that of the traditional random forest model and 2.94% and 10.91% higher than those of the WorldPop and LandScan datasets, respectively. Across the entire experimental area, compared to the WorldPop and LandScan datasets, the MAE (Mean Absolute Error) is reduced by 212.63 and 35.11, and the RMSE (Root Mean Square Error) is reduced by 1 354.34 and 524.54, respectively. In high-density hilly areas and mountainous regions, the proposed method yields better accuracy, demonstrating the effectiveness of the method in spatializing population data in mountainous cities. [Conclusions] In addition, the simulation results exhibit more distinct population distribution heterogeneity across different population density zones and topographic areas compared to the two open population datasets, offering richer insights into population density.
表1 POI分类及描述Tab. 1 Classification and description of POI |
分类 | POI类型 | 描述 |
---|---|---|
生产服务 | 公司企业、金融服务 | 指与生产过程紧密相关、为生产提供支持和保障的POI类型 |
住宅及社区服务 | 住宅区、餐饮、住宿服务、生活服务 | 指居住区POI和与居住社区配套、为社区居民日常需求提供服务的POI类型 |
休闲娱乐服务 | 体育休闲、购物、旅游景点 | 指满足公众空闲时间休闲和娱乐需求的POI类型 |
基础设施服务 | 公共设施、交通道路设施 | 指服务公众的公共基础或公共交通的设施类POI |
公共事业服务 | 科教文化、医疗保健 | 指满足公众教育、医疗、文化等基本需求的公共服务类POI |
表2 数据来源及属性Tab. 2 Data sources and attributes |
数据类型 | 数据来源 | 年份 | 描述 |
---|---|---|---|
NPP/VIIRS夜间灯光 | https://www.geodoi.ac.cn/doi.aspx?DOI=10.3974/geodb.2022.06.01.V1 | 2020 | 空间分辨率500 m |
全球不透水面数据 | https://www.x-mol.com/groups/li_xuecao/dongtaizhitu | 2020 | 空间分辨率30 m |
土地覆被数据 | https://zenodo.org/records/4417810 | 2020 | 空间分辨率30 m |
增强植被指数 | https://ladsweb.modaps.eosdis.nasa.gov/ | 2020 | 空间分辨率250 m |
数字高程模型 | 地理空间数据云(https://www.gscloud.cn/) | 2020 | 空间分辨率30 m |
建筑屋顶矢量数据 | 国家青藏高原数据中心(https://cstr.cn/18406.11.Geogra.tpdc.271702) | 2020 | |
道路空间分布数据 | 中国科学院资源环境科学与数据中心(https://www.resdc.cn/) | 2020 | |
POI | 高德地图 | 2020 | 13类POI,包括餐饮、旅游景点、交通道路设施、公共设施、公司企业、购物、金融服务、科教文化、生活服务、住宿服务、居民小区、体育休闲、医疗保健 |
第七次人口普查数据 | 重庆市人民政府网(https://www.cq.gov.cn/) | 2020 | |
WorldPop数据集 | https://www.worldpop.org/ | 2020 | 空间分辨率100 m |
LandScan数据集 | https://landscan.ornl.gov/ | 2020 | 空间分辨率1 km |
[1] |
|
[2] |
|
[3] |
|
[4] |
王珂靖. 统计型人口数据多尺度空间化模型研究[D]. 上海: 华东师范大学, 2015.
[
|
[5] |
杨瑞红, 董春, 张玉. 地理国情普查数据支持下的人口空间化方法[J]. 测绘科学, 2017, 42(1):76-81.
[
|
[6] |
|
[7] |
范一大, 史培军, 辜智慧, 等. 行政单元数据向网格单元转化的技术方法[J]. 地理科学, 2004, 24(1):105-108.
[
|
[8] |
陈佐旗. 基于多源夜间灯光遥感影像的多尺度城市空间形态结构分析[D]. 上海: 华东师范大学, 2017.
[
|
[9] |
|
[10] |
吕安民, 李成名, 林宗坚, 等. 人口统计数据的空间分布化研究[J]. 武汉大学学报(信息科学版), 2002, 27(3):301-305.
[
|
[11] |
郭雨臣, 黄金川, 林浩曦. 多源数据融合的中国人口数据空间化研究[J]. 遥感技术与应用, 2020, 35(1):219-232.
[
|
[12] |
曹伟超, 陶和平, 谭理, 等. 基于多源空间数据的山区人口分布模拟[J]. 国土资源遥感, 2012, 24(2):61-67.
[
|
[13] |
|
[14] |
李银兴. 基于XGBoost模型和多源数据的人口空间化研究[D]. 重庆: 重庆邮电大学,2021 [ Li Y X. Research on population spatialization based on XGBoost model and multi-source data
[ D. Chongqing: Chongqing University of Posts and Telecommunications, 2021.] DOI:10.27675/d.cnki.gcydx.2021.000530 ]
|
[15] |
吴京航, 桂志鹏, 申力, 等. 顾及格网属性分级与空间关联的人口空间化方法[J]. 武汉大学学报(信息科学版), 2022, 47(9):1364-1375.
[
|
[16] |
谭敏, 刘凯, 柳林, 等. 基于随机森林模型的珠江三角洲30 m格网人口空间化[J]. 地理科学进展, 2017, 36(10):1304-1312.
[
|
[17] |
江雪梨, 熊永良, 郭红梅, 等. 改进随机森林模型在人口空间化中的应用[J]. 测绘通报, 2023(6):155-160.
[
|
[18] |
王春菊, 汤小华. 基于GIS的福建省人口统计数据空间化[J]. 地理与地理信息科学, 2004, 20(4):71-74.
[
|
[19] |
胡云锋, 赵冠华, 张千力. 基于夜间灯光与LUC数据的川渝地区人口空间化研究[J]. 地球信息科学学报, 2018, 20(1):68-78.
[
|
[20] |
颜清梅. 基于格网的人口空间分布特征分析[D]. 成都: 四川师范大学, 2013.
[
|
[21] |
韩用顺, 王文娟, 张东水, 等. 一种基于分区和识别真实居住区的人口空间化方法——以雅砻江流域为例[J]. 山地学报, 2022, 40(2):303-316.
[
|
[22] |
|
[23] |
|
[24] |
王彤. 基于珞珈一号提取住房空置率的研究[D]. 武汉: 武汉大学, 2020.
[
|
[25] |
董磊磊, 潘竟虎, 冯娅娅, 等. 基于夜间灯光的中国房屋空置的空间分异格局[J]. 经济地理, 2017, 37(9):62-69,176.
[
|
[26] |
徐甜雨, 赵学胜, 陈芳馨, 等. 基于多元分区建模指标优化的“一带一路”人口空间化研究[J]. 国土资源遥感, 2021, 33(2):153-161.
[
|
[27] |
|
[28] |
祝汉收. 基于GIS和多源数据的山地城市人口空间化模拟[D]. 重庆: 重庆师范大学, 2018.
[
|
[29] |
杨续超, 高大伟, 丁明军, 等. 基于多源遥感数据及DEM的人口统计数据空间化——以浙江省为例[J]. 长江流域资源与环境, 2013, 22(6):729-734.
[
|
[30] |
柏中强, 王卷乐, 杨雅萍, 等. 基于乡镇尺度的中国25省区人口分布特征及影响因素[J]. 地理学报, 2015, 70(8):1229-1242.
[
|
[31] |
肖锐, 郭宇翔, 李星华. 基于主题模型的城市地块活动语义动态提取[J]. 遥感技术与应用, 2023, 38(3):649-661.
[
|
[32] |
刘妍, 孙延宁, 陈传法, 等. 城区数字高程模型修正方法:顾及空间异质性的可解释随机森林模型[J]. 地球信息科学学报, 2024, 26(4):978-988.
[
|
[33] |
仲晓雅, 闫庆武, 李桂娥. 中国长时序夜间光数据集(2000-2020)
[ J/DB/OL. 北京:全球变化数据仓储电子杂志(中英文), 2022.]
[ J/DB/OL. Digital Journal of Global Change Data Repository, 2022.] DOI:10.3974/geodb.2022.06.01.V1 ]
|
[34] |
仲晓雅, 闫庆武, 李桂娥. 中国长时间序列夜间灯光数据集的研发(2000—2020)[J]. 全球变化数据学报(中英文),2022,6(3):416-424.
[
|
[35] |
|
[36] |
|
[37] |
南师大智慧城市感知与模拟实验室. 中国90座城市建筑物屋顶矢量数据集(2020)[DB/OL].国家青藏高原科学数据中心,2021. https://cstr.cn/18406.11.Geogra.tpdc.271702.
Smart City Sensing and Simulation Laboratory, Nanjing Normal University. Vectorized rooftop area data for 90 cities in China (2020)[DB/OL]. National Tibetan Plateau / Third Pole Environment Data Center, 2021. https://cstr.cn/18406.11.Geogra.tpdc.271702.] DOI:10.11888/Geogra.tpdc.271702
|
[38] |
|
[39] |
禹文豪, 艾廷华, 杨敏, 等. 利用核密度与空间自相关进行城市设施兴趣点分布热点探测[J]. 武汉大学学报(信息科学版), 2016, 41(2):221-227.
[
|
[40] |
高雪梅, 杨续超, 陈柏儒, 等. 基于随机森林模型的环渤海地区人口空间化模拟[J]. 地球信息科学学报, 2022, 24(6):1150-1162.
[
|
/
〈 |
|
〉 |