基于SMOTE-RF算法的村庄发展类型识别方法研究
潘雨飘(1999— ),女,贵州三穗人,硕士生,主要从事机器学习和国土空间规划决策支持研究。E-mail: yupiaopan@whu.edu.cn |
收稿日期: 2022-07-02
修回日期: 2022-10-08
网络出版日期: 2023-03-25
基金资助
国家自然科学基金项目(41971336)
国家重点研发计划项目(2018YFD1100801)
Identifying the Class of the Villages based on SMOTE-RF Algorithm
Received date: 2022-07-02
Revised date: 2022-10-08
Online published: 2023-03-25
Supported by
National Natural Science Foundation of China(41971336)
National Key Research and Development Program of China(2018YFD1100801)
准确把握区域发展规律,定量、客观地认识村庄发展类型,对“因地制宜、分类推进”乡村振兴具有非常重要的现实意义。针对区域村庄发展类型自动、准确识别问题,研究提出了一种基于SMOTE-RF算法的村庄发展类型识别模型。研究首先从地形、区位、社会经济、农业生产和生态环境等方面提出了面向村庄发展多维特征表达的指标体系。在此基础上,针对村庄样本不平衡分布特点,利用SMOTE过采样技术对少数类样本进行分析和模拟,合成平衡化的村庄分类样本集;进而利用随机森林算法自动构建村庄发展的多维属性特征与村庄类型之间的非线性关系,形成可用于区域村庄发展类型自动识别的智能分类器。为验证模型的有效性,研究选取山东招远市作为试验区开展了实证研究。实验结果表明,耦合SMOTE过采样技术的随机森林分类模型有效保障了村庄分类结果的可靠性和准确度。在试验区,模型自动识别结果与规划专家分类结果的一致性达88.27%,Kappa系数为0.78,整体一致性良好。相对于人工分类,基于SMOTE-RF方法的村庄类型自动识别方法减少了依赖人工经验分类带来的不确定性,保障了分类结果的一致性,能够为国土空间规划和乡村振兴专项规划决策提供可靠的决策依据。
潘雨飘 , 赵翔 , 王静 , 张亦清 , 刘耀林 . 基于SMOTE-RF算法的村庄发展类型识别方法研究[J]. 地球信息科学学报, 2023 , 25(1) : 163 -176 . DOI: 10.12082/dqxxkx.2023.220468
To achieve sustainable development and revitalization of the rural areas, it is significant to identify the development pattern of villages according to their natural, social, and economic conditions. To accurately identify the development pattern of villages in rural areas, this study aims to develop a village classification method based on the SMOTE-RF algorithm. To achieve this goal, first, we designed a multi-dimensional index system that includes aspects of topography, location, socioeconomics, agricultural production, construction lands, ecosystem services, and characteristics of rural settlements, to quantify and assess the development characteristics of villages. Second, the classification information of villages identified by planning experts were collected as a sample dataset for model training and validation. To address the overfitting issues of classification algorithms caused by imbalanced sample sets, an oversampling algorithm called SMOTE was applied to produce a balanced synthetic sample set from the original sample set obtained by planning experts based on the K-nearest neighbor strategy. Third, the balanced sample set produced by SMOTE algorithm was used to train the classifier for village classification. Then, the nonlinear relationship between the multi-dimensional development characteristics of the villages and the development pattern of villages was identified using the Random Forest (RF) algorithm. Finally, Zhaoyuan city, which is located in Shandong Province, China, was selected as the study area to evaluate the performance of our model. The experimental results show that the classification model we built based on the SOMTE-RF algorithm can automatically extract the multi-dimensional and nonlinear expert knowledge for village classification from a small number of samples. Compared with the unsupervised classification methods such as SOFM algorithm, the classification results produced by our model can better support the spatial planning decision-making, because the SMOTE-RF algorithm can intuitively present the classification rules in a tree structure. In addition, with the application of oversampling algorithm, the overall accuracy, the accuracy, and the AUC value of the classification model were increased from 0.93 to 0.99, 0.73 to 0.88, and 0.895 to 0.982, respectively, compare with the model results without oversampling. The village classification results in Zhaoyuan also demonstrated that the results obtained by SMOTE-RF algorithm were overall consistent with that of planning experts. For instance, the consistency between the results classified by our model and the planning experts reached 88.27%, and the Kappa coefficient was about 0.78. The village classification model we developed in this study can significantly reduce the uncertainty of the classification results, thus providing a reliable decision-making basis for the territorial planning and rural revitalization.
表1 村庄类型识别指标体系Tab. 1 Index system for village classification |
因素 | 指标名 | 变量名 | 因素 | 指标名 | 变量名 |
---|---|---|---|---|---|
地形条件 | 村庄平均地形位指数 | X1 | 建设用地构成 | 工矿用地占建设用地比例/% | X16 |
村庄平均坡度/° | X2 | 住宅用地占建设用地比例/% | X17 | ||
区位条件 | 道路密度/(m/km2) | X3 | 公共服务用地占建设用地比例/% | X18 | |
居民点与公路的平均距离/km | X4 | 交通运输用地占建设用地比例/% | X19 | ||
居民点与小学的平均距离/km | X5 | 生态环境条件 | 林地占国土面积比例/% | X20 | |
居民点与镇区的平均距离/km | X6 | 草地占国土面积比例/% | X21 | ||
居民点与城市的平均距离/km | X7 | 水面与湿地占国土面积比例/% | X22 | ||
社会经济状况 | 乡村人口密度/(人/hm2) | X8 | 净初级生产力/(g/m2/a) | X23 | |
平均夜间灯光强度/(μW/cm2/sr) | X9 | 生境质量 | X24 | ||
平均夜间灯光强度变化/(μW/cm2/sr) | X10 | 农村居民点状况 | 人均农村建设用地面积/(m²/人) | X25 | |
农业生产条件 | 人均耕地面积/(m²/人) | X11 | 农村居民点扩张速度/(m²/a) | X26 | |
耕地占国土面积比例/% | X12 | 平均斑块面积/hm² | X27 | ||
园地占国土面积比例/% | X13 | 平均斑块指数 | X28 | ||
建设用地构成 | 人均建设用地面积/(m²/人) | X14 | 斑块边缘密度/(m/hm2) | X29 | |
商服用地占建设用地比例/% | X15 | 散布与并列指数/% | X30 |
表2 研究数据及来源Tab. 2 Research data sources |
数据类型 | 数据年份 | 数据来源 | 数据说明 |
---|---|---|---|
DEM | 2015 | ALOS地形产品(https://search.asf.alaska.edu/) | 12.5 m分辨率 |
行政区境界线 | 2017 | 国家地理信息公共服务平台( https://www.tianditu.gov.cn/) | 国家基础地理信息中心数据 |
土地利用 | 2014、2018、2020 | 自然资源和规划部门 | 国土调查数据 |
道路网络 | |||
设施分布 | 2020 | 自然资源部门和POI数据 | 地理国情和百度POI点 |
人口数据 | 2020 | 各派出所户籍资料 | 分村户籍人口统计台账 |
夜光遥感数据 | 2015、2020 | NPP-VIIRS年产品(https://eogdata.mines.edu/products/vnl/) | 500 m分辨率 |
净初级生产力数据 | 2020 | MODIS净初级生产力产品(https://lpdaac.usgs.gov/product_search/) | 500 m分辨率 |
村庄分类样本 | 2020 | 自然资源和规划部门 | 国土空间规划村庄体系规划方案 |
表3 RF方法及SMOTE-RF方法的村庄分类精度比较Tab. 3 Accuracy comparison of village classification results between the RF model and the SMOTE-RF model |
类别 | RF方法 | SMOTE-RF方法 | |||||||
---|---|---|---|---|---|---|---|---|---|
训练样本数/个 | 精准率 | 召回率 | F1分数 | 训练样本数/个 | 精准率 | 召回率 | F1分数 | ||
聚集提升类 | 330 | 0.89 | 0.71 | 0.79 | 290 | 0.8 | 0.79 | 0.80 | |
城郊融合类 | 30 | 0.42 | 0.56 | 0.48 | 299 | 0.99 | 0.91 | 0.95 | |
特色保护类 | 8 | 0.09 | 1.0 | 0.17 | 297 | 1.00 | 0.96 | 0.98 | |
搬迁撤并类 | 97 | 0.20 | 0.40 | 0.27 | 295 | 0.74 | 0.86 | 0.79 |
表4 招远市村庄分类结果一致性评估混淆矩阵Tab. 4 Confusion matrix for consistency assessment of village classification results in Zhaoyuan (个) |
专家分类方案 | 模型预测结果 | ||||
---|---|---|---|---|---|
集聚提升类 | 城郊融合类 | 特色保护类 | 搬迁撤并类 | 合计 | |
集聚提升类 | 378 | 12 | 7 | 25 | 422 |
城郊融合类 | 1 | 51 | 0 | 0 | 52 |
特色保护类 | 0 | 0 | 21 | 0 | 21 |
搬迁撤并类 | 28 | 4 | 1 | 137 | 170 |
合计 | 407 | 67 | 29 | 162 | 665 |
[1] |
郭远智, 刘彦随. 中国乡村发展进程与乡村振兴路径[J]. 地理学报, 2021, 76(6):1408-1421.
[
|
[2] |
刘彦随. 中国新时代城乡融合与乡村振兴[J]. 地理学报, 2018, 73(4):637-650.
[
|
[3] |
中国政府网. 中共中央国务院印发《乡村振兴战略规划(2018—2022年)》[EB/OL].(2018-09-26). http://www.gov.cn/zhengce/2018-09/26/content_5325534.htm.
[The State Council of the People's Republic of China. The Central Committee of the CPC and the State Council Print and Issue the Plan for the Rural Revitalization Strategy (2018-2022)[EB/OL]. (2018-09-26). http://www.gov.cn/zhengce/2018-09/26/content_5325534.htm. ]
|
[4] |
李裕瑞, 卜长利, 曹智, 等. 面向乡村振兴战略的村庄分类方法与实证研究[J]. 自然资源学报, 2020, 35(2):243-256.
[
|
[5] |
冯丹玥, 金晓斌, 梁鑫源, 等. 基于“类型-等级-潜力”综合视角的村庄特征识别与整治对策[J]. 农业工程学报, 2020, 36(8):226-237.
[
|
[6] |
朱泽, 杨颢, 胡月明, 等. 基于多源数据的村庄发展潜力评价及村庄分类[J]. 农业资源与环境学报, 2021, 38(6):1142-1151.
[
|
[7] |
翁丽丽, 李永实, 王晓文, 等. 福建省农村经济类型划分方法探讨[J]. 福建师范大学学报(哲学社会科学版), 2002(3):48-53.
[
|
[8] |
马晓冬, 李全林, 沈一. 江苏省乡村聚落的形态分异及地域类型[J]. 地理学报, 2012, 67(4):516-525.
[
|
[9] |
王林, 曾坚. 鲁西南地区村镇聚落空间分异特征及类型划分——以菏泽市为例[J]. 地理研究, 2021, 40(8):2235-2251.
[
|
[10] |
杨丹丽, 孙建伟, 张勇, 等. 基于“三生”功能的喀斯特山区农村居民点整治类型划分——以七星关区为例[J]. 中国土地科学, 2021, 35(11):80-89.
[
|
[11] |
王静, 马骁, 宋双双. 基于村庄分类的全域土地综合整治要点探析[J]. 中国土地, 2022(2):33-35.
[
|
[12] |
欧维新, 邹怡, 刘敬杰, 等. 基于乡村振兴潜力和土地利用效率的村庄分类研究[J]. 上海城市规划, 2021(6):15-21.
[
|
[13] |
洪惠坤, 谢德体, 郭莉滨, 等. 多功能视角下的山区乡村空间功能分异特征及类型划分[J]. 生态学报, 2017, 37(7):2415-2427.
[
|
[14] |
|
[15] |
谭雪兰, 安悦, 蒋凌霄, 等. 长株潭地区乡村多功能类型分异特征及形成机制[J]. 经济地理, 2018, 38(10):80-88.
[
|
[16] |
乔陆印. 乡村振兴村庄类型识别与振兴策略研究——以山西省长子县为例[J]. 地理科学进展, 2019, 38(9):1340-1348.
[
|
[17] |
杨浩, 卢新海. 基于“三生空间”演化模拟的村庄类型识别研究——以湖南省常宁市为例[J]. 中国土地科学, 2020, 34(6):18-27.
[
|
[18] |
文琦, 郑殿元. 西北贫困地区乡村类型识别与振兴途径研究[J]. 地理研究, 2019, 38(3):509-521.
[
|
[19] |
周扬, 郭远智, 刘彦随. 中国乡村地域类型及分区发展途径[J]. 地理研究, 2019, 38(3):467-481.
[
|
[20] |
刘玉, 唐林楠, 潘瑜春. 村域尺度的不同乡村发展类型多功能特征与振兴方略[J]. 农业工程学报, 2019, 35(22):9-17.
[
|
[21] |
赵哲, 吕楠, 姜翠梅. 基于SOM神经网络的秦岭北麓保护区域村庄分类与发展策略[J/OL]. 桂林理工大学学报, 2022:1-8.(2022-04-20). https://kns.cnki.net/kcms/detail/45.1375.N.20220419.1150.004.html.
[
|
[22] |
史秋洁, 刘涛, 曹广忠. 面向规划建设的村庄分类指标体系研究[J]. 人文地理, 2017, 32(6):121-128.
[
|
[23] |
杨绪红, 吴晓莉, 范渊, 等. 规划引导下利津县村庄分类与整治策略[J]. 农业机械学报, 2020, 51(5):232-241,323.
[
|
[24] |
赵宏波, 魏甲晨, 孙东琪, 等. 基于随机森林模型的“生产-生活-生态”空间识别及时空演变分析——以郑州市为例[J]. 地理研究, 2021, 40(4):945-957.
[
|
[25] |
李恒凯, 王利娟, 肖松松. 基于多源数据的南方丘陵山地土地利用随机森林分类[J]. 农业工程学报, 2021, 37(7):244-251.
[
|
[26] |
王李娟, 孔钰如, 杨小冬, 等. 基于特征优选随机森林算法的农耕区土地利用分类[J]. 农业工程学报, 2020, 36(4):244-250.
[
|
[27] |
|
[28] |
王光宇, 宋建国, 徐飞, 等. 不平衡样本集随机森林岩性预测方法[J]. 石油地球物理勘探, 2021, 56(4):679-687,669.
[
|
[29] |
郑兴明. 基于分类推进的乡村振兴潜力评价指标体系研究——来自福建省3县市6个村庄的调查数据[J]. 社会科学, 2019(6):36-47.
[
|
[30] |
廖书冰, 蔡宏, 袁艳琼, 等. 夜间灯光数据表征的区域经济发展水平对老年人高血压与Ⅱ型糖尿病患病率分布的影响[J]. 地球信息科学学报, 2020, 22(11):2177-2187.
[
|
[31] |
|
[32] |
卢秀, 李佳, 段平, 等. 基于夜间灯光和土地利用数据的云南沿边地区GDP空间差异性分析[J]. 地球信息科学学报, 2019, 21(3):455-466.
[
|
[33] |
|
[34] |
钱家乘, 张佰林, 连小云, 等. 不同经济梯度下农村居民点产住空间结构分异特征——以东营市为例[J]. 中国农业资源与区划, 2022, 43(2):259-266.
[
|
[35] |
孔祥斌, 张凤荣, 李玉兰, 等. 区域土地利用与产业结构变化互动关系研究[J]. 资源科学, 2005, 27(2):59-64.
[
|
[36] |
|
[37] |
张颖, 王群, 王万茂. 中国产业结构与用地结构相互关系的实证研究[J]. 中国土地科学, 2007, 21(2):4-11.
[
|
[38] |
|
[39] |
武雪玲, 杨经宇, 牛瑞卿. 一种结合SMOTE和卷积神经网络的滑坡易发性评价方法[J]. 武汉大学学报·信息科学版, 2020, 45(8):1223-1232.
[
|
[40] |
李坤, 赵俊三, 林伊琳, 等. 基于SMOTE和多粒度级联森林的泥石流易发性评价[J]. 农业工程学报, 2022, 38(6):113-121.
[
|
[41] |
|
[42] |
[43] |
|
[44] |
黄钦, 杨波, 徐新创, 等. 基于多源空间数据和随机森林模型的长沙市茶颜悦色门店选址与预测研究[J]. 地球信息科学学报, 2022, 24(4):723-737.
[
|
[45] |
|
[46] |
|
/
〈 | 〉 |