地球信息科学理论与方法

基于SMOTE-RF算法的村庄发展类型识别方法研究

  • 潘雨飘 , 1 ,
  • 赵翔 , 1, * ,
  • 王静 1, 2 ,
  • 张亦清 1 ,
  • 刘耀林 1
展开
  • 1.武汉大学资源与环境科学学院,武汉 430079
  • 2.北京师范大学水科学研究院,北京 100875
*赵翔(1985— ),男,湖南新邵人,博士,副教授,主要从事国土空间规划和智能空间优化决策研究。 E-mail:

潘雨飘(1999— ),女,贵州三穗人,硕士生,主要从事机器学习和国土空间规划决策支持研究。E-mail:

收稿日期: 2022-07-02

  修回日期: 2022-10-08

  网络出版日期: 2023-03-25

基金资助

国家自然科学基金项目(41971336)

国家重点研发计划项目(2018YFD1100801)

Identifying the Class of the Villages based on SMOTE-RF Algorithm

  • PAN Yupiao , 1 ,
  • ZHAO Xiang , 1, * ,
  • WANG Jing 1, 2 ,
  • ZHANG Yiqing 1 ,
  • LIU Yaolin 1
Expand
  • 1. School of Resources and Environmental Sciences, Wuhan University, Wuhan 430079, China
  • 2. College of Water Sciences, Beijing Normal University, Beijing 100875, China
*ZHAO Xiang, E-mail:

Received date: 2022-07-02

  Revised date: 2022-10-08

  Online published: 2023-03-25

Supported by

National Natural Science Foundation of China(41971336)

National Key Research and Development Program of China(2018YFD1100801)

摘要

准确把握区域发展规律,定量、客观地认识村庄发展类型,对“因地制宜、分类推进”乡村振兴具有非常重要的现实意义。针对区域村庄发展类型自动、准确识别问题,研究提出了一种基于SMOTE-RF算法的村庄发展类型识别模型。研究首先从地形、区位、社会经济、农业生产和生态环境等方面提出了面向村庄发展多维特征表达的指标体系。在此基础上,针对村庄样本不平衡分布特点,利用SMOTE过采样技术对少数类样本进行分析和模拟,合成平衡化的村庄分类样本集;进而利用随机森林算法自动构建村庄发展的多维属性特征与村庄类型之间的非线性关系,形成可用于区域村庄发展类型自动识别的智能分类器。为验证模型的有效性,研究选取山东招远市作为试验区开展了实证研究。实验结果表明,耦合SMOTE过采样技术的随机森林分类模型有效保障了村庄分类结果的可靠性和准确度。在试验区,模型自动识别结果与规划专家分类结果的一致性达88.27%,Kappa系数为0.78,整体一致性良好。相对于人工分类,基于SMOTE-RF方法的村庄类型自动识别方法减少了依赖人工经验分类带来的不确定性,保障了分类结果的一致性,能够为国土空间规划和乡村振兴专项规划决策提供可靠的决策依据。

本文引用格式

潘雨飘 , 赵翔 , 王静 , 张亦清 , 刘耀林 . 基于SMOTE-RF算法的村庄发展类型识别方法研究[J]. 地球信息科学学报, 2023 , 25(1) : 163 -176 . DOI: 10.12082/dqxxkx.2023.220468

Abstract

To achieve sustainable development and revitalization of the rural areas, it is significant to identify the development pattern of villages according to their natural, social, and economic conditions. To accurately identify the development pattern of villages in rural areas, this study aims to develop a village classification method based on the SMOTE-RF algorithm. To achieve this goal, first, we designed a multi-dimensional index system that includes aspects of topography, location, socioeconomics, agricultural production, construction lands, ecosystem services, and characteristics of rural settlements, to quantify and assess the development characteristics of villages. Second, the classification information of villages identified by planning experts were collected as a sample dataset for model training and validation. To address the overfitting issues of classification algorithms caused by imbalanced sample sets, an oversampling algorithm called SMOTE was applied to produce a balanced synthetic sample set from the original sample set obtained by planning experts based on the K-nearest neighbor strategy. Third, the balanced sample set produced by SMOTE algorithm was used to train the classifier for village classification. Then, the nonlinear relationship between the multi-dimensional development characteristics of the villages and the development pattern of villages was identified using the Random Forest (RF) algorithm. Finally, Zhaoyuan city, which is located in Shandong Province, China, was selected as the study area to evaluate the performance of our model. The experimental results show that the classification model we built based on the SOMTE-RF algorithm can automatically extract the multi-dimensional and nonlinear expert knowledge for village classification from a small number of samples. Compared with the unsupervised classification methods such as SOFM algorithm, the classification results produced by our model can better support the spatial planning decision-making, because the SMOTE-RF algorithm can intuitively present the classification rules in a tree structure. In addition, with the application of oversampling algorithm, the overall accuracy, the accuracy, and the AUC value of the classification model were increased from 0.93 to 0.99, 0.73 to 0.88, and 0.895 to 0.982, respectively, compare with the model results without oversampling. The village classification results in Zhaoyuan also demonstrated that the results obtained by SMOTE-RF algorithm were overall consistent with that of planning experts. For instance, the consistency between the results classified by our model and the planning experts reached 88.27%, and the Kappa coefficient was about 0.78. The village classification model we developed in this study can significantly reduce the uncertainty of the classification results, thus providing a reliable decision-making basis for the territorial planning and rural revitalization.

1 引言

落实乡村振兴战略、实现城乡融合发展是中国经济高质量、可持续、协调发展的必然之路[1-2]。中共中央国务院在《乡村振兴战略规划(2018—2022年)》[3]中明确指出要根据不同村庄的发展现状、区位条件、资源禀赋等特征,分类推进乡村振兴。因此,把握区域村庄发展规律,准确识别村庄发展类型,对“因地制宜、分类推进”乡村振兴具有非常重要的现实意义[4]
从村庄类型识别方法上看,现有研究主要利用熵值法[5]或引力模型[6]等方法,对村庄的发展水平[7]、聚落形态[8-9]和整治潜力[10-11]、发展潜力[12]、地域功能[13-15]或发展模式[16-18]等特征进行量化评估。在此基础上,通过指标阈值[17]或者专家定性判读分析[5]等方法确定村庄的类型。例如,李裕瑞等人针对村庄发展特征表征与分类体系进行了深入研究,并基于专家知识构建了树形结构的村庄分类模型[4],以服务于乡村振兴战略规划决策需求。利用指标阈值或专家判读法识别村庄类型能够较好地解释或模拟规划专家对区域村庄发展规律的宏观认识过程,具有较强的理论依据。然而指标阈值或判读规则的设计过于依赖专家对区域规律的把握程度,普适性较差,且自动化程度低,容易导致分类结果具有较大不确定性。
为克服基于指标阈值或特征判读方法的主观性和自动化程度低等问题,有关学者提出了基于自组织特征映射神经网络(Self-Organizing Feature Map, SOFM)模型[10,19-21]和聚类方法[22-23]的无监督村庄分类方法。无监督分类模型能够按照“物以类聚”的原则,将海量无标签的村庄样本根据其数据特征的相似性划分为若干类别。然而,村庄分类的本质是根据特定的规划决策和管理的需要,按照一定的目的,主观地将区域村庄分成若干类型,其分类结果具有很强的主观性和目的性。聚类过程无人工干预,由定量数据获得的聚类结果可能偏离特定场景下规划决策对村庄分类的要求。
监督分类方法可通过少量样本学习,实现分类规则的自动提取。相对于无监督分类方法,由监督分类方法获得的分类结果无需进一步解释即可直接服务于乡村振兴规划决策需求。在监督分类方法中,决策树(Decision Tree, DT)及其改进而来的随机森林(Random Forest, RF)算法,能以树形结构将分类规则进行直观表达与可视化;其分类过程在理论上更加符合规划专家对区域村庄发展规律的认知过程,分类结果也具有更好的可解释性。因此,RF算法已在土地利用分类和地域功能识别等相关领域得到了广泛和成功的应用[24-26],同时也为村庄类型的自动、准确识别提供了良好的借鉴。利用RF方法实现高精度村庄类型自动识别的关键在于提供足够的训练样本,且训练样本集中不同类型样本的数量应当尽可能均衡。然而在现实世界中,区域内不同类型的村庄数量往往存在较大差异,例如:乡村振兴战略规划中,特色保护类和城郊融合类村庄在区域所有村庄中通常只占极小比例[4,23]。直接基于原始样本集进行训练可能导致模型过拟合而降低分类结果的稳健性和准确性[27]
针对上述现有村庄类型识别方法的局限性和村庄样本不平衡分布特征,本研究提出一种基于SMOTE-RF算法的村庄发展类型自动识别方法。研究首先针对“分类推进”乡村振兴战略实施的基本要求,提出一套顾及地形、区位、人口、社会经济发展、农业生产、建设用地构成、生态系统服务和农村居民点状况的村庄发展特征多维指标体系,对区域村庄发展状况进行系统、综合度量;在此基础上,利用SMOTE (Synthetic Minority Oversampling Technique, SMOTE)过采样技术[28]合成平衡化的村庄分类样本集;进而利用人工合成样本集训练RF分类器,自动构建村庄发展的多维特征属性与村庄类型之间的非线性关系。最后,研究将分类模型应用于招远市村庄发展类型的自动识别,为招远市国土空间规划和乡村振兴战略决策提供决策依据。

2 基于SMOTE-RF方法的村庄分类模型

2.1 模型总体框架

利用SMOTE-RF方法实现区域村庄类型自动识别的关键在于合成平衡化的村庄分类样本集;在此基础上通过模型训练,自动提取和学习规划专家的村庄分类知识,实现村庄类型的自动判别。基于上述思路,设计模型的总体框架见图1。如图1,模型的构建主要包括3个关键部分:① 区域村庄发展状况的多维、定量表征:从地形、区位、人口与社会经济状况、农业生产、建设用地构成、生态系统服务、农村居民点状况七个方面,以直接或间接方式对村庄的自然、区位、人口、产业、生态环境等方面进行量化,形成评估村庄发展的多维特征指标。 ② 村庄分类合成样本集的构建:针对村庄类型不平衡的特点,利用SMOTE方法,以随机抽取的规划专家分类样本为基础进行过采样,合成足够数量且分布平衡的样本集;按照一定比例将人工合成的虚拟样本集分成训练集和测试集。③ 村庄分类模型的构建与应用:通过随机森林模型训练,从人工合成样本集中自动学习村庄分类的专家知识。调整算法参数至模型精度满足要求后,将待分类的村庄数据输入模型,实现对区域村庄类型的自动识别。
图1 村庄类型识别模型的构建思路

Fig. 1 Workflow of the SMOTE-RF model for village classification

2.2 村庄发展特征指标体系

村庄的发展通常受到其地形、区位、人口、产业、生态环境、文化等自然和人文因素的综合影响。考虑到县域村级尺度产业发展等宏观社会经济数据难以获取,研究综合利用多源遥感观测数据和用地结构间接度量各村庄的社会经济发展状况。参考现有研究[6,17,22,29],结合指标数据的可获取性,按照主导因素和地域分异原则,从地形、区位、社会经济、农业生产、建设用地构成、生态环境条件和农村居民点状况7个方面,构建包含30个特征在内的村庄类型识别指标体系(表1),对村庄发展特征进行量化表征。各项特征指标的选取原则及计算说明如下:
表1 村庄类型识别指标体系

Tab. 1 Index system for village classification

因素 指标名 变量名 因素 指标名 变量名
地形条件 村庄平均地形位指数 X1 建设用地构成 工矿用地占建设用地比例/% X16
村庄平均坡度/° X2 住宅用地占建设用地比例/% X17
区位条件 道路密度/(m/km2 X3 公共服务用地占建设用地比例/% X18
居民点与公路的平均距离/km X4 交通运输用地占建设用地比例/% X19
居民点与小学的平均距离/km X5 生态环境条件 林地占国土面积比例/% X20
居民点与镇区的平均距离/km X6 草地占国土面积比例/% X21
居民点与城市的平均距离/km X7 水面与湿地占国土面积比例/% X22
社会经济状况 乡村人口密度/(人/hm2 X8 净初级生产力/(g/m2/a) X23
平均夜间灯光强度/(μW/cm2/sr) X9 生境质量 X24
平均夜间灯光强度变化/(μW/cm2/sr) X10 农村居民点状况 人均农村建设用地面积/(m²/人) X25
农业生产条件 人均耕地面积/(m²/人) X11 农村居民点扩张速度/(m²/a) X26
耕地占国土面积比例/% X12 平均斑块面积/hm² X27
园地占国土面积比例/% X13 平均斑块指数 X28
建设用地构成 人均建设用地面积/(m²/人) X14 斑块边缘密度/(m/hm2 X29
商服用地占建设用地比例/% X15 散布与并列指数/% X30
(1)地形条件。地形条件对农村的生活、生产和基础设施建设有着至关重要的影响。选取平均地形位指数、平均坡度进行表征。
(2)区位条件。从村庄发展的交通便利度和区位优势方面度量村庄发展特征。选取村庄道路密度以及居民点与公路、小学、镇区、城区的平均距离度量村庄发展的区位优势。
(3)社会经济状况。现有研究表明,夜间灯光强度与区域社会经济发展状况呈现高度正向相关[30-32],并已成功应用于区域经济总量的模拟预测[33]、村庄产业结构识别[6,34]和精准扶贫[35]等方面的研究。由于村级尺度除人口以外的其他经济统计数据缺失,因此研究以平均夜间灯光强度及其变化间接反映区域社会经济活动的强度及变化。
(4)农业生产条件。反映村庄在农业发展方面的基础条件和优势。选取人均耕地面积、耕地占国土面积比例、园地占国土面积比例反映区域村庄之间的农业生产条件差异。
(5)建设用地构成。现有研究表明,区域建设用地的利用结构与产业结构之间存在相关性[36-37]。例如,二、三产业发达的村庄往往拥有相对较高比例的工矿和商服用地。由于村级尺度二、三产业发展状况的统计数据缺失,研究选取建设用地构成相关指标从土地利用的角度间接反映村庄二、三产业结构的差异性。
(6)生态环境条件。生态文明建设是绿色宜居村庄建设的重要内容。分别选取林地、草地、水面与湿地占国土面积的比例以度量生态用地的丰富程度。此外,选取净初级生产力和生境质量风险表征村庄生态环境服务能力的区域差异。
(7)农村居民点状况。选取人均农村建设用地面积、农村居民点扩张速度表征农村居民点的发展状况和变化趋势。其中,农村居民点扩张速度为各村庄内部农村居民点在2014年到2018年的年平均农村居民点扩张面积。此外,选取平均斑块面积、平均斑块指数、斑块边缘密度、散布与并列指数表征单元内部农村居民点的景观格局分布特征与合理性。

2.3 SMOTE算法与过采样

为满足RF模型对训练样本类型平衡化的需求,研究使用SMOTE平衡化算法对类型数量较少的村庄进行过采样。SMOTE算法是一种基于K近邻的过采样技术,具有抗过拟合能力强的优点[38],被广泛应用于解决样本不均衡问题[39-40];其基本思路是对少数类样本进行分析和模拟,通过人工合成产生“虚拟”样本,并将合成样本添加到样本集中以解决原始样本集中的类别失衡问题[41]图2展示了使用SMOTE算法对具有2个分类特征的不平衡样本集进行过采样的过程。SMOTE算法流程如下:
图2 SMOTE算法过采样原理

Fig. 2 Principles of the SMOTE algorithm

(1)设置少数类型样本过采样后的样本量N。例如,规划专家划定了集聚提升类村庄为422个,其他类型村庄数量均少于该类型;为获得足够平衡化的训练样本集,设置其他类型村庄过采样后的样本规模均为422。
(2)样本距离计算。在由 m个特征组成的特征空间中,从某一少数类村庄分类样本中随机选取样本 x,计算 x与其同类型其他所有 n个样本的距离,计算公式如下:
D x ,   x j = j = 1 m ( f i - f j i ) 2
式中: D x ,   x j表示村庄样本 x与样本集中其他第 j个村庄样本 x j之间的距离,且 j n f i f j i分别为村庄样本 x和村庄样本 x j的第 i个村庄发展特征值, m为村庄发展特征个数。根据表1的设计结果,本研究中 m = 30
(3)过采样。根据式(1)获得的样本之间的距离,选取与村庄样本 x距离最近的 k个同类样本。在 k个同类样本中随机选出一个样本 x ',与原村庄样本x按照如下公式合成新的样本:
x n e w = x + r a n d 0,1 × x - x '
式中: x n e w表示合成的新村庄样本, r a n d 0,1表示 0,1之间的随机数。
(4)重复步骤(2)和(3)直至该类型样本数量增加到N为止。

2.4 村庄识别模型构建

基于SMOTE-RF方法构建村庄类型识别模型的基本思路是:将SMOTE过采样获得的平衡化人工合成样本按照一定比例随机划分为训练集和测试集;利用RF算法从人工合成样本集中自动提取村庄分类的专家知识,并利用测试集对算法精度进行评估。通过精度评估的分类模型即可用于区域村庄类型的识别。其中,RF算法是一种基于多棵决策树的集成学习算法,具有分类性能好、泛化能力强、抗过拟合能力强等优点[42],其基本原理是采用Bagging方法为每棵决策树生成独立的同分布训练样本集,算法最终的分类结果取决于所有决策树的投票[43]
为评估模型的分类精度和性能,选取准确率、精准率、召回率、F1分数和ROC(Receiver Operating Characteristic, ROC)曲线作为模型的精度验证指标。相关指标计算公式如下:
A c c = T P + T N / T P + T N + F P + F N
P r e c = T P / T P + F P
R e c a l l = T P / T P + F N
F 1 = 2 × P r e c × R e c a l l / R e c a l l + P r e c
F P R = F P / F P + T N
式中: A c c P r e cF1分别表示某类型村庄的准确率、精准率和F1分数;TP表示预测正确的某类村庄个数;TN表示预测正确的非该类村庄个数;FP是被错误识别为该类村庄的样本数;FN是被错误识别为非该类村庄的样本数; F P R(False Positive Rate, FPR)表示假阳率, R e c a l l表示召回率,也称为TPR(True Positive Rate, TPR)。准确率、精准率、召回率和F1分数的值越接近1则表示模型性能越好。基于相应的TPRFPR数值绘制反映算法敏感性和特异性之间关系的ROC曲线。ROC曲线与坐标轴围成的面积称为AUC值(Area Under Curve,AUC),AUC越接近1,模型性能越好。
为评估各项特征指标在模型分类过程中的重要性,运用平均基尼减小值(Mean Decrease Gini, MDG)来度量指标对模型的贡献率,其计算公式为[44]
M D G k = i = 1 n j = 1 t D G k i j k = 1 m i = 1 n j = 1 t D G k i j
式中: M D G k为第 k个特征在所有特征中的重要程度,取值区间为[0%~100%];MDG值越大表明该指标在村庄的分类过程中越重要;所有特征指标的MDG值之和为100%。 n为分类树棵数; t为单棵树的节点数; m为总特征个数; D G k i j为第 k个特征在第 i棵树的第 j个节点的基尼指数减小值。此外,为度量模型自动分类结果与专家分类方案的一致性,使用Kappa系数作为分类结果一致性的衡量指标。Kappa系数的取值区间为[0-1],值越大表明两者之间的一致性越强;通常当Kappa系数高于0.6且小于0.8时,认为二者之间具有高度的一致性。

3 实验区概况与数据来源

3.1 实验区概况

研究以山东烟台市下辖的招远市为案例区。招远市位于山东半岛的低山丘陵地带,以山区、丘陵两种地形为主,地势东北部、中部和西部偏高,西北部偏低。截至2020年,全市共辖5街9镇,710个村(社区)级单元;全市国民生产总值为697.56亿元,共有人口55.68万人,其中乡村人口31.03万人。全市经济发展呈现以中心城区和滨海新区“双极”向周边辐射的态势,北部区域整体经济发展水平高于南部区域。招远市矿产资源、农业资源和旅游资源丰富。其中,黄金资源遍布全境,储量丰富,被誉为中国“金都”;农产品生产加工方面,招远是“龙口粉丝”的发源地和主要产地,也是“中国红富士苹果之乡”;市域内重要的旅游资源有龙王湖风景区、罗山国家森林公园等风景名胜区。总体上看,招远市各村庄在自然和社会经济条件等方面均表现出显著的异质性,导致村庄发展模式和动力机制也各具特色。
图3 招远市行政区划及土地利用

Fig. 3 The administrative division and land use of Zhaoyuan City

根据第三次国土调查结果,全市国土总面积约1432.32 km2;其中,农村建设用地约96.10 km2。得益于丰富的矿产和农业资源,围绕黄金开采和农产品生产加工的乡镇企业遍布全市,乡村地区二、三产业发达。在农村建设用地中,工矿仓储用地面积占比高达20.11%,商服用地面积占比约7.57%。如何基于村庄自然和社会经济发展多维特征指标,准确把握市域村庄发展规律,是招远市当前分类推进乡村振兴和村庄体系优化中亟待解决的问题。

3.2 数据来源及处理

为系统、全面、客观、定量评估招远市村庄发展特征,研究按照法定、权威、准确的基本原则对招远市的土地利用、人口和社会经济发展等各项基础资料进行收集与整理。相关基础数据来源见表2
表2 研究数据及来源

Tab. 2 Research data sources

数据类型 数据年份 数据来源 数据说明
DEM 2015 ALOS地形产品(https://search.asf.alaska.edu/) 12.5 m分辨率
行政区境界线 2017 国家地理信息公共服务平台( https://www.tianditu.gov.cn/) 国家基础地理信息中心数据
土地利用 2014、2018、2020 自然资源和规划部门 国土调查数据
道路网络
设施分布 2020 自然资源部门和POI数据 地理国情和百度POI点
人口数据 2020 各派出所户籍资料 分村户籍人口统计台账
夜光遥感数据 2015、2020 NPP-VIIRS年产品(https://eogdata.mines.edu/products/vnl/) 500 m分辨率
净初级生产力数据 2020 MODIS净初级生产力产品(https://lpdaac.usgs.gov/product_search/) 500 m分辨率
村庄分类样本 2020 自然资源和规划部门 国土空间规划村庄体系规划方案
获取可靠、足够的分类样本数据,是构建监督分类模型的关键。本研究中村庄分类样本来源于招远市国土空间规划成果,由招远市自然资源和规划局提供。该分类方案由中国城市规划设计研究院和招远市本地规划专家采取定性和定量相结合的方式,经过多次论证和评审后得到广泛认可的招远市村庄分类方案(图4)。该方案按照国家《乡村振兴战略规划(2018—2022年)》[3]的总体要求,根据村庄在自然资源、区位条件、人口变迁、土地利用和经济发展条件等方面的特征差异,将市域内665个行政村(仅包括城镇区域外的村庄),划分为集聚提升类、城郊融合类、特色保护类、搬迁撤并类4类。其中:集聚提升类和搬迁撤并类相对其他两类村庄在数量上占有明显优势,分别为422个和170个。城郊融合类与特色保护类村庄分别为50个和21个,仅占村庄总量的7.82%和3.16%。其中,城郊融合类村庄主要分布在招远市市区及招远滨海新区(辛庄镇)周边区域;特色保护类村庄则主要分布在北部海滨新区。按照665个村庄单元分别收集和整理相关基础数据,并进行必要的数据清洗整理,形成模型构建的基础数据和样本集。
图4 规划专家划分的招远市村庄类型

Fig. 4 Class of the villages in Zhaoyuan classified
by planning experts

4 实验结果及分析

4.1 模型训练与精度验证结果

以招远市665个待分类的村庄为基本单元,基于分类基础数据集和表2中的分类特征指标体系,利用ArcGIS软件的分区统计功能,获取各村庄单元的特征指标值,构建模型训练和验证样本集。根据专家分类结果,原始样本集中集聚提升类村庄有422个,是招远市类型最多的村庄。因此,将其他3类村庄过采样后的样本规模全部设置为422,并利用SMOTE方法进行过采样,获得1688个均衡化的人工合成虚拟样本集。参考现有研究[45-46],按照7:3的比例将合成样本集随机分成训练集和测试集,完成RF算法的训练和验证。此外,为了验证SMOTE过采样方法的有效性,设计对照试验:直接将原始不平衡的样本集同样按照7:3的比例分成训练集和测试集进行训练和验证。实验组和对照组使用的各类型村庄训练样本数量见表3。考虑到数据量纲不影响RF算法分类效果[42],模型训练过程中所使用的样本均为原始数据。
表3 RF方法及SMOTE-RF方法的村庄分类精度比较

Tab. 3 Accuracy comparison of village classification results between the RF model and the SMOTE-RF model

类别 RF方法 SMOTE-RF方法
训练样本数/个 精准率 召回率 F1分数 训练样本数/个 精准率 召回率 F1分数
聚集提升类 330 0.89 0.71 0.79 290 0.8 0.79 0.80
城郊融合类 30 0.42 0.56 0.48 299 0.99 0.91 0.95
特色保护类 8 0.09 1.0 0.17 297 1.00 0.96 0.98
搬迁撤并类 97 0.20 0.40 0.27 295 0.74 0.86 0.79
经过多次试验,确定RF模型中树的数量为50,分割所需的最小样本数为2,叶子节点最少样本数为3,树的最大深度为10。模型的ROC曲线和分类型村庄精度指标评估结果分别见图5表3。根据精度评估指标,未使用SMOTE过采样的模型在训练集和测试集上的准确率分别为0.93和0.67。经过SMOTE过采样后的模型在训练集和测试集上的准确率则分别提高到了0.99和0.88。由图5中的ROC曲线变化可知,通过SMOTE过采样,模型的AUC值由0.895上升到0.982。根据过采样前后的模型准确率与AUC值变化可知,基于SMOTE合成后的平衡样本集训练得到的村庄类型识别模型在测试集上的精度和性能有了显著提高。
图5 RF和SMOTE-RF模型的村庄类型识别ROC曲线

Fig. 5 ROC curves of the RF model and SMOTE-RF model for village classification

从各类型村庄的分类精度指标来看,基于过采样后的平衡化样本集训练得到的模型具有更好的分类精度:各类型村庄的召回率和F1分数均有了显著的提高;特别是特色保护类和搬迁撤并类两类村庄,由于原始样本集中的样本量太少,导致其在未经过SMOTE过采样的模型中的精准率仅为0.09和0.2,F1分数分别为0.17和0.27。过采样后,两类村庄的精准率分别提高到1.0和0.74,F1分数则分别提高到0.98和0.79。总体上看,经过SMOTE过采样后,模型的总体分类精度和针对各类型的分类精度指标整体上令人满意。

4.2 模型特征重要性分析

运用MDG度量各个指标特征对模型的贡献率,得到各特征指标重要性排序结果如图6所示。由图6,区位条件相关的指标,如各村庄单元内居民点与城市(X7)、小学(X5)、镇区(X6)的平均距离,其特征重要性排名在所有指标中位列前三,分别为11.26%、9.55%、7.99%;社会经济状况中的平均夜间灯光强度变化(X10)这一指标特征重要性排名第四,占比为6.92%。说明各村庄在区位条件、社会经济状况方面具有显著的异质性,对模型划分村庄类型起到重要作用。此外,与生态环境条件、建设用地构成、农村居民点状况、农业生产条件、地形条件因素相关的指标对模型分类的贡献率分别为15.10%、11.37%、10.30%、9.12%、8.93%;表明村庄类型识别指标体系中各因素均对模型分类有所贡献。
图6 村庄分类指标的重要性

Fig. 6 The importance of indicators in the classification of villages

将各村庄的特征指标进行归一化处理,并根据SMOTE-RF模型的分类结果,分别计算4类村庄在各维度特征指标上的平均值作为Y值,以变量名作为X轴,绘制招远市4类村庄的典型特征指标平行坐标图如图7所示。图6中对分类贡献较大的变量值在图7中用灰色的竖虚线进行了标记。如图7如示:①相对于其他类型村庄,城郊融合类村庄的居民点与城市(X7)、小学(X5)、镇区(X6)的平均距离较小,平均夜间灯光强度(X9)、平均夜间灯光强度变化(X10)较大,说明其区位条件和经济发展状况良好;②特色保护类村庄相对于其他类型村庄,其净初级生产力(X23)、生境质量(X24)较高,表征该类型村庄生态环境质量优越;③集聚提升类与搬迁撤并类村庄的特征指标较为接近,但搬迁撤并类村庄相较于集聚提升类村庄,其坡度(X2)更高,居民点与城市(X7)、小学(X5)、镇区(X6)的平均距离更大,斑块边缘密度(X29)、散布与并列指数(X30)偏高,在一定程度上反映了搬迁撤并类村庄地形、区位条件较差,居民点更破碎化。
图7 4类村庄的典型平行坐标曲线

注:竖虚线表示图6中分类贡献较大的变量值。

Fig. 7 Typical parallel coordinate curves of the 4 classes of villages

4.3 招远市村庄类型识别结果分析

将通过精度验证的模型应用于招远市665个实际村庄的类型识别,并以规划专家的分类结果作为参照。使用混淆矩阵和Kappa系数度量模型自动分类结果与专家分类方案的一致性。根据模型分类和规划专家分类结果构建的混淆矩阵见表4
表4 招远市村庄分类结果一致性评估混淆矩阵

Tab. 4 Confusion matrix for consistency assessment of village classification results in Zhaoyuan (个)

专家分类方案 模型预测结果
集聚提升类 城郊融合类 特色保护类 搬迁撤并类 合计
集聚提升类 378 12 7 25 422
城郊融合类 1 51 0 0 52
特色保护类 0 0 21 0 21
搬迁撤并类 28 4 1 137 170
合计 407 67 29 162 665
表4,模型与专家分类结果完全一致的村庄个数共587个,占招远市全部村庄的88.27%;Kappa系数为0.78,表明模型分类结果与专家分类方案高度一致。从各类型村庄分类结果的一致性来看,由规划专家划定的城郊融合类与特色保护类村庄基本全部被模型正确识别,表明SMOTE过采样技术对于少数类型村庄的识别效果提升显著。另一方面,集聚提升类和搬迁撤并类村庄则存在少量不一致,例如,规划专家划定的搬迁撤并类村庄中有28个村庄被模型识别为集聚提升类,占该类型的16.47%;集聚提升类村庄中有25个村庄被模型识别为搬迁撤并类,占该类型总量的5.92%。图8展现了专家与模型对招远市村庄分类结果的差异在空间上的分布情况。
图8 招远市专家与模型村庄分类的结果差异

Fig. 8 Differences in village classification in Zhaoyuan between the experts and the SMOTE-RF model

结合图7图8分析,从分类结果差异的空间分布来看,部分位于招远市市区周边的村庄被模型识别为城郊融合类,而被规划专家识别为集聚提升类。从村庄的发展特征指标来看,相关村庄距离城区近,且人口、土地扩张和城镇化势头较为明显,更符合城郊融合类村庄特征。在夏甸、毕郭、辛庄、蚕庄和玲珑镇等相对偏远区域,被模型识别为搬迁撤并类而被专家划分为集聚提升类的村庄地形起伏相对较大、居民点分布破碎,指标特征方面更符合搬迁撤并类村庄。另一方面,部分被规划专家判定为搬迁撤并型而被模型识别为集聚提升型的村庄,则大多区位条件相对较好,居民点分布相对集聚,发展条件良好。从结果的一致性指标来看,模型分类结果与规划专家的人工分类结果整体上具有较好的一致性。考虑到专家对区域665个村庄进行人工分类可能存在的不确定性和偏差,利用智能模型实现村庄类型的自动识别不仅提高了村镇分类的自动化程度,同时也能保证模型能够基于明确的分类规则实现区域村庄类型的统一识别,减少分类结果的不确定性。

5 结论与讨论

5.1 结论

对区域村庄发展类型进行识别是“因地制宜、分类推进”乡村振兴战略实施的基本要求,也是当前国土空间规划决策中面临的重要难题。针对现有村庄类型识别方法的局限性和村庄样本不平衡分布特征,研究提出了一种基于SMOTE-RF算法的村庄发展类型自动识别方法,并以山东招远市为实验区进行了实证研究,相关研究结论如下:
(1)研究基于SMOTE-RF方法设计的村庄类型识别模型为区域村庄发展类型的自动识别提供了新思路。相对于指标阈值法和定性判读分析等现有方法,本研究设计的方法能够从少量样本中自动构建村庄发展指标特征与村庄类型之间的多维、非线性专家分类知识,提高分类结果的可靠性与准确度;以树形结构直观表达的分类规则,使得模型自动构建的分类规则和结果相对于SOFM等无监督分类方法更加符合区域村庄发展规律的认识过程,能够承接村庄战略规划的要求,且分类结果更具解释性。
(2)SMOTE过采样技术有效提高了村庄类型识别结果的精度。现实世界中村庄类型数量的分布不均衡严重影响了分类模型的可靠性和准确度,通过SMOTE过采样生成平衡化的合成训练和验证样本集,有效保障了模型分类结果的可靠性和准确度。
(3)基于SMOTE-RF的村庄分类方法能够获得与规划专家总体一致的村庄分类结果。招远市的实证案例研究中,专家分类结果与模型自动识别结果达到了较高的一致性。相对于专家的人工分类,基于SMOTE-RF方法的村庄类型自动识别方法减少了依赖人工经验分类带来的不确定性,保障了分类结果的客观性。

5.2 讨论

本研究初步探索了SMOTE-RF算法在村庄发展类型自动识别方面的应用,取得了良好的分类效果,能够为国土空间规划和乡村振兴专项规划决策提供可靠的依据。但研究设计的模型仍然存在一定局限性:模型通过专家分类样本的学习来识别区域村庄发展的特征差异和规律,从而实现对专家村庄分类决策过程的模拟。因此,模型分类结果的精度高度依赖于分类样本的可靠性。由于不同地域之间的自然、社会经济条件和文化等差异,其村庄发展规律也各具特色。在一个区域训练获得的模型和分类规则,往往难以直接适用于其他具有明显区域差异的地区。因此,为提高模型在不同地区应用的普适性,需要针对不同区域综合地理特征采集更广泛和更具代表性的、可靠的专家村庄分类样本。然而,在探究省域或者更大尺度区域的村庄发展规律时,获取足够数量的高质量村庄分类样本往往成本较大。针对本模型当前存在的局限性,后续研究将主要从分类样本、分类方法和分类体系3个方面对本研究设计的模型进行拓展,以满足不同规划决策场景下的村庄类型识别需求:①通过现有文献资料和规划专家等渠道采集具有不同地域分异特征的典型村庄分类样本,进一步丰富村庄分类样本库,提高模型的普适性;②研究基于半监督分类方法的村庄类型识别模型,增强模型基于有限、少量的有标签训练样本自动识别大批量无标签村庄类型的能力,降低模型对高精度、大量分类样本的依赖,进一步增强模型的普适性;③面向乡村振兴战略和区域发展目标,进一步细化区域村庄分类体系,更好地服务于不同规划决策支持场景。
[1]
郭远智, 刘彦随. 中国乡村发展进程与乡村振兴路径[J]. 地理学报, 2021, 76(6):1408-1421.

DOI

[Guo Y Z, Liu Y S. The process of rural development and paths for rural revitalization in China[J]. Acta Geographica Sinica, 2021, 76(6):1408-1421. ] DOI:10.11821/dlxb202106007

DOI

[2]
刘彦随. 中国新时代城乡融合与乡村振兴[J]. 地理学报, 2018, 73(4):637-650.

DOI

[Liu Y S. Research on the urban-rural integration and rural revitalization in the new era in China[J]. Acta Geographica Sinica, 2018, 73(4):637-650. ] DOI:10.11821/dlxb201804004

DOI

[3]
中国政府网. 中共中央国务院印发《乡村振兴战略规划(2018—2022年)》[EB/OL].(2018-09-26). http://www.gov.cn/zhengce/2018-09/26/content_5325534.htm.

[The State Council of the People's Republic of China. The Central Committee of the CPC and the State Council Print and Issue the Plan for the Rural Revitalization Strategy (2018-2022)[EB/OL]. (2018-09-26). http://www.gov.cn/zhengce/2018-09/26/content_5325534.htm. ]

[4]
李裕瑞, 卜长利, 曹智, 等. 面向乡村振兴战略的村庄分类方法与实证研究[J]. 自然资源学报, 2020, 35(2):243-256.

[Li Y R, Bu C L, Cao Z, et al. Village classification system for rural vitalization strategy: method and empirical study[J]. Journal of Natural Resources, 2020, 35(2):243-256. ] DOI:10.31497/zrzyxb.20200201

DOI

[5]
冯丹玥, 金晓斌, 梁鑫源, 等. 基于“类型-等级-潜力”综合视角的村庄特征识别与整治对策[J]. 农业工程学报, 2020, 36(8):226-237.

[Feng D Y, Jin X B, Liang X Y, et al. Village feature identification and remediation countermeasures from the perspective of “type-rank-potential”[J]. Transactions of the Chinese Society of Agricultural Engineering, 2020, 36(8):226-237. ] DOI:10.11975/j.issn.1002-6819.2020.08.028

DOI

[6]
朱泽, 杨颢, 胡月明, 等. 基于多源数据的村庄发展潜力评价及村庄分类[J]. 农业资源与环境学报, 2021, 38(6):1142-1151.

[Zhu Z, Yang H, Hu Y M, et al. Evaluation of village development potential and village classification by multi-source data[J]. Journal of Agricultural Resources and Environment, 2021, 38(6):1142-1151. ] DOI:10.1 3254/j.jare.2021.0496

DOI

[7]
翁丽丽, 李永实, 王晓文, 等. 福建省农村经济类型划分方法探讨[J]. 福建师范大学学报(哲学社会科学版), 2002(3):48-53.

[Weng L L, Li Y S, Wang X W, et al. The demarcating of the rural economy type of Fujian province[J]. Philosophy and Social Sciences Edition, 2002(3):48-53. ] DOI:10.3969/j.issn.1000-5285.2002.03.010

DOI

[8]
马晓冬, 李全林, 沈一. 江苏省乡村聚落的形态分异及地域类型[J]. 地理学报, 2012, 67(4):516-525.

DOI

[Ma X D, Li Q L, Shen Y. Morphological difference and regional types of rural settlements in Jiangsu province[J]. Acta Geographica Sinica, 2012, 67(4):516-525. ] DOI:10.11821/xb201204008

DOI

[9]
王林, 曾坚. 鲁西南地区村镇聚落空间分异特征及类型划分——以菏泽市为例[J]. 地理研究, 2021, 40(8):2235-2251.

DOI

[Wang L, Ceng J. Spatial differentiation characteristics and types classification of rural settlements in southwest Shandong: A case study of Heze city[J]. Geographical Research, 2021, 40(8):2235-2251. ] DOI:10.11821/dlyj020200859

DOI

[10]
杨丹丽, 孙建伟, 张勇, 等. 基于“三生”功能的喀斯特山区农村居民点整治类型划分——以七星关区为例[J]. 中国土地科学, 2021, 35(11):80-89.

[Yang D L, Sun J W, Zhang Y, et al. Classification of consolidation type of rural settlements in Karst mountainous areas based on “production-living-ecological” functions: Taking Qixingguan District as an example[J]. China Land Science, 2021, 35(11):80-89. ] DOI:10.11994/zgtdkx.20211103.155607

DOI

[11]
王静, 马骁, 宋双双. 基于村庄分类的全域土地综合整治要点探析[J]. 中国土地, 2022(2):33-35.

[Wang J, Ma X, Song S S. Analysis on the key points of comprehensive land improvement based on village classification[J]. China Land, 2022(2):33-35. ] DOI:10.13816/j.cnki.ISSN1002-9729.2022.02.11

DOI

[12]
欧维新, 邹怡, 刘敬杰, 等. 基于乡村振兴潜力和土地利用效率的村庄分类研究[J]. 上海城市规划, 2021(6):15-21.

[Ou W X, Zou Y, Liu J J, et al. Integrating rural revitalization potential and land-use efficiency for classification of villages[J]. Shanghai Urban Planning Review, 2021(6):15-21. ]

[13]
洪惠坤, 谢德体, 郭莉滨, 等. 多功能视角下的山区乡村空间功能分异特征及类型划分[J]. 生态学报, 2017, 37(7):2415-2427.

[Hong H K, Xie D T, Guo L B, et al. Differentiation of spatial function in a mountainous rural area from a multi-functional perspective[J]. Acta Ecologica Sinica, 2017, 37(7):2415-2427. ] DOI:10.5846/stxb201601030011

DOI

[14]
Duan Y M, Wang H, Huang A, et al. Identification and spatial-temporal evolution of rural “production-living-ecological” space from the perspective of villagers' behavior - A case study of Ertai Town, Zhangjiakou City[J]. Land Use Policy, 2021, 106:105457. DOI:10.1016/j.landusepol.2021.105457

DOI

[15]
谭雪兰, 安悦, 蒋凌霄, 等. 长株潭地区乡村多功能类型分异特征及形成机制[J]. 经济地理, 2018, 38(10):80-88.

[Tan X L, An Y, Jiang L X, et al. Spatial differentiation and formal mechanism of rural function types in Changsha-Zhuzhou-Xiangtan area[J]. Economic Geography, 2018, 38(10):80-88. ] DOI:10.15957/j.cnki.jjdl.2018.10.011

DOI

[16]
乔陆印. 乡村振兴村庄类型识别与振兴策略研究——以山西省长子县为例[J]. 地理科学进展, 2019, 38(9):1340-1348.

DOI

[Qiao L Y. Village type identification and rural revitalization strategy: A case study of Zhangzi County of Shanxi Province[J]. Progress in Geography, 2019, 38(9):1340-1348. ] DOI:10.18306/dlkxjz.2019.09.007

DOI

[17]
杨浩, 卢新海. 基于“三生空间”演化模拟的村庄类型识别研究——以湖南省常宁市为例[J]. 中国土地科学, 2020, 34(6):18-27.

[Yang H, Lu X H. Study on village type identification based on spatial evolution and simulation of “production-living-ecological space”: A case study of Changning City in Hunan Province[J]. China Land Science, 2020, 34(6):18-27. ] DOI:10.11994/zgtdkx.20200603.090039

DOI

[18]
文琦, 郑殿元. 西北贫困地区乡村类型识别与振兴途径研究[J]. 地理研究, 2019, 38(3):509-521.

DOI

[Wen Q, Zheng D Y. Identification and revitalization of rural poverty-stricken areas in northwest China[J]. Geographical Research, 2019, 38(3):509-521. ] DOI:10.11821/dlyj020181230

DOI

[19]
周扬, 郭远智, 刘彦随. 中国乡村地域类型及分区发展途径[J]. 地理研究, 2019, 38(3):467-481.

DOI

[Zhou Y, Guo Y Z, Liu Y S. Areal types and their development paths in rural China[J]. Geographical Research, 2019, 38(3):467-481. ] DOI:10.11821/dlyj020180981

DOI

[20]
刘玉, 唐林楠, 潘瑜春. 村域尺度的不同乡村发展类型多功能特征与振兴方略[J]. 农业工程学报, 2019, 35(22):9-17.

[Liu Y, Tang L N, Pan Y C. Multifunctional characteristics and revitalization strategies of different types of rural development at village scale[J]. Transactions of the Chinese Society of Agricultural Engineering, 2019, 35(22):9-17. ] DOI:10.11975/j.issn.1002-6819.2019.22.002

DOI

[21]
赵哲, 吕楠, 姜翠梅. 基于SOM神经网络的秦岭北麓保护区域村庄分类与发展策略[J/OL]. 桂林理工大学学报, 2022:1-8.(2022-04-20). https://kns.cnki.net/kcms/detail/45.1375.N.20220419.1150.004.html.

[Zhao Z, Lyu N, Jiang C M. Village classification and development strategy in the north foot of Qinling Mountains based on SOM neural network[J/OL]. Journal of Guilin University of Technology, 2022:1-8. (2022-04-20). https://kns.cnki.net/kcms/detail/45.1375.N.20220419.1150.004.html. ]

[22]
史秋洁, 刘涛, 曹广忠. 面向规划建设的村庄分类指标体系研究[J]. 人文地理, 2017, 32(6):121-128.

[Shi Q J, Liu T, Cao G Z. Classifying Villages for planning and construction guidance: Index development and application in China[J]. Human Geography, 2017, 32(6):121-128. ] DOI:10.13959/j.issn.1003-2398.2017.06.015

DOI

[23]
杨绪红, 吴晓莉, 范渊, 等. 规划引导下利津县村庄分类与整治策略[J]. 农业机械学报, 2020, 51(5):232-241,323.

[Yang X H, Wu X L, Fan Y, et al. Zoning and consolidation strategy of rural residential areas Guiding by planning regulation in Lijin County[J]. Transactions of the Chinese Society for Agricultural Machinery, 2020, 51(5):232-241,323. ] DOI:10.6041/j.issn.1000-1298.2020.05.026

DOI

[24]
赵宏波, 魏甲晨, 孙东琪, 等. 基于随机森林模型的“生产-生活-生态”空间识别及时空演变分析——以郑州市为例[J]. 地理研究, 2021, 40(4):945-957.

DOI

[Zhao H B, Wei J C, Sun D Q, et al. Recognition and spatio-temporal evolution analysis of production-living-ecological spaces based on the random forest model: A case study of Zhengzhou City, China[J]. Geographical Research, 2021, 40(4):945-957. ] DOI:10.11821/dlyj020200237

DOI

[25]
李恒凯, 王利娟, 肖松松. 基于多源数据的南方丘陵山地土地利用随机森林分类[J]. 农业工程学报, 2021, 37(7):244-251.

[Li H K, Wang L J, Xiao S S. Random forest classification of land use in hilly and mountaineous areas of Southern China using multi-source remote sensing data[J]. Transactions of the Chinese Society of Agricultural Engineering, 2021, 37(7):244-251. ] DOI:10.11975/j.iss n.1002-6819.2021.07.030

DOI

[26]
王李娟, 孔钰如, 杨小冬, 等. 基于特征优选随机森林算法的农耕区土地利用分类[J]. 农业工程学报, 2020, 36(4):244-250.

[Wang L J, Kong Y R, Yang X D, et al. Classification of land use in farming areas based on feature optimization random forest algorithm[J]. Transactions of the Chinese Society of Agricultural Engineering, 2020, 36(4):244-250. ] DOI:10.11975/j.issn.1002-6819.2020.04.029

DOI

[27]
Thabtah F, Hammoud S, Kamalov F, et al. Data imbalance in classification: Experimental evaluation[J]. Information Sciences, 2020, 513:429-441. DOI:10.1016/j.ins.2019.11.004

DOI

[28]
王光宇, 宋建国, 徐飞, 等. 不平衡样本集随机森林岩性预测方法[J]. 石油地球物理勘探, 2021, 56(4):679-687,669.

[Wang G Y, Song J G, Xu F, et al. Random Forests lithology prediction method for imbalanced data sets[J]. Oil Geophysical Prospecting, 2021, 56(4):679-687,669. ] DOI:10.13810/j.cnki.issn.1000-7210.2021.04.001

DOI

[29]
郑兴明. 基于分类推进的乡村振兴潜力评价指标体系研究——来自福建省3县市6个村庄的调查数据[J]. 社会科学, 2019(6):36-47.

[Zheng X M. Research on evaluation index system of rural revitalization potential based on classification promotion—Survey data from 6 villages in 3 counties and cities of Fujian Province[J]. Journal of Social Sciences, 2019(6):36-47. ] DOI:10.13644/j.cnki.cn31-1112.2019.06.004

DOI

[30]
廖书冰, 蔡宏, 袁艳琼, 等. 夜间灯光数据表征的区域经济发展水平对老年人高血压与Ⅱ型糖尿病患病率分布的影响[J]. 地球信息科学学报, 2020, 22(11):2177-2187.

DOI

[Liao S B, Cai H, Yuan Y Q, et al. Impact of regional economic development represented by nighttime light on the prevalence rate of elderly hypertension and type 2 diabetes[J]. Journal of Geo-Information Science, 2020, 22(11):2177-2187. ] DOI:10.12082/dqxxkx.2020.190743

DOI

[31]
Ma T, Zhou Y K, Wang Y J, et al. Diverse relationships between Suomi-NPP VIIRS night-time light and multi-scale socioeconomic activity[J]. Remote Sensing Letters, 2014, 5(7):652-661. DOI:10.1080/2150704X.2014.953263

DOI

[32]
卢秀, 李佳, 段平, 等. 基于夜间灯光和土地利用数据的云南沿边地区GDP空间差异性分析[J]. 地球信息科学学报, 2019, 21(3):455-466.

DOI

[Lu X, Li J, Duan P, et al. Spatial difference of GDP in Yunnan border area based on nighttime light and land use data[J]. Journal of Geo-Information Science, 2019, 21(3):455-466. ] DOI:10.12082/dqxxkx.2019.180483

DOI

[33]
Chen X, Nordhaus W D. Using luminosity data as a proxy for economic statistics[J]. Proceedings of the National Academy of Sciences of the United States of America, 2011, 108(21):8589-8594. DOI:10.1073/pnas.1017031108

DOI PMID

[34]
钱家乘, 张佰林, 连小云, 等. 不同经济梯度下农村居民点产住空间结构分异特征——以东营市为例[J]. 中国农业资源与区划, 2022, 43(2):259-266.

[Qian J C, Zhang B L, Lian X Y, et al. Structural difference characteristics of the productive and dwelling space of rural settlements under different economic gradients: Taking Dongying City as an example[J]. Chinese Journal of Agricultural Resources and Regional Planning, 2022, 43(2):259-266. ] DOI:10.7621/cjarrp.1005-9121.20220226

DOI

[35]
孔祥斌, 张凤荣, 李玉兰, 等. 区域土地利用与产业结构变化互动关系研究[J]. 资源科学, 2005, 27(2):59-64.

[Kong X B, Zhang F R, Li Y L, et al. Interactive relationship between land use change and industrial change[J]. Resources Science, 2005, 27(2):59-64. ] DOI:10.3321/j.issn:1007-7588.2005.02.010

DOI

[36]
Xu L D, Deng X Z, Jiang Q O, et al. Identification and alleviation pathways of multidimensional poverty and relative poverty in counties of China[J]. Journal of Geographical Sciences, 2021, 31(12):1715-1736. DOI:10.1007/s11442-021-1919-8

DOI

[37]
张颖, 王群, 王万茂. 中国产业结构与用地结构相互关系的实证研究[J]. 中国土地科学, 2007, 21(2):4-11.

[Zhang Y, Wang Q, Wang W M. Study on the relationship between industrial structure and land structure in China[J]. China Land Science, 2007, 21(2):4-11. ] DOI:10.3969/j.issn.1001-8158.2007.02.001

DOI

[38]
Elreedy D, Atiya A F. A Comprehensive Analysis of Synthetic Minority Oversampling Technique (SMOTE) for handling class imbalance[J]. Information Sciences, 2019, 505:32-64. DOI:10.1016/j.ins.2019.07.070

DOI

[39]
武雪玲, 杨经宇, 牛瑞卿. 一种结合SMOTE和卷积神经网络的滑坡易发性评价方法[J]. 武汉大学学报·信息科学版, 2020, 45(8):1223-1232.

[Wu X L, Yang J Y, Niu R Q. A landslide susceptibility assessment method using SMOTE and convolutional neural network[J]. Geomatics and Information Science of Wuhan University, 2020, 45(8):1223-1232. ] DOI:10.13203/j.whugis20200127

DOI

[40]
李坤, 赵俊三, 林伊琳, 等. 基于SMOTE和多粒度级联森林的泥石流易发性评价[J]. 农业工程学报, 2022, 38(6):113-121.

[Li K, Zhao J S, Lin Y L, et al. Assessment of debris flow susceptibility based on SMOTE and multi-Grained Cascade Forest[J]. Transactions of the Chinese Society of Agricultural Engineering, 2022, 38(6):113-121. ] DOI:10.11975/j.issn.1002-6819.2022.06.013

DOI

[41]
Chawla N V, Bowyer K W, Hall L O, et al. SMOTE: Synthetic minority over-sampling technique[J]. Journal of Artificial Intelligence Research, 2002, 16:321-357. DOI:10.1613/jair.953

DOI

[42]
Breiman L. Random forests[J]. Machine Learning, 2001, 45(1):5-32. DOI:10.1023/A:1010933404324

DOI

[43]
Biau G, Scornet E. A random forest guided tour[J]. TEST, 2016, 25(2):197-227. DOI:10.1007/s11749-016-0481-7

DOI

[44]
黄钦, 杨波, 徐新创, 等. 基于多源空间数据和随机森林模型的长沙市茶颜悦色门店选址与预测研究[J]. 地球信息科学学报, 2022, 24(4):723-737.

DOI

[Huang Q, Yang B, Xu X C, et al. Location selection and prediction of SexyTea store in Changsha City based on multisource spatial data and random forest model[J]. Journal of Geo-information Science, 2022, 24(4):723-737. ] DOI:10.12082/dqxxkx.2022.210478

DOI

[45]
Zan X, Zhang X, Xing Z, et al. Automatic detection of maize tassels from UAV images by combining random forest classifier and VGG16[J]. Remote Sensing, 2020, 12(18):3049. https://doi.org/10.3390/rs12183049. DOI:10.3390/rs12183049

DOI

[46]
Yang X. Power grid fault prediction method based on feature selection and classification algorithm[J]. Int. J. of Electronics Engineering and Applications, 2021, 9(2):34-44. DOI:10.30696/IJEEA.IX.II.2021.34-44

DOI

文章导航

/