Remote Sensing Mapping of Mountain Vegetation Via Uncertainty-based Iterative Optimization

  • GUO Yifei , 1, 2 ,
  • WU Tianjun 3 ,
  • LUO Jiancheng , 1, 2, * ,
  • SHI Hanning 4 ,
  • GAO Lijing 2
Expand
  • 1. State Key Laboratory of Remote Sensing Science, Aerospace Information Research Institute, Chinese Academy of Sciences, Beijing 100101, China
  • 2. University of Chinese Academy of Sciences, Beijing 100049, China
  • 3. School of Science, Chang'an University, Xi'an 710064, China
  • 4. Faculty of Geomatics, Lanzhou Jiaotong University, Lanzhou 730070, China
* LUO Jiancheng, E-mail:

Received date: 2021-09-29

  Revised date: 2021-12-13

  Online published: 2022-09-25

Supported by

National Natural Science Foundation of China(42071316)

National Natural Science Foundation of China(41631179)

National Key Research and Development Program of China(2017YFB0503600)

Chongqing agricultural industry digital map project(21C00346)

Major Science and Technology Project of Inner Mongolia Autonomous Region(2021SZD0036)

Key Research and Development Program of Shaanxi(2021NY-170)

Fundamental Research Funds for the Central Universities, Chang'an University(300102120201)

Abstract

Mountain area is an important part of terrestrial ecosystem and contains valuable ecological values. Due to its high heterogeneity and special environmental characteristics, there are many problems and challenges in remote sensing classification for mountainous areas. The traditional classification method based on vegetation index usually uses remote sensing data from a single source, which is effective in some scenarios, but severely limited in mountainous areas with fragmented landscape and complex topography. In order to achieve accurate mountain vegetation information, the mountainous areas in northwestern Yunnan were selected as research areas to carry out method experiments in this paper. This study used high resolution remote sensing image data and Digital Elevation Model(DEM), combined with the idea of zoning-stratified perception, and proposed a classification method for vegetation types in mountain areas based on uncertainty theory. Firstly, the images of the study area were segmented at multiple scales to make geo-patches under the constraints of the slope units, which were implemented by use of ridge lines and valley lines that were generated by hydrologic analysis based on DEM. Secondly, spectral, textural, and topographic features were selected for classification using random forest model. The experiment took the Mahalanobis distance as the similarity metric between the classification results and the samples of corresponding class as the optimization objective. Then the mixing entropy model was constructed to quantitatively calculate the uncertainty of speckle speculations caused by randomness and fuzziness, which depends on the membership degree of different vegetation types and the area proportion of different vegetation types. Finally, an automatic targeted sample supplement and iterative optimization of the model based on historical interpretation data, uncertainty theory, and similarity measurement were conducted. The model was updated accordingly every time the sample was supplemented. The iteration stopped when the Mahalanobis distance decreased to a convergence. This study also generated the variation trend of uncertainty in iteration and space. The overall classification accuracy of the experiment reached 90.8%, 29.4% higher than that before iteration, and the Kappa coefficient reached 0.875. In the high uncertainty region, the accuracy of this method was 17% and 13% higher than that of one-time and random sample supplement methods, respectively. The experimental results show that the method of iterative optimization, which integrates incremental information through human-computer interaction and imports high uncertainty and low confidence patches into the sample library, can effectively classify the vegetated mountain surface and has higher efficiency and lower uncertainty than the traditional sample selection methods.

Cite this article

GUO Yifei , WU Tianjun , LUO Jiancheng , SHI Hanning , GAO Lijing . Remote Sensing Mapping of Mountain Vegetation Via Uncertainty-based Iterative Optimization[J]. Journal of Geo-information Science, 2022 , 24(7) : 1406 -1419 . DOI: 10.12082/dqxxkx.2022.210594

1 引言

山地是陆地生态系统中的重要组成部分,蕴含着宝贵的生态价值。为合理开发利用山地植被资源,需进行高精度的植被信息提取,刻画植被的分布和生长模式,进而在功能模式和动力模式层面实现规划和预测。遥感技术具有宏观观测、动态监测、手段多样等独特的优势,在植被信息调查和研究中被广泛应用。山地植被空间分布格局受地形影响显著,传统的基于植被指数的分类方法通常利用单一来源的遥感数据,在一些场景下是有效的,但在景观破碎、地形复杂的山地区域受限严重[1],难以满足高精度植被制图需求。因此,如何提取精度较高的、可靠的山地植被信息成为了本领域亟待解决的问题之一。
基于此种情况,国内外学者提出了一些结合多源遥感数据及相关辅助信息的分类方法。基于多时相信息的分类方法考虑到了植被生长发育的物候特性,如杨颖频等[2]通过提取地块尺度的物候特征和多时相光谱特征,构建了基于时空协同的地块尺度作物分类模型;Aurdal等[3]使用隐马尔可夫模型(HMM)模拟了植被的物候演化,相较于最大似然分类法(ML)有更好的灵活性和泛化能力。另外,植被的分布受多种环境条件影响,包括地形、水文、土壤等,加入此类辅助信息可以有效提高分类精度。任冲等[4]综合利用光谱、植被指数、纹理和地形特征,对林地信息进行了分层信息提取;Darren等[5]以MODIS为数据源,参考地形、水文、公路网等辅助数据,结合Google数据采用决策树算法完成了对加拿大年度森林范围变化的检测。以上研究表明,将机器学习和多源数据相结合可以有效提高分类精度。分类精度是为评价某区域内整体分类效果而定义的,但在实际应用中,为满足遥感精细化制图的标准,我们同样关注分类器面向单个对象的分类结果的可靠程度。特殊的地理条件使得山地区域通常具有较高的不确定性,使用传统的精度计算方法对山地植被信息提取进行质量评价具有一定的局限性,因此将遥感信息提取与不确定性分析进行结合尤为必要。
地表是一个无比复杂的巨系统,在遥感影像数据分类过程中充斥着各种不确定性,数据获取、转换、处理、分类算法选取、分类及后处理和精度评价等各个流程都难以避免地引入一定程度的不确定性,并在整个流程中传播和累积[6]。通过量化评价不同层面的不确定性,有助于研究人员针对分类流程进行改进从而尽可能规避不确定因素。遥感数据的分类不确定性主要包括随机不确定性和模糊不确定性两类:前者来源于自然界的多重环境因素影响,造成同一类型地物不同个体的电磁波谱只可能接近而不会完全相同,表现为“同物异谱”和“同谱异物”现象;模糊不确定性是由于遥感图像的空间分辨率限制产生的,由于单个像元内总存在不止一种地物,因此反映的特征具有模糊性,表现为“混合像元”现象[7-8]。目前学术界存在多种不确定性评价方法和指标系统,主要从像元、类别和总体3个层次进行评价[9-10]:Kappa分析技术和边际拟合技术(Margin fit)是基于误差矩阵的统计分析方法,用于比较不同分类方法的效果[11-12];Gopal等[13]发展了用模糊集理论评价遥感分类专题图精度的方法,提供了产生混合像元情况下的误差评价方法,可以提供误差的严重程度信息;Townsend[14]提出了模糊相似性指数的概念, 通过比较参考数据与分类结果的模糊相似性来评价模糊隶属度。由于山地植被分布呈现出纷繁复杂的特征,群落间边界不明显,加之内部的采伐更新[14],大大增加了植被信息提取的不确定性。在面向对象分类过程中,我们参考像元尺度上不确定性评价的思路,引入能够对空间数据的随机性和模糊性进行综合描述的评价模型。在植被制图研究中,不确定性分析通常用于量化分类算法和参数反演中的不确定因素,从而对相应方法和结果进行评价[15-17],而基于此对分类算法进行优化的研究则相对匮乏,这驱动我们尝试在对不确定性进行优化的基础上进行山地植被信息提取和制图。
机器学习中优化问题往往通过迭代的方式解决,实质上是在解空间中进行迭代采样寻优。不同迭代方法的区别主要体现在采样方式上[18],常用的迭代策略包括穷举算法、完全随机搜索算法、遗传算法等。如果将模型中的不确定性定义为一种可度量的参数,则可对其进行迭代优化。对不确定性进行迭代优化的思想起源于控制论领域,也被应用于生态学土壤制图[19-20],如计算样点与待预测点间的环境相似度得到推测不确定性,进而通过构造自适应的补样方法扩大可推测范围,降低样点的推测不确定性。受上述研究启发,为精确提取山地植被信息,本研究基于高分遥感影像和多源数据,使用机器学习方法进行面向对象的植被信息提取,在不确定性度量的基础上提出一种对其进行迭代优化的方法,开展山地区域植被的分类与制图工作。

2 研究方法

本研究采用的技术路线如图1所示:① 基于GF-2影像和DEM数据提取山形线并制作地形控制网,利用eCognition软件进行多尺度分割,获得内部具有均质性的生态图斑;② 选取并计算参与分类的多种特征,并使用随机森林方法开展面向对象的植被分类;③ 定义和计算单个图斑的不确定性,据此开展迭代优化:赋予不确定性高的图斑标签并更新样本库,重新进行分类后再次进行不确定性计算,直至其下降至收敛。通过对不确定性进行迭代优化,得到较为可靠的植被型组分类结果并进行制图。
图1 基于不确定性迭代优化的山地植被遥感制图技术路线

Fig. 1 Technical route of remote sensing mapping of mountain vegetation based on uncertainty iteration optimization

2.1 分区基础上的多尺度分割

山地的植被分布与地形条件密切相关,随海拔高度和坡度、坡向的变化而呈现出垂直以及局部的分异规律,在不同地形部位(高度、坡向)往往形成迥异的生态格局[21]。因此本研究结合传统的自下而上的影像分割和基于地形数据的自上而下的分区分割,得到山地场景下分区约束的基本坡面单元[22]。具体方法为利用已有的DEM数据,利用ArcGIS中的水文分析工具计算得到山脊线,再将DEM数据取反后得到沟谷线。通过对照山体阴影图,对地形特征线进行提取、连接等拓扑处理后,构建研究区坡面单元。
单个坡面单元内部生态因素相近,但仍存在不同类型的植被,为满足精准制图的需求,需对坡面单元进一步分割得到图斑(图2)。研究使用eCognition软件中的多尺度分割算法,该算法可充分利用对象特征和类间关系等信息[23],其中的ESP2工具通过计算不同分割尺度下对象同质性方差的变化率反映地物的最佳分割尺度,其变化率曲线包含一系列的波峰,对应不同类型的地物。研究通过分析变化曲线和对比试验确定分割参数,再对分割结果进行线平滑和合并破碎斑块等后处理,得到内部具有均质性的生态图斑。
图2 图斑制作过程

Fig. 2 Production process of geo-patches

2.2 随机森林分类

研究使用随机森林方法进行植被分类。随机森林是集成学习中bagging算法的改进,由很多彼此间没有关联的决策树组成,每棵决策树通过有放回地选择样本,并从样本的K个特征中选择k个( k 0 , K)作为不同节点的分裂属性。节点分裂策略包括基尼不纯度和信息增益,如果该参数小于阈值,则继续分裂,反之停止。每棵决策树对目标做出独立的判断,分别得出预测结果并计算每个预测目标的得票数,得到最高票数的预测类别即为分类结果[24-25]。由于在选择样本和特征时的随机性,使得随机森林不容易出现过拟合,有较好的抗噪声能力。适用于处理生态数据[26]。此外,随机森林基于基尼不纯度计算不同特征在分类中的重要性,从而帮助解释分类结果。节点的基尼不纯度是指根据节点中样本的分布对样本分类时,从节点中随机选择的样本被错分的概率。计算基尼不纯度和单节点处特征重要性的公式为:
I G a = 1 - P i 2
V I a k = I G a - I G l + I G r
式中: I G a表示节点a分类前的基尼不纯度; P i表示标签i在该节点所占的比例; I G l I G r分别表示分裂后左、右分支的基尼不纯度 ; V I a ( k )表示特征k在参与节点a分裂时的重要性。若随机森林分类中有n棵决策树,共使用K个特征,在第j棵树中共基于特征k在不同节点i上分裂了q ( i 0 , q ),则分类中特征k的重要性 V I k为:
V I k = j = 1 n i = 1 q V I i k k = 1 K j = 1 n i = 1 q V I i k

2.3 基于不确定性分析的迭代优化

随机森林算法将所有决策树在单块图斑上的投票结果中最高得票数所属类别作为输出分类,并输出该类别的树在森林中所占比例,即预测概率(predict_proba)。我们通常将预测概率等价于该图斑的分类置信度,在评价分类结果时将其作为当次分类的不确定性度量,可在一定程度上衡量分类结果的可靠性。但置信度取决于概率最高的类别,具有一定的局限性,因此需要借助不确定性理论进行分析。为了定量计算随机性和模糊性引起的不确定性,研究引入混合熵模型对其进行综合评价。基于信息熵和模糊熵[27-28],可构建离散混合熵 H h R , F[29]
H h R , F = - i = 1 n { ( p i μ A i x j l o g 2 p i μ A i x j + p i 1 - μ A i x j l o g 2 p i ( 1 - μ A i x j }
μ A i x j = m M
p i = S i ( x j ) S i ( x j )
式中: x j表示单块图斑; μ A i表示 x j关于不同植被型组 A i的隶属度( A i { A 1 , A 2 , , A n }),等价于随机森林对不同类别的投票比; p i A i类别占总面积的比例( p i 0 , p i = 1);m x j上最高得票类别对应的决策树数量;M是随机森林中的决策树总数( m M); S i ( x j )表示分类结果为 A i的图斑面积之和。混合熵较好地衡量了单个图斑分类不确定性的大小,图斑关于不同植被型组的隶属度和不同植被型组的面积占比越接近,不确定性越大。
混合熵侧重于单次迭代过程中图斑间不确定性大小的比较,其整体分布在不同迭代轮次中变化较小,难以表现不确定性降低的过程,因此需要确定在不同轮次之间具有可比性且便于对比的参量。在机器学习领域常用距离(Distance)的概念对数据间的相似性进行度量,通过将数据在特征空间中转换成特征向量进而定义集合中元素之间的距离,体现为相似向量间的距离较小,不相似向量间的距离较大[30],在本实验中可用于评价图斑间的相似性。常用距离函数包括欧氏距离、马氏距离、余弦相似度、KL散度等,其中马氏距离用于表示数据的协方差距离[31], 2个维数相同的列向量 x y间的马氏距离计算公式为:
D M x , y = x - y T Σ - 1 x - y
式中:􀰑是多维随机变量的协方差矩阵。马氏距离考虑数据的分布,不受量纲的影响,可以排除变量之间的相关性干扰[32],因此本实验采用马氏距离衡量分类结果与对应类别样本间的相似性。如果在迭代过程中,不同类别图斑到该类样本中心的马氏距离下降至收敛,则图斑间的相似性变高,分类不确定性降低。研究通过结合参考数据,设计了一种自动补样方法(图3):① 首先设置参考数据与研究中分类体系不同类别间的映射关系;② 对每一轮迭代分类结果中的图斑计算混合熵后,选取一定数量的混合熵较高的图斑;③ 参考数据中的地块形态与研究分割得到的图斑不同,需提取与图斑存在相交或包含关系的地块,分别计算图斑与不同地块相交部分的面积,取相交面积最大的参考数据地块所属的植被类别作为图斑标签;④ 对比根据三类参考数据所获取的标签,将出现次数最多的标签赋予图斑,如标签各不相同,则以目视解译数据为准。实验根据自动补样后的样本集进行新一轮训练和分类,经多次迭代得到较为准确的决策边界,提高整体分类精度,降低分类中的不确定性。
图3 不确定性迭代优化流程

注: p i为植被型组 A i的面积占比, μ A i表示图斑 x j关于不同植被型组 A i的隶属度。

Fig. 3 Iterative optimization process of uncertainty

2.4 精度评价

混淆矩阵是一个用于表示预测值和真实值差异的比较矩阵,矩阵中的列代表验证数据,行代表由遥感数据分类得到的类别数据,基于混淆矩阵可统计一系列评价指标对分类结果进行评价。实验选择总体精度、Kappa系数、用户精度、生产精度共4种指标对各类别分类精度和总体精度进行评价,各指标计算公式如下:
p o = a i i n
p e = ( a i j a j i ) n 2
k = p 0 - p e 1 - p e
p u ( x ) = a j x a j i
p p ( x ) = a x j a j i
式中: j为类别数量; i为不大于 j的自然数; a i j为混淆矩阵中的单元; n为参与验证的样本数量; p o为总体精度, k为Kappa系数; p u ( x ) p p ( x )分别对应第 x个类别的用户精度和生产精度。实验采用交叉验证的方法评估分类精度,将样本数据集随机划分为2个相等的子集,并以其中一个子集作为初始状态时的训练数据,另一子集用于对分类结果进行验证,所有分类准确度度量均在十次验证中取平均值。

3 实验与讨论

3.1 实验区概况与数据来源

本文选取云南省大理白族自治州云龙县与怒江傈僳族自治州兰坪白族普米族自治县交界处的山地区域作为研究区。如图4所示,该区域位于横断山脉腹地,山高谷深,垂直地带性分异明显,特殊的地形地貌和复杂多样的气候使得这里成为全球生物多样性异常丰富的地区之一[33],同时也是我国特有濒危物种滇金丝猴的主要栖息地之一。研究区为典型山地区域,植被种类繁多,交错分布,在山地植被遥感制图领域具有较好的 代表性。
图4 研究区位置

Fig. 4 Location of study area

(1)光学影像和数字地形数据
本研究采用的光学数据来源于对地观测数据共享平台( http://ids.ceode.ac.cn/),选取国产高分二号(GF-2)单景正射影像(2020年,空间分辨率 0.8 m)作为高分辨率光学影像数据。数字地形数据(Digital Elevation Model, DEM)来源于地理空间数据云( https://www.gscloud.cn/),通过对覆盖研究区的ASTER GDEM 30 m数据进行裁剪得到,作为坡面约束下的分割和地形特征计算的依据。
(2)图斑制作和样本扩充
研究在基于光学数据对研究区进行多尺度分割时首先生成地形控制网,然后设置尺度为440,形状因子为0.2,紧致度因子为0.6,提取非植被和植被不同型组的边界信息;在其基础之上再设置尺度为330,形状因子为0.2,紧致度因子为0.6,得到内部具有均质性的图斑。由于本实验以植被分类为主,不同植被在近红外波段的差异较大,因此设置波段分割权重时,将其设置为2,其余波段权重为1。对分割结果进行后处理,线平滑和合并破碎斑块后共得到图斑5285个。
研究采用2021年2月在研究区域内实地调查所获取的78个样点(信息包括地理位置、植被型组、植被群系)和部分照片数据进行样本标记,在制作样本时,可认为图斑内部的植被类型与内部样点处一致,以内部像元的特征平均值作为图斑对象的特征值。由于野外样本采集工作难度较大,获得的样点数量较少且相对集中,在模型训练时可能产生欠拟合。因此我们通过调整分割算法中的参数,得到大小、形态与图斑近似的斑块,再将样点映射到斑块上实现样本扩充,其质量与原有样本质量接近。
(3)参考数据
本研究采用的参考数据包括光学影像数据和历史解译数据,用于识别原影像上难以判读的图斑和整体分类效果对比。由于研究区影像存在部分山体阴影,研究选取单期Sentinel-2B影像(2020年,空间分辨率10 m)作为目视解译参考数据,与高分影像进行对照;历史解译数据包括2008年第七次全国森林资源清查数据和2016年林业二调数据,前者包含了植被亚种和群系,抽样精度在95%以上;后者侧重于绘制林地区域的优势种,抽样精度在80%以上[34]。此外,研究还参考了云南国土资源职业学院提供的人工目视解译结果。

3.2 分类体系及特征选取

研究区内建设用地和道路范围较小,通过手工勾画提取,不参与后续的分类及优化,除此之外的区域均为植被覆盖区。综合影像解译标志、野外调查数据以及相关参考资料[35],本文建立了适用于研究区的植被分类体系,植被型组及相应的优势种如表1所示。
表1 植被型组分类体系

Tab. 1 Classification system of vegetation type groups

植被型组 优势种
针叶林 云南松、华山松、高山松、云南铁杉、丽江云杉、云冷杉
阔叶林 栎类、杨树、桤木、赤杨叶、桦树、杜鹃等
草甸 蕨类、金丝桃、滇川银莲花
灌丛 杜鹃、清香木、绣鳞木犀榄
耕地 核桃、作物
其他 建设用地、道路
高分辨率遥感影像中地物细节丰富、光谱混淆现象严重,因此利用单一或少量的特征难以达到较高的分类精度[36]。研究根据实验区特点,在多尺度分割后对每个图斑计算了光谱、纹理、颜色的不同类型特征。除GF-2影像包含的红(Red)、绿(Green)、蓝(Blue)、近红外(NIR)四个波段外,还选取了亮度(Brightness)和颜色(HSI)特征,以期提高分类精度。植被指数作为表征地表植被状况的有效度量,被广泛应用于全球与区域土地覆盖、植被分类和环境变化等领域[37]。鉴于此,本研究选取归一化植被指数(NDVI)、比值植被指数(RVI)和垂直植被指数(PVI)用于植被分类,其中PVI是基于土壤线的概念提出的[38],公式为:
P V I = N I R - a × R - b 1 + a 2
N I R = a × R + b
式中:NIR为近红外波段的DN值,R为红波段的DN值;a,b分别为土壤线的斜率和截距,可通过对散点图进行线性拟合得到。
将图像的纹理特征与光谱特征结合能有效提高分类精度[39],研究进一步选取了基于灰度共生矩阵(GLCM)定义的同质性(Homogeneity)、对比度(Contrast)和非相似性(Dissimilarity)3种特征统计量参与分类。此外,还选取了高程(DEM)和坡向(Aspect)特征,以应对山区植被生长模式易受地形因素的影响。本文最终所选用的特征如表2所示。
表2 图斑特征列表

Tab. 2 Feature list of geo-patches

特征类别 特征名称 数量/个
光谱信息 R,G,B,NIR,NDVI,RVI, PVI,Brightness,HSI 9
纹理信息 Homogeneity,Contrast,Dissimilarity 3
地形信息 DEM,Aspect 2
在进行随机森林分类时,实验中引入GridSearchCV函数进行自动调参,最终随机森林的决策树个数(n_estimators)设为1500,特征个数(max_features)设为“sqrt”(每棵树随机选取特征个数等于总特征数的开方,本实验中取4),最大深度(max_depth)设为4,节点分裂策略(criterion)设为gini。

3.3 对不确定性的迭代优化

由于计算马氏距离时要求样本个数大于数据维数,研究首先选取各类别数量相等的初始样本200个,均匀分为用于分类训练和验证2个部分。在第一轮分类结束后,需要对样本库进行迭代更新。在自动补样方法中,在选取混合熵较高的图斑时,不同的选取策略会直接影响分类效果,需建立一定的准则。对研究区的针叶林和阔叶林2种植被型组是分类的重点和难点所在,根据混合熵的计算公式,两类林地所占面积较大,图斑的不确定性也相对较高。由于初始样本量较小,如果补样导致样本库中不同类别的比例差距较大,在后续分类中会产生一定的误差。为避免该情况出现,自动补样方法中对样本的选取策略如下:① 首先对上一轮的分类结果按混合熵降序排列,同时计算被分类为阔叶林和针叶林的图斑数量之比,按照该比例分别选取两类林地中混合熵最高的图斑,合计15个,并将其标记为补充样本。如果存在被归为其它类别的、不确定性高于任一补充样本的图斑,则将其替换不确定度较低的补充样本;② 为了避免不确定性下降时可能遇到的局部极值或鞍点,再对每一植被型组选取1个在上一轮结果中混合熵最高的图斑作为补充,如该图斑在①中已被选取,则对剩余图斑按降序依次进行判定,直至满足条件。上述过程中共补充20个样本,补充样本只参与分类训练而不参与验证,已被选为验证数据的样本仍可被选为补充样本。迭代时首先进行自动补样,再据此进行训练和分类,马氏距离下降至收敛时迭代终止。由于样本库的更新,每一轮迭代中,特征的重要性排序都有所差异,图5为最后一轮迭代中重要性高于0.05的特征的降序排列。
图5 随机森林算法中的特征重要性

Fig. 5 Importance of features in random forest algorithm

进行7轮迭代后实验达到终止条件,为表现迭代过程中不确定性空间上分布的变化情况,研究通过以下方式进行对迭代过程中图斑上不确定性的判定:首先对迭代前初始结果中图斑上的混合熵进行降序排列,由于其分布较为集中,采用百分位截断的方式设置分级阈值:混合熵处于[0,20%)的图斑为高不确定性区域,[20%,40%)为不确定性较高区域,[40%,70%)为不确定性较低区域,其余为低不确定性区域。记录初次分类中第20、40、70百分位数对应的图斑编号,后续迭代的不确定性分级依据以上图斑进行判定,以高不确定性区域为例说明:将初次分类中第20百分位数对应图斑在本次迭代中的的混合熵作为阈值,即将混合熵高于此值的图斑判定为高不确定区域,其余区域同理。不确定性空间分布在迭代过程中的变化如图6所示。
图6 不确定性在迭代过程中的空间分布变化

Fig. 6 The changes of spatial distribution of uncertainty during iteration

在迭代初始阶段,不确定性较高的图斑包括山体阴影区域和一些缺乏相近样本的图斑,大多数图斑的不确定性在迭代过程中逐步降低,但极少数图斑的不确定性反而增加,这类图斑主要为一些面积较大或处于不同植被型组交界地带的林地图斑(图7)。结合实地调查情况分析其原因:① 研究区内存在一部分针阔混交林,其各类特征与针叶林和阔叶林都有一定的相似性,在样本库较为丰富的情况下,其不确定性较高;② 图斑内部以草甸/灌丛为主,但存在稀疏分布的林地,难以进一步分割,导致分类效果较差,不确定性较高。实验在前一轮迭代结果的基础上进行少量自动补样时,通过对不确定性最高的图斑进行判定并赋予标签,使得原始条件下特征相近的图斑的不确定性得到有效降低。
图7 迭代过程中图斑上不确定性和分类结果的变化

Fig. 7 The changes of uncertainty and classification results during iteration on geo-patches

在混合熵计算公式中, p i表示植被类别所占面积比例,体现为先验概率,各类别的先验概率由上一轮的分类结果计算所得,由于在不同轮次中该值不同,因此在迭代轮次间混合熵的整体分布未体现出变化规律,如表3所示。鉴于此种情况,实验通过计算马氏距离表征不确定性的降低过程,不同类别图斑与对应样本间在特征空间中的平均马氏距离和各植被型组面积占比变化如图8所示,迭代次数为0表示使用初始的100个训练样本的分类结果,在该轮次分类结果中,针叶林和阔叶林的区分效果较差,产生的面积误差较大,不同类别到样本中心的平均马氏距离较高,表明在分类过程的初始阶段不确定性较高。在基于混合熵的样本补充方法中,不同类别补充样本数量与前一轮的图斑分类数量有关:以针叶林和阔叶林为主,草甸和灌丛样本较少,耕地样本极少。通过上述补样方法,阔叶林和针叶林在迭代过程中的平均马氏距离逐渐下降至收敛,总面积占比趋于稳定,不确定性降低,达到优化目的;草甸和灌丛面积占比较小,马氏距离变化曲线收敛值与初始值相近,是因为初始样本质量较高,初步分类效果已经接近分类器的最佳性能;耕地面积占比很小,特征较为典型,因此不确定性相对较低,分类结果受迭代影响小。
表3 迭代过程中不同类别图斑的平均混合熵

Tab. 3 Average hybrid entropy of different types of geo-patches during iteration

迭代轮次 类别 总体
阔叶林 耕地 草甸 针叶林 灌丛
1 2.552 2.003 2.268 2.519 2.381 2.396
3 2.488 1.942 2.074 2.510 2.306 2.345
5 2.469 1.980 2.110 2.477 2.252 2.331
7 2.473 1.955 2.096 2.486 2.314 2.339
图8 迭代过程中的重要参数变化曲线

Fig. 8 Curve of important parameters in iterative process

3.4 分类结果与精度评价

不确定性理论指导下经过多次迭代得到的分类结果中(图9),植被占比较高的是针叶林和阔叶林,两种林地在部分坡面存在混交现象;草甸和灌丛面积占比较小,主要分布在山脊附近;耕地所占比例很小,集中在居民地周围;建设用地、道路由手工勾绘出。研究区植被种类较为丰富,且空间异质性明显,因此存在一定的零散图斑,与实地调查结果基本相符。
图9 植被型组分类结果

Fig. 9 The classification result of the distribution of vegetation type groups

由于图斑和样本数量较少,因此通过生成不重复的随机数每次从样本库中用于验证的部分抽取50%的样本,共抽取5次,累计250个样本用于分类精度评价,评价结果如表4所示。结果表明,耕地的分类效果最好,草甸和灌丛也具有较高的分类精度,与目视解译结果和参考数据较为接近,针叶林和阔叶林精度略微低于其余类别。对照影像总结误差原因:① 该区域实际存在一定面积的针阔混交林,该区域较难界定,从而引起误差,相应的图斑不确定性也较高;② 图斑的质量存在提升空间,受人类活动影响,一部分坡面以灌丛和草甸为主、零星分布少量树木,与图斑的均质性要求产生矛盾。 ③ 一些图斑不确定性较高,但未在野外采样范围内,且难以借助参考数据对内部树种作出准确判断,使得补样过程无法做到理想化。为判断优化过程中总体分类精度的变化趋势,实验以同样的精度评价方法计算了不同迭代轮次的总体分类精度, 如表5所示。随着样本库的扩充,分类模型在验证集上的表现得到明显改善,迭代结束时获得较高的分类精度,体现了优化过程对于精度的提升作用。
表4 植被分类精度评价

Tab. 4 Accuracy evaluation of vegetation classification

植被型组 针叶林 阔叶林 耕地 草甸 灌丛 总计 用户精度/%
针叶林 89 5 0 0 1 95 93.7
阔叶林 10 58 0 1 0 69 84.1
耕地 0 0 23 0 0 23 100.0
草甸 1 1 0 29 1 32 90.6
灌丛 2 0 0 1 28 31 90.3
总计 102 64 23 31 30 250
生产精度/% 87.3 90.6 100.0 93.5 93.3
总分类精度/% 90.8
Kappa系数 0.875
表5 不同迭代轮次的总体分类精度对比

Tab. 5 Comparison of overall classification accuracy in different iterations

迭代次数
0 1 2 3 4 5 6 7
分类精度/% 61.4 69.6 75.4 79.2 82.2 84.8 87.6 90.8

3.5 不同样本选取方法对比

为证明本实验在不确定性指导下进行补样并迭代优化的有效性,研究进一步设置了2组对比实验:① 实验一次性加入与本实验终止时数量相同的、各类别数量相同的样本,不经过迭代使用随机森林分类直接得到结果;② 实验在迭代时仍按比例补充不同类别的样本,但选取方式为随机选取分类错误的图斑,控制迭代次数和其余流程不变。研究选取典型区域对比本研究和各对比实验分类结果,如图10所示。
图10 不同样本选取方法效果对比

Fig. 10 Effect comparison of different sample selection methods

不确定性下降的速度是迭代优化的核心,实验中不确定性较高的图斑包括在特征空间中靠近决策边界的图斑以及地物类型难以辨别的山体阴影区域,体现为较高的混合熵。显然本研究的分类结果较两组对比实验更为精确:一次性加入全部样本的对比实验体现了迭代优化环节的重要性,由于缺乏特征相近的样本,模型无法对山体阴影区域进行识别,在图10(c)中错分较为严重,针叶林与阔叶林的区分效果也次于本研究所得结果;对于随意补样迭代的实验,阔叶林和针叶林间出现了混淆现象,如图10(d)所示,表明对应的决策边界存在一定的偏差。本研究通过标记不确定性高的样本对决策边界进行调整,虽无法直接标记阴影区的图斑,但通过标记具有某些相似特征的可被确定植被类型的图斑,在调整分类边界的过程中可以得到更为可靠的分类结果,效果优于随意补样的迭代方法。
为对比不同采样方法在高不确定性区域的效果(表6),研究选取一部分迭代前不确定性最高(前5%)的图斑,对比Sentinel-2B参考数据计算分类精度和平均置信度。结果表明,3种方法的精度分类都略有提升:一次性采样的效果提升有限;随意补样的分类精度并不高,但平均置信度在0.6以上,表明此方法得出的结果并不可靠,蕴含的不确定性较高;本研究分类结果中的精度和平均置信度都得到了一定的改善。对比试验证明本研究提出的基于不确定性迭代优化的补样方法优于一次性采样和任意补样。
表6 不同采样方法在高不确定性区域的效果对比

Tab. 6 Comparison of different sampling methods in high uncertainty region

迭代前 一次性采样 随机补样 本研究结果
分类精度 0.31 0.36 0.40 0.53
平均置信度 0.40 0.45 0.63 0.55

4 结论与讨论

4.1 结论

本研究提出了一种基于不确定性迭代优化的山地植被信息提取方法,成功应用于研究区植被型组分类制图实验。通过与传统方法对比和方法参数分析,得到以下结论:
(1)山地区的植被分布与地形条件密切相关,据此提出以地形为主导因素,通过“坡面单元构建-多尺度、多层次分割”的技术路线实现山地区域植被图斑的分区分层提取,获得了较为准确的边界信息,并将其作为后续面向对象分类和图斑不确定性分析的基础。
(2)在不确定性的优化流程中,需在不同阶段定义相应的不确定性评价方法。对于单轮迭代而言,不确定性主要体现在模型对图斑可能隶属的不同类别输出预测概率的差别,因此实验采用混合熵作为补样的主要依据;而在比较迭代轮次间不确定性的变化时,混合熵难以反映不确定性的整体下降趋势,因此用马氏距离度量每一轮结果中不同类别与对应样本间的相似性。迭代优化过程中马氏距离逐渐降低至收敛,相似性升高,不确定性降低,分类精度得到提升。
(3)与传统选取样本方法中的一次性采样和随意补样相比,基于不确定性的迭代优化在补样时针对性更强,分类精度和置信度也更高。本方法的优势在于尽可能高效地将增量信息融入模型、减小分类过程中的不确定性,对难以识别的地物进行推测时得到的结果更加可靠。如样本无法满足类别间均衡的要求,模型可能在某些类上欠拟合,而在另一些类别上过拟合,因此需选取足够数量的各类样本,或是调节不同类别样本的比例。当对其赋予其标签时,决策边界会在下一次迭代中得到相应的调整,体现在不同类别的图斑到样本中心的平均距离增加,整体不确定性降低。而在随机选取样本时,如随机选取的样本在特征空间中距决策边界较远或距已有的样本点较近,则使其进入样本库的收益较低,达到迭代终止的收敛条件也更困难,因此在进行相同的迭代次数时,基于不确定性理论的补样方法效率更高。

4.2 讨论

本文利用不确定性迭代优化的方法进行山区植被信息提取和制图,并验证了方法的可行性及优势。但研究仍存在一些潜在的问题和可能的改进方向:
(1)由于尺度效应和山地环境的异质性,分割算法所得图斑的质量仍存在提升空间,面积较大的图斑不确定性相对较高,后续研究可结合边缘提取模型和纹理模型进行图斑制作。
(2)受限于样本实地获取的难度,研究并未作进一步的植被型分类,在迭代过程中。由于研究区存在少量的针阔混交林区域,且同植被型组内有多个优势种,其间存在一定的光谱差异,使用马氏距离进行相似性计算时存在一定的不确定性。后续将尝试采用更加合适的相似性评估参数,在此方法基础上开展更为详细的植被亚型和群系的分类工作。
(3)随机森林的优势在于处理高维的特征。研究在选取光谱、纹理和地形特征时具有一定的主观性。坡度的平峭会影响水土保留能力,从而影响地表植被的种类,但由于研究使用的DEM精度有限,在计算单个图斑上的坡度数据会产生一定的误差,因此未选取坡度特征辅助分类。研究在提取图斑时加入了坡面约束,故坡向数据不受此限制。如能结合多时相数据以及土壤、水文数据,构建更为全面的特征集,可进一步提高分类精度、降低不确定性。
(4)在对不确定性进行迭代优化的过程时,为新加入样本赋予类别的工作依赖于相关参考数据,其质量决定了迭代优化的效果。后续将尝试收集更多的地面观测数据,发展更有效的自动补样方法。
(5)目前的不确定性研究缺乏相对统一的评价体系,导致其度量方法多样而缺乏可比性。后续研究将尝试构建一套完整的、泛化性较强的不确定性评价和优化体系,应用于更为广阔的场景。
[1]
杨超, 邬国锋, 李清泉, 等. 植被遥感分类方法研究进展[J]. 地理与地理信息科学, 2018, 34(4):24-32.

[ Yang C, Wu G F, Li Q Q, et al. Research progress on remote sensing classification of vegetation[J]. Geography and Geo-information Science, 2018, 34(4):24-32. ] DOI: 10.3969/j.issn.1672-0504.2018.04.005

DOI

[2]
杨颖频, 吴志峰, 骆剑承, 等. 时空协同的地块尺度作物分布遥感提取[J]. 农业工程学报, 2021, 37(7):166-174.

[ Yang Y P, Wu Z F, Luo J C, et al. Parcel-based crop distribution extraction using the spatiotemporal collaboration of remote sensing data[J]. Transactions of the Chinese Society of Agricultural Engineering, 2021, 37(7):166-174. ] DOI: 10.11975/j.issn.1002-6819.2021.07.020

DOI

[3]
Aurdal L, Huseby R B, Eikvil L, et al. Use of hidden Markov models and phenology for multitemporal satellite image classification: Applications to mountain vegetation classification[C]. IEEE International Workshop on the Analysis of Multi-Temporal Remote Sensing Images, Biloxi, USA, 2005. DOI: 10.1109/AMTRSI.2005.1469877

DOI

[4]
任冲, 鞠洪波, 张怀清, 等. 多源数据林地类型的精细分类方法[J]. 林业科学, 2016, 52(6):54-65.

[ Ren C, Ju H B, Zhang H Q, et al. Multi-Source data for forest land type precise classification[J]. Scientia Silvae Sinicae, 2016, 52(6):54-65. ] DOI: 10.11707/j.1001-7488.20160607

DOI

[5]
D Pouliot, Latifovic R, Zabcic N, et al. Development and assessment of a 250 m spatial resolution MODIS annual land cover time series (2000-2011) for the forest region of Canada derived from change-based updating[J]. Practitioner, 2014, 140:731-743. DOI: 10.1016/j.rse.2013.10.004

DOI

[6]
黄恩兴. 遥感影像分类结果的不确定性研究[J]. 中国农学通报, 2010, 26(5):322-325.

[ Huang E X. Research on classification uncertainties of remote sensing image[J]. Chinese Agricultural Science Bulletin, 2010, 26(5):322-325. ] DOI: CNKI:SUN:ZNTB.0.2010-05-069

DOI

[7]
承继成, 郭华东, 史文中, 等. 遥感数据的不确定性问题[M]. 北京: 科学出版社, 2004.

[ Cheng J C, Guo H D, Shi W Z, et al. Study of Uncertainty of Remote Sensing Data[M]. Beijing: Science Press, 2004. ]

[8]
刘艳芳, 兰泽英, 刘洋, 等. 基于混合熵模型的遥感分类不确定性的多尺度评价方法研究[J]. 测绘学报, 2009, 38(1):82-87.

[ Liu Y F, Lan Z Y, Liu Y, et al. Multi-scale evaluation method for uncertainty of remote sensing classification based on hybrid entropy model[J]. Acta Geodaetice et Cartographica Sinica, 2009, 38(1):82-87. ] DOI: 10.332 1/j.issn:1001-1595.2009.01.014

DOI

[9]
徐慧. 遥感影像不确定性对分类结果可靠性影响模式研究[D]. 武汉: 武汉大学, 2020.

[ Xu H. Exploration of the influence model remote sensing image uncertainty on classification[D]. Wuhan: Wuhan University, 2020. ]

[10]
柏延臣, 王劲峰. 遥感数据专题分类不确定性评价研究:进展、问题与展望[J]. 地球科学进展, 2005(11):66-73.

[ Bo Y C, Wang J F. Assessment on uncertainty in remotely sensed data classification: Progresses, problems and prospects[J]. Advances in Earth Science, 2005(11):66-73. ]DOI: 10.3321/j.issn:1001-8166.2005.11.008

DOI

[11]
Congalton R G, Green K. Assessing the accuracy of remotely sensed data[M]. Boca Raton: CRC Press, 2008.

[12]
Stehman S V. Estimating the Kappa Coefficient and its variance under stratified random sampling[J]. Photogrammetric Engineering & Remote Sensing, 1996, 62:401-407. DOI: 10.1.1.461.9979

DOI

[13]
Gopal S, Woodcock C E. Theory and methods for accuracy assessment of thematic maps using fuzzy sets[J]. Photogrammetric Engineering & Remote Sensing, 1994, 60(2):181-188. DOI: 10.2307/3673740

DOI

[14]
Townsend P A. A quantitative fuzzy approach to assess mapped vegetation classifications for ecological applications[J]. Remote Sensing of Environment, 2000, 72(3):253-267. DOI: 10.1016/S0034-4257(99)00096-6

DOI

[15]
Loosvelt L, Peters J, Skriver H, et al. Impact of reducing polarimetric SAR input on the uncertainty of crop classifications based on the random forests algorithm[J]. IEEE Transactions on Geoscience & Remote Sensing, 2012, 50(10):4185-4200. DOI: 10.1109/TGRS.2012.2189012

DOI

[16]
Rocchini D, Foody GM, Nagendra H, et al. Uncertainty in ecosystem mapping by remote sensing[J]. Computers & Geosciences, 2013, 50:128-135. DOI: 10.1016/j.cageo.2012.05.022

DOI

[17]
Borgogno-Mondino E, Lessio A, Gomarasca M A. A fast operative method for NDVI uncertainty estimation and its role in vegetation analysis[J]. European Journal of Remote Sensing, 2016, 49:137-156. DOI: 10.5721/EuJRS20164908

DOI

[18]
张俊瑶, 姚永慧, 索南东主, 等. 基于垂直带谱的太白山区山地植被遥感信息提取[J]. 地球信息科学学报, 2019, 21(8):1284-1294.

DOI

[ Zhang J Y, Yao Y H, Suonan D Z, et al. Mapping of mountain vegetation in Taibai Mountain based on mountain altitudinal belts with remote sensing[J]. Journal of Geo-information Science, 2019, 21(8):1284-1294. ] DOI: 10.12082/dqxxkx.2019.180650

DOI

[19]
张磊. 不确定性指导下的自适应数字土壤制图补样方法[D]. 南京: 南京师范大学, 2018.

[ Zhang L. A dissertation submitted in partial fulfillment of the requirements for the degree of master of science[D]. Nanjing: Nanjing Normal University, 2018. ]

[20]
Zhang S J, Zhu A X, Liu J, et al. An heuristic uncertainty directed field sampling design for digital soil mapping[J]. Geoderma, 2016, 267,123-136. DOI: 10.1016/j.geoderma.2015.12.009

DOI

[21]
骆剑承, 吴田军, 吴志峰, 等. 遥感大数据智能计算[M]. 北京: 科学出版社, 2020.

[ Luo J C, Wu T J, Wu Z F, et al. Intelligent computation of remote sensing big data[M]. Beijing: Science Press, 2020. ]

[22]
Wu T, Luo J, Gao L, et al. Geo-Object-based vegetation mapping via machine learning methods with an intelligent sample collection scheme: A case study of Taibai Mountain, China[J]. Remote Sensing, 2021, 13(2):249. DOI: 10.3390/rs13020249

DOI

[23]
陈春雷, 武刚. 面向对象的遥感影像最优分割尺度评价[J]. 遥感技术与应用, 2011, 26(1):96-102.

[ Wu G. Evaluation of optimal segmentation scale with object-oriented method in remote sensing[J]. Remote Sensing Technology And Application, 2011, 26(1):96-102. ] DOI: CNKI:SUN:YGJS.0.2011-01-013

DOI

[24]
Breiman. Random forests[J]. Machine Learning, 2001, 45(1):5-32. DOI: 10.1023/A:1010933404324

DOI

[25]
Loosvelt L, Skriver H, Peters J, et al. Random Forests as a tool for estimating uncertainty at pixel-level in SAR image classification[J]. International Journal of Applied Earth Observation and Geoinformation, 2012, 19:173-184. DOI: 10.1016/j.jag.2012.05.01

DOI

[26]
张雷, 王琳琳, 张旭东, 等. 随机森林算法基本思想及其在生态学中的应用——以云南松分布模拟为例[J]. 生态学报, 2014, 34(3):650-659.

[ Zhang L, Wang L L, Zhang X D, et al. The basic principle of random forest and its applications in ecology: a case study of Pinus yunnanensis[J]. Acta Ecologica Sinica, 2014, 34(3):650-659. ] DOI: 10.58 46/stxb201306031292

DOI

[27]
Shannon C E. The mathematical theory of communication[J]. The Bell System Technical Journal, 1950, 3(9):31-32. DOI: 10.1063/1.3067010

DOI

[28]
De Luca A, Termini S. A definition of a nonprobabilistic entropy in the setting of fuzzy sets theory[J]. Information Control, 1972, 20(4):301-312. DOI: 10.1016/S0019-9958(72)90199-4

DOI

[29]
吴尚蓉, 刘佳, 杨鹏. 基于参数型指数混合熵模型的农业遥感分类不确定性评价[J]. 农业工程学报, 2013, 29(6):177-184+296.

[ Wu S R, Liu J, Yang P. Evaluation on uncertainty in agricultural remote sensing classification based on exponential hybrid entropy model in parametric form[J]. Transactions of the Chinese Society of Agricultural Engineering, 2013, 29(6):177-184,296. ] DOI: 10.3969/j.issn.1002-6819.2013.06.022

DOI

[30]
刘冰, 李瑞麟, 封举富. 深度度量学习综述[J]. 智能系统学报, 2019, 14(6):1064-1072.

[ Liu B, Li R L, Fen J F. A brief introduction to deep metric learning[J]. CAAI transactions on intelligent systems, 2019, 14(6):1064-1072. ] DOI: 10.11992/tis.201906045

DOI

[31]
De Maesschalck R, Jouan-Rimbaud D, Massart D L. The Mahalanobis distance[J]. Chemometrics & Intelligent Laboratory Systems, 2000, 50(1):1-18. DOI: 10.1016/S01 69-7439(99)00047-7

DOI

[32]
梅江元. 基于马氏距离的度量学习算法研究及应用[D]. 哈尔滨: 哈尔滨工业大学, 2016.

[ Mei J Y. Research on Mahalanobis distance based metric learning algorithm and its applications[D]. Harbin: Harbin Institute of Technology, 2016. ]

[33]
薛达元, 武建勇. 长江中上游生物多样性与保护研究——以滇西北为例[J]. 环境保护, 2016, 44(15):31-35.

[ Xue D Y, Wu J Y. Biodiversity and conservation in the upper and middle reaches of the Yangtze River-a report from the Northwest of Yunnan Province[J]. Environmental Protection, 2016, 44(15):31-35. ] DOI: 10.14026/j.cnki.0253-970 5.2016.15.005

DOI

[34]
彭彦柱, 高海江. 对森林资源一类清查和二类调查的比较分析[J]. 林业勘查设计, 2005(1):26.

[ Peng Y Z, Gao H J. Comparative analysis of the continuous forest inventory and the forest resource inventory and planning[J]. Forest Prospect and Design, 2005(1): 26. ] DOI: CNKI:SUN:LYKC.0.2005-01-011

DOI

[35]
柴勇, 马建忠, 方向京, 等. 滇西北天然林生态分区研究[J]. 西部林业科学, 2020, 49(6):16-20,27.

[ Chai Y, Ma J Z, Fang X J, et al. Study on ecological regionalization of natural forests in Northwest Yunnan province[J]. Journal of West China Forestry Science, 2020, 49(6):16-20,27. ] DOI: 10.16473/j.cnki.xblykx1972.2020.06.003

DOI

[36]
李亮, 舒宁, 王凯, 等. 融合多特征的遥感影像变化检测方法[J]. 测绘学报, 2014, 43(9):945-953+959.

[ Li L, Shu N, Wang K, et al. Change detection method for remote sensing images based on muti-features fusion[J]. Acta Geodaetica et Cartographica Sinica, 2014, 43(9):945-953,959. ] DOI: 10.13485/j.cnki.11-2089.2014.0138

DOI

[37]
郭铌. 植被指数及其研究进展[J]. 干旱气象, 2003(04):71-75.

[ Guo N. Vegetation Index and Its Advances[J]. Arid Meteo Rology, 2003(04):71-75. ]DOI: CNKI:SUN:GSQ X.0.2003-04-015

DOI

[38]
徐丹丹, 李文龙, 王迅, 等. 垂直植被指数的计算和精度分析[J]. 兰州大学学报(自然科学版), 2010, 46(5):102-106.

[ Xu D D, Li W L, Wang X, et al. Calculation of perpendicular vegetation index and accuracy[J]. Journal of Lanzhou University (Natural Sciences), 2010, 46(05):102-106.] DOI: CNKI:SUN:LDZK.0.2010-05-023

DOI

[39]
杨盼盼. 基于高分辨率遥感影像纹理特征的面向对象植被分类方法研究[D]. 昆明: 云南师范大学, 2017.

[ Yang P P. Research on object-oriented vegetation classification method based on texture feature of high-resolution remote sensing image[D]. Kunming: Yunnan Normal University, 2017. ]

Outlines

/