An Overview of Quantitative Experimental Methods for Segmentation Evaluation of High Spatial Remote Sensing Images

CHEN Yangyang; MING Dongping; XU Lu; ZHAO Lu

doi:10.3724/SP.J.1047.2017.00818

Journal of Geo-information Science >

2017 , Vol. 19 >Issue 6: 818 - 830

DOI: https://doi.org/10.3724/SP.J.1047.2017.00818

Orginal Article

An Overview of Quantitative Experimental Methods for Segmentation Evaluation of High Spatial Remote Sensing Images

CHEN Yangyang ,
MING Dongping ^,^* ,
XU Lu ,
ZHAO Lu

Expand

School of Information Engineering, China University of Geosciences (Beijing), Beijing 100083, China

*Corresponding author: MING Dongping, E-mail: mingdp@cugb.edu.cn

Received date: 2017-03-15

Request revised date: 2017-04-19

Online published: 2017-06-20

Copyright

《地球信息科学学报》编辑部所有

Fold

Abstract

Geographic Object-Based Image Analysis (GEOBIA) is much better than traditional pixel-based method of high spatial resolution remote sensing image analysis. Since image segmentation is the key technique in GEOBIA, scholars and researchers have already conducted extensive research and proposed a number of segmentation algorithms. In order to compare different segmentation methods and evaluate its own performance, segmentation results need to be evaluated. Therefore, the study of segmentation evaluation is equally important to segmentation algorithm. We could choose the applicable segmentation method and set appropriate parameters for specific images and applied the segmentation evaluation. The aim of image segmentation is to enable the automation of image analysis. However, the evaluation methods which cannot provide quantitative indexes are not applicable in automatic real-time image analysis system. Moreover, research in segmentation evaluation is less than segmentation itself. Thus, it will be significant to study segmentation and review the quantitative evaluation method. In this paper, based on summarizing the evaluation methods, the hierarchy of segmentation evaluation method is presented. In spite of describing quantitative empirical methods, we discussed their range of application. Their advantages and shortcomings were also analyzed. Finally, possible future direction and potential application prospect for high spatial remote sensing image segmentation evaluation were proposed.

Key words： high spatial resolution remote sensing images; OBIA; segmentation evaluation; empirical discrepancy method; empirical goodness method

Cite this article

CHEN Yangyang , MING Dongping , XU Lu , ZHAO Lu . An Overview of Quantitative Experimental Methods for Segmentation Evaluation of High Spatial Remote Sensing Images[J]. Journal of Geo-information Science, 2017 , 19(6) : 818 -830 . DOI: 10.3724/SP.J.1047.2017.00818

1 引言

近年来随着遥感成像技术的迅猛发展,人们可以十分便捷、高效地获取卫星和飞行器所采集的各种高空间分辨率遥感影像（简称高分影像）。高分影像目前已经广泛应用于土地资源管理、城市及道路交通规划、灾害监测与评估、军事目标检测等领域。与遥感成像技术所取得的进展相比,高分影像的处理与分析技术发展较慢,高分影像在应用中的潜力没有得到充分发挥和释放。因此,对高分影像进行高效、自动化的信息提取与分析是当前遥感科学研究的重点和亟待突破的瓶颈。

高分影像较中低空间分辨率影像包含了大量的地物空间细节信息,对其进行空间分析及信息提取的技术难度显著增加。针对高分影像使用基于像素的传统图像分析方法只能提取和使用单个像元的光谱统计信息,而忽视了目标之间的空间信息^[1]。GEOBIA（Geographic Object-Based Image Analysis）技术因其能充分利用高分影像中影像对象丰富的大小、形状和纹理等信息^[2],针对高分影像分析的效果和精度远优于基于像元的传统方法^[3]。影像分割作为高分影像信息提取的关键步骤,是GEOBIA技术中的基础环节,分割之后得到的影像对象可替代传统方法中的像元进行后续的图像分析处理（如图像分类、目标提取等）^[4-6]。基于影像分割的特征提取和目标表达能将原始图像转化为更抽象更紧凑的形式,使得更高层的图像分析和理解成为可能^[7]。

迄今为止,学者们已经提出大量针对高分影像的分割算法,在实验中需根据影像的特性和需求选择合适的分割算法并为其设定一个或者多个分割参数,但如何比较2种分割算法或对同一种分割方法比较不同参数设定结果来辅助实现分割参数优选是分割的难点之一,而且影像分割效果的好坏会直接影响影像后续分析处理的结果和精度^[8]。因此,设计出一套对影像分割结果进行评价的方法和体系具有十分重要的意义。现今对分割算法的评价研究还远远落后于对分割算法本身的研究,一定程度上制约了影像分割技术的应用和发展,因此本文对高分影像分割评价方法进行了系统的总结,并指出了分割评价方法未来的改进方向和应用前景。

2 现有分割评价方法体系

虽然分割评价的研究相对于分割算法本身较为落后,但还是涌现出很多具有一定适用性的分割评价算法。这些方法各不相同,可以划分为5大类别（图1）^[9]。

View original graphic|Download|PPT slide

Fig. 1 The hierarchy of segmentation evaluation methods

图1 分割评价方法体系

根据是否需要人工通过目视评判对分割结果进行评价,可将整个分割评价方法划分为主观评价法和客观评价法。主观评价法是目前在影像分割领域应用最为广泛的分割评价方法,该方法以人类自身的视觉感知效果为评判标准,针对同一分割结果综合多名评价者的打分,进而对某种分割方法进行定性的评价。客观评价法包括系统级评价法和直接评价法,系统级评价法将分割作为整个系统的一部分,依据分割结果进行后续信息分析提取的效果和精度（如分类和目标提取精度）间接对分割方法进行评价。直接评价法可以对分割算法进行评价,也可以对分割算法产生的结果进行评价,所以直接评价法可以分为分析法（定性、定量指标）和实验法（定量指标）。分析评价法在无需进行分割实验的前提下,直接对算法本身进行评价,通过对分割算法的基本思想和理论的分析推理得到算法的性能和适用性,评价指标可分为定性和定量2类,其意义在于发现算法的实质性缺陷,并明确算法的改进方向。实验法通过分割实验,对分割结果进行评价,根据是否需要使用真实地表分割数据可划分为监督度评价法（差异实验法）和非监督评价法（优度实验法）。需要说明的是,上述评价方法并非相互独立或排斥,每种方法都有不同的特点和局限性。针对不同影像,对其分割结果进行评价可能会用到上述方法中的一种或多种的组合。

主观评价法给出的评价结果定性且主观性强,而系统级评价法和分析评价法需要结合特定的分割算法和应用目,缺乏普适性,在实时、自动化的影像信息分析中仍存在一定的局限性。定量的实验评价法是分割评价研究领域关注的重点,目前国内外还未系统和全面的总结。本文从监督评价和非监督评价2个方面对高分影像分割算法进行了系统地综述。

3 监督评价法

监督评价法又称差异实验法,该方法将分割结果与手工选取的分割参考数据（黄金标准图像^[31]）进行对比,以二者之间的差异或不相似度作为评判标准。在精确地确定地表真实地物范围和影像分割对象之后,监督评价法能有效地克服主观性,客观定量地对分割算法的性能进行评价,是最佳的评价方法^[32-33]。近年来,监督评价法已逐步取代主观评价法,成为较常用的分割评价方法。监督评价法进行分割评价有3个主要步骤：建立分割参考数据、对象匹配、差异（相似度）计算。

3.1 建立分割参考数据

分割参考数据是代表研究区域最理想分割结果的参考基准,由若干个参考对象构成,每个参考对象是一个矢量多边形。针对高分影像的参考数据通常通过目视解译或者实地数据采集的方式数字化得到,在本文中表示为参考对象集

R = r i; i = 1, ⋯, n

。参考数据的获取费时费力。对于整幅影像,特别是高分影像,地物细节十分丰富,参考数据中分割对象的数量庞大,建立一个数字化的分割参考图具有一定的主观性且难度大^[34],一定程度上限制了监督评价法的运用范围。

3.2 对象匹配

在分割参考影像建立之后,需要从分割方法所对应的分割对象集

S = s j : i = 1, ⋯, m

中提取出与每一个参考对象

r i

构成空间重叠关系的重叠对象集

S i = s j : area (s j ⋂ r i) ≠ 0

。重叠对象集的建立是对参考对象

r i

和分割对象

s j

的粗匹配,仅考虑了空间拓扑关联。由于实际分割结果与参考数据不可避免会存在偏差,重叠对象集中的每个分割对象可能与多个参考对象存在重叠关系,而在最佳理想状态下每一个参考对象和它的匹配对象应当是一对一的关系（图2(b)）。因此需要对重叠对象集

S i

进行筛选,得到匹配对象集

S i * = s j : j = 1, ⋯, v

。对重叠对象进行筛选的条件主要有“对象面积占比”和“对象空间位置”。

View original graphic|Download|PPT slide

Fig. 2 Arithmetic relationship between the reference object and the corresponding object

图2 参考对象和匹配对象数量关系

Lucieer等^[35]提出区域重叠面积最大法,将与参考对象

r i

重叠面积最大的重叠对象

s j

定为对应的匹配对象,每个参考对象匹配了一个重叠对象。该方法应用广泛,原理简单,计算复杂低,但当重叠面积占匹配对象面积较小时,匹配对象属于参考对象的欠分割对象,影响匹配结果的可靠性。

S i * Max = s j : max a rea r i ⋂ s j, s j ∈ S i

（1）

赵磊等^[36]对区域重叠面积最大法进行了改进,定义了反映欠分割程度的参数,即欠分割比例（Under Segmentation Ratio,USR）。通过该参数限制欠分割对象参与对象匹配,基于匹配结果可以更加客观的评价相应分割方法。

USR = 1 - max (r i ⋂ s j) s j

（2）

Liu等^[37]提出单向50%法（One-Sided 50%）：重叠面积大于参考对象

r i

或重叠对象

s j

二者之一面积的50%的重叠对象为匹配对象。单向50%法的匹配原则较区域重叠面积最大法更加严格,得到的匹配结果相对可靠,但每个参考对象往往存在多个匹配对象,且在许多分割关系下并不适用。例如当一个参考对象

r i

完全包含多个重叠对象

s j

时,既不存在过分割现象,也不存在欠分割现象。

S i * 1 = s j ： area r i ⋂ s j area s j > 50 % ⋃ area r i ⋂ s j area r i > 50 %, s j ∈ S i

（3）

Yang等^[38]对单向50%方法进行了改进,提出了双向50%法（Two-Sided 50%）：重叠面积均大于参考对象

r i

和重叠对象

s j

二者面积的50%的重叠对象为匹配对象。该方法较单向50%法,可以从多个单向50%匹配对象中,所选出最能代表真实分割情况的匹配对象。

S i * 2 = s j : area r i ⋂ s j area s j > 50 % ⋂ area r i ⋂ s j area r i > 50 %, s j ∈ S i

（4）

E Schöpfer等^[39]提出Object-Fate匹配方法。将重叠对象按照参考对象和重叠对象的面积占比和空间位置划分为优良（Good）匹配对象、扩张（Expanding）匹配对象和侵入（Invading）匹配对象3类（图3）。优良匹配对象和扩张匹配对象共同组成匹配对象;优良匹配对象完全落入参考对象的范围当中;扩张匹配对象的范围超出参考对象,但是其质点位于参考对象范围内,且重叠面积大于扩张匹配对象的50%;侵入匹配对象的范围超出参考对象,其质点位于参考对象范围之外,且重叠面积小于扩张匹配对象的50%;优良匹配对象和扩张匹配对象的合并区域即所需的匹配对象。

Goo d i = s j : area r i ⋂ s j = area (s j), s j ∈ S i

（5）

Expandin g i = s k : area r i ⋂ s k area s k > 50 % ⋃ s k 的质点在 r i 内部, s k ∈ S i

（6）

Invadin g i = s l : area r i ⋂ s l area s l < 50 % ⋃ s l 的质点不在 r i 内部, s l ∈ S i

（7）

View original graphic|Download|PPT slide

Fig. 3 The object-fate matching method

图3 Object-Fate匹配方法

3.3 差异计算

匹配完成之后就可以对匹配对象进行差异计算,学者们提出了多种评价指标对分割对象和分割参考对象的差异度进行度量,差异评价指标可以基于对象的形状、大小、位置、边界、灰度和分割、参考对象数量。差异的度量结果数值越大,分割结果和理想的标准分割结果偏差越大,说明在此类影像中该分割算法的性能较差。本文将目前常用的评价指标分为几何关系指标、数量指标、混合指标。

3.3.1 几何关系指标

3.3.1.1 基于区域

基于区域的测度指标主要是对参考对象和匹配对象之间的几何关系差异（Geometric Discrepancy）进行度量。几何关系包含3种基本类型,分别是重叠

r i ⋂ s j

、过分割

r i - s j

、欠分割

s j - r i

（图4）。文献[37]、[40]-[42]对这3种几何关系进行了详细的定义和阐述。

View original graphic|Download|PPT slide

Fig. 4 Geometric relationship between the reference object and the corresponding object

图4 参考对象和匹配对象几何关系

（1）基于重叠区域

Fram等^[43]和陈秋晓等^[44]基于区域重叠面积最大法选定与参考对象重叠面积最大的重叠对象进行匹配,通过将对象重叠区域定义为参考对象被正确分割的区域,定义了正确分割的百分数（Fraction of Correctly Segmented Pixels,FCSP）。该方法仅对参考对象的过分割现象进行了描述,但未对匹配对象的欠分割程度进行评价。

FCS P i = area r i ⋂ s j area (r i), s j ∈ S i * max

（8）

FCSP的取值与参考对象和分割对象之间的重叠面积呈正相关,取值范围为[0, 1]。FCSP值为1时,对应的影像分割效果最好。

与FCSP类似,Lucieer等^[35]基于区域重叠面积最大法,针对对象之间的面积差异提出了面积匹配指数（Area Fit Index,AFI）。

AF I i = area r i - area s j area r i, s j ∈ S i * max

（9）

式中：AFI的取值范围[-1,1],理想取值为0。AFI大于0表示分割对象分割过度,AFI小于0表示分割对象未分割完全。但当重叠面积占参考对象或匹配对象面积比较小时,对欠分割和过分割现象的评价并不可靠。

Zhan等^[45]定义了相似尺寸（SimSize）指标,对参考对象和匹配对象的尺寸（面积）相似程度进行评价。该方法仅考虑了面积相似度,在一对多的匹配关系下,当参考对象和多个匹配对象面积相似度相同但重叠面积不同时,显然重叠面积大的匹配对象分割结果更理想,但通过SimSize值无法判断。

SimSiz e ij = min area r i, area s j max area r i, area s j

s j ∈ S i * 1

（10）

式中：SimSize的取值在[0, 1]之间,最佳取值为1。

Moller等^[46]根据重叠区域面积占参考对象和重叠对象面积的比例,定义了相关区域指标（Relative Area in Sub-Object,RA_sub）（等价于FCSP）,（Relatice Area in Super-Object,RA_super）,对过分割和欠分割现象进行评价。

R A su b ij = area r i ⋂ s j area (r i), s j ∈ S i

（11）

R A supe r ij = area r i ⋂ s j area (s j), s j ∈ S i

（12）

式中：RA_sub和RA_super的取值范围为[0, 1],取值越高分割结果越理想。

Weidner^[47]定义了质量合格率（Quality Rate,QR）。当参考对象和匹配对象的重叠面积等于对象并集的面积时二者完全重合,面积相似度达到最大,分割效果最好。与FCSP和AFI相比,QR的计算不仅考虑了参考对象和匹配对象的重合面积,还考虑了二者面积的相似度,能更加客观的对二者的几何关系进行评定。

Q R ij = 1 - area r i ⋂ s j area r i ⋃ s j, s j ∈ S i * 1

（13）

式中：QR取值范围为[0, 1],理想取值为0。

基于重叠区域的测度指标,计算简单,定义直观,是目前较为常用的评测指标。

（2）基于过分割、欠分割区域

Clinton等^[48]提出过分割比例（Over Segmentation,OS）,对RA_sub和RA_super指标进行改进,将重叠对象替换为匹配对象,使用欠分割区域和过分割区域替代重叠区域,欠分割比例（Under Segmentation,US）,通过过分割和欠分割区域面积占参考对象和匹配对象的面积的比例,对分割对象的的过分割欠分割程度进行度量。

O S ij = 1 - area r i ⋂ s j area r i = area r i - s j area r i, s j ∈ S i * 1

（14）

U S ij = 1 - area r i ⋂ s j area s j = area s j - r i area s j, s j ∈ S i * 1

（15）

OS和US通常组合为ED1使用,取值范围均为[0,1],取最佳值0时分别参考对象不存在过分割现象和匹配对象不存在欠分割现象。

分割后续的影像分类应用中,在分类器设计合理的情况下,过分割对象依旧可以被正确分类,不会对最终分类结果造成影响。但欠分割无可避免的会直接影响到分类精度^[47,42]。Liu等^[37]基于此特性对US指标进行改进,提出潜在分割误差（Potential Segmentation Error,PSE）。通过错误分类比例（欠分割区域面积/参考对象面积）间接对分割结果进行评价。

PSE = area s j - r i area r i, s j ∈ S i * 1

（16）

式中：PSE的取值范围均为[0,

+ ∞

],取最佳值0时参考对象不存在欠分割现象。

PSE和NSR通常组合为ED2（表1）使用,NSR和PSE为同一量级时ED2指数最可靠。ED2指数同时对分割结果的几何差异和数量差异进行了度量,但当大量参考对象被过分割时,NSR和PSE的量级难以一致。此外,一对多过分割和多对一欠分割的共存也会导致NSR指标的无效。因此,Yang 等^[49]对NSR、PSE、ED2改进,基于局部欠分割比例和过分割比例的平均值,提出了过分割指标2 （OverSegmentation 2,OS2）、欠分割指标2 （Under-Segmentation 2,US2）。

OS 2 = ∑ ∑ 1 - area r i ⋂ s j area (r i) ¯, s j ∈ S i * 1

（17）

US 2 = ∑ ∑ 1 - area r i ⋂ s j area (s j) ¯, s j ∈ S i * 1

（18）

式中：OS2和US2为归一化指标,取值范围均为[0, 1]。OS2和US3通常组合为ED3（表1）使用,可以对全局的几何差异和数量差异进行评价。

Tab. 1 Typical combined measures of supervised evaluation method

表1 典型监督评价混合指标

指标	公式	组合	文献
ED1	$ED 1 = O S 2 + U S 2 2$	欠分割和过分割指标	Clinton^[48]
ED2	$ED 2 = PS E 2 + NS R 2$	欠分割和数量指标	Liu^[37]
ED3	$ED 3 = ∑ ∑ 1 - area r i ⋂ s j area (r i) 2 + 1 - area r i ⋂ s j area (s j) 2 2 ¯$	局部欠分割和过分割指标	Yang^[49]
SEI	$SE I lo cal i = 1 - area r i ⋂ s j area r i 2 + 1 - area r i ⋂ s j area s j 2 2, s j ∈ S i * 2 1, s j ∉ S i * 2$ $SEI = 1 n ∑ i = 1 n SE I lo cal i$	基于双向匹配的局部欠分割和过分割指标	Yang^[38]
M	$M = 1 - R A su b ij 2 + 1 - R A supe r ij 2 + R A su b ij 2 + R P ij 2 4$	区域和距离指标	Moller^[46]
ADI	$ADI = O E 2 + C E 2$	欠分割和过分割指标	Cheng J^[50]

Cheng等^[50]基于Object-Fate匹配方法,定义Omission Error（OE）和Comission Error（CE）指标对参考对象和匹配对象的差异进行评价。OE为侵入对象与参考对象重叠区域（过分割区域）与参考对象面积的比值。CE为不与参考对象重叠的扩张对象面积（欠分割区域）与参考对象面积的比值。从计算原理的角度,OE等价于OS指标,CE等价于PSE指标。因此OE和CE为基于Object-Fate匹配方法的过分割指标和欠分割指标,并可与基于Object-Fate的数量差异指标组合使用。

O E i = area r i ⋂ s l area (r i), s l ∈ Invadin g i

（19）

C E i = area s k - area r i ⋂ s k area (r i), s k ∈ Expandin g i

（20）

式中：OE和CE的理想取值为1。

基于过分割欠分割区域的评价测度可以直接对分割结果的过分割欠分割现象进行定量的反映。该指标不仅可以通过评价结果对分割方法的性能进行评价,比较不同分割方法的优劣,还可以依据分割结果欠分割和过分割程度对分割尺度进行调整,选取最优分割尺度。正因如此基于过分割区域和欠分割区域的测度指标逐步取代基于重叠区域的测度指标成为主流。

3.3.1.2 基于位置和边界

基于位置和边界的测度指标,是对参考对象和匹配对象之间的几何关系差异进行度量。不同于基于区域的测度指标通过重合、过分割、欠分割程度进行评价,基于位置和边界的指标通过对象间位置相似度和判断对象间边界吻合程度来评价分割结果的优劣。

（1）基于位置

Zhan等^[45]提出（Quality of Object Location,qLoc）,以参考对象和匹配对象的质心距离作评价对象之间的位置相似程度。

qLo c ij = dist r i 的质心, s j 的质心, s j ∈ S i * 1

（21）

式中：dist（a,b）为a,b之间的欧氏距离。qLoc的最小值即最佳取值为0,最大值取决于输入图像和所采用的分割方法和匹配方法。

Moller等^[46]基于qLoc指标进行改进,提出相关位置指标（Relative Poistion,RP）,对qLoc的结果进行归一化。

R P ij = dist r i 的质心, s j 的质心 max j qLo c ij, s j ∈ S i * 1

（22）

式中：RP的取值范围为[0,1],取值与位置相似度成正相关。

Cheng等^[50]提出（Position Discrepancy Index,PDI）距离差异指数,通过计算扩张对向和优良对象与参考对象距离的平均值,评价基于Object-Fate匹配方法对象的位置相似度。

PD I i = ∑ j = 1 N dist r i 的质心, s j 的质心 + ∑ k = 1 M dist r i 的质心, s k 的质心 N + M, s j ∈ Goo d i s k ∈ Expandin g i

（23）

式中：N、M为优良对象和扩张对向的数量;PDI的最小值即最佳取值为0。

基于位置的评测指标,原理简单,算法复杂度低。但该指标只对位置相似度进行评价,对分割结果的评价并不充分,在位置相似度完全一致时依然可能存在严重的过分割和欠分割现象。因此,该指标不能单独使用,需要与其他评测指标组合使用。

（2）基于边界

理想的匹配分割对象应当与参考对象在边界上完全重合,因此基于边界的评测指标可以单独使用,通过边界重合度和形状相似度直接对分割效果进行评价。该算法复杂计算量较大,且不适用于一对多或多对一的匹配情况。

Lucieer等^[35]提出基于基于距离指标（Distance-Based Measure,D）,通过计算参考对象矢量边界上像素与匹配对象矢量边界上像元的最短欧氏距离来反应边界重合度。PR、PS分别为参考对象矢量边界和匹配对象矢量边界上的N和M个像元。D的值越小边界重合度越高。

D ij = ∑ n = 0 N min dist P R i n, P S j N, s j ∈ S i * 1

（24）

于欢等^[51]定义矢量距离指数（Vector Distance,VD）：参考对象矢量边界和匹配对象矢量边界在横纵2个方向上的距离之和。

V D ij = ∑ a = 1 n 1 H ij a n 1 + ∑ b = 1 n 2 V ij b n 2, s j ∈ S i * 1

（25）

式中：

H a

为第a条横向距离线的长度;

n 1

为横向距离线总数;

V b

为第b条纵向距离线的长度;

n 2

为纵向距离线总数。距离线的间隔均为等距。VD的大小与分割效果负相关,当VD为0时,参考对象与匹配对象边界完全重合,分割效果最好。

刘大伟等^[52]提出形状相似度指标（Shape Similarity, SS）,通过比较对象质心向边界所引射线长度差异的方式计算形状相似度,并进行了归一化处理。

S S ij = ∑ k = 0 N - 1 f r i θ k - f s j θ k 2 max ∑ k = 0 N - 1 f r i θ k, ∑ k = 0 N - 1 f s j θ k, s j ∈ S i * 1

（26）

式中：

θ

为射线角度间隔,发出的总射线数为

2 π θ

,记为N。

f θ k

是质心以旋转角度

θ k

发出射线和边界交点与对象质心之间的距离。SS的范围为[0, 1],值越低参考对象和匹配对象的差异度越低,分割效果越好。

3.3.2 数量指标

基于数量的指标是对参考对象和匹配对象的数量差异（Arithmetic Discrepancy）进行度量。对象的数量关系包括一对多、一对一和多对一,文献[37]对这3种数量关系进行了详细的定义和阐述。在分割结果理想的情况下,所有参考对象和匹配对象都应当是一对一的关系。

Strasters等^[53]提出破碎度（Fragmentation,FRAG）。

FRAG = 1 1 + p ∙ m - v q

（27）

式中：m和v分别是参考对象和匹配对象的数量;p和q是尺度参数,需要根据实际情况和应用进行设定。FRAG的取值范围为[0, 1],取1时分割效果最好。

Liu等^[37]提出分割比率数量（Number of Segments Ratio,NSR）。

NSR = m - v m

（28）

式中：m和v分别是参考对象和匹配对象的数量。NSR值为0时,所有参考对象和匹配对象均一一对应,分割效果最好。NSR值越大,一对多或多对一的匹配数量关系越多,间接说明过分割或欠分割现象愈发严重。

E Schöpfer等^[39]基于Object-Fate匹配方法,提出后代忠诚度（Offspring Loyalty, OL）和干扰度（Interference, I）,分割质量越好,优良对象占匹配对象的比重越高,入侵对象占全部分割对象的比重越低。

OL = n good n good + n expanding

（29）

I = n invading n good + n expanding + n invading

（30）

式中：n为对应对象的数量;OL和I的理想取值为 1和0。

在分割评价中,对数量关系差异的评价和对几何差异的评价同样重要。对于理想的分割结果,对象间几何差异一定很小,但较小的几何差异并不能保证理想的分割结果。在一些极端情况下,如所有匹配对象的大小均为一个像元时,匹配对象均与参考对象完全重叠,根据几何差异的定义并不存在过分割和欠分割现象,这显然是不合理的。因此基于数量的测度指标目前受到学者们广泛的重视,将其与基于区域的测度指标联合共同对分割结果评价是未来的趋势。

3.3.3 混合指标

研究将多种不同类型的指标综合运用到监督分割评价当中,结合二者的优点,弥补各自的局限性,更加客观全面的对分割结果进行评价（表1）。若指标没有严格的定义范围,或者范围与其它的指标处于不同量级,在组合使用之前需要进行规范化、标准化或归一化处理。

3.4 存在的问题与分析

与主观评价法、系统级评价法和分析评价法相比,监督评价法一定程度上克服了人为因素带来误差,通过与真实分割结果作最直接的对比,客观定量地提供了更加精确的分割评价结果。但是监督评价法需要人工建立分割参考数据,面向GEOBIA多尺度分割进行监督评价,虽然有学者提出了针对多尺度的监督评价方法^[5],但为整幅影像建立完整的数字化参考数据费时费力,且存在一定的主观性。面向典型目标识别的单一尺度分割结果进行监督评价,不用为所有地物建立参考数据,工作量相对较小,同时典型地物的对象范围一般很明确,克服了参考数据建立主观性强的缺点。此外,监督评价法在对象匹配和差异计算的过程中计算复杂,且匹配方法和差异评价测度的选择都会对最终的评价结果产生影响。因此,如何针对不同的应用或影像选择合适或设计出具有普适性的匹配方法和评价指标,是日后监督评价法研究的重点。

4 非监督评价法

非监督评价法又称为优度实验法或独立评价法（Stand Alone）,该方法不需要参考影像,而是根据人类对于理想分割结果特点的感知,建立特征优度,从而对分割方法进行评价。May^[54]对理想的分割结果的定义得到了广泛认可,具体为：

（1）区域内针对某些特性是均质的;

（2）相邻区域间针对区域内均质特性应当有显著差异;

（3）区域内部无空洞;

（4）区域的边界简单不破碎且准确;

但是对于具有清晰纹理结构的自然图像,特别是高分影像,只有前2个准则符合实际应用,好的分割结果应该有较大的区域内均质性和区域间异质性。因此,大多数非监督评价方法都是先计算每个分割对象的区域内均质性和区域间异质性,然后将计算后的结果复合成一个针对区域内分割对象的全局指标,最后将2个指标联合起来得到整体优度评分,对影像的分割结果进行评价。下文将对常用的均质性和异质性优度指标进行系统归纳,并对优度的复合方法进行总结。

4.1 均质性优度

均质性优度是基于理想分割第一条原则所构建的优度指标。均质性优度通过对区域内均质度的计算,可以直观有效地对分割结果进行评价。目前,评价均质性的优度主要有基于光谱差、基于光谱方差、基于纹理、基于熵4种。Weszka^[55]基于阈值分割后分割对象像素与原始像素的光谱差值,提出了D_wr,该优度用于评价基于阈值的前景、背景分离分割算法。Zeboudj^[56]基于分割对象区域内像素与邻接像元最大的光谱差值提出最大区域内对比度（Max Within-Region Contrast,MWC）指标。Chen等^[57]基于分割对象像元与对象内平均光谱值的差值提出区域内视觉误差（Intra-Region Visual Error,E_intra）;基于光谱方差的优度较基于光谱差的优度能够更加合理的反映区域内光谱值的均匀程度,Zhang^[4]以区域内部光谱方差为度量提出了区域内部非均质性（Non-Uniformity within region measure,UM）指标,UM值越小区域内的均质性越强。Sahoo等^[58]提出的归一化均质性指标（Normalized uniformity measure,NU）,是UM的归一化版本,NU值越大区域内的均质性越强。Otsu^[59]基于分割对象和邻接对象光谱方差的加权和定义了类内方差（Within-Class Variance,WV）,不仅考虑了对象内的均质性,还考虑了邻接对象的均质性;针对纹理特征,Weszka等^[55]依据理想分割结果中区域内部不能有强纹理且形状简单紧凑,提出繁忙性（Busyness）指数对均质性进行评价。Levine等^[60]提出PV指标,利用纹理测度R描述区域内部纹理异质性,PV和Busyness都是针对全局的优度指数。此外也可以将UM指标中的光谱方差替换为纹理值方差对纹理的异质性进行评价; PAL等^[61]提出高阶局部熵（Higher Order Local-Entropy）,通过最大化分割对象和背景的二阶局部熵对均质性进行评价。

在上述指标中基于光谱差、纹理和熵的指标在遥感领域应用较少,目前最常用的均质性优度是基于光谱方差的优度,特别是局部方差（Local Variance,LV）^[62]指标,即上文提到的区域内部非均质性指标（UM）。

V i = ∑ f x, y - 1 A i ∑ f x, y 2 A i

（31）

式中：

V i

R i

A i

分别为是标号为i的分割对象的内部均质性,范围和面积大小。

f x, y

为横纵坐标为x,y的像素的灰度值。但该指标不是对内部均质性的直接评价,取值大小与区域内部均质性呈负相关。

王志华等^[63]对LV指标进行了改进,利用邻接边长和面积为权重,提出了加权局部方差（WLV）,对多个邻接分割对象的均质性进行评价,实现了最佳尺度的选择。

为了将均质性的评价范围从单个分割对象迁移到整幅影像,可以通过面积加权的方式将局部方差转换为适用于全局评价的局部方差指标。

V = ∑ i = 1 n A i ∙ V i ∑ i = 1 n A i

（32）

式中：n是整幅影像分割区域的数量。

4.2 异质性优度

为了依据理想分割第二条准则进行分割质量评价,学者们提出了异质性优度。基于光谱差的异质性优度可以分为基于区域间光谱差和基于边界的局部光谱差2种。Otsu^[59]通过计算分割对象与临界对象平均光谱值差的平方,提出类间平方差（Within-Class Variance

σ 2 w

）。张俊等^[64]以邻接边长为权重,通过计算分割对象与所有邻接对象平均光谱值差值度量异质性,提出△CL指标,该指标通常和LV指标共同组成RMAS指标使用,但仅凭光谱差并不能说明对象间灰度的差异程度。Levine等^[60]提出区域间灰度对比度（Grey Level Contrast Measure,GC）,该优度基于相邻区域平均光谱值的差与和之比描述区域间的异质性,并通过设定面积权重的方式计算和所有邻接区域的复合异质性,可靠性较

σ 2 w

大大提升。Chen等^[57]提出区域间视觉误差（Inter-Region Visual Error, E_inter）指标,通过设定阈值的方式对区域之间光谱平均值的差异进行约束,并基于分割对象与邻接区域重合边界长度设定权重计算分割区域与所有邻接区域的复合异质性;基于边界的局部光谱差优度主要有区域边界梯度（Edge Gradient Measure,EG）和最大边界对比度（Max Border Contrast,MBC）^[56],临界区域边界上像素的光谱梯度或光谱差越大,说明区域间的异质性越强,但该指标在各区域均质度较低时并不可靠;除了使用光谱差,还可以使用光谱方差对异质性进行评价,明冬萍等^[7]基于区域间光谱方差区域间散度对比（Variance Contrast Measure）,以2个邻接区域光谱方差之差和邻接区域合并后的光谱方差之比作为评价区域间异质性的优度,散度对比越大,说明区域间异质性越强;

目前,最常用的异质性测度指标是Moran′s I指数,该指数是通过区域间空间自相关程度对区域间的异质性进行评价。空间自相关由Fotheringham等^[65]提出,目的是定量判定同一空间中对象与其相邻对象的相似度和依赖程度。学者们发现空间自相关指数可以很好地对区域间异质性进行度量,因此Moran′s I作为较常见的空间自相关指数被广泛用作全局性空间异质性优度,通常与全局的局部方差指标组合使用,其计算方法如下：

MI = n ∑ i = 1 n ∑ j = 1 n w ij (y i - y ¯) (y j - y ¯) ∑ i = 1 n (y i - y ¯) 2 ∑ ∑ w ij

（33）

式中：n为影像内分割对象的个数;w_ij是判定空间邻接的指标。若参与计算的分割对象S_i_、S_j相邻,则w_ij等于1,反之w_ij等于0。

y ¯

为影像平均光谱值,y_j为分割对象S_i的平均光谱值。Moran′s I指数越小,区域间异质性越强。

由于Moran′s I是全局优度,无法对单一分割对象及其邻接对象的均质度进行评价,Johnson等^[34]使用局部Moran′s I指数计算局部异质性,但局部Moran′s I指数计算使用整幅影像的平均光谱值,结果并不可靠。张建廷等^[66]仅考虑邻接像元的光谱信息,对局部Moran′s I指数进行改进,提出Geary指数对局部均质性进行度量：

LG I i = ∑ j = 1, j ≠ i k w ij (y i - y j)

（34）

式中：w_ij与y_j的定义与Moran′s I指数相同。Geary指数越大对象间的异质性越强。

4.3 复合优度

均质性和异质性优度大多是基于局部对象的优度,为了使这些局部优度可以应用到整幅影像,我们需要将多个局部优度复合为全局优度。全局优度的复合可以将所有局部优度直接相加,比如D_wr、E_Inter和E_Intra等。大多数针对基于区域内光谱方差的指标还可以采用面积加权相加的方式进行复合,如NU、WV和LV指标等,基于光谱差的MWC也可以使用面积加权进行复合。基于边界的异质性优度可以使用边长加权对局部测度复合。

优度的复合除了从局部到全局,还可以将均质性优度和异质性优度或者其他优度复合成一个综合性优度对分割质量进行全面评价。Espindola 等^[67],对LV指数和Moran′s I指数进行标准化并相加,得到综合分割测度。何敏等^[68]对Espindola的方法进行改进,引入了均质性和异质性的权重指标。需要说明的是,不同类型优度的复合不仅局限于均质性与异质性指标,还可以使用间接指标,明冬萍等^[7]使用宏观像元运行时间、被去除的无意义区域数目与均质性异质性优度,通过专家经验为权重进行相加,得到综合分割测度。但面向多个测度复合使用专家经验复合测度主观性较强。张仙等^[69]对明冬萍的复合方法进行改进,提出使用熵权法为各优度赋予权重,取得了较好的效果。此外,还可以采用层次分析法（Analytic Hierarchy Process）对多种优度进行分层赋权。

4.4 存在的问题与分析

非监督评价法可以广泛应用于不同类型影像、不同分割方法所得到分割结果的评价当中。在不了解分割区域影像内容的情况下可对分割结果进行客观定量的评价。非监督评价法不仅可应用于分割方法性能比较\选择和参数设定当中,还可以实现分割参数的自适应调整,这是其他分割评价方法都不具备的。在对实验影像进行分割之前,需要将一系列测试影像中取得最好分割结果的参数设定为该分割方法的最佳参数,最佳参数的选取需要通过大量实验或者依赖研究人员的经验。监督评价法虽然在有测试影像参考数据的基础上可以对最佳分割参数进行自动的选择,但所获取的最佳参数并不一定适用于其他影像数据,方法缺乏普适性。因此,非监督评价法因其不需要参考数据的特性,有着极强的适应性和参数的自我调节能力,不需要人为的主观干预,特别适用于的分割信息自动化提取与分析系统当中。非监督方法的可靠性取决于所选用优度的合理性,优度之间的相关性和权重分配;此外为了避免有偏评价,所选优度的属性和基于的原理应当不同于所采用的分割算法。因此如何客观的建立具有普适性的评价优度并为测度设置合理的权重是未来研究的重点。

5 总结

对高分影像的分割结果进行评价是GEOBIA技术领域的难点之一,也是分割流程自动化必不可少的一项关键技术。本文对常用分割评价方法进行了系统总结。目前最常用的分割评价方法依旧是主观评价法。间接评价法和分析评价法是常用的辅助评价方法。但这3种评价方法都无法给出定量、客观、全面的评价指标,难以应用到自动化的分割系统当中;随着研究的逐步深入,监督评价和非监督评价法因能提供客观定量的评价指标,逐步替代主观评价法成为常用的分割评价方法。

在精确建立参考数据的前提下,监督评价法的评价结果最为牢靠。但为整幅影像建立参考数据较为困难且存在一定主观性,所以更适用于使用较少参考数据的面向目标识别的单一尺度分割结果评价当中。此外,该方法的部署严重依赖于参考数据,所以难以应用在自动化的分割系统当中。

非监督评价法的最大优点就是无需人为干预,不需要通过人工获取参考数据,一定程度上降低了评价的主观性。分割评价最终的目的是实现分割流程的自动化,但在面向目标提取的单尺度分割评价中,确定目标所在的分割区域依旧需要人工干预,降低了自动化程度,无法发挥非监督评价法的优势。因此,非监督评价法更适用于面向GEOBIA的多尺度分割结果评价,是最适合自动化分割流程的分割评价方法。

虽然目前监督评价法和非监督评价法还存在各种问题和不足,但这对这2种评价方法进行进一步深入的研究依然有重要的意义。

今后关于分割评价方法的研究可以集中在以下5个方面：

（1）针对监督评价法,提出具有普适性的匹配方法和差异指标。

（2）非监督评价法的优度指标还不够全面,可以采用更高层次的信息建立优度指标,如先验知识和语义。

（3）建立非监督评价法的优度选择体系,研究如何自动化选取优度指标并分配权重。

（4）联合使用监督评价和非监督评价法进行评价,利用各自的优势,建立综合性的评价指标和体系。

（5）随着人工智能技术的发展,应考虑将人工智能技术与分割评价方法结合,提出基于人工智能的监督差异指标和非监督优度指标。

The authors have declared that no competing interests exist.

References

Publishing order | Descend order by publishing year | Descend order by cited within

[1]	Blaschke T, Strobl J.What’s wrong with pixels? Some recent developments interfacing remote sensing and GIS[J]. 2001,14:12-17.

[2]	Blaschke T, Burnett C, Pekkarinen A.New Contextual Approaches Using Image Segmentation for Object-based Classification[C]//De Jong S, van der Meer F, eds. Remote Sensing Image Analysis: Including the Spatial Domain. Dordrecht: Kluwer Academic Publishers, 2004:211-236.

[3]

Blaschke

, Hay G

, Kelly

, et al.Geographic object-based image analysis-towards a new paradigm[J]. Isprs Journal of Photogrammetry & Remote Sensing, 2014,87(100):180-191.

The amount of scientific literature on (Geographic) Object-based Image Analysis – GEOBIA has been and still is sharply increasing. These approaches to analysing imagery have antecedents in earlier research on image segmentation and use GIS-like spatial analysis within classification and feature extraction approaches. This article investigates these development and its implications and asks whether or not this is a new paradigm in remote sensing and Geographic Information Science (GIScience). We first discuss several limitations of prevailing per-pixel methods when applied to high resolution images. Then we explore the paradigm concept developed by Kuhn (1962) and discuss whether GEOBIA can be regarded as a paradigm according to this definition. We crystallize core concepts of GEOBIA, including the role of objects, of ontologies and the multiplicity of scales and we discuss how these conceptual developments support important methods in remote sensing such as change detection and accuracy assessment. The ramifications of the different theoretical foundations between the ‘ per-pixel paradigm ’ and GEOBIA are analysed, as are some of the challenges along this path from pixels, to objects, to geo-intelligence. Based on several paradigm indications as defined by Kuhn and based on an analysis of peer-reviewed scientific literature we conclude that GEOBIA is a new and evolving paradigm.

DOI PMID

[4]

Zhang Y

.A survey on evaluation methods for image segmentation[J]. Pattern Recognition, 1996,29(8):1335-1346.

This paper studies different methods proposed so far for segmentation evaluation. Most methods can be classified into three groups: the analytical, the empirical goodness and the empirical discrepancy groups. Each group has its own characteristics. After a brief description of each method in every group, some comparative discussions about different method groups are first carried out. An experimental comparison for some empirical (goodness and discrepancy) methods commonly used is then performed to provide a rank of their evaluation abilities. In addition, some special methods are also discussed. This study is helpful for an appropriate use of existing evaluation methods and for improving their performance as well as for systematically designing new evalution methods.

模态框（Modal）标题

Abstract

Cite this article

1 引言

2 现有分割评价方法体系

Fig. 1 The hierarchy of segmentation evaluation methods

3 监督评价法

3.1 建立分割参考数据

3.2 对象匹配

Fig. 2 Arithmetic relationship between the reference object and the corresponding object

Fig. 3 The object-fate matching method

3.3 差异计算

Fig. 4 Geometric relationship between the reference object and the corresponding object

Tab. 1 Typical combined measures of supervised evaluation method

3.4 存在的问题与分析

4 非监督评价法

4.1 均质性优度

4.2 异质性优度

4.3 复合优度

4.4 存在的问题与分析

5 总结

References