Accuracy Assessment and Comparative Analysis of GlobeLand30 Dataset in Henan Province

  • MA Jingzhen , * ,
  • SUN Qun ,
  • XIAO Qiang ,
  • WEN Bowei
  • Information Engineering University, Zhengzhou 450001, China
Received date: 2016-06-01

  Request revised date: 2016-07-08

  Online published: 2016-11-20


《地球信息科学学报》编辑部 所有


Global land cover data plays an important role in climate change research, geographical conditions monitoring and ecological environment protection. It' s of great significance to produce and evaluate the global land cover data at a specific spatial scale. In 2014, the National Geomatics Center of China (NGCC) produced GlobeLand30 of the remote sensing mapping product with the world’s highest 30 m resolution. In this paper, the 1:100 000 land use data of Henan Province was used as the reference data to validate global land cover data of GlobeLand30, GlobCover2001 and MCD12Q1. The accuracy assessment and comparative analysis of these data were conducted with three methods, including spatial statistics, area relevance and consistency, and confusion matrix. The results show that the three land cover products have a good consistency for description of land forms with the reference data, and the area relevance is higher than 0.9. Cropland and forestland are the main land cover types, followed by grassland, water body and artificial surface, but the classified land has different area in these products. By evaluating accuracy of the three land cover products, the overall accuracy and Kappa coefficient of GlobeLand30 are the highest, followed by MCD12Q1 and those of GlobCover2009 are the lowest. In terms of specific land type, although cropland and forestland have high precision in these products, the accuracy of grassland classification is poor. The producer accuracy of water body and artificial surface in GlobeLand30 is much higher than the other two products, but the difference of the user accuracy is small. The three land cover products show the spatial confusion especially in forestland, grassland and cropland with the reference data. The confusion degree of GlobeLand30 is lower than the other two kinds of data. This paper illustrates that GlobeLand30 has higher accuracy than other products and it will play a more and more important role in many fields. Not only can the methods and conclusions in this paper pave the way for further research in other areas, but also they can have great significance on promoting the application and value of GlobeLand30. Moreover, because of the spatial resolution of GlobeLand30 is much higher than other land cover products, the use of GlobeLand30 for further application and research is the focus in the next step. In addition, there are a lot of remote sensing images, vector data, and other multi-source data and how to improve the quality of the global land cover data is one of the problems that should be considered.

MA Jingzhen , SUN Qun , XIAO Qiang , WEN Bowei . Accuracy Assessment and Comparative Analysis of GlobeLand30 Dataset in Henan Province[J]. Journal of Geo-information Science, 2016 , 18(11) : 1563 -1572 . DOI: 10.3724/SP.J.1047.2016.01563

1 引言

地表覆盖是指地球表面各种类型及其自然属性与特征的综合体,科学准确地测定其空间分布及动态变化,对研究全球的气候变化、能量循环、生态环境以及可持续发展等具有十分重要的意义[1-3]。随着卫星遥感技术以及制图技术的快速发展,经过国际社会的共同努力,目前全球的地表覆盖数据主要包括[4-7]:① 美国马里兰大学生产的UMD产品;② 美国地质调查局生产的IGBP-DISCover产品; ③ 美国波士顿大学生产的MODIS产品;④ 欧盟联合中心生产的GLC2000产品;⑤ 欧洲空间局生产的GlobCover产品。2014年国家基础地理信息中心推出了全球首套最高30 m分辨率的地表覆盖遥感制图数据产品GlobeLand30,该数据包含2000年和2010年2期产品,目前中国政府已向联合国捐赠并开放共享了该套数据产品[8-11]
目前,国内外学者主要对中低分辨率的地表覆盖数据进行了研究,Herold等[12]采用独立验证样本评价了4种1 km分辨率地表覆盖数据的精度,并分析了不同土地类型交错分布对数据精度的影响;Giri等采用空间一致性方法对MODIS和GLC2000进行了对比分析,指出2种数据的不同土地类型存在大小不同的差异[13];Pérez-Hoyos等采用误差矩阵和模糊数据集两种方法对欧洲地区的4种地表覆盖数据进行了精度验证[14];吴文斌等以中国耕地为研究对象,对4类地表覆盖数据进行了精度评价,得出MODIS和GLC2000数据的精度要高于UMD和IGBP-DIScover数据[15];宋宏利等以CHINA2000为参考,采用类型面积相关和误差矩阵对中国地区4种低分辨率的全球土地覆被产品进行了精度评价,并分析了误差与空间分布[16];宁佳等对黑龙江流域的MODIS和GlobCover数据进行了对比分析,并研究了2种数据集数量和空间分布上的差异[17]

2 研究区及数据

2.1 研究区域概况

Fig. 1 The land use map of Henan Province in 2010

图1 河南省2010年土地利用分布图

2.2 数据来源

2.2.1 待评价数据
本文要评价的地表覆盖数据包括GlobeLand30、GlobCover和MCD12Q1,这3种数据的特点如表1所示。GlobeLand30是由中国国家基础地理信息中心牵头研制的全球地表覆盖遥感制图产品,该数据覆盖南北纬80°的陆地范围,包括耕地、森林等10种地表覆盖类型,其采用WGS84坐标系统和UTM投影,全球共853幅分幅产品,包含2000年和2010年2个时相的数据[23]。GlobCover是欧洲空间局通过全球合作生产的全球土地覆盖产品,采用FAO的LCCS土地覆盖分类系统,共有22个分类,分辨率为300 m,包括2005年和2009年的全球土地覆盖信息[7]。MCD12Q1是MODIS三级数据土地覆盖类型产品,采用IGBP土地覆盖分类系统,共有17个分类,分辨率为500 m,该数据每年更新一次,包括2001-2015年的全球土地覆盖信息[14]。本文以2010年为基准时相,选择GlobeLand30-2010、GlobCover2009和MCD12Q1-2010数据进行研究。
Tab. 1 The characteristics comparison of three land cover products

表1 3种地表覆盖数据的特点对比

产品名称 制作单位 卫星影像 时相/年 分类方法 分类数量 分辨率/m
GlobeLand30 国家基础地理
Landsat TM5、ETM+、HJ-1 2000、2010 像元-对象-知识
10 30
GlobCover 欧洲空间局 MERIS 2005、2009 神经网络分类 22 300
MCD12Q1 美国波士顿大学 Terra/MODIS 2001-2015 决策树分类 17 500
2.2.2 参考数据
本文采用2010年中国1:10万比例尺土地利用矢量数据作为参考数据,该数据以Landsat TM、ETM遥感影像为主要数据源,通过人工目视解译生成。该数据土地利用类型包括耕地、林地、草地等6个一级类型以及25个二级类型,是中国目前精度最高的土地利用产品,已经在国土资源调查、环境监测以及生态保护中发挥着重要的作用[24-25]

2.3 数据处理

Fig.2 The flow chart of processing land cover land use data

图2 地表覆盖数据和土地利用数据处理流程图

首先,将GlobeLand30、GlobCover2009、MCD 12Q1以及土地利用数据统一到相同的坐标系和地图投影下,本文采用WGS84坐标系和Albers等面积投影;然后,根据所确定的研究区域,通过裁剪、拼接等方法获取边界一致的研究数据;接着,对矢量的参考数据进行栅格化处理,对栅格的地表覆盖数据进行重采样操作,保证数据在进行对比时保持相同的分辨率,以利于进一步评价和分析;最后,由于待评价数据和参考数据分别采用不同的分类体系和分类方法,不能直接进行数据比较,因此需要对这些数据进行重分类处理,将其统一到新的分类系统下。通过数据类别归并,最终形成耕地、林地、草地、水体、人造地表以及其他6种土地使用类型,数据的分类和对应关系如表2所示,重分类后的数据如图3所示。
Tab. 2 Land type reclassification and corresponding relation

表2 土地类型重分类和对应关系表

统一分类 2010年土地利用数据 GlobeLand30 GlobCover2009 MCD12Q1
1耕地 11水田、12旱地 10耕地 11水田、14旱地、20耕地与植被镶嵌体 12耕地
2林地 21有林地、22灌木地、23疏林地、24其他林地 20森林、
30自然植被与耕地镶嵌体、40常绿阔叶或半落叶阔叶林、50常绿阔叶林、60落叶阔叶林、70常绿针叶林、90常绿针叶或落叶针叶林、100针阔混交林、110林地/灌木/草地镶嵌、130灌木 1常绿针叶林、2常绿阔叶林、3落叶针叶林、4落叶阔叶林、5混交林、6稠密灌丛、7稀疏灌丛、14自然植被/耕地镶嵌体
3草地 31高覆盖度草地、32中覆盖度草地、33低覆盖度草地 30草地 120草地/森林/灌木镶嵌、140草地 8木本热带稀树草原、9热带稀树草原、10草地
4水体 41河渠、42湖泊、43水库坑塘、45滩涂、46滩地、64沼泽 50湿地、
160被水淹没的阔叶林、170永久被水淹没的阔叶林或灌木、180被水淹没的草地、210水体 0水体、11永久湿地
5人造地表 51城镇用地、52农村居民点、53其他建设用地 80人造地表 190人工地表或附属区域 13城市和建筑区
6其他 61沙地、62戈壁、63盐碱地、65裸土地、66裸岩石质地、67其他、44永久性冰川雪地 70苔原、90裸地、100冰川和
150稀疏植被(<15%)、200裸地、220冰川和永久积雪 15冰川和积雪、16裸地或稀疏植被
Fig. 3 Map of land cover reclassification in Henan Province

图3 河南省重分类后的土地覆盖图

3 研究方法


3.1 空间统计分析

C = K i - N i N i × 100 % (1)
式中: C 为误差系数; K i 为地表覆盖数据中第 i 类土地的面积; N i 为参考数据中第 i 类土地的面积。计算出的误差系数越小,表明待评价数据与参考数据越接近,反之,表明二者之间的误差较大。

3.2 类型面积相关分析

相关系数 R 是衡量2个随机变量之间线性相关程度的指标,相关系数的平方表示了2个变量相关的强度或大小[16]。本文通过计算GlobeLand30、GlobCover2009、MCD12Q1与土地利用数据的面积的相关系数,对数据间面积的一致性进行分析,相关系数的公式如式(2)所示。
R i = k = 1 r ( x k - x ̅ ) ( y k - y ̅ ) k = 1 r ( x k - x ̅ ) 2 k = 1 r ( y k - y ̅ ) 2 (2)
式中: R i 为相关系数; k 为重分类后的土地覆盖类型; r 为分类数量; x k 为数据集 x 中土地类型 k 的面积; y k 为数据集 y 中土地类型 k 的面积; x ̅ 为数据集 x 中全部土地面积的均值; y ̅ 为数据集 y 中全部土地面积的均值。

3.3 误差矩阵分析

误差矩阵是通过计算分类数据集与参考数据集的像元得到的比较阵列,是图像精度评价中的重要方法。由误差矩阵派生出的精度评价指标有:总体精度(Overall Accuracy,OA)、生产者精度(Produce Accuracy,PA)、使用者精度(User Accuracy,UA)和Kappa系数。其中,总体精度表示所有类型中正确分类面积的比例;生产者精度表示某一类型中正确分类的面积占待评价数据中该类型面积的比例;使用者精度表示某一类型中正确分类的面积占参考数据中该类型面积的比例;Kappa系数(K)是一个用来评价分类结果的精度和一致性的综合指标,这几种指标的计算公式如式(3)-(6)所示。
OA = i = 1 r n ii N (3)
P A i = n ii n + i (4)
U A i = n ii n i + (5)
K = N i = 1 r n ii - i = 1 r ( n i + n + i ) N 2 - i = 1 r ( n i + n + i ) (6)
式中: N 为总的像元数量; n ii 为正确分类的像元数量; n i + 为待评价数据中某一类型的像元数量; n + i 为参考数据中某一类型的像元数量; r 为分类数量。
Pontius和Millones[26]提出了2个新的评价指标用来评价待评价数据和参考数据之间的不一致性:分布不一致(Allocation Disagreement,AD)和数量不一致(Quantity Disagreement,QD)。其中,分布不一致是指待评价数据与参考数据相比,在空间分布上小于最优匹配的空间类别所占的比例;数量不一致是指与参考数据相比,没有正确分类的类型数量所占的比例,计算公式如式(7)、(8)所示。
AD = i = 1 r 2 × min n + i N - n ii N , n i + N - n ii N 2 × 100 % (7)
QD = i = 1 r n + i N - n i + N 2 × 100 % (8)
OA + AD + QD = 1 (9)

4 结果与分析

4.1 空间统计和面积一致性比较

表3是根据空间统计得到的不同土地类型的面积及误差系数,图4是不同土地类型的面积对比情况。经过统计分析可得,参考数据中河南省2010年土地利用以耕地、林地和人造地表为主,面积分别为107 202.08、27 382.47、19 390.31 km2,分别占河南省总面积的64.19%、16.40%、11.61%,草地、水体和其他土地较少,分别为8952.73、4061.01、11.41 km2,所占比例为5.36%、2.43%、0.007%。3种地表覆盖数据中,土地类型都以耕地为主,林地和人造地表次之,草地、水体和其他土地较少。其中,GlobeLand30中耕地占河南省总面积的64.96%,林地和人造地表分别占19.53%、11.33%,剩余土地占4.18%;GlobCover2009中耕地、林地和人造地表分别占83.93%、11.16%和2.84%,剩余土地占2.07%;MCD12Q1中耕地、林地和人造地表分别占78.69%、14.59%和3.83%,剩余土地占2.89%。
Tab. 3 Area statistics and error coefficient of different land types for the land use and land cover data in Henan province

表3 河南省土地利用数据和地表覆盖数据不同类型土地面积统计及误差系数

土地类型 土地利用数据 GlobeLand30 GlobCover2009 MCD12Q1
面积/km2 面积/km2 误差系数C/(%) 面积/km2 误差系数C/(%) 面积/km2 误差系数C/(%)
耕地 107 202.08 108 484.06 1.20 140 166.68 30.75 131 406.38 22.58
林地 27 382.47 32 618.58 19.12 18 636.51 31.94 24 364.52 11.02
草地 8952.73 4755.97 46.88 2162.03 75.85 4257.22 52.45
水体 4061.01 2147.33 47.12 1204.70 70.33 487.58 87.99
人造地表 19 390.31 18 917.68 2.44 4741.39 75.55 6396.34 67.01
其他 11.41 76.38 - 88.68 - 87.96 -
Fig. 4 Comparison of the area of different land types forland use and land cover data in Henan province

图4 河南省土地利用数据和地表覆盖数据不同类型土地面积的对比


4.2 基于误差矩阵的精度评估

Tab. 4 The comparison of accuracy assessment criteria of three land cover products

表4 3种地表覆盖数据的相关精度评价指标对比

地表覆盖数据 OA/(%) AD/(%) QD/(%) Kappa系数
GlobeLand30 81.51 14.50 3.99 0.6550
GlobCover2009 70.66 9.56 19.78 0.3306
MCD12Q1 75.08 10.34 14.58 0.4640
Fig. 5 Comparison of producer accuracy and user accuracy of different land types in the three land cover data

图5 3种地表覆盖数据中不同类型土地的PA和UA对比


4.3 不同类型土地的混淆分析

(1)GlobeLand30中,耕地和林地的混淆程度较低,一致性在85%以上;草地的混淆程度较高,其中30.09%被误分为耕地,47.17%被误分为林地,仅有21.67%与参考数据保持一致;由于水体面积在GlobeLand30和参考数据中差异较大,GlobeLand30中有43.68%被误分为耕地,6.54%被误分为林地,43.21与参考数据保持一致;在人造地表的分类中,有30.32%被误分为耕地,68.13%与参考数据保持 一致。
Fig. 6 The confusion degree of different land types in the three land cover products

图6 3种地表覆盖数据中不同类型土地的混淆程度

4.4 地表覆盖数据的误差分析

(1)各数据采用的分类系统、分类方法不同 (表1、2)。此外,各数据对相同土地类型的定义也存在差异,如GlobeLand30中将草地定义为“天然草本植被覆盖,且盖度大于10%的土地,包括草原、草甸、稀树草原、荒漠草原,以及城市人工草地等”,GlobCover2009中将草地定义为“冠层敞开或封闭(>15%)草地”,以及“草地(50%~70%)/森林、灌丛(20%~50%)镶嵌”,MCD12Q1将草地定义为“草本类型覆盖的土地,通常为禾草状,林地和灌木覆盖低于10%”,2010年土地利用数据将草地定义为“覆盖度>50%的天然草地、改良草地和割草地,覆盖度在20%~50%的天然草地和改良草地以及覆盖度在5%~20%的天然草地”,其他各土地类型的定义也都存在差异。
(2)各数据采用的影像来源、时相不同,数据的空间分辨率存在较大差异。其中,GlobeLand30采用Landsat TM5、ETM+、HJ-1影像,数据时相为2009-2011年,分辨率为30 m;GlobCover2009采用MERIS影像,时相为2009年,分辨率为300 m;MCD12Q1采用MODIS影像,数据时相为2010年,分辨率为500 m;2010年土地利用数据采用Landsat TM影像,时相为2010年,原数据为1:10万矢量数据,这些指标也是造成误差的重要原因。例如,河南省的水体以线状河流为主,线状河流具有一定的宽度但又不会超过一定的宽度限制,在本文所采取的几种数据中,参考数据的空间分辨率最高,在该数据中线状河流表示得很清楚,在地表覆盖数据中,Globeland30分辨率相对较高,能表示出一部分线状河流,但很多没有达到30 m分辨率的要求,没有表示出来,其余2种数据的差异更大,因此水体存在明显的低估现象。

5 结论

本文以河南省为研究区,利用2010年土地利用数据作为参考数据,采用空间统计、面积一致性以及误差矩阵等分析方法,对国家基础地理信息中心推出的GlobeLand30(2010年)以及与其时相相近的GlobCover2009、MCD12Q1(2010年)全球地表覆盖数据进行了精度评价和对比分析研究,主要结论 如下:
(3)GlobeLand30、GlobCover2009和MCD12Q1与参考数据在空间上存在类型混淆情况,混淆主要发生于林地、草地、水体、人造地表与耕地之间。其中,3种地表覆盖数据中耕地和林地的分类精度较好,对草地的混淆程度都比较高,对于水体和人造地表,GlobeLand30的混淆程度要低于其他2种 数据。
GlobeLand30是中国最新推出的30 m分辨率的全球地表覆盖数据,目前对该数据的评价、应用、分析等的研究还较少,本文以河南省为例,对其精度进行了评估,并与其他2种全球地表覆盖数据GlobCover2009和MCD12Q1进行了对比分析,研究结果表明,GlobeLand30的数据精度要高于另外2种数据。本文的方法和结论可以为进一步研究其他区域该数据的精度提供支持,本文的研究结果可以为GlobeLand30的用户提供更精准的决策依据,对于推动该产品的应用,提升该产品价值具有重要的意义。

