Orginal Article

Quality Evaluation and Error Spatial Autocorrelation Analysis of Land Change Survey Database: A Case Study of Hebei Province

  • WANG Xiugui 1, 3 ,
  • YANG Jianyu 1, 3 ,
  • ZHU Dehai , 1, 3, * ,
  • YUE Yanli 1, 3 ,
  • BAI Xiaofei 2 ,
  • ZHANG Jia 2
Expand
  • 1. College of Information and Electrical Engineering, China Agricultural University, Beijing 100083, China
  • 2. China Land Surveying and Planning Institute, Beijing 100035, China
  • 3. Key Laboratory for Agricultural Land Quality, Monitoring and Control of the Ministry of Land and Resources, Beijing 100035, China
*Corresponding author: ZHU Dehai, E-mail:

Received date: 2015-02-06

  Request revised date: 2015-02-16

  Online published: 2015-06-10

Copyright

《地球信息科学学报》编辑部 所有

Abstract

Land change survey is an important survey for investigating national conditions and national strength. The purpose of land change survey are: identify the nationwide land use status and changes in the year of concern; maintain the accuracy and timeliness of national land survey data and the basic information of the comprehensive land and resource supervision platform; and meet the requirements of land and resource management as well as economic and social development. Officially released land change survey results are the basis for the implementation of planning, management, protection and reasonable utilization of land and resources, the strategic planning of national economic and social development, and other relevant special-purpose plans. There still are problems that need to be solved, such as how to ensure the authenticity and accuracy of land change survey results, how to improve the work efficiency of land change survey with new technology, and how to shorten the error modification time. The purpose of this paper is to evaluate the quality of land change survey database and analyze the causes of database errors. For a quantitative analysis of the changes of database quality in 2010, 2011 and 2012, comparative methods were employed. Methods known as Moran's I and local Moran's I were adopted to analyze the spatial dependence in observations of database errors among administrative units, and to reveal the change of spatial distribution and the anomaly characteristics of database errors in local areas. To be specific, five steps are required for quality evaluation and pattern analysis. Firstly, the descriptive chart of original errors at the county level is processed in batch transaction by software, and then is aggregated into database tables. Secondly, since the quality inspection rules were found inconsistent among 2010, 2011 and 2012, it is impossible to use a comparison analysis method, thus we preprocessed the data and acquired the common quality inspection rules for the three-year period. The third step is to use the comparison analysis method to assess the database quality from different aspects, including the defect levels, the main check items of errors and the spatial distribution. The fourth step is to define the database errors by observing through the global autocorrelation method in analyzing the land change survey of Hebei province, and obtaining the spatial distribution characteristics and the influential factors of database errors. Finally, the spatial pattern of the phenomenon was reflected and the causes of database errors were explained. The results showed that the quality of the database of Hebei province in 2012 have been improved significantly according to the number of errors, the defect levels and the spatial distributions in assessment. In addition, the distribution of Hebei’s database errors were high autocorrelated with the fluctuation of aggregation level, while the generation of local anomaly was usually derived from artificial error. It is concluded that throughout the quality analysis of the research database and its space distribution pattern in three years, we can evaluate the changes of database quality objectively and identify the causes of database errors effectively, therefore provide a forecasting and monitoring approach to new land change surveys.

Cite this article

WANG Xiugui , YANG Jianyu , ZHU Dehai , YUE Yanli , BAI Xiaofei , ZHANG Jia . Quality Evaluation and Error Spatial Autocorrelation Analysis of Land Change Survey Database: A Case Study of Hebei Province[J]. Journal of Geo-information Science, 2015 , 17(6) : 705 -612 . DOI: 10.3724/SP.J.1047.2015.00705

1 引言

第二次全国土地调查后,全国已经历了3次变更调查及数据汇总工作。年度变更调查采取数据库增量更新的方式实现数据更新,既保证了年度变更调查成果的“图数一致”性,又满足了新形势下国土资源管理对土地基础数据的需求[1-3]。在3年的全国土地变更调查数据入库和统计汇总的实际工作中发现,虽然对上报数据库有明确的规定和检查办法[4],但由于全国各地建库人员技术水平参差不齐、软件问题,以及连带性错误等,在数据汇总时依然存在较多的错误,严重影响全国数据汇总的进度和质量,而且各地的建库承担单位、采用的建库软件,以及调查的数据精度每年都可能发生变化,造成每年上报的数据库质量问题出现不同的变化。
土地变更调查是国情国力重要的调查[5],保证了土地变更调查结果的现势性和准确性[6]。其运用技术手段提高变更调查工作效率、缩短错误修改时间是亟待解决的问题。目前,国内关于土地变更调查成果的研究,主要集中在土地变更调查机制[7]与体制、控制成果质量、新技术的应用[8]、数据库模型、信息系统建设[9]、成果应用[10]等方面。但在数据库成果质量控制方面,重点多放在土地变更调查工作前,少有土地变更调查数据汇总工作后的研究分析。本文土地变更调查数据库质量评价的对象,是年度土地变更调查更新数据包在入库前利用质检软件检查后输出的结果,数据库错误指的是更新数据包中存在的错误,包括数据生产过程、数据库变更、数据变更过程、增量数据库、增量数据库与基础数据库关系等过程中产生的错误。
更新数据包是更新数据上报软件,对增量数据库等成果数据检查通过,形成的用于土地变更调查成果上报的数据包。为保证土地变更数据成果的准确性,需在更新数据包入库前对数据库进行质量检查和质量评价。数据库质检主要依据第二次全国土地调查成果数据质量检查细则[11],根据“第二次全国土地调查技术规程”与“土地调查数据库更新技术要求”中的相关规定,对土地调查成果的数学基础、空间信息、属性信息的正确性和精度进行全面检查及评价。土地变更调查数据库成果质量评价方法采用缺陷扣分法计算数据得分[12],对数据库成果综合质量给出一个评价,但评价内容不包括错误缺陷等级、缺陷个数、各主要错误类型、错误空间分布等,既不能追溯具体错误类型,也不能反映错误空间分布等规律。
本研究针对2010、2011和2012年河北省核查时期土地变更调查工作中出现的错误,采用3年间数据质量对比及空间分布的方法,定量分析3年间数据库质量变化情况,并以县域单元为例,分析各区县错误空间分布变化及错误聚集程度,揭示2010-2012年间河北省县域尺度数据库错误时空分布格局变化规律,以期指导地方单位进行新一轮的变更工作,保证变更数据汇总的工作进度和改善数据库质量。

2 研究区数据源与数据质量评估

研究区河北省位于欧亚大陆东岸,介于113°04′~119°53′ E,36°01′~42°37′ N之间,总面积18.8×104 km2,地貌复杂多样,兼有高原、山地、丘陵、平原、湖泊和海滨等类型。河北省3年间数据库错误总和较大,各年错误量相差不大,错误类型较多。
(1)更新数据包按照行政区划级别分为县级更新数据包、地市级更新数据包、省级更新数据包。本文研究采用的数据源于2010、2011和2012年核查时期土地变更调查数据库县级更新数据包检查结果。为了对数据库质量进行方便、有效地分析和表达,采用编写的土地变更调查数据库检查结果批量读取与分析软件,对河北省3年度数据进行统计汇总,得到3份数据库统计汇总表。对于3年间检查规则不一致,研究以2010年更新数据包质检内容为基础,删除2011年和2012年变化的规则;同时,删除后2年不再检查而2010年检查的质检规则,保留3年间共有的质检规则,以此为基础进行3年间对比分析及空间格局分析。
(2)为了能有效地实现对土地变更调查成果的质量评价,定性定量分析错误变化及产生的原因,提出以下技术路线(图1):对获取到的数据进行预处理,并筛选出3年间共有的质检规则,并用对比分析方法对数据进行质量评估,同时通过空间自相关方法,对河北省数据进行空间格局分析。
Fig. 1 The technology roadmap

图1 技术路线图

3 土地变更调查成果数据质量评价方法

土地变更调查数据库质检细则,是根据土地调查数据标准规程、质量要求制定的,规定了数据的质量元素、质检内容、缺陷分级,检查验收程序、评价方法,以及检查验收的文档格式和内容要求。其中,质检内容包括成果完整性检查、元数据检查、矢量数据检查、权属单位代码表检查、汇总表格检查5部分;矢量数据检查包括属性、图形、逻辑一致性等;质量缺陷分为严重缺陷、重缺陷和轻缺陷[13]3个等级。
土地变更调查成果数据质量评价,从错误缺陷等级、错误分布图层、主要错误类型方面进行定量分析,并以河北省行政区地图为底图,3年间数据库错误为对象,采用自然断点法将河北省数据库错误分为5个等级。第1等级表示该区县无错误,用分层设色来表示2010、2011和2012年错误量大小,颜色越深说明错误所占比例越高,反之颜色越浅代表错误所占比例越低,由此反映出同一省份3年间的错误变化趋势,表明3年间的时空分布变化。
空间自相关分析分为全局空间自相关(Global Spatial Autocorrelation)和局部空间自相关(Local Spatial Autocorrelation)[14-15]。以县域尺度为例,运用了全局Moran's I系数、局部Moran's I系数,分析了数据库错误的空间自相关格局,研究区县错误空间分布特征。
空间自相关分析的关键步骤之一是构建空间权重矩阵W(Spatial Weights Matrix),表示n个样点的区位或者所属区域的邻近关系[16]。根据研究区域的特点,选择邻接规则的一阶四邻域Rook权重矩阵[17],定义如式(1)所示。
W ij = 1 ,区域 i 与区域 j 有公共边 0 ,其他 (1)

3.1 全局空间自相关方法

全局空间自相关分析可衡量区域之间整体上的空间关联性与空间差异程度[18]。Global Moran's I统计量是简单常用的全局空间自相关度量指标[19],计算公式如式(2)所示[20]
I = n i = 1 n j = 1 n W ij ( x i - x ̅ ) ( x j - x ̅ ) i = 1 n ( x i - x ̅ ) 2 i = 1 n j = 1 n W ij (2)
式中,n表示区域中空间对象的数量;Xi表示第i个区域单元的非空间数据数据库错误量;Xj表示另一区域单元j的非空间数据数据库错误量;Wij是空间权重矩阵。
Global Moran's I的取值范围在[-1,1]之间。I大于0时,表示空间正相关;I小于0时,表示空间负相关;I等于0时,表示不存在空间自相关性,属性值在空间上随机分布。同时,如果I趋向于1或-1,表示相似属性值或相异属性值聚集。
用标准化统计量Z来推断Moran指数的显著性检验,计算公式如式(3)所示。
Z ( I ) = I - E ( I ) VAR ( I ) (3)
式中,EI)为数学期望;VAR(I)为变异系数。当Z > 0时,代表空间对象呈聚集模式;Z=0时,呈独立随机模式;Z<0时,呈空间分散模式。

3.2 局部空间自相关方法

全局空间自相关可反映研究区总体属性值与周围地区之间的平均差异程度,但难以探测出聚集位置及区域相关程度。而局部空间自相关主要用于分析各属性单元在空间上的分布格局,可度量每个区域与周围地区之间局部空间关联程度[21]。本文选用Local Moran's I表征[22],其计算公式为[23]
I i = ( x i - x ̅ ) S i 2 j = 1 , j i n w ij ( x j - x ̅ ) (4)
S 2 = 1 n i = 1 n ( x i - x ̅ ) 2 , x ̅ = 1 n i = 1 n x i (5)
其检验值为:
Z [ I i ] = I i - E [ I i ] E [ I i 2 ] - E [ I i ] 2 (6)
如果I值为正,则要素值与其相邻的要素值相近;如果I值为负,则要素值与相邻要素值有很大的不同。如果Z得分为正且越大,则要素与相邻要素值越相近;相反,如果Z得分值为负且越小,则要素与相邻要素值差异越大。

4 数据库质量及其错误空间自相关结果与分析

4.1 数据库质量年度对比分析

对河北省3年间核查时期更新数据包相同质检规则产生的错误记录统计分析(图2)可知,3年间数据库错误总和出现先增加后减少的情况,到2012年数据库质量明显变好。严重缺陷等级错误大幅减少,主要源于变更一览表检查和统计报表检查错误的减少;重缺陷和轻缺陷等级错误呈现先增加后减少情况,主要源于2011年逻辑一致性检查错误的增加和减少。
Fig. 2 Comparison chart showing the defect levels of errors during 2010-2012

图2 2010-2012年间错误缺陷等级对比图

通过3年间错误分布图层情况(图3)对比发现:3年间错误主要发生在线状地物更新过程层;线状地物更新层和线状地物更新过程层的错误比例逐年增加;线状地物更新层与线状地物更新过程层、零星地物更新层与零星地物更新过程层错误变化趋势相近,可判断图层之间存在连带关系或相关关系;地类图斑更新过程层2010年错误分布较多,2012年得到明显改善。
Fig. 3 Comparison chart showing the spatial distribution of errors during 2010-2012

图3 2010-2012年间错误分布图层对比图

将核查时期2010、2011和2012年更新数据包错误按照一级、二级检查项进行对比分析(图4),一、二级检查项名称如表1所示。根据图4所示,一级检查项错误主要表现在属性检查和逻辑一致性检查方面,二级检查项错误表现在值符合性和图层内属性一致性方面,详细变化如下:
(1)一级检查项逻辑一致性检查错误出现逐年增加情况,其二级检查项主要为图层内属性一致性错误,也呈现逐年增加情况。另外,图层间属性一致性2010年也出现一定比例的错误,这类错误均属于人为误操作,一般为变更调查填写错误。
(2)一级检查项属性检查错误在2010年、2012年错误所占比例相近,2011年所占比例较大;其二级检查项几乎全部表现为值符合性错误,变化情况与一级检查项相似。该错误一般为变更调查误操作问题,但不排除由图层间的连带关系或相关关系引起的情况。
(3)土地变更一览表检查错误在2010年占了一定比例,但后2年已减少至忽略不计,主要源于质检规则发生了变化,2011、2012年检查内容中已不包括新增耕地来源、建设用地类型等内容。
Tab. 1 The names of level Ⅰ and Ⅱ inspection items

表1 一、二级检查项名称

一级检查项 二级检查项 一级检查项 二级检查项
成果完整性检查 数据完整性 逻辑一致性检查 图层内属性一致性
矢量数据基本检查 图层完整性 图层间属性一致性
数学基础 更新过程与更新图层数据一致性
矢量数据属性检查 结构符合性 土地变更一览表检查 一览表与矢量数据之间的一致性
值符合性 土地变更一览表内逻辑一致性检查
矢量数据图形检查 拓扑关系 统计报表检查 表内逻辑一致性检查
碎片多边形 表间逻辑一致性检查
碎线 统计报表与一览表之间的一致性
Fig. 4 Comparison charts showing the main check items of errors for level Ⅰ and Ⅱ inspection during 2010-2012

图4 2010-2012年间主要一级、二级检查项错误对比图

4.2 数据库错误空间分布对比分析

通过对3年同一时期的数据库错误进行空间分布的对比分析,可找出它们之间的差异,从而揭示数据库错误变化及隐含的规律性。由图5可知,河北省核查时期更新数据包3年错误变化最大的区县是青龙藏族自治县和抚宁县,3年来错误主要发生在东部地区,另外,2010年错误普遍存在各个区县,2011年和2012年错误聚集分布在个别区县。2010年青龙藏族自治县和抚宁县错误较少,2011年错误增加,主要表现为零星地物编码为空。由文献[24]可知,抚宁县地处环渤海经济圈中心地带,河流径流量的减少、人口及经济的增长和土地利用政策的影响,使得抚宁县及周边地区的连片耕地破碎度增大,新增许多零星地物,属于年度渐变区域,2012年该错误得到有效改善。黄骅市2010年无错误,2011年和2012年则出现大量的错误,并且2012年延续了2011年的错误,主要为线状地物宽度填写错误及相应扣除比例错误,黄骅市位于环渤海开放开发区,土地变化情况较大,尤其线状地物更新较快,多数线状地物属于下一年度变更范围。
Fig. 5 Comparison maps showing the spatial distribution of errors during 2010-2012

图5 2010-2012年间错误空间分布对比图

4.3 数据库错误空间自相关分析

4.3.1 观测变量的全局空间自相关分析
以数据库错误作为观测变量,通过全局自相关方法(式(2))分析河北省土地变更调查数据库错误的空间分布特征。利用ArcGIS软件,计算了河北省各区县2010、2011、2012年数据库错误的全局空间自相关程度,结果如表2所示。2010年数据库错误的Global Moran's I为0.04,Z检验值为0.89时,研究区范围内数据库错误分布未显著相关,空间自相关性较弱,主要源于错误普遍发生在各个区县,且其多为统计报表错误;而2011、2012年,数据库错误的Global Moran's I值在[0.11,0.28]范围内。同时,在正态分布假设下,Global Moran's I的Z检验值在[2.66,5.74]范围内,数据库错误呈显著正相关关系。从产生空间自相关的机制来看,人为因素决定了土地变更调查数据库错误的空间分布,作业团队的规范与认真程度影响了数据库错误的空间自相关格局,另外,数据库错误的聚集或异常特征的分布格局与土地利用程度,包括图斑破碎度、图斑个数、图斑面积、地形(包括海拔、坡度、坡向、地形起伏度及地表粗糙度5种因子)密切相关[19]。然而,全局Moran's I并不能全面反映数据库错误的空间局部变化格局,因此需进行局部空间自相关分析。
Tab. 2 Analyses of global spatial autocorrelation

表2 全局空间自相关分析表

年份 Moran's I Z P 聚集程度
2010 0.0368 0.8883 0.3744 随机
2011 0.2751 5.7446 <0.0010 聚集
2012 0.1082 2.6584 0.0078 聚集
4.3.2 观测变量的局部空间自相关分析
局域空间自相关指标是衡量某单元与其存在不同程度空间关联的单元相似或异质程度的指标[25]。在5%置信度下,得到河北省2010、2011、2012年度各区县数据库错误LISA聚集图(图6)。其中:高-高代表空间差异较小,本区域与周围区域数据库错误均较多;低-低代表空间差异较小,本区域与周围区域数据库错误均较少;高-低代表空间差异较大,本区域数据库错误较多,而周围区域数据库错误较少;低-高代表空间差异较大,本区域数据库错误较少,而周围区域数据库错误较多。由图6可见,2010年在唐山市辖区和丰润区2个区域出现高-高相邻关系;2011年在抚宁县、秦皇岛市辖区、青龙藏族自治区出现高-高相邻关系,另外,还出现2个高-低相邻关系,存在“热点”区域;2012年出现2个高-高相邻关系,1个高-低相邻关系。对于出现的高-低异常特征,以2011年为例,高数据库错误区域周围出现低数据库错误区域的显著性异常,是由人为误操作造成的,属于变更时属性值填写不规范情况,2012年也属于此情况。空间自相关分析与空间尺度具有密切关系[26-27],即使是同一数据,也会随着研究尺度的不同而发生变化,因此,本研究结果的分析不适合扩大其应用范围。
Fig. 6 LISA cluster map of database error at county level for Hebei province during 2010-2012

图6 2010-2012年间河北省区县尺度数据库错误LISA集聚图

5 结论

在对2010、2011和2012年度河北省提交的核查时期更新数据包质检结果逐一进行整理、统计、汇总的基础上,保留2010-2012年间共有质检规则产生的错误记录,从错误缺陷等级、错误分布图层、错误类型、错误空间分布等方面进行年度对比分析。并以县域单元进行全局空间自相关分析和局部空间自相关分析,得出以下结论:
(1)河北省2012年更新数据包质量较2011年和2010年有一定的改善,主要表现为严重缺陷等级错误减少、错误数量下降、错误分布图层集中、主要错误类型减少。
(2)从空间分布来看,河北省更新数据包错误主要发生在东部地区。2010年错误普遍存在于各个区县,2011年和2012年聚集分布在个别区县,并且到2012年大部分区县的错误均得到有效改善。
(3)河北省土地变更调查数据库错误全局格局先是随机状态,后呈现空间正相关关系,聚集程度呈现下降趋势。区县数据库错误形成了高-高聚集,3年来高-高聚集区域分布不稳定,并在一些区域周围形成高-低异常特征,而显著性异常区域的出现主要源于人为误操作。
该研究运用数据分析和空间分析的方法,研究了近3年数据库错误的变化和分布,揭示了数据库错误空间自相关与区县之间的耦合规律,为新一轮土地变更调查工作提出建设性意见。

The authors have declared that no competing interests exist.

[1]
TD/T 1014-2007,第二次全国土地调查技术规程[S].2007.

[2]
TD/T 1016-2007,土地利用数据库标准[S].2007.

[3]
中国土地勘测规划院.2012年度全国土地变更调查与遥感监测实施方案[Z].2012.

[4]
国务院第二次全国土地调查领导小组办公室.第二次全国土地调查数据成果质量检查细则[Z].2007.

[5]
国土资源部.全国土地变更调查工作规则(试行)[Z].2011.

[6]
郭谁琼,黄贤金,白晓飞,等.土地利用变更调查数据的应用研究现状与前景[J].中国土地科学,2013(12):18-24.

[7]
李健,张纯,徐勇,等.年度土地变更调查新机制之探索[J].地理空间信息,2011,9(4):156-158.

[8]
连恒,仲星,刘钰.土地利用现状变更调查增量式更新技术研究[J].测绘标准化,2014,30(1):12-14.

[9]
王斌,张硕新,雷瑞德,等.基于ArcGIS Engine的土地变更调查管理系统设计与实现[J].农业工程学报,2006,22(10):109-112.

[10]
王丽娟,王勇,丁圆婷.土地变更调查成果在耕地保护中的应用研究[J].安徽农业科学,2012,40(5):3048-3049.

[11]
戴韫卓,郭英.县级土地调查数据库质检常见问题分析——以浙江省为例[J].浙江国土资源,2009(5):43-45.

[12]
国务院第二次全国土地调查领导小组办公室.第二次全国土地调查数据库建设技术规范[S].2007.

[13]
中国土地勘测规划院.更新数据上报软件质检细则V1.4[Z].2012:12-13.

[14]
董冠鹏,郭腾云,马静.京津冀都市区经济增长空间分异的GIS分析[J].地球信息科学学报,2010,12(6):797-805.

[15]
Chen X W, Dai E F.Comparison of spatial autoregressive models on multi-scale land use[J]. Transactions of the CSAE, 2011,27(6):324-331.

[16]
陈彦光. 基于Moran统计量的空间自相关理论发展和方法改进[J].地理研究,2009,28(6):1449-1463.

[17]
杨绪红,金晓斌,郭贝贝,等.2006-2012年中国土地整治项目投资时空分析[J].农业工程学报,2014,30(8):227-235.

[18]
李国平,王春杨.我国省域创新产出的空间特征和时空演化——基于探索性空间数据分析的实证[J].地理研究,2012,31(1):95-106.

[19]
谷建立,张海涛,陈家赢,等.基于DEM的县域土地利用空间自相关格局分析[J].农业工程学报,2012,28(23):216-224.

[20]
Anselin L.Local indicators of spatial association-LISA[J].Geographical Analysis, 1995,27(2):93-115.

[21]
黄飞飞,张小林,余华,等.基于空间自相关的江苏省县域经济实力空间差异研究[J].人文地理,2009,24(2):84-89.

[22]
李子良,王树涛,张利,等.经济快速发展地区耕地生产能力空间格局[J].农业工程学报,2010,26(11):323-331.

[23]
Li H, Calder C A, Cressie N.Beyond Moran's I: Testing for spatial dependence Based on the spatial autoregressive model[J]. Geographical Analysis, 2007,39(4):357-375.

[24]
裴欢,魏勇,王晓妍,等.耕地景观生态安全评价方法及其应用[J].农业工程学报,2014,30(9):212-219.

[25]
孟斌,张景秋,王劲峰.空间分析方法在房地产市场研究中的应用——以北京市为例[J].地理研究,2005,24(6): 753-762.

[26]
邱炳文,王钦敏,陈崇成,等.福建省土地利用多尺度空间自相关分析[J].自然资源学报,2007,22(2):311-321.

[27]
陈睿山,蔡运龙.土地变化科学中的尺度问题与解决途径[J].地理研究,2010,29(7):1244-1256.

Outlines

/