The Discovery of Spatial Association Patterns of Resource and Environment Information Based on Grid Data

XU Zhen; JING Yaodong; BI Rutian; GAO Yang; WANG Peng

doi:10.12082/dqxxkx.2018.170266

Journal of Geo-information Science >

2018 , Vol. 20 >Issue 1: 28 - 36

DOI: https://doi.org/10.12082/dqxxkx.2018.170266

The Discovery of Spatial Association Patterns of Resource and Environment Information Based on Grid Data

XU Zhen ,
JING Yaodong ,
BI Rutian ^,^* ,
GAO Yang ,
WANG Peng

Expand

College of Resources and Environment, Shanxi Agricultural University, Taigu 030801, China

*Corresponding author: BI Rutian, E-mail: brt@sxau.edu.cn

Received date: 2017-06-13

Request revised date: 2017-09-23

Online published: 2018-01-20

Supported by

Foundation item: Public Welfare Profession Project of Ministry of Land and Resources of the People's Republic of China, No.201411007.

Copyright

《地球信息科学学报》编辑部所有

Fold

Abstract

Spatial association patterns include location patterns of spatial association which emphasize on spatial data and structure patterns of the spatial association, which emphasize on attribute data. However, traditional methods were based on traditional spatial data and used spatial predicates as the logic in the process of mining. This would lead to the following problems: Firstly, it relied on the boundaries of spatial phenomenon and didn’t take account in the area of spatial phenomenon. Secondly, the results were restricted strongly by the table of spatial predicate built before data mining. Based on The Tobler’s First Law of Geography, this research proposed a new method of extracting spatial association patterns without using spatial predicate. According to specific data content and data format, this method converted spatial data into grid data which has the same spatial coordinate and the same size of each grid. Then, the method used a smooth moving-mask to get the transaction database from the grid data. Apriori algorithm without self-connection of attributes was adopted to explore the latent association patterns in transaction database. Finally, an experiment was conducted to verify the accuracy of this method. The experiment data included the data of coal mining area, land use data, water system data and terrain data in Changhe basin of Jincheng City in Shanxi Province. In the experiment, the error of grid transformation of each data layer was controlled within 5% and the accuracy of transaction was verified in co-location pattern. Grid transformation generated 28 434 grids and the size of each grid was 64 meters. After setting cultivated land as main factor, there were 38 310 records in transaction database. Through the study on some association patterns with higher confidence, it showed that the results were consistent with the prior knowledge related to cultivated land in ore-agricultural area. Therefore, this method can effectively extract the meaning association patterns and improve the interestingness of the results. This method improves the degree of freedom of the data mining by setting different sizes of the grid, main factors and mask sizes. Based on grid data instead of traditional spatial data, this method doesn’t rely on the boundaries of spatial phenomenon and takes into account the area factor.

Key words： spatial data mining; grid data; spatial association patterns; Apriori algorithm

Cite this article

XU Zhen , JING Yaodong , BI Rutian , GAO Yang , WANG Peng . The Discovery of Spatial Association Patterns of Resource and Environment Information Based on Grid Data[J]. Journal of Geo-information Science, 2018 , 20(1) : 28 -36 . DOI: 10.12082/dqxxkx.2018.170266

1 引言

空间关联是事物和现象在空间上的相互依赖、相互制约、相互影响和相互作用,是地理现象和空间过程的本质特征。空间关联模式发现则旨在揭示空间事务和现象间这些内在、隐含的相互关系。空间关联模式包括空间关联位置模式和空间关联结构模式^[1],前者侧重于空间位置的关联强度,而后者则基于前者更多地侧重属性数据间的相互关系。通过探寻空间关联模式,可以得到空间事物和现象间许多有意义的内在联系,为日常的分析^[2,3,4]、预测^[5,6]等工作提供有价值的参考。

国外学者对空间关联模式发现进行了大量的研究^[7],Apriori算法作为传统关联规则挖掘的经典算法,最早被应用于空间关联模式发现^[8],Koperski和Han^[9]首先对空间数据按照空间谓词进行事务化,然后将该算法应用于空间关联规则的挖掘过程,并证明了该方法的准确性。Apriori算法借助宽度优先搜索,通过不断的连接和剪枝来发现频繁关联模式,是一个由低维模式不断向高维扩展的过程。此后,国内外许多学者又从算法的应用、收敛速度以及针对时空数据的适应性等方面进行了多种优化^[10,11,12],提出了很多优秀的挖掘算法和新思路：Tsoukatos等^[13]首次提出在空间数据频繁模式挖掘中增加时间约束,提出一种新算法DFS_MINE,该算法利用深度优先搜索原则,扫描数据库来挖掘频繁序列模式,较Apriori算法有着更高的效率,但挖掘的频繁模式相对于宽度搜索优先的Apriori算法要少。Jia等^[14]提出一种以FP-Tree存储频繁集合的FP-Growth算法,进一步提升了关联规则的搜索效率,但发现的频繁模式较Apriori算法要少。张雪萍等^[15]在FP-Growth算法的基础上将空间数据进行时间序列上的划分,用空间谓词分析空间对象间的位置关系,生成顾及时间和空间特征的FP-树,挖掘出强时空关联规则。以上空间关联模式发现均以空间谓词和分类谓词为逻辑进行关联模式提取,谓词关系表是进行传统关联模式发现的基础,这在实际使用中会导致以下问题：① 忽略了空间现象面积因素,对空间现象的边界有较强的依赖性,即一个空间现象无论大小都作为一条事务中的一个单项存在。② 空间现象的不确定性以及模糊属性的存在^[16,17],如针对耕地的面状图斑,与该图斑相连接的属性数据可能有耕地面积、耕地等级、耕层厚度、土壤养分、水资源状况等模糊属性^[18,19],针对这些属性建立谓词表需要以相关的先验知识为基础,会因对相互间关系的遗漏而导致一些有意义的关联模式被遗漏。③ 所发现的关联模式是事先预定的谓词关系组合,导致发现过程自由度差以及发现模式固定的问题。

针对以上问题,本研究提出不依赖空间谓词进行更高自由度的多尺度关联模式发现方法。设计思想主要借鉴空间数据多尺度格网化表达以及经典的Apriori算法。通过对矢量和栅格数据进行格网化以消除传统方法依赖空间现象边界造成挖掘结果忽略面积因素,并且使得诸如坡度,耕层厚度等无边界数据事务化更加简单。采用平滑移动的掩膜将格网数据事务化,省去传统方法提前针对数据建立谓词表的过程,然后针对空间数据属性的特殊性,将传统Apriori算法去除属性自连接以提高发现的效率。结合山西省晋城市长河流域煤、地、水实例进行关联模式挖掘,证实了该方法的可行性和实用性。

2 空间数据多尺度格网化表达

空间格网指按照一定规律,将地球表面的空间由粗略到详细进行连续的剖分^[20]。这种规律可以按照等间隔、等经纬度、数学函数等方式对地理空间进行规则或不规则的划分^[21]。其目的是为了在众多的多源异构数据中形成统一的数据组织方式,在一定误差内减少数据的空间消耗,促进空间数据共享。空间格网系统大致可分为3类：地理坐标格网系统、自适应格网系统、多面体剖分格网系统^[21]。地理坐标格网系统直接对地球表面按照经纬度进行规则剖分;多面体剖分方式则是先在正多面体表面进行剖分,然后按照一定数学规律将格网对应到地球表面;自适应格网系统针对空间现象的某种局部特征进行不规则剖分,但这种格网不利于形成不同尺度间的关联。

本研究通过对各类栅格和矢量数据格网化来实现空间数据事务化,首先借鉴已有的格网化思想确定格网大小^[22,23],然后按原数据坐标投影信息生成覆盖所有研究数据的规则格网,根据具体数据格式和数据内容不同确定格网属性的确定原则,最后赋予格网属性完成格网化。每个格网均包含所有待挖掘数据层对应位置的相关信息,各数据层在格网数据中表现为格网数据属性表的一个字段,涉及到对矢量数据和栅格数据的格网化。2种数据的格网化方法如下：

（1）矢量数据格网化表达：首先选择格网属性确定原则,传统格网属性确定方法有面积占优、中心点法、重要性、无损格网化等方法^[24]。确定属性赋予原则后,根据设定的格网分辨率生成覆盖整个区域的规则格网,将生成格网与目标图层相交,按照选定的属性确定原则将其暂时作为对应位置格网单元属性值。在保证各类数据所占总的格网面积与原始图层图斑总面积误差在5%以下的基础上,确定格网属性的取舍阈值。根据上述阈值确定格网属性,保留高于阈值的属性,舍弃低于阈值的属性。

（2）栅格数据格网化表达：栅格数据由于存储方式为属性矩阵,其中并不存储空间现象的轮廓信息以及现象间的拓扑关系。在对其进行格网化时,采用以格网作为掩膜对其内部包含的像元进行某种统计提取以作为格网属性。常用的统计方式有平均值、最大值、最小值等,一般采用平均值作为对应位置格网的属性。对满像元格网（格网被非空像元填满）,可直接对掩膜内的栅格值进行区域统计,将其某个统计量作为该格网对应数据层属性列;对非满像元（格网内包含空值像元）为保证格网化精度,仅保留掩膜内像元面积占比超过一定阈值的格网进行区域统计赋予属性值。

3 基于格网数据关联模式发现方法

3.1 方法概述

基于格网数据的空间关联模式挖掘首先要选取适当的格网尺度作为研究数据源,以既定格网尺度完成数据格网化表达,然后依据发现的目的设置不同的事务化约束,以提高整个发现过程的效率和发现结果的兴趣度。获得事务数据集后的发现过程大致分为2个阶段：① 根据指定支持度阈值扫描整个事务数据库找到所有符合条件的频繁关联模式;② 由低维频繁模式不断向高维扩展并根据置信度提取可能的关联模式,重复以上过程直到更高维度的频繁集不再满足最小支持度。基本流程如图1所示。

View original graphic|Download|PPT slide

Fig. 1 The method of the discovery of spatial association patterns based on the grid data

图1 基于格网数据的空间关联模式发现方法

3.2 格网数据事务化

基于空间相关性理论,设计采用N×N平滑移动的掩膜对格网数据进行扫描来完成事务化,格网化后的空间现象图斑被均匀分割,但仍保留了其属性信息,事务化时面积大的空间现象将被多次考虑,拥有更高的权重。为保证空间现象图属的一致性消除单条事务中的冗余,在扫描过程中需要判断掩膜内的空间对象或属性是否单次出现,此类情况如图2（a）和图2（b）,假设掩膜为3×3,图2（a）中要素A在掩膜内出现3次,根据格网索引可计算出要素3次出现为紧邻格网,这表示此处A要素为单次出现,在格网化表达时被割裂为3个紧邻部分;图2（b）中A出现3次,但仅有红色2个要素A为紧邻格网,因此可认为要素A在本次搜索内出现了2次,为不使事务化后要素A的支持尺度过大,需要将此次扫描拆分为2条事务,每条事务中均包含属性为A的项,因此每次掩膜移动将至少产生一条事务记录。

View original graphic|Download|PPT slide

Fig. 2 The consistency test between graphic and attribute of the spatial phenomena

图2 空间现象图属一致性检验

经一致性检验之后,格网数据事务化的基本流程如图3所示,其中可加入的约束有：主因子、候选因子、唯一值以及搜索掩膜大小。主因子是某一属性字段（对应原始数据的某一图层）,或某一字段的具体唯一值。事务化过程中不包括主因子的事务将被排除在外,使事务化数据库与发现目标高度相关的同时提高发现效率。不使用唯一值意味着以该属性字段名代替属性域内的所有唯一值。

View original graphic|Download|PPT slide

Fig. 3 Flow chart of converting grid data into transaction database

图3 格网数据事务化流程

3.3 去除属性自连接的Apriori算法

传统Apriori算法基本处理流程为：宽度优先搜索整个数据库,找出所有频繁1-项集的集合,该集合记作L₁。L₁用于查找频繁2-项集的集合L₂,而L₂用于找L₃,如此下去,直到更高的频繁K-项集不再满足最小支持度。在由L_K生成L_K₊₁时,是利用已经找到的L_K,通过两两不重复的连接得出候选集C_k₊₁,在连接前要先判断进行连接的L_k_[_i_],L_k_[_j_],是否满足有k-1个属性值相同,另外2个不同的分别分布在L_k_[_i_],L_k_[_j_],满足此要求的就将K-1个相同的值加上另外2个不同的值组成C_k₊₁作为L_k₊₁的候选集,然后检验候选集是否满足设置的最小支持度,大于等于最小支持度的即为L_K₊₁。

在获得事务数据库后,可以将传统的Apriori算法直接应用于关联模式发现中。但由于空间现象自身属性的多样性,即同一属性包括不同的唯一值,如坡度分级属性中,包括了多个坡度分级,在由K-项集连接产生（K+1）-项集时,不同坡度之间的关联模式往往不具有挖掘价值。并且这单属性域内的自连接会大大降低关联模式挖掘效率,如图4所示,理论上未去除字段自连接时,由5个1-项集连接生成高维频繁项集时的情况。图5为去除属性自连接后的情况。其中A1、A2和C1、C2分别表示属性A的和属性C中不同的唯一值。

View original graphic|Download|PPT slide

Fig. 4 The condition with self-connection of attribute

图4 未去除属性自连接

对比图5,可看出去除属性自连接后的3-项集由之前的10个减少为4个,而4-项集由于均包含属性自连接,都被排除在外。这样大大减少了连接过程中的无意义项,尤其是实际应用中单属性域内有更多的唯一值,在生成更高维频繁集时去除某些属性的自连接将会有效的提升算法收敛速度。

View original graphic|Download|PPT slide

Fig. 5 The condition without self-connection of attribute

图5 去除属性自连接

4 实证分析

4.1 数据来源

实证区域长河流域位于太行山南端,晋城市泽州县西北部,该区域耕地长期受煤炭开采影响。本次实证收集区域内各矿区数据、自然地理、社会经济等数据（表1）,所有数据均经空间数据格式转换为ArcGIS平台的矢量（*. Shp）和栅格（*. tiff等）并统一投影为西安80坐标系,高斯—克吕格3°分带,中央经度114°。

Tab. 1 Experiment data

表1 实例数据

数据集	数据层	数据来源	存储格式	数据类型
社会经济数据	土地利用类型	土地利用规划空间数据库	Shp	面
社会经济数据	耕地等级	耕地质量评价空间数据库	Shp	面
自然地理数据	高程DEM	STR DEM（精度30 m）	栅格	-
	坡度	坡度分析	栅格	-
	土壤类型	土壤普查空间数据库	Shp	面
专题数据	距矿区最小距离	与矿界临近分析	Shp	面
	采空区	矿区图件矢量化	Shp	面
	矿区边界	矿区图件矢量化	Shp	面
	距水域最小距离	与水系临近分析	Shp	面

4.2 实例数据格网化表达

参考文献[23]和[25],针对实验数据建立了16、32、64、128 m格网尺寸,根据面积占优原则对数据格网化后统计每一数据层的误差,按照每层的总面积加权平均求得所有图层的平均误差^[25]。结果表明,随着格网尺度的增加,其平均误差也在增加。但并不是精度越高好,过小的尺度会导致数据量的激增与事务化结果的事务冗余,从而使关联模式发现过程效率低下。综合考虑以上因素,使总体平均误差保持在5%以内,选择64 m作为此次研究的格网尺度。该格网数据包含表1中所有的数据层,各数据层体现为格网数据属性表中的一列。为减少格网化后各要素总量的变化,在对格网属性赋值时按照各类型数据在格网中的面积占比尝试性的设置取舍阈值,当面积占比达到阈值时选择保留该属性信息。设格网化后某空间现象总面积为S_g,对应原数据该空间现象总面积S₀,则误差定义为：（1-S_g/S₀）×100%。表2为格网化过程中各图层属性确定原则及其取舍阈值和对应误差。

Tab. 2 Principle and error in gridding process of each layer

表2 各图层格网化原则及误差

存储格式	数据层	属性确定原则	属性取舍阈值/%	误差/%
Shp	土地利用类型	优先耕地的基础上面积占优	34	4.6
	农业机械普及率	面积占优	35	4.7
	耕地产量分级	面积占优	34	4.6
	距矿区最小距离	无损赋值	0	-
	采空区	面积占优	38	3.5
	距水域最小距离	无损赋值	0	-
	土类	无损赋值	0	-
栅格	高程DEM	无损赋值	0	-
栅格	坡度	面积占优法	50	3.8

4.3 格网数据事务化

数据格网化表达后,借助ArcGIS Engine二次开发包与C#编程实现了空间格网数据的多约束事务化与关联模式发现过程。掩膜的大小对于事务化的结果也会有很大的影响,扩大掩膜意味着每条事务项目将会增多,使事务数据库的平均宽度上升。在保持空间相关性的掩膜大小范围内扩大掩膜,有利于挖掘高维关联模式;减小掩膜大小会使挖掘结果中的各项具有更高的空间相关性,但会导致挖掘的关联模式维度偏低。掩膜大小的确定需要综合格网尺度、数据特点以及挖掘主题等因素。本次事务化采用3×3掩膜,对4.2中生成的64 m格网数据层按照格网索引依次进行扫描,扫描时各参选因子属性设置如表3所示。

Tab. 3 The settings of each factor in transaction process

表3 事务化过程各因子条件设置

因子类型	属性字段	唯一值
主因子	土地利用类型	耕地
候选因子	产量分级	高产田、障碍层类型、贫瘠肥培型、干旱灌溉型、坡地梯改型
	土类	褐土、红粘土、粗骨土
	距水系最小距离/m	<350、 350~1086、 1086~2000、2000~3500、>3500
	距矿区最小距离/m	<324、 324~684、 684~1700、 1700~3547、>3547
	采空区	无
	坡度分级/°	<16、 16-32、 32~48、 >48

事务化结果共产生38 310条记录,以耕地作为主因子约束,满足最小支持度的单项集22项,主因子耕地的支持度最大为100%,其中高产田支持度为71.2%。其次是坡度0-16度的格网,支持度为95.6%。支持度最小的为坡度大于48°的格网,仅为0.6%。

4.4 事务化精度分析

验证事务化结果精度思路如下：使用1×1掩膜,即同位模式下的事务化^[26],这保证了由格网数据事务化后的每条项集内均不含重复字段,并且去除属性自连接后,频繁模式中的同一属性不同唯一值不会被重复统计。在此前提下,若某一要素A必然伴随另一要素B的某一唯一值,则由前置项A与后置项B的所有唯一值组成的两项频繁模式,其置信度之和应为100%。即:若{B₁、B₂、B₃…B_n}ЄB,应有

∑ i = 1 n P (B i A) = 1

。其中B_i表示属性B的某唯一值。

如果各唯一值的置信度小于100%,则说明事务化空间数据过程或者在生成频繁集时有遗漏;各唯一值的置信度大于100%,则说明事务化空间数据过程或者在生成频繁集时有重复。在所有两项频繁集中抽取所有坡度为0~16°地形上出现的不同土地利用类型的置信度总和为98.16%,表明每个格网的潜在频繁项集被充分考虑,不存在遗漏或者重复,其误差为格网化过程的误差传递所致。

4.5 实验结果及分析

关联模式的发现过程是一个由低维度关联模式不断向更高维度扩展的过程。表4为关联模式发现过程中置信度较高的几个有意义的频繁关联模式。为便于解释所发现的关联模式,图6（各类耕地与矿区、采空区、水系位置关系）为与表2相关的部分数据格网化前的空间分布情况。

Tab. 4 Partially frequent association patterns

表4 部分频繁关联模式

N项集	编号	前置项	后置项	支持度/%	置信度/%
2项集	1	耕地	坡度0~16°	99.24	99.24
	2	高产田	坡度0~16°	32.07	96.93
	3	高产田	褐土	71.16	91.12
	4	瘠薄肥培型	距矿区<324 m	11.21	47.55
	5	瘠薄肥培型	距矿区>3500 m	5.36	42.67
	6	高产田	距水系<1086 m	75.40	85.28
	7	高产田	距矿区324~684 m	42.90	68.12
3项集	8	褐土、坡度0~16°	高产田	60.87	88.47
	9	距矿区>3500 m、坡度16~32°	瘠薄肥培型	4.86	60.56
	10	采空区	距矿区<324 m、距水系<1086 m	15.20	78.69
	11	采空区、距矿区<324 m	干旱灌溉型	9.34	55.12
4项集	12	距水系<1086 m、坡度0~16°,褐土	高产田	68.63	89.54
	13	距矿区<684 m、坡度0~16°,褐土	高产田	48.51	91.92
	14	坡度16~32°,矿区距离>3500 m,红粘土	瘠薄肥培型	4.30	50.23

View original graphic|Download|PPT slide

Fig. 6 Distribution of various farmland, mining area, river systems and learies

图6 各类耕地与矿区、水系、采空区分布图

参照表4和图6所发现的结果做出如下解释：

（1）结合模式1、2、3、13可以看出,流域内95%的高产田集中在坡度0~16°,土类为褐土的区域,并且75%的高产田距离水系在1 km之内。

（2）所有单项集中,瘠薄培肥型耕地大约占18%,由模式4、5可以看出这类耕地主要集中在距离矿区极近的和极远的2个极端,其中距离矿区324 m以内的有11.2%,而根据模式9和14,距离矿区3500 m以外的部分多分布在坡度起伏较大,耕层薄,土壤养分差的地区。因此,矿区的日常生产会影响耕地的产力。

（3）本次的所有单项记录均包含耕地,其中高产耕地支持度约为70%,与矿区距离在324~684 m以内的记录支持度为42.9%。

（4）本次事务数据库中,采空区支持度约为18%,根据模式10可以得出大约15%的采空区在距离矿区324 m以内,结合模式11可看出采空区的形成会使原本距离水系较近的耕地有55%的几率由高产田成为干旱灌溉型。

5 结论

将资源环境空间数据进行格网化表达,弥补了传统方法忽略面积因素,以及对空间现象边界的依赖性。以N×N掩膜扫描格网数据完成事务化,利用改进的Apriori算法进行关联模式挖掘,没有采用传统方法需依据经验提前建立谓词表的过程,而是直接针对空间数据进行无规则事务化,挖掘出可能的频繁模式之后再进行解释,发现的结果不再局限于预定谓词关系的组合,从而解决了根据谓词表事务化引起的关联模式遗漏和解释自由度差的问题。

格网化表达过程中,对未填满格网的要素在格网尺度和属性取舍阈值上寻求一个最佳平衡,以保证格网化之后的误差在可接受范围内。通过改变掩膜大小或者格网大小可实现不同尺度的事务化,改变主因子等约束可以快速直观的探索感兴趣的关联模式,提高了发现的自由度。实证结果表明：该方法在格网化和事务化过程中具有良好的精度;发现的关联模式符合长河流域矿农复合区背景下耕地相关的先验知识,证实了该方法的实用性。

本实例将主因子设置为耕地,探索出与之相关的诸多关联规则,这些规则对于探索与矿农复合区耕地相关的评价具有很大的指导意义。例如,通过强关联规则简化在众多因素中选择参评因子的过程,通过参考各与评价目标相关因子的置信度来为因子设置权重。由于格网数据对空间现象的形态变化具有良好的兼容性以及属性列的无限性,这使得在同一格网中可以包含相同区位不同时段的数据,在可视化表达时则只需对其属性构造适当的查询便可界定不同时段空间界线,因此本方法在时空关联模式发现上也具有很大的优势。下一步研究将针对该方法的尺度效应,探索不同掩膜大小和格网尺寸对发现结果的影响。模糊属性的分级以及在事务化过程中加入距离权重使发现的关联模式更加具体详细也是将来研究方向之一。

The authors have declared that no competing interests exist.

References

Publishing order | Descend order by publishing year | Descend order by cited within

[1]	马荣华,蒲英霞,马晓冬,等. GIS空间关联模式发现[M].北京:科学出版社,2007. [ Ma R H, Pu Y X, Ma X D, et al.Discovery of GIS spatial association patterns[M]. Beijing: Science Press, 2007. ]

[2]

许红,严静,张群洪.基于概念树的空间关联规则挖掘算法及其在土地利用分析中的应用[J].华中农业大学学报,2009(6):46-50.

从地理信息系统(GIS)的角度研究空间关联规则的挖掘算法,以GIS智能分析和辅助决策为主要应用,从单一数据层中的空间概念层次关系研究空间关联规则的挖掘算法,利用该算法对龙海市土地利用进行空间拓扑关系挖掘,得到一些有意义的空间关联规则,例如is_a园地Aadjacent_to交通用地→有居民区,以及is_a水域∧ adjacent_to耕地∧ intersects交通用地→有居民区.

模态框（Modal）标题

Abstract

Cite this article

1 引言

2 空间数据多尺度格网化表达

3 基于格网数据关联模式发现方法

3.1 方法概述

Fig. 1 The method of the discovery of spatial association patterns based on the grid data

3.2 格网数据事务化

Fig. 2 The consistency test between graphic and attribute of the spatial phenomena

Fig. 3 Flow chart of converting grid data into transaction database

3.3 去除属性自连接的Apriori算法

Fig. 4 The condition with self-connection of attribute

Fig. 5 The condition without self-connection of attribute

4 实证分析

4.1 数据来源

Tab. 1 Experiment data

4.2 实例数据格网化表达

Tab. 2 Principle and error in gridding process of each layer

4.3 格网数据事务化

Tab. 3 The settings of each factor in transaction process

4.4 事务化精度分析

4.5 实验结果及分析

Tab. 4 Partially frequent association patterns

Fig. 6 Distribution of various farmland, mining area, river systems and learies

5 结论

References