The Discovery of Spatial Association Patterns of Resource and Environment Information Based on Grid Data

  • XU Zhen ,
  • JING Yaodong ,
  • BI Rutian , * ,
  • GAO Yang ,
  • WANG Peng
Expand
  • College of Resources and Environment, Shanxi Agricultural University, Taigu 030801, China
*Corresponding author: BI Rutian, E-mail:

Received date: 2017-06-13

  Request revised date: 2017-09-23

  Online published: 2018-01-20

Supported by

Foundation item: Public Welfare Profession Project of Ministry of Land and Resources of the People's Republic of China, No.201411007.

Copyright

《地球信息科学学报》编辑部 所有

Abstract

Spatial association patterns include location patterns of spatial association which emphasize on spatial data and structure patterns of the spatial association, which emphasize on attribute data. However, traditional methods were based on traditional spatial data and used spatial predicates as the logic in the process of mining. This would lead to the following problems: Firstly, it relied on the boundaries of spatial phenomenon and didn’t take account in the area of spatial phenomenon. Secondly, the results were restricted strongly by the table of spatial predicate built before data mining. Based on The Tobler’s First Law of Geography, this research proposed a new method of extracting spatial association patterns without using spatial predicate. According to specific data content and data format, this method converted spatial data into grid data which has the same spatial coordinate and the same size of each grid. Then, the method used a smooth moving-mask to get the transaction database from the grid data. Apriori algorithm without self-connection of attributes was adopted to explore the latent association patterns in transaction database. Finally, an experiment was conducted to verify the accuracy of this method. The experiment data included the data of coal mining area, land use data, water system data and terrain data in Changhe basin of Jincheng City in Shanxi Province. In the experiment, the error of grid transformation of each data layer was controlled within 5% and the accuracy of transaction was verified in co-location pattern. Grid transformation generated 28 434 grids and the size of each grid was 64 meters. After setting cultivated land as main factor, there were 38 310 records in transaction database. Through the study on some association patterns with higher confidence, it showed that the results were consistent with the prior knowledge related to cultivated land in ore-agricultural area. Therefore, this method can effectively extract the meaning association patterns and improve the interestingness of the results. This method improves the degree of freedom of the data mining by setting different sizes of the grid, main factors and mask sizes. Based on grid data instead of traditional spatial data, this method doesn’t rely on the boundaries of spatial phenomenon and takes into account the area factor.

Cite this article

XU Zhen , JING Yaodong , BI Rutian , GAO Yang , WANG Peng . The Discovery of Spatial Association Patterns of Resource and Environment Information Based on Grid Data[J]. Journal of Geo-information Science, 2018 , 20(1) : 28 -36 . DOI: 10.12082/dqxxkx.2018.170266

1 引言

空间关联是事物和现象在空间上的相互依赖、相互制约、相互影响和相互作用,是地理现象和空间过程的本质特征。空间关联模式发现则旨在揭示空间事务和现象间这些内在、隐含的相互关系。空间关联模式包括空间关联位置模式和空间关联结构模式[1],前者侧重于空间位置的关联强度,而后者则基于前者更多地侧重属性数据间的相互关系。通过探寻空间关联模式,可以得到空间事物和现象间许多有意义的内在联系,为日常的分析[2,3,4]、预测[5,6]等工作提供有价值的参考。
国外学者对空间关联模式发现进行了大量的研究[7],Apriori算法作为传统关联规则挖掘的经典算法,最早被应用于空间关联模式发现[8],Koperski和Han[9]首先对空间数据按照空间谓词进行事务化,然后将该算法应用于空间关联规则的挖掘过程,并证明了该方法的准确性。Apriori算法借助宽度优先搜索,通过不断的连接和剪枝来发现频繁关联模式,是一个由低维模式不断向高维扩展的过程。此后,国内外许多学者又从算法的应用、收敛速度以及针对时空数据的适应性等方面进行了多种优化[10,11,12],提出了很多优秀的挖掘算法和新思路:Tsoukatos等[13]首次提出在空间数据频繁模式挖掘中增加时间约束,提出一种新算法DFS_MINE,该算法利用深度优先搜索原则,扫描数据库来挖掘频繁序列模式,较Apriori算法有着更高的效率,但挖掘的频繁模式相对于宽度搜索优先的Apriori算法要少。Jia等[14]提出一种以FP-Tree存储频繁集合的FP-Growth算法,进一步提升了关联规则的搜索效率,但发现的频繁模式较Apriori算法要少。张雪萍等[15]在FP-Growth算法的基础上将空间数据进行时间序列上的划分,用空间谓词分析空间对象间的位置关系,生成顾及时间和空间特征的FP-树,挖掘出强时空关联规则。以上空间关联模式发现均以空间谓词和分类谓词为逻辑进行关联模式提取,谓词关系表是进行传统关联模式发现的基础,这在实际使用中会导致以下问题:① 忽略了空间现象面积因素,对空间现象的边界有较强的依赖性,即一个空间现象无论大小都作为一条事务中的一个单项存在。② 空间现象的不确定性以及模糊属性的存 在[16,17],如针对耕地的面状图斑,与该图斑相连接的属性数据可能有耕地面积、耕地等级、耕层厚度、土壤养分、水资源状况等模糊属性[18,19],针对这些属性建立谓词表需要以相关的先验知识为基础,会因对相互间关系的遗漏而导致一些有意义的关联模式被遗漏。③ 所发现的关联模式是事先预定的谓词关系组合,导致发现过程自由度差以及发现模式固定的问题。
针对以上问题,本研究提出不依赖空间谓词进行更高自由度的多尺度关联模式发现方法。设计思想主要借鉴空间数据多尺度格网化表达以及经典的Apriori算法。通过对矢量和栅格数据进行格网化以消除传统方法依赖空间现象边界造成挖掘结果忽略面积因素,并且使得诸如坡度,耕层厚度等无边界数据事务化更加简单。采用平滑移动的掩膜将格网数据事务化,省去传统方法提前针对数据建立谓词表的过程,然后针对空间数据属性的特殊性,将传统Apriori算法去除属性自连接以提高发现的效率。结合山西省晋城市长河流域煤、地、水实例进行关联模式挖掘,证实了该方法的可行性和实用性。

2 空间数据多尺度格网化表达

空间格网指按照一定规律,将地球表面的空间由粗略到详细进行连续的剖分[20]。这种规律可以按照等间隔、等经纬度、数学函数等方式对地理空间进行规则或不规则的划分[21]。其目的是为了在众多的多源异构数据中形成统一的数据组织方式,在一定误差内减少数据的空间消耗,促进空间数据共享。空间格网系统大致可分为3类:地理坐标格网系统、自适应格网系统、多面体剖分格网系统[21]。地理坐标格网系统直接对地球表面按照经纬度进行规则剖分;多面体剖分方式则是先在正多面体表面进行剖分,然后按照一定数学规律将格网对应到地球表面;自适应格网系统针对空间现象的某种局部特征进行不规则剖分,但这种格网不利于形成不同尺度间的关联。
本研究通过对各类栅格和矢量数据格网化来实现空间数据事务化,首先借鉴已有的格网化思想确定格网大小[22,23],然后按原数据坐标投影信息生成覆盖所有研究数据的规则格网,根据具体数据格式和数据内容不同确定格网属性的确定原则,最后赋予格网属性完成格网化。每个格网均包含所有待挖掘数据层对应位置的相关信息,各数据层在格网数据中表现为格网数据属性表的一个字段,涉及到对矢量数据和栅格数据的格网化。2种数据的格网化方法如下:
(1)矢量数据格网化表达:首先选择格网属性确定原则,传统格网属性确定方法有面积占优、中心点法、重要性、无损格网化等方法[24]。确定属性赋予原则后,根据设定的格网分辨率生成覆盖整个区域的规则格网,将生成格网与目标图层相交,按照选定的属性确定原则将其暂时作为对应位置格网单元属性值。在保证各类数据所占总的格网面积与原始图层图斑总面积误差在5%以下的基础上,确定格网属性的取舍阈值。根据上述阈值确定格网属性,保留高于阈值的属性,舍弃低于阈值的属性。
(2)栅格数据格网化表达:栅格数据由于存储方式为属性矩阵,其中并不存储空间现象的轮廓信息以及现象间的拓扑关系。在对其进行格网化时,采用以格网作为掩膜对其内部包含的像元进行某种统计提取以作为格网属性。常用的统计方式有平均值、最大值、最小值等,一般采用平均值作为对应位置格网的属性。对满像元格网(格网被非空像元填满),可直接对掩膜内的栅格值进行区域统计,将其某个统计量作为该格网对应数据层属性列;对非满像元(格网内包含空值像元)为保证格网化精度,仅保留掩膜内像元面积占比超过一定阈值的格网进行区域统计赋予属性值。

3 基于格网数据关联模式发现方法

3.1 方法概述

基于格网数据的空间关联模式挖掘首先要选取适当的格网尺度作为研究数据源,以既定格网尺度完成数据格网化表达,然后依据发现的目的设置不同的事务化约束,以提高整个发现过程的效率和发现结果的兴趣度。获得事务数据集后的发现过程大致分为2个阶段:① 根据指定支持度阈值扫描整个事务数据库找到所有符合条件的频繁关联模式;② 由低维频繁模式不断向高维扩展并根据置信度提取可能的关联模式,重复以上过程直到更高维度的频繁集不再满足最小支持度。基本流程如图1所示。
Fig. 1 The method of the discovery of spatial association patterns based on the grid data

图1 基于格网数据的空间关联模式发现方法

3.2 格网数据事务化

基于空间相关性理论,设计采用N×N平滑移动的掩膜对格网数据进行扫描来完成事务化,格网化后的空间现象图斑被均匀分割,但仍保留了其属性信息,事务化时面积大的空间现象将被多次考虑,拥有更高的权重。为保证空间现象图属的一致性消除单条事务中的冗余,在扫描过程中需要判断掩膜内的空间对象或属性是否单次出现,此类情况如图2(a)和图2(b),假设掩膜为3×3,图2(a)中要素A在掩膜内出现3次,根据格网索引可计算出要素3次出现为紧邻格网,这表示此处A要素为单次出现,在格网化表达时被割裂为3个紧邻部分;图2(b)中A出现3次,但仅有红色2个要素A为紧邻格网,因此可认为要素A在本次搜索内出现了2次,为不使事务化后要素A的支持尺度过大,需要将此次扫描拆分为2条事务,每条事务中均包含属性为A的项,因此每次掩膜移动将至少产生一条事务记录。
Fig. 2 The consistency test between graphic and attribute of the spatial phenomena

图2 空间现象图属一致性检验

经一致性检验之后,格网数据事务化的基本流程如图3所示,其中可加入的约束有:主因子、候选因子、唯一值以及搜索掩膜大小。主因子是某一属性字段(对应原始数据的某一图层),或某一字段的具体唯一值。事务化过程中不包括主因子的事务将被排除在外,使事务化数据库与发现目标高度相关的同时提高发现效率。不使用唯一值意味着以该属性字段名代替属性域内的所有唯一值。
Fig. 3 Flow chart of converting grid data into transaction database

图3 格网数据事务化流程

3.3 去除属性自连接的Apriori算法

传统Apriori算法基本处理流程为:宽度优先搜索整个数据库,找出所有频繁1-项集的集合,该集合记作L1L1用于查找频繁2-项集的集合L2,而L2用于找L3,如此下去,直到更高的频繁K-项集不再满足最小支持度。在由LK生成LK+1时,是利用已经找到的LK,通过两两不重复的连接得出候选集Ck+1,在连接前要先判断进行连接的Lk[i],Lk[j],是否满足有k-1个属性值相同,另外2个不同的分别分布在Lk[i],Lk[j],满足此要求的就将K-1个相同的值加上另外2个不同的值组成Ck+1作为Lk+1的候选集,然后检验候选集是否满足设置的最小支持度,大于等于最小支持度的即为LK+1
在获得事务数据库后,可以将传统的Apriori算法直接应用于关联模式发现中。但由于空间现象自身属性的多样性,即同一属性包括不同的唯一值,如坡度分级属性中,包括了多个坡度分级,在由K-项集连接产生(K+1)-项集时,不同坡度之间的关联模式往往不具有挖掘价值。并且这单属性域内的自连接会大大降低关联模式挖掘效率,如图4所示,理论上未去除字段自连接时,由5个1-项集连接生成高维频繁项集时的情况。图5为去除属性自连接后的情况。其中A1、A2和C1、C2分别表示属性A的和属性C中不同的唯一值。
Fig. 4 The condition with self-connection of attribute

图4 未去除属性自连接

对比图5,可看出去除属性自连接后的3-项集由之前的10个减少为4个,而4-项集由于均包含属性自连接,都被排除在外。这样大大减少了连接过程中的无意义项,尤其是实际应用中单属性域内有更多的唯一值,在生成更高维频繁集时去除某些属性的自连接将会有效的提升算法收敛速度。
Fig. 5 The condition without self-connection of attribute

图5 去除属性自连接

4 实证分析

4.1 数据来源

实证区域长河流域位于太行山南端,晋城市泽州县西北部,该区域耕地长期受煤炭开采影响。本次实证收集区域内各矿区数据、自然地理、社会经济等数据(表1),所有数据均经空间数据格式转换为ArcGIS平台的矢量(*. Shp)和栅格(*. tiff等)并统一投影为西安80坐标系,高斯—克吕格3°分带,中央经度114°。
Tab. 1 Experiment data

表1 实例数据

数据集 数据层 数据来源 存储格式 数据类型
社会经济数据 土地利用类型 土地利用规划空间数据库 Shp
耕地等级 耕地质量评价空间数据库 Shp
自然地理数据 高程DEM STR DEM(精度30 m) 栅格 -
坡度 坡度分析 栅格 -
土壤类型 土壤普查空间数据库 Shp
专题数据 距矿区最小距离 与矿界临近分析 Shp
采空区 矿区图件矢量化 Shp
矿区边界 矿区图件矢量化 Shp
距水域最小距离 与水系临近分析 Shp

4.2 实例数据格网化表达

参考文献[23]和[25],针对实验数据建立了16、32、64、128 m格网尺寸,根据面积占优原则对数据格网化后统计每一数据层的误差,按照每层的总面积加权平均求得所有图层的平均误差[25]。结果表明,随着格网尺度的增加,其平均误差也在增加。但并不是精度越高好,过小的尺度会导致数据量的激增与事务化结果的事务冗余,从而使关联模式发现过程效率低下。综合考虑以上因素,使总体平均误差保持在5%以内,选择64 m作为此次研究的格网尺度。该格网数据包含表1中所有的数据层,各数据层体现为格网数据属性表中的一列。为减少格网化后各要素总量的变化,在对格网属性赋值时按照各类型数据在格网中的面积占比尝试性的设置取舍阈值,当面积占比达到阈值时选择保留该属性信息。设格网化后某空间现象总面积为Sg,对应原数据该空间现象总面积S0,则误差定义为: (1-Sg/S0)×100%。表2为格网化过程中各图层属性确定原则及其取舍阈值和对应误差。
Tab. 2 Principle and error in gridding process of each layer

表2 各图层格网化原则及误差

存储
格式
数据层 属性确定原则 属性取舍
阈值/%
误差/%
Shp 土地利用类型 优先耕地的基础上
面积占优
34 4.6
农业机械普及率 面积占优 35 4.7
耕地产量分级 面积占优 34 4.6
距矿区最小距离 无损赋值 0 -
采空区 面积占优 38 3.5
距水域最小距离 无损赋值 0 -
土类 无损赋值 0 -
栅格 高程DEM 无损赋值 0 -
坡度 面积占优法 50 3.8

4.3 格网数据事务化

数据格网化表达后,借助ArcGIS Engine二次开发包与C#编程实现了空间格网数据的多约束事务化与关联模式发现过程。掩膜的大小对于事务化的结果也会有很大的影响,扩大掩膜意味着每条事务项目将会增多,使事务数据库的平均宽度上升。在保持空间相关性的掩膜大小范围内扩大掩膜,有利于挖掘高维关联模式;减小掩膜大小会使挖掘结果中的各项具有更高的空间相关性,但会导致挖掘的关联模式维度偏低。掩膜大小的确定需要综合格网尺度、数据特点以及挖掘主题等因素。本次事务化采用3×3掩膜,对4.2中生成的64 m格网数据层按照格网索引依次进行扫描,扫描时各参选因子属性设置如表3所示。
Tab. 3 The settings of each factor in transaction process

表3 事务化过程各因子条件设置

因子类型 属性字段 唯一值
主因子 土地利用类型 耕地
候选因子 产量分级 高产田、障碍层类型、贫瘠肥培型、干旱灌溉型、坡地梯改型
土类 褐土、红粘土、粗骨土
距水系最小
距离/m
<350、 350~1086、 1086~2000、2000~3500、>3500
距矿区最小
距离/m
<324、 324~684、 684~1700、 1700~3547、>3547
采空区
坡度分级/° <16、 16-32、 32~48、 >48
事务化结果共产生38 310条记录,以耕地作为主因子约束,满足最小支持度的单项集22项,主因子耕地的支持度最大为100%,其中高产田支持度为71.2%。其次是坡度0-16度的格网,支持度为95.6%。支持度最小的为坡度大于48°的格网,仅为0.6%。

4.4 事务化精度分析

验证事务化结果精度思路如下:使用1×1掩膜,即同位模式下的事务化[26],这保证了由格网数据事务化后的每条项集内均不含重复字段,并且去除属性自连接后,频繁模式中的同一属性不同唯一值不会被重复统计。在此前提下,若某一要素A必然伴随另一要素B的某一唯一值,则由前置项A与后置项B的所有唯一值组成的两项频繁模式,其置信度之和应为100%。即:若{B1B2B3Bn}ЄB,应有 i = 1 n P ( B i A ) = 1 。其中Bi表示属性B的某唯一值。
如果各唯一值的置信度小于100%,则说明事务化空间数据过程或者在生成频繁集时有遗漏;各唯一值的置信度大于100%,则说明事务化空间数据过程或者在生成频繁集时有重复。在所有两项频繁集中抽取所有坡度为0~16°地形上出现的不同土地利用类型的置信度总和为98.16%,表明每个格网的潜在频繁项集被充分考虑,不存在遗漏或者重复,其误差为格网化过程的误差传递所致。

4.5 实验结果及分析

关联模式的发现过程是一个由低维度关联模式不断向更高维度扩展的过程。表4为关联模式发现过程中置信度较高的几个有意义的频繁关联模式。为便于解释所发现的关联模式,图6(各类耕地与矿区、采空区、水系位置关系)为与表2相关的部分数据格网化前的空间分布情况。
Tab. 4 Partially frequent association patterns

表4 部分频繁关联模式

N项集 编号 前置项 后置项 支持度/% 置信度/%
2项集 1 耕地 坡度0~16° 99.24 99.24
2 高产田 坡度0~16° 32.07 96.93
3 高产田 褐土 71.16 91.12
4 瘠薄肥培型 距矿区<324 m 11.21 47.55
5 瘠薄肥培型 距矿区>3500 m 5.36 42.67
6 高产田 距水系<1086 m 75.40 85.28
7 高产田 距矿区324~684 m 42.90 68.12
3项集 8 褐土、坡度0~16° 高产田 60.87 88.47
9 距矿区>3500 m、坡度16~32° 瘠薄肥培型 4.86 60.56
10 采空区 距矿区<324 m、距水系<1086 m 15.20 78.69
11 采空区、距矿区<324 m 干旱灌溉型 9.34 55.12
4项集 12 距水系<1086 m、坡度0~16°,褐土 高产田 68.63 89.54
13 距矿区<684 m、坡度0~16°,褐土 高产田 48.51 91.92
14 坡度16~32°,矿区距离>3500 m,红粘土 瘠薄肥培型 4.30 50.23
Fig. 6 Distribution of various farmland, mining area, river systems and learies

图6 各类耕地与矿区、水系、采空区分布图

参照表4图6所发现的结果做出如下解释:
(1)结合模式1、2、3、13可以看出,流域内95%的高产田集中在坡度0~16°,土类为褐土的区域,并且75%的高产田距离水系在1 km之内。
(2)所有单项集中,瘠薄培肥型耕地大约占18%,由模式4、5可以看出这类耕地主要集中在距离矿区极近的和极远的2个极端,其中距离矿区324 m以内的有11.2%,而根据模式9和14,距离矿区3500 m以外的部分多分布在坡度起伏较大,耕层薄,土壤养分差的地区。因此,矿区的日常生产会影响耕地的产力。
(3)本次的所有单项记录均包含耕地,其中高产耕地支持度约为70%,与矿区距离在324~684 m以内的记录支持度为42.9%。
(4)本次事务数据库中,采空区支持度约为18%,根据模式10可以得出大约15%的采空区在距离矿区324 m以内,结合模式11可看出采空区的形成会使原本距离水系较近的耕地有55%的几率由高产田成为干旱灌溉型。

5 结论

将资源环境空间数据进行格网化表达,弥补了传统方法忽略面积因素,以及对空间现象边界的依赖性。以N×N掩膜扫描格网数据完成事务化,利用改进的Apriori算法进行关联模式挖掘,没有采用传统方法需依据经验提前建立谓词表的过程,而是直接针对空间数据进行无规则事务化,挖掘出可能的频繁模式之后再进行解释,发现的结果不再局限于预定谓词关系的组合,从而解决了根据谓词表事务化引起的关联模式遗漏和解释自由度差的问题。
格网化表达过程中,对未填满格网的要素在格网尺度和属性取舍阈值上寻求一个最佳平衡,以保证格网化之后的误差在可接受范围内。通过改变掩膜大小或者格网大小可实现不同尺度的事务化,改变主因子等约束可以快速直观的探索感兴趣的关联模式,提高了发现的自由度。实证结果表明:该方法在格网化和事务化过程中具有良好的精度;发现的关联模式符合长河流域矿农复合区背景下耕地相关的先验知识,证实了该方法的实用性。
本实例将主因子设置为耕地,探索出与之相关的诸多关联规则,这些规则对于探索与矿农复合区耕地相关的评价具有很大的指导意义。例如,通过强关联规则简化在众多因素中选择参评因子的过程,通过参考各与评价目标相关因子的置信度来为因子设置权重。由于格网数据对空间现象的形态变化具有良好的兼容性以及属性列的无限性,这使得在同一格网中可以包含相同区位不同时段的数据,在可视化表达时则只需对其属性构造适当的查询便可界定不同时段空间界线,因此本方法在时空关联模式发现上也具有很大的优势。下一步研究将针对该方法的尺度效应,探索不同掩膜大小和格网尺寸对发现结果的影响。模糊属性的分级以及在事务化过程中加入距离权重使发现的关联模式更加具体详细也是将来研究方向之一。

The authors have declared that no competing interests exist.

[1]
马荣华,蒲英霞,马晓冬,等. GIS空间关联模式发现[M].北京:科学出版社,2007.

[ Ma R H, Pu Y X, Ma X D, et al.Discovery of GIS spatial association patterns[M]. Beijing: Science Press, 2007. ]

[2]
许红,严静,张群洪.基于概念树的空间关联规则挖掘算法及其在土地利用分析中的应用[J].华中农业大学学报,2009(6):46-50.从地理信息系统(GIS)的角度研究空间关联规则的挖掘算法,以GIS智能分析和辅助决策为主要应用,从单一数据层中的空间概念层次关系研究空间关联规则的挖掘算法,利用该算法对龙海市土地利用进行空间拓扑关系挖掘,得到一些有意义的空间关联规则,例如is_a园地Aadjacent_to交通用地→有居民区,以及is_a水域∧ adjacent_to耕地∧ intersects交通用地→有居民区.

DOI

[ Xu H, Yan J, Zhang Q H.An algorithm of the spatial association rule based on concept tree and its application in land use analysis[J]. Journal of Huazhong Agricultural University, 2009(6):46-50. ]

[3]
吴洁璇,陈振杰,李满春,等.基于邻接关系的土地利用变化空间关联规则研究[J].长江流域资源与环境,2015,24(9):1537-1544.空间关联规则可在海量空间数据中挖掘出空间对象之间相互作用、空间依赖、因果或共生的模式。将空间关联规则方法引入土地利用变化时空特征分析中,以浙江省桐庐县2004~2009年的两种典型地类变化(城镇用地的转入、耕地的转出)为例,结合GIS的空间统计和空间分析功能,首先通过土地利用转移矩阵分析土地利用面积变化的整体情况,再采用经典Apriori算法挖掘这两种典型地类变化与其周边邻接的地类变化间的关联性规律。研究表明:(1)桐庐县土地利用呈现明显的非农化趋势,这主要归因于城镇化进程以及其作为特色发展的生态建设;(2)城镇用地的发展主要依靠耕地和农村居民点的转型,表现为集中连片的扩展方式,且城镇用地与交通水利建设用地的发展具有明显的共生现象;(3)耕地的同种转变类型在空间上呈现连片集聚分布,且耕地发展易受相邻地类的驱动或制约,尤其是林地和农村居民点。空间关联规则挖掘能够定量分析在空间邻接的情况下地类间的转变倾向以及变化的关联规律,为土地利用变化时空分析提供有用信息。

DOI

[ Wu J X, Chen Z J, Li M C, et al.Research on spatial association rules of land use changes based on the spatial adjacency relations[J]. Resources and Environment in the Yangtze Basin, 2015,24(9):1537-1544. ]

[4]
Du Xiaoxi, Jin Ruoming, Liang Ding Victor, et al.Migration Motif: A Spatial-temporal pattern mining approach for financial markets[C]. Proc of the 15th ACM SIGKDD Int Conf on Knowledge and Data Mining, New York: ACM, 2009:1135-1144.

[5]
周园. 基于Apriori 算法的点线关联模式在地震空间数据挖掘中的应用[J].有色金属设计,2015,42(3):63-67.

[ Zhou Y.Application of point-line association pattern based on Apriori algorithm on spatial data mining of Earthquake[J]. Nonferrous Metals Design, 2015,42(3): 63-67. ]

[6]
施颖男,李德敏,等.移动计算中基于Apriori算法的空间关联规则提取[J].计算机工程与应用,2003(35):55-56.

[ Shi Y N, Li D M, et al.Extraction of spatial association rule based on Apriori algorithm in mobile computing[J].Computer Engineering and Applications, 2003(35):55-56. ]

[7]
岳慧颖. 含有时空约束的关联规则挖掘方法研究[D].哈尔滨:哈尔滨工业大学,2004.

[ Yue Y H.The research of association rules mining method that contain time and space[D]. Harbin: Harbin Engineering University, 2004. ]

[8]
Khalili Abdullsh, Sami Ashkan.Sys Detect: A systematic approach to critical state determination for industrial intrusion detection systems using Apriori algorithm[J]. Journal of Process Control, 2015,32:154-160.In recent years, Industrial Intrusion Detection Systems (IIDSs) are employed to improve the security of CPS. Among the state-of-the-art IIDSs, state based intrusion detection is a widely used approach. In such process aware IIDSs, normal states are extracted from historical process data or directly specified by control experts when the historical data is not (or rarely) available. In the second manner, experts try to determine the critical states of the process. However, having a large number of I/O, investigating all process states for determination of critical states is not practical. In this paper, the problem is resolved by proposing SysDetect (a Systematic approach to Critical State Determination) which employs a well-established and iterative data mining algorithm, i.e. Apriori. SysDetect guarantees that all candidate critical states are generated at each iteration. In addition, by identifying the critical states at each iteration using experts opinions, number of generated candidates in the next iteration is significantly reduced. As a result, SysDetect in addition to provide a complete solution, guarantees that no redundant candidate is generated. Experimental results on a real settings indicate that SysDetect can be successfully applied to determine the critical states of industrial processes using experts鈥 opinions.

DOI

[9]
Tang X B, Zhang Y Z.Research on topology association rules algorithm based on spatial constraints[J]. Advanced Materials Research, 2014,998:915-920.Spatial topological relation is an important and typical multilayer spatial relation, when Apriori is used to mining spatial constraint topology association rules, it will has some repeated computing. And so this paper proposes an algorithm of spatial constraint topology association rules mining based on complement set, which is used to mining spatial multilayer transverse association rules with constraint condition from spatial database. This algorithm generates candidate frequent topological itemsets with constraint condition not only by down-top search strategy as Apriori, but also by computing complement set of candidate from down-top search strategy, which is suitable for mining any spatial topological frequent itemsets with constraint condition. This algorithm compresses a kind of spatial topological relation to form an integer. By the way, firstly, the algorithm may efficiently reduce some storage space when creating mining database. Secondly, the algorithm is fast to obtain topological relation between two spatial objects, namely, it may easily compute support of candidate frequent itemsets. Finally, the algorithm may fast generate candidate via double search strategy, i.e. one is that it connects (k+1)-candidate frequent itemsets with constraint condition of k-frequent itemsets as down-top search strategy, the other is that it computes complement set of (k+1)-candidate frequent itemsets with constraint condition. The result of experiment indicates that the algorithm is able to extract spatial multilayer transverse association rules with constraint condition from spatial database via efficient data store, and it is very efficient to extract any frequent topology association rules with constraint condition.

DOI

[10]
罗丹,李陶深.一种基于压缩矩阵的Apriori算法改进研究[J].计算机科学,2013,40(12):75-80.针对已有基于矩阵的Apriori算法存在的问题,提出了一种改 进的基于压缩矩阵的Apriori算法.算法进行了以下方面的改进:增加了两个数组,分别用于记录矩阵行与列中1的个数,使得算法在压缩矩阵时减少了扫描 矩阵的次数;在压缩矩阵中,通过增加删除不能连接的项集和非频繁的项集的操作,使得矩阵压缩得更小,提高了空间效率;改变了删除事务列的条件和算法结束的 条件,以减少挖掘结果的误差和算法循环的次数.算法性能分析和实验分析证明,改进后的算法能有效地挖掘频繁项集,并且比现有的算法具有更高的计算效率.

DOI

[ Luo D, Li T S, Research on improved Apriori algorithm based on compressed matrix[J]. Computer Science, 2013,40(12):75-80. ]

[11]
陈方健,张明新,杨昆.一种具有跳跃式前进的Apriori算法[J].计算机应用与软件,2015,32(3):34-36,92.根据 Apriori 算法的原理,提出一种具有跳跃式前进与回退补齐的改进算法 J_Apriori。计算频繁 K 项集后,求出未剪枝的候选2K 项集。在满足跳跃式前进策略的条件下先求出频繁2K 项集,则2K 项集的所有(K +1)至(2K -1)项子集不需要再扫描庞大的数据集,可以直接加入到频繁项集中,然后再回退补齐那些不是2K 项集的子集的频繁项集。改进的算法减少了扫描数据集的次数。实验表明改进的算法有效地提高了 Apriori 算法的效率。

DOI

[ Chen F J, Zhang M X, Yang K.A kind of Apriori algorithm with jumping forward[J]. Computer Applications and Software, 2015,32(3):34-36,92. ]

[12]
吴斌,肖刚,陆佳炜.基于关联规则挖掘领域的Apriori算法的优化研究机[J].计算机工程与科学,2009,31(6):116-118.挖掘关联规则是数据挖掘领域的一个重要研究课题,在挖掘数据间的 关联性时具有非常重要的意义.本文在分析关联规则挖掘及Apriori算法的基础上,从压缩扫描数据集及提高剪枝效率等方面对算法进行了优化改进,从而达 到了降低消耗、提高算法效率的目的.最后,通过实例对优化的Apriori算法作了详细介绍.

DOI

[ Wu B, Xiao G, Lu J W, Optimization of Apriori algorithm in mining association rules[J]. Computer & Engineering & Science, 2009,31(6):116-118. ]

[13]
Tsoukatos I, Gunopulos D.Efficient mining of spatiotemporal patterns[G]// LNCS 2121: Proceedings of the 7th International Symposium on Advances in Spatial and Temporal Databases (SSTD 2001), Berlin: Springer, 2001:425-442.

[14]
Jiawei Han, Jianpei, Yiwen yin, et al. Mining frequent patterns without Candidate Generation: A Frequent-Pattern Tree Approach[J]. Data Mining and Knowledge Discovery, 2004(8):53-87.

[15]
张雪萍,李围成,祝玉华.基于FP-树的时空关联规则挖掘算法研究[J].微电子学与计算机,2016,33(8):130-133.

[ Zhang X P, Li W C, Zhu Y H.Research on the mining algorithm of spatio-temporal association rules based on FP-tree[J]. Microelectronics & Computer, 2016,33(8):130-133. ]

[16]
李德仁. 对空间数据不确定性研究的思考[J].测绘科学技术学报,2006,23(6):391-392,395.对GIS中空间数据不确定性研究中存在的问题进行思考后提出了5点建议。主要包括:1)要区分GIS中确定性目标和不确定性目标;2)要区分用离散点逼近曲线/曲面的逼近误差和离散点自身量测误差及其传播;3)要研究GIS中的几何不确定性,更要重视研究属性和时态不确定性;4)要研究空间数据质量,更要研究空间信息服务的质量;5)空间数据不确定性研究要努力向实际应用转化。

DOI

[ Li D R.Some thoughts on spatial data uncertainty in GIS[J]. Journal of Geomatics Science and Technology, 2006,23(6):391-392,395. ]

[17]
张毅,邬阳,高勇.基于空间陈述的定位及不确定性研究[J].地球信息科学学报,2013,15(1):38-45.在地理空间知识的表达中,通常以文本方式描述位置。除了常见的地名以及地址外,许多陈述根据与参照地物的空间关系来表达一个目标地物的位置。由于一个空间陈述只是粗略描述了目标对象的位置,因此具有不确定性。在基于空间陈述的定位问题中,不确定性包括4个层次,分别对应于陈述、参照对象、空间关系和目标对象。这4个层次的不确定性适合于不同的建模方式,如概率方法、模糊集方法,以及证据理论方法等。本文采用不确定性场的概念,对点状目标地物的分布进行了探讨,并利用贝叶斯定理证明了对于给定的空间陈述,其不确定性场分布与做出该陈述概率,以及相应空间关系的模糊性之间的联系,该结论可用于指导不确定性场的建立。

DOI

[ Zhang Y, Wu Y, Gao Y.A study on the description-based spatial positioning and the associated uncertainty[J]. Journal of Geo-information Science, 2013,15(1):38-45. ]

[18]
许栋浩,李宏伟,张铁映,等.一种顾及模糊属性的空间关联规则挖掘方法[J].测绘科学技术学报,2016,33(3):313-318.

[ Xu D H, Li H W, Zhang T Y, et al.A method of spatial association rule mining considering fuzzy attributes[J]. Journal of Geomatics Science and Technology, 2016,33(3):313-318. ]

[19]
何彬彬,郭达志,方涛.基于空间统计学的空间关联挖掘[J].计算机工程,2006,32(5):20-22.将空间统计分析应用于空间关联挖掘领域,给出空间权重矩阵、空间自相关和空间关联的度量函数,并以中国有代表性的37个大中城市的地理空间数据为例,进行空间关联研究。根据空间数据的地理位置构造其Voronoi图、Delaunay图,计算空间对象之间的距离并构造其邻域图和空间自相关矩阵,在此基础上计算空间对象间的空间自相关系数和局部空间关联系数,包括Mnran’s I、Gereay’s C、局部Moran、G统计,并依据这些系数发现空间对象间的空间关联知识。

DOI

[ He B B, Guo D Z, Fang T.Research on spatial association based on spatial statistics[J]. Computer Engineering, 2006,32(5):20-22. ]

[20]
Dutton G.Universal geospatial data exchange via global hierarchical coordinates[C]. International Conference on Discrete Global Grids, California, Santa Barbara, 2000.

[21]
王卷乐,孙九林.格网化资源环境综合科学调查的若干问题思考[J].地球信息科学学报,2011,13(3):409-417.为了快速、准确地提取我国海岸带地区土地利用及其变化信息,选择高分辨率遥感影像作为数据源,提出了最优分割尺度下的遥感多层次地物识别分类方法。首先,通过改进的局部方差法进行最优分割尺度的确定,建立影像中各对象的方差均值与变化率随分割尺度变化曲线,确定方差均值的峰值,以变化率开始呈现下降趋势时所对应的分割值为最优分割尺度参考;然后,针对地物分类特征差异选取各自适宜的分割尺度,建立多层次地物特征表达与规则,最后,实现最优尺度分割选择下的遥感多层次识别分类,即实现较大尺度下分割形成父对象,而较小尺度下分割出其若干子对象的目标,提出了快速、自动化获取土地利用/覆盖图的策略流程。本文选取了广东省珠海市海岸带地区作为实验区,利用多层次遥感分类方法进行地物识别分类。结果表明,其目视效果以及总体精度、Kappa系数,均优于传统方法和单一分割尺度下的影像分类方法。

DOI

[ Wang J L, Sun J L.Some in-depth thoughts on resources and environmental comprehensive scientific expedition using gridding approach in China[J]. Journal of Geo-information Science, 2011,13(3):409-417. ]

[22]
朱华忠,王卷乐,钟华平,等.土地类型多级地理格网分类体系框架的建设构想[J].地球信息科学学报,2015,17(7):783-788.<p>土地类型研究在综合自然地理学中具有重要的地位和意义。该研究虽在国内外已取得很多成果以及制图实践,但仍然有3个问题有待解决:(1)如何对土地类型进行系统分级、分几级;(2)如何选择土地类型各级指标要素;(3)如何利用多源数据进行计算机自动跨尺度土地类型制图。针对上述问题,本文基于国家标准地理格网提出一种土地类型指标数据库建设方案,即构建4级标准地理格网模型,以各级格网单元作为指标表达载体,选择土地类型研究普遍采用的地带、地貌、土壤和植被4要素,进行多级标准地理格网指标库建设框架设计。通过设计与分析,指出多级地理格网分类体系有其物质基础,即地球科学各学科都具有多尺度研究特征,各学科所具有的分类体系层次性可用多级格网来表达,尤其是影响土地类型分类分级系统的地貌、土壤、植被3个要素间存在相互作用,决定了三者分类体系分级数目和各级格网单元尺度应一致或相近。因此,本文基于标准格网体系,给出了一个土地类型指标数据库建设框架,以期用于土地类型研究与制图格网数据库平台的构建,为进一步开展土地类型制图实践研究提供新思路。</p>

DOI

[ Zhu H Z, Wang J L, Zhong H P, et al.The concept of building multi-level classification system framework for land use types based on grids[J]. Journal of Geoinformation Science, 2015,17(7):783-788. ]

[23]
荆耀栋,毕如田,周淑琴,等.基于格网化表达的县域基本农田集中连片特征提取[J].中国土地科学,2015,17(7):758-764.

[ Jing Y D, Bi R T, Zhou S Q, et al.Extraction of concentrated major farmland based on grids within the scale of a county[J]. China Land Sciences, 2015,17(7):758-764. ]

[24]
白燕,廖顺宝.矢量数据属性信息无损栅格化的实现方法——以全国1:25万土地覆被数据为例[J].地球信息科学学报, 2010,12(3):385-391.矢量和栅格是GIS应用中两种基本的地学数据格式。与矢量数据相比,栅格数据利于空间建模和空间分析,且是空间尺度分析应用中常用的数据格式。一般来讲,较大尺度的矢量数据,涉及到保密性和知识产权的问题,若将这类矢量数据栅格化后,所得栅格数据由于其空间坐标精度相对降低而更易于实现数据共享。随着地学信息收集技术的不断发展,栅格数据正逐渐成为地学应用主要的数据格式。然而,传统的栅格化是一个伴随有属性信息损失的过程,主要原因在于一个栅格单元区域内存在混合类型。针对现阶段栅格化过程中的这个问题,本文以2005年全国1:25万土地覆被矢量数据为例,提出了一种在ArcGIS软件环境下,依据&quot;在一个单元格网中,一种土地覆被类型表达为一个GRID图层&quot;的原则,结合POLYGRID命令及其{LOOKUP_TABLE} INFO文件进行土地覆被矢量数据无属性信息损失栅格化的方法。该方法可为相关研究人员在今后处理和分析地理空间数据的工作提供新的思路,以及为空间尺度的应用研究提供有价值的参考。

DOI

[ Bai Y, Liao S B.Implementation method of vector data rasterization without attribute information loss: A case study of 1:250 000 land cover data of China[J]. Journal of Geo-information Science, 2010,12(3):385-391. ]

[25]
左伟,张桂兰,万必文,等.中尺度生态评价研究中格网空间尺度的选择与确定[J].测绘学报,2003,32(3):267-271.在研究实验数据的基础上,对中尺度(1∶100000比例尺)区域生态环境系统安全评价的区域尺度、制图尺度、成图视觉效果、数据精度、数据量负荷之间的辨证关系进行了系统的研究,建立了中尺度区域生态安全评价的基本格网分析评价单元———即25m×25m的GRID格网单元。研究成果建立起了区域生态安全评价研究基本格网评价单元确定的方法论。

DOI

[ Zuo W, Zhang G L, Wan B W, et al.A study of determining the GIS raster size in mid-scale ecological assessment research[J]. Acta Geodaetica et Cartographica Sinica, 2003,32(3):267-271. ]

[26]
何占军,刘启亮,邓敏,等.显著空间同位模式的多尺度挖掘方法[J].测绘学报,2016,45(11):1335-1341.空间同位模式挖掘对于揭示地理现象间的共生、依赖规律具有重要价值。然而,空间同位模式挖掘中参数阈值缺乏先验知识,若设置不合理,挖掘结果中会遗漏重要的模式或包含冗余的、甚至错误的模式。为此,本文提出了一种基于模式重建的显著空间同位模式多尺度挖掘方法。首先,定义了互邻近距离指标,该指标可用来确定距离阈值的有效取值范围。进而,以模式重建为基础构建零模型,借助统计检验的方法来发现显著的空间同位模式,从而避免了兴趣度阈值的设置。最后,对空间同位模式进行多尺度挖掘,并引入生存期的概念对同位模式多尺度挖掘结果进行有效性评价。试验结果表明:本文方法可有效降低算法参数设置的主观性,从而提升空间同位模式挖掘结果的准确性和稳健性。

DOI

[ He Z J, Liu Q L, Deng M, et al.A multi-scale method for mining significant spatial co-location patterns[J]. Acta Geodaetica et Cartographica Sinica, 2016,45(11):1335-1341. ]

Outlines

/