Improved Adaptive Spatial Points Clustering Algorithm Based on Minimum Spanning Tree

  • YAN Jinbiao , 1, 2 ,
  • ZHENG Wenwu 1, 2 ,
  • DUAN Xiaoqi , 1, 2, * ,
  • DENG Yunyuan 1, 2 ,
  • GUO Yuanjun 1, 2 ,
  • HU Zui 1, 2
  • 1. National-Local Joint Engineering Laboratory on Digital Preservation and Innovative Technologies for the Culture of Traditional Villages and Towns, Hengyang 421002, China
  • 2. Cooperative Innovation Center for Digitalization of Cultural Heritage in Traditional Villages and Towns, Hengyang 421002, China
*Corresponding author: DUAN Xiaoqi, E-mail:

Received date: 2018-01-30

  Request revised date: 2018-04-15

  Online published: 2018-07-13

Supported by

National Natural Science Foundation of China, No.41471118, 41771150, 41771188; Youth Project of Hengyang Normal university, No.16A01,17A02


In this paper, we proposed an improved adaptive spatial point clustering algorithm based on minimum spanning tree (MSTAA in abbreviation) to solve the problems existed in the traditional clustering algorithms. The first problem of these classical clustering algorithms is that the noise edges are determined using the global invariant. Another one is that the initial clustering parameters such as edge weight tolerance, edge variation factor, the number of clusters and initial clustering centers are determined by the users empirically. Furthermore, these algorithms can't find the noise edges at the local level. Based on these problems mentioned above, the algorithm put forward in this article aims to overcome the influence of subjective factors by defining two clipping factors. These trimming factors do not need to be determined by the users and can be automatically obtained according to the statistical features of the side length in the minimum spanning tree. The detailed realization process is as follows. In the first place, the pruning operation on the minimum spanning tree from the global level is carried out, which can eliminate the noises in the global environment. After the first round of tailoring, the initial minimum spanning tree becomes sub-tree collections. In the second place, in order to eliminate the noises at the local level, the algorithm performs the second round of pruning operation by setting the adaptive local cutting factor in the light of the side length statistics of each sub-tree. After the above two rounds of cutting, the MSTAA algorithm will get the final clustering result. In order to validate the effectiveness of the algorithm, both a simulated data and a practical application are adopted. By comparing with 4 classical clustering algorithms (k-means, DBSCAN, SEMST, HEMST), we find that the improved algorithm presented in this paper could find clusters of arbitrary shape and density in the environment where no one provides experience parameters. At the same time, not only does the MSTAA algorithm eliminate the obvious global noise points, but also it can distinguish noise points at the local environment so as to ensure a high similarity degree of cluster point set. All of the features of the MSTAA algorithm mentioned above make it possible to automatically mine hidden information behind spatial point data.

Cite this article

YAN Jinbiao , ZHENG Wenwu , DUAN Xiaoqi , DENG Yunyuan , GUO Yuanjun , HU Zui . Improved Adaptive Spatial Points Clustering Algorithm Based on Minimum Spanning Tree[J]. Journal of Geo-information Science, 2018 , 20(7) : 887 -894 . DOI: 10.12082/dqxxkx.2018.180081

1 引言

作为空间数据挖掘、知识发现的重要研究内容,聚类分析已经应用在国计民生的各个方面,如交通事故热点分析[1]、生物种群分布[2]、医疗卫生[3]、犯罪热点分析[4]、地震监测分析[5]等。现有的空间聚类算法主要可以分为5类[6]:① 基于划分的算法,如K-means[7], AP(Affinity Propagation) [8,9];② 基于层次的算法,如CURE[10];③ 基于密度的算法,如DBSCAN[11];④ 基于图论的算法,如MST;⑤ 基于格网的算法,如STING[12]。在众多的聚类算法当中,基于最小生成树的聚类算法已经被广泛的研究。
针对上述问题,本文提出了一种改进的最小生成树自适应聚类算法(Adaptive Clustering algorithm based on Minimum Spanning Tree,MSTAA)。一方面,该算法要解决聚类需要输入初始化参数的问题,如初始聚类数目、聚类中心、“边权值倍数容差”、“边长变化因子”;另一方面,要求该算法能够发现任意形状,在包含大量噪声的空间点中识别出不同密度的簇。

2 MSTAA算法原理与基本概念

定义1:设G={V,E}表示最小生成树,V代表顶点,E代表边。当存在图subG={subV,subE},其中 subV V , subE E subG保持连通,则认为subGG的1棵子树。
mstMeanE = i = 1 N - 1 edg e i N - 1 (1)
$mstVarE=\sqrt{\frac{\sum\limits_{i=1}^{N-1}(edge_{i}-mstMeanE)^{2}}{N-2}}$ (2)
sonMstMean E q = j = 1 m - 1 edg e j m - 1 (3)
$sonMstVarE_{q}=\sqrt{\frac{\sum\limits_{j=1}^{m-1}(edge_{j}-sonMstMeanE_{q})^{2}}{m-2}}$ (4)

3 算法的设计与分析

3.1 算法流程

Fig. 1 The flow chart of MSTAA algorithm

图1 MSTAA算法流程图

3.2 算法实现

3.2.1 数据预处理
该过程的主要任务是由空间点集得到最小生成树G,主要过程如下所述:① 数据清理。由于空间点可能存在压盖的情况,影响后续Delaunay三角网的生成,因此将压盖位置的空间点保留其中任意一个;② 将清理后的空间点生成Delaunay三角网;③ 根据步骤②生成的Delaunay三角网,利用prime算法生成最小生成树G。
3.2.2 全局裁剪
根据数据预处理得到的最小生成树G,计算出平均边长及边长中误差,从而计算出全局裁剪值 mstCutVi,将其作为全局裁剪阈值,如式(5)所示。
mstCut V i = mstMeanE + α × mstMeanE Edg e i (5)
式中:α称为调和因子,值愈低对长边愈加敏锐,反之愈加迟钝,具体计算如式(6)所示,这保证了 mstCutVi不至于太大,也不至于太小,经后续实例验证,比较符合实际。
α = mstMeanE 2 × mstVarE (6)
(4)if edgei>mstCutVi,则将edgei断开,标记edgei;
(5)if edgeimstCutVi,则edgei保持不变,标记edgei,继续执行;
Fig. 2 Remove the noises in the minimum spanning tree

图2 剔除最小生成树中的噪声边

3.2.3 局部裁剪
sonMstCut V q = sonMstMean E q + β × sonMstVa r E q (7)
(3)if max>sonMstCutVq,则将最长边所在的链断开,在子树集合sonMst中标记最长边的长度为0,同时将该棵子树在断链的位置进一步剖分为2棵子树,并将剖分结果更新到子树集合sonMst当中;
(4)if max≤sonMstCutVq,即最长边短于局部裁剪阈值,则可认为该棵子树中已不存在局部噪声边,该棵子树不需要进一步的剖分,将其作为最终聚类结果的一个子簇Cq,同时在子树集合sonMst中标记sonMstq子树中所有边长值为0;

3.3 算法的时间复杂度分析

本文中MSTAA算法在没有建立索引的前提下分析其时间复杂度。设空间点的数目为n,算法的时间主要集中在文中3.2节中的过程。其中,数据预处理中Delaunay三角网的建立采用分治算法,极端情况下需要花费o(nlgn[22],最小生成树采用prime算法需要消耗o(n2[23],全局裁剪需要花费 o(n-1),局部裁剪在极端情况下(即n个点呈现均匀分布)需要花费o(n2·(n-1)/2),因此在最为极端的情况下,MSTAA算法的时间复杂度为o(nlgn+n2+n-1+ n2·(n-1)/2)≈o(n3)。

4 算法实例分析

Fig. 3 Clustering results

图3 算法聚类结果


ω = ω ̅ + σ (8)
式中: ω ̅ 为最小生成树的平均边长,σ为边长中误差。

4.2 实际应用

为了验证MSTAA算法的实用性,将其应用于地震活跃带的识别研究。本例中数据介于21°~35 °N,94°~107 °E之间,研究区域内由北往南分布着天水兰州、河西走廊、康定甘孜、安宁河谷、西藏察隅、滇西、滇东、腾冲-廊沧8个地震带。实验选取2008-2017年间震级M≥5的地震,共计111个震中点,如图4所示,数据均来源于中国地震信息网。
Fig. 4 The epicenter of the earthquake

图4 地震震中位置

地震震中通常沿着活跃断层发生[25],观测的震中位置一般沿着这些断层聚集起来。从图5可以看出:① 河西走廊地震带周边由北往南共计分布着8个簇,表明该地震带在过去十年之间非常活跃。其中7个簇为西南至东北方向,与河西走廊地震带的方向基本保持一致;② 滇西、腾冲廊沧地震带周边各分布着3个簇,表明其于过去十年之内较为活跃。其中L3、L4线形簇的方向为西北至东南,与滇西地震带的方向较为一致;③ 天水兰州、康定甘孜、西藏察隅、滇东地震带周边各分布着1个簇,意味该地震带在2008-2017年为一般活跃。其中L2簇与康定甘孜地震带的方向保持一致,均为西北至东南方向,天水兰州与西藏察隅地震带近十年发生的地震震中聚类结果不具有明显的方向性;④ 安宁河谷地震带在近10年没有发现带有聚集特征的地震震中簇发生,表明该地震带在近10年处于不活跃状态;⑤ 在康定甘孜与西藏察隅地震带之间分布着 1个线形簇与4个小簇,其中线形簇L6与S9、S10、S12的方向均为西北至东南方向,与康定甘孜、西藏察隅地震带的方向吻合得较好,具体原因有待进一步的调查研究。
Fig. 5 Spatial clustering results on seismic data by MSTAA

图5 MSTAA对地震数据的聚类结果

5 结论

本文提出了一种改进的最小生成树自适应空间点聚类算法,从整体到局部2个层次实现空间点的聚类,以期能够在无人工干预的影响下得到准确的聚类结果,通过与4种经典的聚类算法对比和实际应用后发现:① MSTAA算法具备良好的自适应特征,用户不需指定初始聚类数目、初始聚类中心、搜索邻域范围大小、“边长变化因子”,“边权值倍数容差”,降低用户使用聚类算法的知识储备要求;② 算法不仅能剔除宏观层面的噪声点,同时可以识别子树的局部噪声点,从而确保簇内点集的高度相似性;③ 在局部裁剪时,如果子树的边长近似于正态分布,那么MSTAA对于聚类敏感因子β的选取实际借用了统计学上的显著性概念,具有一定的数学 意义[26],但反之则聚类结果的准确性将受到影响;④ 算法能够进行不同密度、任意形状及任意聚类数目的聚类。

