Parallel Spatial Outliers Mining based on C-SOM and Spark

*Corresponding author: CHEN Chongcheng

Spatial outlier mining can find the spatial objects whose non-spatial attribute values are significantly different from the values of their neighborhood. Faced with the explosion of spatial data and problems such as single machine performance bottleneck and difficult expansion, the traditional centralized processing mode has gradually failed to meet the needs of applications. In this paper, we propose a parallel spatial outlier mining algorithm and its prototype system which are based on Constrained Spatial Outlier Mining (C-SOM) and make full use of the advantages of a parallel computing framework Spark's fast memory computing and scalability. The parallel algorithm uses C-SOM algorithm as the core algorithm, executes the C-SOM algorithm on a Spark cluster composed of multiple nodes for a global dataset and many local datasets concurrently to get the global outliers and the local outliers. Datasets are divided into multiple regional datasets according to the administrative division. A region dataset is considered as a local dataset and the global dataset contains all of the selected local datasets to be mined. The lightweight prototype system implements the parallel algorithm based on Spark and adopts Browser/Server architecture to provide users with a visualized operation interface which is concise and practical. Users can select the region datasets and set the parameters of C-SOM algorithm on interfaces. The prototype system will execute the parallel algorithm on a Spark cluster and finally list both the global and local outliers which have the top largest outlier factor values so that users can make further analysis. At last, we use the soil geochemical investigation data from Fujian eastern coastal zone area in China and a series of artificial datasets to carry out experiments. The results of the soil geochemical datasets experiments validate the rationality and effectiveness of the parallel algorithm and its prototype system. The results of the artificial datasets experiments show that, compared to single machine implementation, our parallel system can support analysis for much more datasets and its efficiency is much higher when the number of datasets is big enough. This study confirms the local instability characteristics of spatial outliers and demonstrates the rationality, and effectiveness of the parallel algorithm and its prototype system to detect global and local spatial outliers simultaneously.

1 引言

现有的空间离群挖掘算法大致可以分为2类,基于图的方法和定量测试方法[4]。基于图的方法在空间数据可视化的基础上,将空间离群突出显示出来,比较有代表性的算法有variogram clouds[5]、pocket plots[6]、Moran scatterplot[1,4,7]以及Shekhar等提出的针对图结构数据集的空间离群检测方法[8,9]。定量测试方法通过精确的测试来识别空间离群,又可以分为面向一维属性的方法和面向高维属性的方法[10]。面向一维属性的典型算法包括Scatterplot[11]、Z值、迭代R值、迭代Z值、迭代比率、中值、加权Z值[12]等。面向高维属性的方法沿用了许多面向一维属性方法的思想,主要算法有基于不同标度变量相异度的方法、基于马氏距离的多属性方法、基于相关系数的多属性方法、基于密度的方法等。由于传统的基于密度的离群挖掘算法已经相对成熟,局部离群检测的效率和准确性也较高,因而被广泛使用于空间离群挖掘实践中。以上这些方法没有考虑实际生活中客观存在的约束条件(如河流、桥梁等)对空间离群挖掘结果的影响,空间数据挖掘过程中若不考虑客观存在的一些约束条件,挖掘结果往往会发生错误或者不合理的情况。文献[10]提出了考虑约束条件的空间离群挖掘算法(C-SOM),构建考虑约束条件的Delaunay三角网来表达空间邻近关系,采用密度思想定义空间对象的离群因子,通过离群因子“序值图”寻找合理离群数目,取得了较好的效果。

2 Spark并行计算框架

Spark是加州大学伯克利分校的AMP实验室开发一种开源的基于内存的快速通用可扩展的数据分析引擎,既拥有Hadoop MapReduce所具有的优点,又做到了MapReduce所没能做到的。MapReduce编程繁琐,速度慢。Spark则易于编程,而且快捷灵活,它将中间结果保存在内存中,而不像MapReduce需要频繁读写HDFS。与MapReduce相比,Spark在迭代计算方面,速度比MapReduce快1~2个数量级[28]。这使得Spark可以更好地处理迭代计算较多的机器学习、图形处理等任务。各种大数据公司,如Cloudera、MapR等,都已表示要以Spark取代MapReduce。

3 C-SOM算法

考虑约束条件的空间离群挖掘(C-SOM)将约束条件嵌入到空间数据挖掘过程中,使得对象之间的相似度受到邻近关系和约束条件的双重限制,因而与传统的空间数据挖掘不同[10]。C-SOM算法的主要过程是:首先,以四方边缘结构QuadEdge为核心数据结构,根据空间属性值构建考虑约束条件的Delaunay三角网来表达空间邻近关系,通过在Delaunay三角网中计算对象的k阶邻近来确定对象的空间邻域;然后,将属性约束嵌入到空间对象之间的属性距离计算之中,采用欧氏距离对空间对象之间的相似性度量进行计算,按照基于密度的思想定义一个衡量空间对象离群率的离群因子OF(Outlier Factor),并通过对象和邻域的比较确定各个空间对象的离群因子值;最后,将离群因子最大的若干个空间对象作为候选离群,并对候选离群进行分析与确认,获得最终的空间离群挖掘结果。C-SOM算法的具体设计和实现见文献[10]
Fig. 1 Common Delaunay triangulation and constrained Delaunay graph

图1 普通Delaunay三角网和约束Delaunay图

为使约束Delaunay图的空间邻近关系定义与普通Delaunay三角网的空间邻近关系定义保持一致,对约束Delaunay图的Delaunay距离 d T ' ( A , B ) 定义如式(1)所示。
d ' T ( A , B ) = d T ( A , B ) = 1 ( A , B V S ) 1 2 ( A V S B V Facility A V Facility B V S ) 0 ( A , B V Facility ) (1)
对于给定的空间目标 A ' B ' ,若 A ' 沿着Delaunay图边移动到 B ' 所经过的最少Delaunay边的距离(按Delaunay距离 d T ' ( A , B ) 进行计算)之和为k,则称这2个目标之间的Delaunay距离为k,记为 d T ' A ' , B ' = k 。所有与给定目标P的Delaunay距离为k的目标集合,称为目标Pk阶邻近,记为NeighborkP)。以图1中的顶点C为例,其1阶邻近为Neighbor1C)={G, F, E, D, I, B}。这里讨论的目标 A ' B ' VS中的两个对象,对于VFacility中的目标,通常不进行目标的k阶邻近计算,涉及到便利顶点的Delaunay距离计算必须遵循 d T ' ( A , B ) 的定义。
属性约束用于确定参与空间离群挖掘的专题属性及相应的权重。若 A = { A 1 , A 2 , , A m } 为空间对象的mm≥1)个专题属性,各属性的权重为 ω = { ω 1 , ω 2 , , ω m } ,空间对象Pi的邻域为NN(Pi)(邻居的个数为相应地表示为 NN ( P i ) ),则对象相异度和离群因子分别定义如式(2)-式(4)。对象离群因子的值越大,表示与邻域对象的差别越大,就越可能是离群点。
定义1 空间对象PiPj的相异度diffPi,Pj):空间对象PiPj在专题属性值上的差异,值等于空间对象PiPj在专题属性值上的欧氏距离。
diff ( P i , P j ) = k = 1 m ω k [ A k ( P i ) - A k ( P j ) ] 2 (2)
定义2 空间对象Pi与邻域NN(Pi)相异度diffPi):空间对象Pi与其邻域NN(Pi)在专题属性值上的差异,值等于空间对象Pi与其所有邻居对象的相异度平均值。
diff ( P i ) = O NN ( P i ) diff ( P i , O ) NN ( P i ) (3)
定义3 空间对象Pi的离群因子OF(Pi):空间对象Pi的相异度与其邻居对象的相异度的比值平均:
OF ( P i ) = O NN ( P i ) diff ( P i ) diff ( O ) NN ( P i ) (4)

4 基于C-SOM和Spark的并行离群挖掘算法

4.1 算法设计与实现

以C-SOM算法为核心的基于Spark的并行空间离群挖掘的基本过程(图2)。①存储系统中保存着以行政区划为划分依据的各地区数据集,如地区1数据集表示福州市空间数据集,地区2数据集表示泉州市空间数据集,将待挖掘地区的空间数据集读入内存,一个地区数据集作为一个局部数据集,同时将这些地区数据集在内存中按地区合并,即一个地区的数据集后跟着另一个地区的数据集,最后生成包含所有局部数据集的全局数据集;②将全局数据集和各局部数据集都转成RDD,以便Spark进行处理,每个地区数据集作为一个分区,全局数据集单独作为一个分区;③Spark将各个分区的离群挖掘任务分配给Worker集群,图2中一个Task表示一个分区的挖掘任务,集群里的各个Worker Node(WN)并发地调用C-SOM算法执行分配到的Task;④各个WN再把每个Task的计算结果(离群点)返回给Spark的集群管理节点(Master)。
Fig. 2 The general process of parallel spatial outlier mining based on Spark

图2 基于Spark的并行空间离群挖掘的基本过程


4.2 算法的性能与效率分析

不妨假设,待挖掘的每个局部数据集含有m条空间数据,局部数据集的个数为n,Tmn)为全局数据集的计算时间,Tm)表示一个局部数据集的计算时间,则集中式挖掘的总时间T1=Tmn)+n×Tm)。对于基于Spark的并行挖掘系统,首先要初始化Spark服务,然后将各个分区的数据和计算任务分配给对应的WN,各个WN结束某个计算任务后将计算结果传输给Spark的Master。假设Spark的初始化与调度时间为GS,数据的网络传输时间为Comm,离群点的计算时间为Comp,GS由Spark自身框架决定。Comm包括全局数据集、局部数据集和各数据集计算结果的网络传输,主要由数据规模 m×n决定。假设WN的个数为d,即d台机器可同时执行挖掘任务,则Comp大致为Tmn)+(n/d)×Tm)。并行算法离群挖掘的总时间如下:
要使TSpark<T1,即GS+Comm+Tmn)+(n/d)×Tm)< Tmn)+n×Tm),则要求GS+Comm<(1-1/d)×n× Tm),从理论上来说,若Spark的初始化与调度时间以及网络通信时间之和小于并行挖掘带来的效率提高,则并行算法将花费更少的执行时间。此外,分布式的架构也突破了内存的限制,通过扩展WN,可以支持对更多的数据进行挖掘。

5 基于C-SOM和Spark的并行离群挖掘原型系统

为了帮助数据分析人员快速分析数据,构建Spark上的并行离群挖掘,本文设计了一个轻量级的原型系统。系统的架构图如图3所示,该系统基于Browser/Server(B/S)架构,B/S架构使客户端无需安装应用程序,打开浏览器,即可使用并行数据挖掘服务。系统的服务端分为表现层、业务逻辑层、数据层和Spark层。表现层为JSP页面,接收用户请求,并提交给业务逻辑层的Servlet。Servlet先从数据层读取待挖掘的空间数据集,然后将挖掘任务提交给Spark,由Spark负责对各数据集进行并行离群挖掘。Spark包括Master节点和多个Worker Node节点。Master作为Spark的集群管理节点,接收Servlet提交的挖掘任务并进行任务分解,得到多个子任务后分发给Worker Node执行,然后收集Worker Node的计算结果,再将结果返回给Servlet,Servlet再把结果通过表现层展现给用户。
Fig. 3 The architecture diagram of parallel spatial outlier mining prototype system based on Spark

图3 基于Spark的并行空间离群挖掘原型系统架构

系统的典型界面如图4所示。图4(a)中,用户在Web界面上选择要挖掘的数据集并设置考虑 约束条件的空间离群挖掘算法参数,点击“提交”按钮即可开始执行并行空间离群挖掘。图4(b)显示了全局数据集和局部数据集的部分离群挖掘结果,其中“全局”下面的是整个地区数据集的离群挖掘结果,“fuzhou”下面的是福州地区数据集的离群挖掘结果,每个数据集返回了离群因子值最大的12个离群点,并按离群因子值的倒序排列,每一行代表一个离群点,包含了离群点的对象ID、横坐标、纵坐标和离群因子值。用户通过分析这些候选离群点及其对应属性值,结合实际情况,得到最终的离群点。
Fig. 4 Interfaces of data selecting, parameters setting and results in the prototype system

图4 原型系统中数据选择、算法参数设置和结果界面

6 土壤数据离群挖掘实例分析


6.1 实验区概况

本实例的土壤数据主要来自中国地质调查局开展的福建省沿海经济带生态地球化学调查项目,严格按照2 km×2 km的间距采样。实验区选取福建的福州市和泉州市这两个经济发达、人口稠密、高度城市化的地区,福州地区主要包含福州的五区八县,泉州地区涵盖惠安和石狮。土壤数据集共有61个属性,包括采样点的横坐标、纵坐标及样本标志(样品ID、分析编号、地市、县区、样品原号),以及54项土壤化学元素和指标。本实例将横坐标和纵坐标作为土壤数据的空间属性来确定采样点的空间邻近关系,专题属性选取13项有害元素(砷,银,铍,镉,铬,铜,汞,镍,铅,锑,硒,铊,锌)作为非空间属性进行异常分析,以探索人类活动对土壤二次污染的影响。

6.2 实验流程和结果分析

6.2.1 土壤数据并行离群挖掘
以市级行政区划为划分依据,将实验区数据集划分为福州和泉州2个局部数据集,并由基于 C-SOM和Spark的轻量级原型系统进行并行空间离群挖掘。在原型系统的Web界面中选择待挖掘的数据集“福州表层土壤化学元素13有害元素”和“泉州表层土壤化学元素13有害元素”,选择空间约束“福州泉州河流母岩约束”,采用1阶邻近为地理对象的空间邻域,并返回各地区离群因子最大的12个土壤采样异常点,如图4(a)所示。点击“提交”按钮后,即可显示整个实验区和2个地区(福州、泉州)离群因子最大的12个土壤采样异常点,如图4(b)所示,整理后的候选土壤数据离群如表1所示。
Tab.1 Results of the parallel outlier mining for the experimental area

表1 实验区并行离群挖掘结果

序号 整个实验区 福州地区 泉州地区
对象ID(横坐标,纵坐标) 离群因子 对象ID(横坐标,纵坐标) 离群因子 对象ID(横坐标,纵坐标) 离群因子
1 2270(645 000, 2 849 000) 11.351 2270(645 000, 2 849 000) 11.659 200(673 000, 2 745 000) 3.610
2 592(767 000, 2 809 000) 10.410 592(767 000, 2 809 000) 10.509 158(687 000, 2 777 000) 3.503
3 2436(703 000, 2 773 000) 7.604 590(761 000, 2 811 000) 6.355 42(703 000, 2 773 000) 3.045
4 590(761 000, 2 811 000) 6.619 2271(649 000, 2 851 000) 4.476 170(669 000, 2 773 000) 2.855
5 2271(649 000, 2 851 000) 4.494 1208(777 000, 2 933 000) 3.898 161(677 000, 2 779 000) 2.825
6 2564(669 000, 2 773 000) 4.391 2190(689 000, 2 855 000) 3.668 181(689 000, 2 757 000) 2.532
7 2552(687 000, 2 777 000) 4.333 582(761 000, 2 817 000) 3.222 176(703 000, 2 763 000) 2.474
8 1208(777 000, 2 933 000) 3.874 579(757 000, 2 819 000) 3.115 17(673 000, 2 753 000) 2.218
9 2190(689 000, 2 855 000) 3.649 585(755 000, 2 813 000) 3.089 2(681 000, 2 771 000) 2.168
10 2594(673 000, 2 745 000) 3.509 1869(789 000, 2 831 000) 3.029 162(673 000, 2 767 000) 1.988
11 582(761 000, 2 817 000) 3.204 1835(671 000, 2 855 000) 2.987 129(679 000, 2 741 000) 1.928
12 266(737 000, 2 851 000) 3.083 1467(717 000, 2 907 000) 2.818 174(673 000, 2 779 000) 1.877
6.2.2 并行算法性能与效率的验证分析
本实验对单机上执行集中式离群挖掘和多机上执行并行离群挖掘的性能和效率进行对比分析。实验环境是在1台惠普台式机(Intel Core i7-6700四核3.40 GHz CPU,16 GB内存)上搭建4台配置相同的虚拟机,每个虚拟机都是单核单线程, 2 GB内存。单机实验在其中1台虚拟机上进行。并行实验在4台虚拟机组成的Spark集群中进行,其中1台作为Master,其余3台作为Worker Node。随机生成n个局部数据集,第i个局部数据集位于起点为(i×10 000,i×10 000),长、宽都为10 000的方形区域内。每个局部数据集包含3000条空间数据,每条空间数据包含横坐标、纵坐标以及13个非空间属性。单机集中式离群挖掘和基于Spark集群的并行离群挖掘的时间效率如图5所示。
Fig. 5 Comparison of outlier mining efficiency between single machine implementation and parallel system

图5 单机实现和并行系统的离群挖掘效率对比


7 结论

本文设计了基于考虑约束条件的空间离群挖掘算法C-SOM和并行计算框架Spark的并行空间离群挖掘算法及其原型系统,充分利用了Spark的快速内存计算和扩展性的优势。并行算法以 C-SOM为核心,在多个计算节点并发地对分配到的数据集执行C-SOM算法以挖掘其离群点,再将各计算节点得到的离群点汇聚起来一并提供给用户进行分析。轻量级的原型系统基于Spark实现了该并行算法,并采用B/S架构,提供简单实用的可视化界面以方便用户进行数据分析。

