Application of Density-Based Clustering Algorithm in Crime Cases Analysis Considering Multiple Time Scale

WU Wenhao; WU Sheng

doi:10.3724/SP.J.1047.2015.00837

Journal of Geo-information Science >

2015 , Vol. 17 >Issue 7: 837 - 845

DOI: https://doi.org/10.3724/SP.J.1047.2015.00837

Orginal Article

Application of Density-Based Clustering Algorithm in Crime Cases Analysis Considering Multiple Time Scale

WU Wenhao ,
WU Sheng ^,^*

Expand

Spatial Information Research Center of Fujian Province, Fuzhou University, Key Laboratory of Spatial Data Mining & Information Sharing, Ministry of Education, Fuzhou 350002, China

*Corresponding author: WU Sheng, E-mail: ws0110@163.com

Received date: 2014-12-09

Request revised date: 2015-03-16

Online published: 2015-07-08

Copyright

《地球信息科学学报》编辑部所有

Fold

Abstract

Space-time clustering, which is one of the main research focuses in the field of data mining, has important application values in the field of environment protection, disease prevention and control, and crime prevention and combat. The time "distance" is considered to be a substantial interval within the existing space-time clustering methods. However, crime cases with social attributes have obvious cyclical characteristics in different time-scales. It would be difficult to find the real rules of time and space for crime cases if these characteristics are ignored. Therefore, based on DBSCAN, an algorithm considering multiple time-scales and equivalent spatio-temporal neighborhood (MTS-ESTN DBSCAN) was put forward. In this algorithm, the various time attributes in multiple time-scales were considered, the equivalent spatio-temporal neighborhood was built, and the concept of the classical density clustering algorithm was cited. In the equivalent spatio-temporal neighborhood, the Euclidean distance (L2-norm) is adopted as the measurement of spatial neighborhood for the space domain. With the improved function of HDsim, which is a method used to measure the unified similarity of high dimensional data, we defined the similarity of time domain. Based on the crime cases data in the urban area of Fuzhou city during 2013, cluster analysis was conducted, and the resultant clustering quality was evaluated using several indicators such as CH (Calinski-Harabasz), Sil (Silhouette), DB (Davies-Bouldin) and KL (Krzanowski-Lai). The results showed the feasibility of the method in space-time cluster analysis of crime cases. Compared with the traditional algorithm of ST-DBSCAN, this algorithm has produced better quality of clustering. In addition, this algorithm can find the accumulation characteristics behind the rules of human´s work, rest and other social activities in a long period. It has certain significances and application values for the advanced study of criminal geography in urban area.

Key words： space-time clustering; multiple time scale; density-based clustering; crime cases

Cite this article

WU Wenhao , WU Sheng . Application of Density-Based Clustering Algorithm in Crime Cases Analysis Considering Multiple Time Scale[J]. Journal of Geo-information Science, 2015 , 17(7) : 837 -845 . DOI: 10.3724/SP.J.1047.2015.00837

1 引言

时空数据是对现实世界中时空特征和过程的抽象概括^[1],而在时空数据分析与挖掘的研究中,时空聚类一直是活跃在地理信息科学和计算机科学领域的研究热点^[2]。时空聚类是以对象或事件的空间属性和非空间属性,在时空域中寻找具有相似特征或行为的时空对象或事件集合（即时空簇）,使得集合内“高内聚”,集合间“低耦合”。案事件指符合公安部门的立案条件,能够立案的刑事案件、治安案件等。近年来,随着公安案事件这一典型时空数据的不断积累,以及日趋复杂的犯罪形势,利用案事件点的长时间序列数据分析、挖掘犯罪,在空间和时间上的分布规律和变化趋势,为制定犯罪控制策略、识别犯罪模式、优化警力部署和警区规划等提供科学依据,对增强公安部门打击预防犯罪的能力,提高警务决策水平,具有重要的意义。

通过研究案事件的时空聚类可反映案事件在一定时空域的聚集中心、聚集程度和时空分布趋势等特征^[3]。目前,时空聚类方法主要有时空扫描统计^[4]、时空混合距离^[5],以及时空密度聚类^[6]等。时空扫描统计（Space-time Scan Statistics）定义为以圆形空间为底面、对应时间为高度的圆柱体时空窗口,以变长的半径和时间间隔扫描研究区,并通过蒙特卡罗法进行统计学检验,获得其时空聚集性或时空异常特征^[4,7-8]。时空耦合距离（Space-time Distance）是综合考虑点事件时空属性和非空间属性,定义事件间的“距离”,进而发现事件发生的丛聚形态^[9-10]。时空密度聚类（ST-DBSCAN）是在带有噪声的空间聚类（Density-Based Spatial Clustering of Applications with Noise,DBSCAN）算法的基础上,纳入时间维和非空间属性,通过指定空间半径、时间窗口与密度阈值,计算、识别出核心对象和噪声对象,从而构建任意形状的时空邻近簇^[6]。

ST-DBSCAN可发现任意形状的时空簇,且不需对数据分布做出预先的假设^[11]。在与案事件时空特征和过程类似的流行病学领域,Guo利用ST-DBSCAN算法量化了2005-2011年狂犬病在中国的时空集群密度分布及传播趋势^[12]。该算法的拓展主要有以下几种思路：（1）定义相邻时间点为时间邻近^[6]或引入时间半径^[13]来对DBSCAN方法进行扩展;（2）定义了用于描述时空事件的时空耦合距离,并融合相关参数进行时空聚类分析^[14];（3） Pei还提出了一种K阶邻近距离时间窗,将时空点过程分解为聚集部分和噪声部分,再将聚集部分连接成时空簇实现时空聚类的方法^[15]。但是,上述3种思路均未考虑案事件这一具有社会属性的时空数据,在不同时间尺度下可能反映出的特殊时空规律。因此,本文提出一种多时间尺度等效时空邻近域的密度聚类算法（DBSCAN Considering Multiple Time Scales and Equivalent Spatio-temporal Neighborhood, MTS-ESTN DBSCAN）,通过构建反映事件时间相似性的等效指标,并使用福州市区2013年的案事件数据进行实证,发现能较好地反映案事件在周末、节假日,以及一天不同时段上的时空规律。

2 案事件时空聚类分析

按照邓敏等提出的时空聚类分析的普适性步骤^[16],本文首先对案事件数据进行探索性分析,掌握其时空分布特征,以及隐含的趋势及周期效应;然后,根据案事件的特点定义专门的时空测度,并设计与之对应的时空聚类算法;最后对聚类结果进行分析与评价。

2.1 数据描述

本文选取福州市区（鼓楼区、台江区、仓山区、晋安区、马尾区）2013年抢夺、抢劫、入室盗窃、盗窃机动车,以及其他侵权犯罪的记录,总量为15 058条。该数据是典型的时空数据,记录了案事件的发案时间、发案场所、经纬度坐标、案件类别、简要警情等信息。案事件点的空间分布如图1所示。

View original graphic|Download|PPT slide

Fig. 1 Spacial distribution of crime cases in Fuzhou

图1 福州市区案事件点的空间分布

2.2 案事件数据探索性分析

通过时空相关性分析判断数据的聚集趋势,本文采用全局空间自相关（Global Spatial Autocorrelation）指标Moran's I,观测值为以案事件点i为重心,包含如图2所示的圆柱体时空扫描窗口中除自身以外的案事件点的个数。空间扫描半径r和时间间隔ΔT的选取参考2.4关于DBSCAN算法有关输入参数的描述。

View original graphic|Download|PPT slide

Fig. 2 Spatio-temporal scanning window

图2 时空扫描窗口

计算结果如图3所示,散点图的X轴为观测值,Y轴为其空间滞后值,全局Moran's I为0.778825,表现为较明显的正相关;在显著性水平0.001下进行假设检验,Z值高达165.2948,反映出极强的聚集性时空分布。

View original graphic|Download|PPT slide

Fig. 3 Moran scatter plot

图3 Moran散点图

进而分析案事件点数据分布的时空平稳性,判断案事件数据时空分布上是否具有明显的趋势和异质性特征。本文采用趋势分析,将属性值设定为发案时间的long型数据,使用平均值处理重合样本,投影趋势采用二阶多项式拟合。如图4（a）所示,X轴表示东西方向,Y轴表示南北方向,Z轴为发案时间。从结果可看出,2个方向上的趋势函数都接近于水平线,因此,可认为案事件数据在较大尺度上是时空平稳的。在图4（b）的趋势面分析也能得到类似的结果,除了地理边界上受稀疏点极值影响外,案事件整体时空分布较为平稳。

View original graphic|Download|PPT slide

Fig. 4 Spatio-temporal trend graphs of sample data

图4 样本数据时空趋势图

2.3 时空邻近域构建

由于案事件本身有着特殊的社会属性,若采用传统的时空扫描统计方法,聚类结果趋近于单一球形结构。本文吸收了经典密度聚类算法DBSCAN中密度可达、密度连接等思想,充分考虑了案事件发生可能存在着一个星期从周一到周日或一天按时段的周期性特征。

时空聚类要求“时间相似、空间邻接”,本文在构建时空邻近域时,空间邻接的度量采用平面空间下点事件的欧式距离（L₂范数）;而时间相似性度量方面,考虑较大时间尺度下的时间间隔和较小时间尺度（星期、时段）下的周期效应,将点事件的时间分别“投影”到时间轴T、星期轴W和时段轴H,获得不同尺度下的时间属性,并作为点事件的时间高维属性,参照高维属性相似度的重构函数,对时间相似性进行定义。由此构建的时空邻近域在时间相似性的度量上是非线性的,是一种适合于案事件数据的多时间尺度等效时空邻近域。

Tab. 1 The codes of all time periods

表1 时段编码对照表

时间段	时辰编码	时间段	时辰编码
[23:00, 01:00)	0	[11:00, 13:00)	6
[01:00, 03:00)	1	[13:00, 15:00)	7
[03:00, 05:00)	2	[15:00, 17:00)	8
[05:00, 07:00)	3	[17:00, 19:00)	9
[07:00, 09:00)	4	[19:00, 21:00)	10
[09:00, 11:00)	5	[21:00, 23:00)	11

单一时间尺度下的时间间隔,仅能反映案事件发案时间的绝对“距离”,而案事件的主体是人,忽略了人类的作息和社会活动的时间规律,将不能深入发现案事件时空聚集规律,以及在此基础上的犯罪模式。这些规律主要在星期和时段2个时间尺度下显现,对其按星期和时段进行数量统计,并绘制雷达图（图5（a））和等值区域图（图5（b））。从图5可看出,时段特征较为明显,例如,9-11时、14-16时为案件高发时段,同时星期二至星期四的发案数量也有明显的上升,这些不同时间尺度下的周期一致性特征,在一定程度上反映出案事件在时间上的相似性。

View original graphic|Download|PPT slide

Fig. 5 Statistical graphs of crime cases based on different weekdays and time periods

图5 案事件分星期、时段统计图

在具体定义不同时间尺度下的综合时间相似性之前,对数据进行如下处理：考虑到人类活动规律对犯罪的影响,特别是周末效应（Weekend Effect）^[17],故在自然星期界定的基础上,对法定节假日重定义如下：法定假期开始的前一天定为周五,假期的第二天定为周六,以后几天假期都定义为周日,假期结束的第1个工作日定义为周一（调休统一定义为周五）。时段的处理上,参照我国古代将一昼夜划分成12个时辰,每1个时段为1个时辰。从23时至次日1时（不包括）定义为时辰0,依此类推,共分为12个时辰。

由于时间属性的维度扩展,数据变得稀疏,若采用传统的距离度量方法（如L_k范数）描述对象之间的相似性,得到的结果由于最近邻和最远邻之间的距离基本相等,因此,对象之间的相似性对比不复存在^[18]。王家耀等拓展了高维数据相似性度量重构函数Hsim^[19],提出了多元数据统一相似性度量函数HDsim,很好地解决了上述问题^[20]。本文在时间相似性度量函数的构建上主要参考HDsim函数,具体为：

HDsim X, Y = ∑ i = 1 d φ t x i, t y i d ∙ 1 1 + x i - y i

（1）

式中,x_i、y_i为对象X和Y在第i维上属性值的标准化值;d为数据的维度数。

φ t x i, t y i

表示对象X和Y在第i维上的属性映射值是否相同：若

t x i ≠ t y i

,则

φ t x i, t y i

=0;若

t x i = t y i

,则

φ t x i, t y i

=1。

点事件X的时间属性分别“投影”到时间轴T、星期轴W和时辰轴H,得到3个维度下的属性值

x ′ 1

、

x ′ 2

、

x ′ 3

。其中,

x ′ 1

为X事件发案时间的long型数据（Oracle中的毫秒值）,

x ′ 2

为X事件发案日期对应的星期值（如星期一对应1）,

x ′ 3

为X事件发案时间对应的时辰编码。例如,案事件X发案时间为“2013/11/24 19:36:00”,则

x ′ 1

=1385292960000、

x ′ 2

=5、

x 3'

=10。依据式（2）将变量

x ′ i

进行标准化,转换到共同标度的区间[0.0,1.0],以消除量纲的影响,得到x₁、x₂、x₃。

x ′ i = x i - x min x max - x min

（2）

由于维度数较少,为避免绝对相等的属性映射值判断函数

φ t x i, t y i

给聚类结果带来的较高的噪声水平,本文参考时间点聚类中事件误差函数的定义方法加以改进。误差函数

δ x i, y i

定义如下：

δ x i, y i = 1, x' i - y' i ≤ α i 0, x' i - y' i > α i

（3）

式中,

α i

为误差阈值,遵从数据驱动,从数据本身的特征出发,从分星期统计上看出案件热点持续时间一般小于2 d,因此,这里

α 2

取2,即认为星期属性间隔大于2 d（如周一和周四）的2个事件,在星期日w上的相似性可忽略;从分时段统计上看出,案件热点持续时间一般小于2（即4 h）,这里

α 3

取2,即认为时段属性间隔大于2（即4 h）的2个事件,在时段h上的相似性是可以忽略的。Long型时间数据的误差阈值则不作限定,即

α 1

取+∞,认为任意2个点事件的发案时间都具有相似性,间隔越大,相似性分量值越小。

通过改进后的HDsim函数,可越计算得到案事件对象X、Y之间时间相似度s_xy。任意2个案事件的时间相似度s_ij作为相似度矩阵S中的元素,根据公式

H d ij 2 = 1 - s ij 2

将相似度矩阵转化为距离矩阵HD。以此作为时空邻近域中时间相似度（距离）的测度。

2.4 时空聚类方法

在时空邻近域构建完成的基础上,作为DBSACN在时空域的拓展,多时间尺度等效时空邻近域密度聚类算法（MTS-ESTN DBSCAN）,将密度、邻域、噪声等在时空域进行新的定义。

定义1（时空密度）时空域中任意一点的时空密度是以该点为圆心,以邻域半径Eps为半径、等效时间距离

ΔT

为高的圆柱体内所包含的点的数量。

定义2（时空邻域）时空域中任意一点的时空邻域是以该点为圆心,以邻域半径Eps为半径、等效时间距离

ΔT

为高的圆柱体内所包含的点的集合。如果用

N Eps, ΔT < p, t i >)

表示点

< p, t i >

的时空邻域,则

ΔT}

。

定义3（时空直接密度可达）若满足条件点

< p, t i >

在点

< q, t j >

的时空邻域内,且

< q, t j >

是时空核心点,则称点

< p, t i >

到点

< q, t j >

时空直接密度可达,记作

< p, t i > → < q, t j >

。

定义4（时空密度可达）若有一组有序集

Y < p 1, t 1 >, < p 2, t 2 >, …, < p n, t n >}

（其中,

< p 1, t 1 > = < p, t i > ， < p n, t n > = < q, t j >

）,对于任意的k都满足条件点

< p k, t k >

到点

< p k + 1, t k + 1 >

时空直接密度可达,则称点

< p, t i >

到点

< q, t j >

时空密度可达,记作

< p, t i > · · · → < q, t j >

。

定义5（时空密度连接）若存在点

< o, t > ∈ D

使得点

< p, t i >

和点

< q, t j >

都从点

< o, t >

时空密度可达,则称,点

< p, t i >

和点

< q, t j >

时空密度连接,记作

< p, t i > ← · · · → < q, t j >

。

定义6（时空簇）若集合C是数据库D的一个非空子集,且满足：（1）与点

< p, t i > ∈ C

时空密度到达的任一点

< q, t j > ∈ C

;（2）点

< p, t i > ∈ C

,点

< q, t j > ∈ C

,点

< p, t i >

和点

< q, t j >

是时空密度连接的。那么称集合C是一个时空簇（或时空类）。

定义7（时空核心点）时空核心点指在时空域中指定邻域半径Eps和等效时间距离ΔT的时空邻域中含有大于最小邻域对象数MinPts的点。

定义8（时空边界点）时空边界点指在时空域中自身不是时空核心点,但是与某一个或者几个时空核心点密度连接的点。

定义9（时空噪声点）时空噪声点指不属于任何时空簇（或时空类）的点。

需要说明的是,时空密度可达是非对称（有方向性）的,其初始点是时空核心点,而最后到达的点为时空边界点,类似于“单向链条”,是时空直接密度可达的传递闭包;时空密度连接是对称性的,即由1个时空核心点出发的2条“单向链条”上的最后到达点之间是相互连接的。算法通过所有时空密度可到达点,找到最大的时空密度连接对象集合构成聚类簇。

View original graphic|Download|PPT slide

Fig. 6 Spatio-temporal density-connected data points (plane projection)

图6 时空密度连接（平面空间投影）

在上述定义的基础上,多时间尺度等效时空邻近域密度聚类算法（MTS-ESTN DBSCAN）的具体步骤如下：

（1）设置最小邻域对象数MinPts,根据案事件时空数据集D画出k-dist图,确定邻域半径Eps和等效时间高度ΔT;

（2）将数据集D中的所有对象指定为未标记状态;

（3）读取一个未标记的对象

< p, t i >

,建立该对象与其他所有对象的空间距离（欧式距离）矩阵S、等效时间距离矩阵HD。查找满足

S ij < Eps & H d ij < ΔT

的所有对象;

（4）如果查找出的对象数不小于MinPts,则标记该对象为时空核心点,建立新的时空簇C,簇号为ClusterID;反之则标记为时空边界点（或时空噪声点）,并且转步骤（3）;

（5）将p时空邻域内所有对象加入C（将其的簇号赋值为ClusterID）。从C中未被标记的对象开始逐一继续搜索,将所有时空密度可达的对象簇号赋值为ClusterID。ClusterID自增1,转步骤（3）;直到D中所有点都被标记为止。

对于DBSCAN算法的输入参数,Birant给出了经验设置方法,MinPts一般设置为

ln (N)

,N为时空对象总数;通过k-dist图法确定空间邻域半径Eps和时间窗口ΔT^[15]。本文中MinPts、Eps和ΔT分别设置为10、0.01和0.1。k-dist图表示数据对象与其第k个邻近对象间的距离（k-dist）排序分布图,如图7所示,横坐标为以空间归一化距离递增次序排列后的数据对象,纵坐标为每个数据对象对应的k-dist。k值的选择取决于样本数据集,如果太小则稀疏的离群点可能会被错误地标记为时空簇;而如果太大则包含较少对象的簇可能被误认为噪声^[21]。这里的k即为MinPts,Eps和ΔT应分别选取2个k-dist图中的“突变点”所对应的纵坐标。由于时空分布较为平稳,簇密度差异不极端,因此,大部分案事件对象都应在对应的簇中,少数k-距离相对较大的点为噪声点。

View original graphic|Download|PPT slide

Fig. 7 Spatial k-dist plot

图7 空间k-dist图

2.5 时空聚类结果分析

利用多时间尺度等效时空邻近域密度聚类算法,本文对福州市5区2013年记录的15 058个案事件点进行了聚类。时空聚类的结果共发现了122个时空簇

C 1 - C 122

,这些时空簇大部分分布在3大聚集区域：（1）鼓楼区、台江区的大部分,以及晋安区与之相邻的部分;（2）仓山区二环以内的部分;（3）马尾区沿闽江分布的条带状聚集区域。由于点事件的时空聚类不同于空间聚类,聚类簇在空间上存在着重叠现象。每一个时空簇代表了一类犯罪的时空模式,为便于说明,图8（a）选取若干空间重叠较小的簇。以时空簇

C 31

为例,空间分布位于上三路与首山路的交界处,学生街城市广场周围;时间跨度从2013年10月13日至11月24日,星期属性为周六和周日（即周末）,时辰属性大部分为10和11（即19时至23时）。通过对周边环境及主要人群社会活动规律的分析获得一定的先验知识：该地区周围分布有福建师范大学、福建农业职业技术学院等5所高等院校及职业院校,主要活动群体为学生,各类店铺及娱乐场所较多,人员构成复杂且流动较大,特别是在周末晚上处于拥挤状态,易发生纠纷及刑事案件,这与聚类簇所反映出来的时空特征较为吻合。对比ST-DBSCAN算法的聚类结果,如图8（b）所示,对应区域内的案事件与周围时间邻近的案事件构成较大的时空簇

C 44

,仅反映了某段连续时间内的犯罪热点分布,忽略了不同时间尺度人类社会活动的时间特征。实际上,其他部分时空簇同样也忽略了类似明显的犯罪时间特征。

View original graphic|Download|PPT slide

Fig. 8 Space-time clustering result (part of the clusters are shown in figures)

图8 时空聚类结果（部分时空簇）

针对空间重叠的多个时空簇,可以发现其时空偏移情况。本文从时空聚类结果中选择同一空间7个时间重叠性较小的时空簇,图9（a）-（d）分别表示时空簇在时空立方体中的形态、平面空间投影形态、聚类中心,在X轴（东西方向）和Y轴（南北方向）的偏移情况。从图9（a）、（b）可发现,时空簇的空间重叠性较明显,且其规模和聚集范围从2013年1月至12月呈减小的趋势;从图9（c）、（d）可发现,时空簇中心（犯罪中心）,随时间变化在不同方向上有一定的空间偏移特征,即在X方向（东西方向）上,2013年上半年案事件聚集趋势向东小幅度偏移,而到下半年则向相反方向偏移;在Y方向（南北方向）上,2013年上半年案事件聚集趋势向南偏移较为明显,而下半年没有明显的变化特征。

View original graphic|Download|PPT slide

Fig. 9 Spatio-temporal offset features of multiple clusters

图9 多个簇的时空偏移特征

聚类有效性评价方法主要分为：外部（External）评价法、内部（Internal）评价法和相对（Relative）评价法^[22]。由于案事件时空数据没有明确的“硬分类”（即将某个对象严格划分到某个类）标准,因此,本文选取常用的考虑数据集几何结构的有效性指标CH（Calinski-Harabasz）、Sil（Silhouette）、DB（Davies-Bouldin）和KL（Krzanowski-Lai）,分别对本文的算法聚类结果与传统的ST-DBSCAN算法的聚类结果进行了对比度量,这些指标主要通过定义类内紧密度（Compactness）和类间分离度（Separability）来衡量聚类结果的质量,其中,CH、Sil和KL指标越大表示聚类结果越优,DB指标越小表示聚类结果越优,计算结果如表2所示。从表2可看出,本文提出的多时间尺度的密度算法,其聚类质量优于传统的ST-DBSCAN算法的聚类质量。该算法时间复杂度主要来自时空邻近域的搜索,以及时空簇生成,并未提高ST-DBSCAN的时间复杂度,均为O（n²）,而对于案事件这样社会性的时空点事件来说,该算法更加准确、深入地反映其时空分布。

Tab. 2 Assessment of the clustering results

表2 聚类结果有效性评价

评价指标	CH	Sil	DB	KL
MTS-ESTN DBSCAN	1.0759	-0.0008	0.0087	3.2584
ST-DBSCAN	0.2957	-0.0008	0.0107	1.1279

从上述分析可看出,本文提出的多时间尺度等效时空邻近域密度聚类算法（MTS-ESTN DBSCAN）,更加适合带有社会性质的点事件的聚类分析。在分析犯罪聚集状态与时空模式方面,其能发现内在的时空特征的优势,这对进一步深入研究城市犯罪地理,具有一定的理论意义和实际价值。

3 结论

本文从总结点事件时空聚类的方法入手,结合案事件的具体特征,将案事件这一典型带有社会属性特征的点事件,在不同时间尺度下反映出的长期趋势与周期效应考虑进时空聚类算法中,在经典密度聚类算法的基础上,提出了多时间尺度等效时空邻近域密度聚类算法（MTS-ESTN DBSCAN）,并将该方法应用于福州市区2013年案事件数据的聚类分析,从单一时空簇和多时空簇2个角度揭示了案事件的时空分布与变化特征。与已有的聚类算法相比,本方法能更好地顾及案事件内在的时空耦合特征,发现案事件隐含的时空模式,更加全面、细致地反映案事件时空分布、变化规律,且对具有社会属性的点事件聚类具有一定的普适性。但今后还有待改进的地方有：（1）较传统的时空聚类算法,该算法的时间复杂度并未改进,完成聚类工作消耗的时间略长;（2）点事件的输入顺序对聚类结果存在一定程度上的影响;（3）在相关参数的设定上还存在一定的主观性,校对评价其合理性和聚类结果的质量,还需进一步研究实证。

The authors have declared that no competing interests exist.

References

Publishing order | Descend order by publishing year | Descend order by cited within

[1]	王家耀,魏海平,成毅,等.时空GIS的研究与进展[J].海洋测绘,2004,24(5):1-4.

[2]	Miller H J, Han J.Geographic data mining and knowledge discovery, 2nd edition[M]. New York: CRC Press, 2009.

[3]	Grubesic T H, Mack E A.Spatio-temporal interaction of urban crime[J]. Journal of Quantitative Criminology, 2008,24(3):285-306.

[4]	Kulldorff M, Athas W F, Feuer E J, et al.Evaluating cluster alarms: A space-time scan statistic and brain cancer in Los Alamos, New Mexico[J]. American Journal of Public Health, 1998,88(9):1377-1380.

[5]	Jacquez G M.A k-nearest neighbour test for space-time interaction[J]. Statistics in medicine, 1996,15(18):1935-1949.

[6]	Birant D, Kut A.ST-DBSCAN: An algorithm for clustering spatial-temporal data[J]. Data and Knowledge Engineering, 2007,60(1):208-221.

[7]	Shino S.Street-level spatial scan statistic and STAC for analysing street crime concentrations[J]. Transactions in GIS, 2011,15(3):365-383.

[8]	Uittenbogaard A, Ceccato V.Space-time clusters of crime in Stockholm, Sweden[J]. Review of European Studies, 2012,4(5):148-156.

[9]	Wardlaw R L, Frohlich C, Davis S D.Evaluation of precursory seismic quiescence in sixteen subduction zones using single-link cluster analysis[J]. Pure and Applied Geophysics, 1990,134(1):57-78.

[10]	Lin G, Elmes G, Walnoha M, et al.Developing a spatial-temporal method for the geographic investigation of shoeprint evidence[J]. Journal of Forensic Sciences, 2009,54(1):152-158.

[11]	唐建波,邓敏,刘启亮.时空事件聚类分析方法研究[J].地理信息世界,2013,11(1):38-45.

[12]	Guo D, Zhou H, Zou Y, et al.Geographical analysis of the distribution and spread of human rabies in china from 2005 to 2011[J]. PLoS One, 2013,8(8):1-10.

[13]	Wang M, Wang A, Li A.Mining spatial-temporal clusters from geo-databases[C]. Advanced Data Mining and Applications, Second International Conference, 2006:263-270.

[14]	Shearer P M. Space-time clustering of seismicity in California and the distance dependence of earthquake triggering[J]. Journal of Geophysical Research, 2012(117):B10306.1-B10306.14.

[15]	Pei T, Zhou C, Zhu A X, et al.Windowed nearest neighbour method for mining spatio-temporal clusters in the presence of noise[J]. International Journal of Geographical Information Science, 2010,24(6):925-948.

[16]	邓敏,刘启亮,王佳,等.时空聚类分析的普适性方法[J].中国科学:信息科学,2012,42(1):111-124.

[17]	田心如,白莉娜,唐红昇,等.江苏省大雾持续时间及相关要素的周末效应[J].环境科学与技术,2012,35(12J):117-122.

[18]	Aggarwal C C.Re-designing distance functions and distance-based applications for high dimensional data[J]. ACM SIGMOD Record, 2001,30(1):13-18.

[19]	杨风召,朱扬勇.一种有效的量化交易数据相似性搜索方法[J].计算机研究与发展,2004,41(2):361-368.

[20]	王家耀,谢明霞,郭建忠,等.基于相似性保持和特征变换的高维数据聚类改进算法[J].测绘学报,2011,40(3):269-275.

[21]	Tan P N, Steinbach M, Kumar V.数据挖掘导论(完整版)[M].范明,范宏建译.北京:人民邮电出版社,2011.

[22]	周开乐,杨善林,丁帅,等.聚类有效性研究综述[J].系统工程理论与实践,2014(9):2417-2431.

Options

Outlines

模态框（Modal）标题

Abstract

Cite this article

1 引言

2 案事件时空聚类分析

2.1 数据描述

Fig. 1 Spacial distribution of crime cases in Fuzhou

2.2 案事件数据探索性分析

Fig. 2 Spatio-temporal scanning window

Fig. 3 Moran scatter plot

Fig. 4 Spatio-temporal trend graphs of sample data

2.3 时空邻近域构建

Tab. 1 The codes of all time periods

Fig. 5 Statistical graphs of crime cases based on different weekdays and time periods

2.4 时空聚类方法

Fig. 6 Spatio-temporal density-connected data points (plane projection)

Fig. 7 Spatial k-dist plot

2.5 时空聚类结果分析

Fig. 8 Space-time clustering result (part of the clusters are shown in figures)

Fig. 9 Spatio-temporal offset features of multiple clusters

Tab. 2 Assessment of the clustering results

3 结论

References