Orginal Article

Theme-Oriented Visual Analysis of Crime with Big Data

  • LI Daichao ,
  • WU Sheng , *
Expand
  • Spatial Information Research Center of Fujian, Fuzhou university, Fuzhou 350003, China
*Corresponding author: WU Sheng, E-mail:

Received date: 2014-02-18

  Request revised date: 2014-04-03

  Online published: 2014-09-04

Copyright

《地球信息科学学报》编辑部 所有

Abstract

Information visual analysis is one of the key technologies in big data. The advent of “big data” era promotes the development of visualization techniques and also brings changes to the traditional crime analysis. The crime visualization could offer assistance to crime analysis in practice. However, they are separated in application. The primary challenge that crime visualization faces is how to analyze data features’ heterogeneity, scale, timeliness and complexity. This problem can be resolved by applying visual analysis, which allows users to explore data of different types and dimensions, and to obtain more valuable information with high correlation through interactions. Public security data, in the “big data” era, is characterized by multi-source and heterogeneity, and multi-dimension and long temporal series. Based on the characteristics of the data and criminal analysis theory, this article mainly focuses on the visual content, the representing method and the interactive design of visual crime analysis combined with geo-visualization and information visualization technologies, such as Wordle, Story line, parallel coordinate and scatter plot matrices, etc. A series of topic-oriented visual analyses were proposed in this study, including visual analyses based on spatio-temporal trajectory data of serial crime, real-time criminal data, spatio-temporal data of criminal process, criminal time-series statistical data, descriptive crime texts, criminal multidimensional attribute data, and crime-related statistical data. Supports from criminal cases investigation, trend prediction, hotspot analysis and references of visualizing studies from other fields were also offered and discussed in this article.

Cite this article

LI Daichao , WU Sheng . Theme-Oriented Visual Analysis of Crime with Big Data[J]. Journal of Geo-information Science, 2014 , 16(5) : 735 -745 . DOI: 10.3724/SP.J.1047.2014.00735

1 引言

随着我国公安机关大力推进“大集中、大整合、高共享”的信息化实践,如何从海量的犯罪大数据中挖掘潜在有用的信息、知识和见解,实现数据的深度应用和综合应用,有效地提高公安部门的数据分析和可视化能力势在必行。
大数据时代可视化需要用户参与,可视分析可以很好地实现这一点[1-2]。其可通过表示方法以及交互手段的合理运用实现图面信息量最大化,帮助用户从大量的、未知关系的信息中获取高关联性、有价值的情报。
本文针对当前犯罪可视化与犯罪数据分析脱节的现状[3-5],从犯罪数据特点和公安业务需求出发,紧密结合信息可视分析理论和犯罪分析理论,探讨犯罪主体、客体、地点、时间和过程的可视化方法,从而为警务人员进行科学、高效、及时、准确的决策提供支持。

2 犯罪可视分析的大数据特征

犯罪大数据是指能全面反映犯罪相关人、事、物的数量特征、时空分布特征,以及变化过程的海量、多源、异构数据。其主要有以下特征:
(1)多源异构
犯罪数据来源复杂,包括案件信息库、人口基本信息资源库、违法犯罪人员和出入境人员信息库、警员基本信息资源库、被盗抢机动车信息资源库、动车和驾驶员信息库、旅店业住宿人员信息库、交警信息库等[6]。犯罪数据类型多样,包括GPS车辆轨迹数据、犯罪位置数据、统计数据、犯罪案情文本数据、犯罪现场照片、监控卡口实时视频等多种结构化和非结构化的数据。
(2)高维度
犯罪现象的产生和变化是多种因素共同作用的结果,如犯罪数量的变化往往与多个社会环境因素的相关,同时每个犯罪数据对象都有许多独立或者相关属性的数据[7],如公安业务数据库中的每条犯罪记录一般包含犯罪类别、作案时间、作案地点、作案手段等数十个属性。因此,在应用中需要综合表达数十个维度之间的关系,辅助犯罪模式分析和犯罪成因分析。
(3)长时序
不管是宏观层面多年的犯罪统计数据,还是微观层面的系列案件的发展演变过程数据都体现了犯罪数据的长时序特征。对长时序数据的可视化表达有助于从中发现犯罪变化的趋势和规律。

3 面向不同主题的犯罪大数据可视分析方法

3.1 基于系列犯罪时空轨迹数据的可视分析

基于系列犯罪时空轨迹的可视分析主要解决2个问题:(1)通过可视化系列犯罪和可疑人员的时空轨迹发现犯罪嫌疑人及其团伙;(2)由系列犯罪的位置信息进行犯罪嫌疑人落脚点的估计。
在基础地理底图上用单色点状符号表示案发地或犯罪嫌疑人,用其颜色饱和度表示案发事件或犯罪嫌疑人活动时间与当前时间的远近程度,饱和度越高表示与当前时间越近,用带箭头的单向虚线连接点状符号表示系列犯罪或犯罪嫌疑人的时空轨迹。通过案发地时空轨迹和多个可疑人员时空轨迹的碰撞分析发现犯罪嫌疑人(图1),犯罪嫌疑人1与案件轨迹有多处交集,可进一步对其进行调查;犯罪嫌疑人2与案件轨迹无明显碰撞,则可初步排除此人的作案嫌疑。通过犯罪嫌疑人与其他可疑人员时空轨迹的碰撞分析发现犯罪嫌疑人可能的潜在团伙(图2),两名犯罪嫌疑人轨迹有多处交集,情报人员可通过对更大尺度的轨迹进行调查比对来确认或排除其团伙关系。
Fig.1 Example of trajectories collision analysis between serial crimes and suspects

图1 系列案件与犯罪嫌疑人时空轨迹碰撞分析例图

Fig.2 Example of trajectories collision analysis between different suspects

图2 不同犯罪嫌疑人时空轨迹碰撞分析例图

在系列犯罪空间位置的基础上,根据行程交叉法,以系列案事件点为圆心,以最有可能的犯罪距离(Crime distance)[8]为半径形成的一系列具有透明度的圆形区域,而圆形区域的交叉部分为犯罪嫌疑人可能落脚点[9]图3)。
Fig.3 Example of estimation of suspect’s location

图3 系列案件犯罪嫌疑人落脚点估计例图

3.2 基于犯罪实时态势数据的可视分析

基于犯罪实时态势数据的可视分析主要是利用动态符号在地图上整合实时视频、文字、图像、GPS数据等情报信息,表现警力资源的分布、巡逻区域、追逃经过、疏散路线等,形成动态案事件态势图,使指挥人员能够通过交互的方式了解实时态势,以便作出合理的决策。
按照符号的几何类型,用点状符号主要表现案事件、警员、巡逻车辆、犯罪嫌疑人、现场监控卡口、实时视频监控录像、现场照片等信息的空间位置;线状符号表示警员的追逃路线、进攻路线、犯罪嫌疑人的行动路线、实时路况、疏散路线等信息;面状符号表示公安控制区域、攻击、搜索区域、包围区域、事故发生后的缓冲区等信息;文字符号表示实时态势说明[10]、案事件和相关主体的属性信息,以及天气信息等。图4展现了交通事故发生后肇事司机的实时逃逸路线、案发现场照片、监控卡口的实时录像及公安警力部署情况等信息。
Fig.4 Example of real-time crime analysis

图4 案事件实时态势分析例图

为更好地表达上述2种时空数据的动态变化,作者设计了3种交互方式:
(1)通过交互实现细节详情的查看,如用户可在地图上点取案事件点查看案发现场照片、案情描述等信息,点取犯罪嫌疑人查看其姓名、籍贯、职业、状态等信息,点取不同的视频卡口查看该点的实时监控视频。
(2)平面空间视图和立体时空视图的转换。二维平面的空间视图只能表现不同轨迹在空间上的交集,为了表现轨迹的时空关联性,还需要在二维平面的基础上利用以时间为纵轴的立体视图进行可视化,供用户按需选择这两种模式进行对比分析。
(3)用户可以通过交互对动态过程进行动画播放。其中除了运用传统静态视觉变量之外,还应使用动态视觉变量中的显示时刻变量、持续时间变量、变化率变量等表示案事件面状要素的形状变化过程,如搜索打击目标范围的扩大等;用闪烁频率的快慢表示事件的重要程度;用听觉变量突出重要事件的发生,如辅以警报声、爆炸声等,起到警示的作用[11]

3.3 基于犯罪时空过程数据的可视分析

日常活动理论将犯罪活动中的主体划分为罪犯主体、受害主体、警察主体,他们在一定的时空范围内同时存在时犯罪活动才会发生[12]。通过可视化不同主体在时空条件下的相互作用,可以清晰的描述案情随时间发展延伸的过程,有利于分析人员探索事件发展的规律和破案线索。
采用故事线(Story line)[13]方式,可以表现案情及相关事件按照时间的发展过程,如案发过程、嫌疑人联络过程、出警过程等。例如,用一条水平时间轴表示分析时段;用不同颜色的线表示不同的犯罪活动主体,并以文字对主体姓名进行标注;线的收敛或发散表示案事件不同主体相互作用的开始,在一段时间内聚拢在一起的多个线表示事件的发生,在线层下方用具有不同的颜色或结构的符号表示不同类型的事件,包括案发过程中的各类案件如杀人、伤害、抢夺等,案情研判过程中的各类线索事件如嫌疑人的会面、通话等,出警过程中的抓获、包围、击毙等事件;以不同的点状符号作为线的终点表示犯罪活动主体的死亡、被捕、淡出场景等;用纵向的连接线表示主体间存在的联系,如居住地相同、亲属关系、所属关系等。图5清晰地描述了某系列犯罪的发展演变过程。图6为一起绑架案的发展演变过程,可以看出:已知的犯罪嫌疑人刘某与张某案发前在某地购买了用于勒索的手机号码;案发后刘某和李某曾藏匿于某城中村民房内,且此民房户主王某与受害人居住在同一小区,由此可发现犯罪嫌疑人的潜在团伙及其历史活动场所,为进一步地调查、摸排、追踪工作提供了线索。
Fig.5 Example of serial crime analysis

图5 系列案件发展过程分析例图

Fig.6 Example of case investigation

图6 案件侦查分析例图

用户可通过交互添加不同的事件进行串并分析,以及实时事件的跟进和探索。在图上点取不同的事件或主体可查看其详细信息,如事件发生的地点、时间、描述或主体的姓名、籍贯、职业等。

3.4 基于时间序列犯罪统计数据的可视分析

基于时间序列犯罪统计数据的可视分析主要是通过表现犯罪数量指标随时间变化的情况辅助犯罪趋势预测,主要包括以下2类:
(1)犯罪数量的时变趋势分析
犯罪数量的时变趋势分析主要通过以下两类对比关系的表达辅助犯罪的宏观趋势预测:通过犯罪数量指标与历史同期值的对比,反映该指标周期性的变化特征;通过犯罪数量指标与其制约因素或警力绩效数量指标的对比,进行犯罪发展演变规律的研判和评估。
① 犯罪数量指标与历史同期值对比的表达:用箱线图表示统计时间单元内的犯罪数量指标的均值、最大值、最小值、由上四分位数和下四分位数界定的正常变化范围,用折线图表示该数量指标的历史同期的最大值、最小值、正常变化范围(图7)。
Fig.7 Example of criminal statistical indicators compared with the values from last year

图7 犯罪数量指标与历史同期值对比分析例图

② 犯罪数量指标与其制约因素或警力绩效数量指标对比的表达:用箱形图表示犯罪数量指标的不同统计特征,用折线图表示其制约因素或警力绩效数量指标,如图8所示,用箱形图表示犯罪数量,用折线图表示破案率。
Fig.8 Example of criminal statistical indicators compared with other indicators

图8 犯罪数量指标与其制约因素或警力绩效数量指标对比分析例图

(2)犯罪数量的高发时段分析
为了同时表现犯罪数量在一年中多时间尺度(季、月、日)的时间模式,分析犯罪数量的高发时段。本文采用日历聚类图[14]的方式进行可视分析。这种方法表达的基础是利用自下而上的聚类算法[15]将一年中每天24 h犯罪数量的统计数据进行聚类,得到多个日聚类模式(用户还可以自定义聚类数量),属于同一种日聚类模式的日期,其犯罪数量在各时段的变化情况相似。
日历聚类图分为两个部分:一部分以日历图的形式区分一年中不同的日犯罪模式,另一部分以曲线图的方式表现每种日聚类模式的犯罪数量在一天中的具体变化情况。在2种视图中,用不同的颜色表示不同的犯罪模式:总体上以红色表示平均犯罪数量较高的模式,以示预警;以绿色、蓝色表示平率犯罪率较低的模式,表示相对安全。
图9为某地区入室盗窃案件的日历聚类图,从图中可以清晰地看出:从季节上看,冬季是入室盗窃的高发期,特别是春节以前;节假日入室盗窃案也较为高发,特别是时间较长的十一黄金周;从每天的时段上看,犯罪分子多在凌晨1点至4点之间,上午8点至11点,下午的15点至17点进行盗窃,其中夏季案多发生在凌晨和傍晚。
Fig.9 Example of time pattern analysis of criminal statistical indicators

图9 犯罪数量指标时间模式分析例图

在交互设计方面,用户可以点击日历中的某一天进行突出显示,并在曲线视图中显示该天的犯罪数量变化情况,如图10所示。
Fig.10 Example of the highlighted view of a chosen date

图10 选中某一天后的日历聚类图

3.5 基于犯罪案情文本数据的可视分析

犯罪案情文本数据的特点是结构短小,但内容丰富。犯罪信息文本挖掘的一般过程是先通过中文分词和信息抽取,得到最能概括案件特点的结构化关键词(如作案地点、案件类型、犯罪对象、作案时间等),以及关键词词频,而在此基础上通过文本相似度计算发现类似案件[16]
犯罪信息文本可视分析的任务是展现犯罪信息文本挖掘的结果,帮助业务人员从海量文本信息中快速获取重要信息。关键词词频信息的表达有助于犯罪热点的分析;文本相似度的可视化可为案件的串并分析提供支持。
本节考虑多种视图组合的方式进行犯罪信息文本信息的可视化表达,主要包括以下2方面内容:
(1)犯罪热点关键词的表达:结合Wordle[17]图的表示方法,用色相区分不同的关键词类型,用饱和度和字体大小表示关键词出现的频率,饱和度越高,字体越大,该关键词出现的频率越高,如图11(a)所示。用户可在Wordle视图中选择感兴趣的关键词,并同时在Wordle视图旁显示与该关键词关联的具体的作案地点、犯罪对象、作案手段等词频统计信息,如图11(b)为在图11(a)中点击“盗窃”后的关键词词频统计信息。
(2)犯罪文本信息相似度的表达:通过文字列表的方式显示犯罪信息文本的完整内容,在图11(a)中点取某一关键词后,显示与该关键词相关的犯罪信息文本列表,并默认按案件发生的时间先后顺序排列。用户可选中其中一条文本信息,即可弹出与该文本信息相似度较高的文本信息,并显示相似度,如图11(c)所示。
Fig.11 Example of descripive criminal texts analysis

图11 犯罪案情文本数据分析例图

3.6 基于犯罪多维属性数据的可视分析

表现犯罪高维数据在各属性维上的分布情况,有助于揭示犯罪高维数据各属性之间的关系,反映犯罪数量与所处的区域、社会、经济、人口和环境之间的相互作用关系,有效辅助犯罪模式分析、影响因素分析及警力资源配置。
本文利用平行坐标表现犯罪多维属性数据在各属性维上的分布,以多个相互平行的坐标轴代表数据的不同属性,每个高维数据条目对应于平行坐标中的一条折线[18],折线表示单条案事件记录的高维数据。根据社会解组理论、日常活动理论、犯罪模式理论选取案事件相关的属性,用相互平行的连续数值坐标轴表示连续数量属性(如犯罪距离),以分段的坐标轴表示类别属性(如案事件类别、作案手段、天气等)、间隔属性(如受害人年龄段、案发时段等)。为了避免大量数据相互压盖降低信息易读性,采用具有一定透明度的颜色表示折线,且将聚集后流向相同的折线进行合并,降低视觉复杂度。图12中用折线的色相区分不同的区域,有利于与地图相映射。

3.7 基于犯罪相关统计数据的可视分析

基于犯罪相关统计数据的可视分析包括2部分内容:(1)不同区域犯罪相关统计指标的分布情况的对比分析。(2)犯罪相关统计指标间的相关性分析。可以发现犯罪人员的潜在流窜区域,为公安机关的警力资源调配提供支持;通过犯罪数量指标与其潜在影响因素指标的相关性分析,可以探究可能导致犯罪数量变化的因素。
Fig.12 Example of criminal multidimensional attribute data analysis

图12 犯罪多维属性数据分析例图

(1)各区域犯罪相关统计指标分布情况对比的表达:用平行坐标图的每一条折线表示不同的区域,用相互平行的连续数值坐标轴表示各区域统计数据的分布情况(图13)。
Fig.13 Example of regional statistical indicators analysis

图13 区域统计指标的分布情况对比的例图

本文考虑如下交互方法:由于表达维度较高,不易发现非相邻维度之间的关系,因此用户可以通过交互,自由交换坐标轴的位置,便于对任意两个维度进行对比分析;当数据条目较多时,可单独选择一个案事件高维数据条目高亮显示,也可通过交互在坐标轴上嵌入统计直方图,查看数据在该属性上的分布[19-20]。如图14所示,嵌入直方图后,可清晰地查看较多区域各统计指标的数量分布情况。
分析的表达:本文采用散点矩阵表示的统计指标间的相关性,对于N个数量指标,采用N2个散点图逐一表示N个指标之间的两两关系,这些散点图根据它们所表示的属性,沿横轴和纵轴按照一定的顺序排列,从而组成一个N×N的矩阵,位于第i行第j列的散点图表现了第i维指标和第j维指标之间的关系[21],对每个散点图添加拟合曲线可直观地判别指标间的相关性。
Fig.14 Example of parallel coordinates with histograms embedded

图14 嵌入直方图后的平行坐标图

(2)犯罪相关统计指标相关性:在散点图矩阵中用不同的维度代表几个相邻社区的犯罪数,不同的散点表示一个季度中的每周,以散点饱和度表示时间的远近,饱和度越高时间越近。如图15所示,我们不但可以直观地判断出A、B、C三个社区的犯罪数量具有较强的空间自相关性,还可进一步查看各社区每季度犯罪数量的分布情况。
Fig.15 Example of criminal spatial auto correlation analysis

图15 犯罪空间自相关性分析例图

用不同的维度分别表示影响犯罪数量变化的潜在因素的数量,不同颜色的散点表示不同的区域。如图16所示,不同的维度代表各区域某种案件的数量、重点人口数、监管人员数及警情发生后平均警力数,从图中可以看出,监管人员数量与犯罪数量以及重点人口数之间有较强的相关性。
Fig.16 Example of criminal influence factor analysis

图16 犯罪影响因素的分析例图

用户可根据需要加入新的维度或剔除不具有相关性的维度进行分析。数据维度较高时,过多的散点图会降低视图的易读性,用户可以选择优先显示相关性较高的散点图,在一定程度上缓解空间的局限[22]。为了更有效地利用屏幕有限的空间,用户可在总览散点图全局后,按需通过交互查看单个散点图大图,在大图中标注不同散点的属性,并用散点的尺寸表示某一数量指标。如图17所示,在散点图大图中用散点的尺寸表示各区域外来人口数。
Fig.17 Example of the detailed view of clicking a certain scatter diagram

图17 通过交互查看某一散点图大图

4 结语与展望

犯罪大数据可视分析是在犯罪地理学、犯罪分析等理论的基础上,利用信息可视分析技术对多源异构、高维度、长时序特征的犯罪大数据进行可视化表达,以辅助公安人员利用形象思维进行警力资源配置、打击和预防犯罪等决策。本文重点从表示内容、表示方法、交互设计等角度研究不同主题的大数据犯罪可视分析。在表示内容方面,将犯罪理论的重点内容、重要结论和重要分析方法,以可视化形式表达,充分反映犯罪学的研究成果,体现指标选取的科学性;在表示方法上和交互设计方面,紧密结合大数据时代可视分析技术,在有限的界面空间内展现更丰富的信息,帮助用户通过交互进行分析、推理和决策。下一步将研究多视图协同分析(Multiple Coordinated Views)[23]表达,通过不同分析主题的关联及可视化,帮助情报分析人员从不同的角度理解、分析犯罪大数据。

The authors have declared that no competing interests exist.

[1]
Labrinidis A, Jagadish H.Challenges and opportunities with big data[J]. Proceedings of the VLDB Endowment, 2012,5(12):2032-2033.

[2]
Wong P C, Thomas J.Visual analytics[J]. IEEE Transactions on Visualization and Computer Graphics Computer Graphics and Applications, 2004,24(5):20-21.

[3]
Chainey S, Ratcliffe J.GIS and Crime Mapping[M]. London: John Wiley &Sons, 2005.

[4]
Janet R, Daniel M, Laurie R, et al.Crime: Principle and practice[M]. Washington DC: U.S. Department of Justice, 1999.

[5]
Leitner M.Crime modeling and mapping using geospatial technologies[M]. Dordrecht: Springer Netherlands, 2013:320-436.

[6]
陈小菲. 公安综合数据库及共享数据集成平台的研究与实现[D].长沙:国防科学技术大学,2007.

[7]
Wong P C, Bergeron R D.30 Years of Multidimensional Multivariate Visualization[M]. Scientific Visualization, Overviwes, Mehodologies, and Techniques. Washington DC: IEEE Computer Society Press, 1997:3-33.

[8]
赵勇,刘民,柏书华,等.系列入室盗窃案件的犯罪距离研究[J].中国人民公安大学学报:社会科学版,2010(2):143-149.

[9]
戴维·坎特,吴宗宪,等译.犯罪的影子[M].北京:中国轻工业出版社,2002:1-80.

[10]
张欣,张立立,曹国峰,等.战场态势推演GIS动态表达技术与应用[J].地球信息科学,2006,8(4):80-83.

[11]
江南,聂斌.动画地图中感知变量初探[J].地理信息世界,2009,7(4):29-32.

[12]
陈鹏,疏学明.时空犯罪热点预测模型研究[J].系统仿真学报,2011,23(9):1782-1786.

[13]
Tanahashi Y, Ma K L.Design considerations for optimizing storyline visualizations[J]. IEEE Transactions on Visualization and Computer Graphics, 2012,18(12):2679-2688.

[14]
Jarke J, Edward R.Cluster and calendar based visualization of time series data[C]. IEEE Symposium on Information Visualization, San Francisco, 1999:4-9.

[15]
Kaufman L, Rousseeuw P J.Finding Groups in Data: An Introduction to Cluster Analysis[M]. Canada: John Wiley, 1990:4-9

[16]
徐亚娟. 基于公安业务信息的文本挖掘技术研究与实现[D].杭州:浙江大学计算机学院,2008.

[17]
Viegas F B, Wattenberg M, Feinberg J.Participatory visualization with wordle[J]. IEEE Transactions on Visualization and Computer Graphics, 2009,15(6):1137-1144.

[18]
Inselberg A.The plane with parallel coordinates[J]. The Visual Computer, 1985,1(2):69-91.

[19]
Ward M O, Grinstein G G, Keim D A.Interactive data visualization: Foundations, techniques, and applications[M]. Boca Raton: A K Peters/CRC Press, 2010.

[20]
陈谊,蔡进峰,石耀斌.基于平行坐标的多视图协同可视分析方法[J].系统仿真学报,2013,25(1):81-86.

[21]
陈为,沈则潜,陶煜波,等.数据可视化的基本原理与方法[M].北京:科学出版社,2013.

[22]
Tatu A, Al buquerque G, Eisemann M, et al. Automated analytical methods to support visual exploration of high-dimensional data[J].IEEE Transactions on Visualization and Computer Graphics, 2011,17(5):584-597.

[23]
Slingsby A, Dykes J, Wood J.Exploring uncertainty in Geodemographics with interactive graphics[J]. IEEE Transactions on Visualization and Computer Graphics, 2011,17(12):2545-2555.

Outlines

/