A Fuzzy Matching Model of Spatial-temporal Information of Dispersed Person

  • ZHOU Wenjuan , 1 ,
  • ZHANG Mingfeng , 1, 2, 3, * ,
  • LIN Guangfa 1, 2, 3
  • 1. Institute of Geography, Fujian Normal University, Fuzhou 350007, China
  • 2. Fujian Provincial Engineering Research Center for Monitoring and Assessing Terrestrial Disasters, Fuzhou 350007, China
  • 3. Research Center for National Geographical Condition Monitoring and Emergency Support in the Economic Zone on the West Side of the Taiwan Strait, Fuzhou 350007, China
*Corresponding author: ZHANG Mingfeng,E-mail:

Received date: 2016-08-30

  Request revised date: 2017-02-28

  Online published: 2017-07-10


In recent years, a large number of lost persons have aroused the attention of all sectors of society because the collection and query of information is not easy. The network tracing platform is fast in information acquisition and has widely used in the application. However, the information management of lost persons are scattered, and it is insufficient in the spatial and temporal category analysis. To solve the problems of the inaccuracy and ambiguity of information, we made the memory fuzziness analysis of different age groups of lost persons based on the query of their attribute information. Then, combining with the partition of Chinese language and the fuzzy range of space and time, we set threshold and weight for matching algorithm. Finally, we set up the fuzzy matching model for spatial-temporal information of lost persons. Considering several characteristics of the lost people information such as names, gender, blood types, date of birth, missing time, missing place, dialect accent and missing age, we computed the information matching index among the lost persons. In addition, we used the time geography method to design the time correction method of the model and we also verified the intersection of spatiotemporal reachable range of matching results. The results of case verification indicated that the model can consider the known items of matching index and select the information that has higher matching degree.

ZHOU Wenjuan , ZHANG Mingfeng , LIN Guangfa . A Fuzzy Matching Model of Spatial-temporal Information of Dispersed Person[J]. Journal of Geo-information Science, 2017 , 19(7) : 886 -894 . DOI: 10.3724/SP.J.1047.2017.00886

1 引言

根据国家统计局的统计数据,近10年公安机关立案的拐卖妇女儿童刑事案件约十万余起,仅2013年和2014年就高达37 218起[1]。虽然打拐DNA信息数据库正在建立和完善,但匹配需求DNA信息范围广,导致采集成本过高[2]。近年来,图像识别技术日益发展,许多学者对失散人员照片进行匹配分析,如陈飞等基于人脸识别算法建立失散人员照片匹配系统[3];刘持标等基于Android图像识别技术建立失踪人员管理系统[4]。在国外,Eden等对灾难中幸存的不能提供准确信息的儿童,建立了属性及图像匹配系统[5];Wan利用人类视觉系统算法创建年龄化复合草图以帮助搜索失散人员[6]。上述研究中多数失散人员提供的照片往往是失踪多年之后拍摄的,其样貌的变化和拍照技术的更新对匹配成功率具有较大影响。
随着互联网的普及和媒体的重视,相继出现了“宝贝回家”、“随手拍”公益微博、“等着我”国家公益等热心力量[7]。这些网络寻亲平台信息采集快,应用普及范围也较广,如“等着我”节目在2014年开播一年内就收集了十万多条寻人信息,在一定程度上解决了失散人员信息采集的问题。但是这些网络寻亲信息的管理分散,仅使用了传统数据库对数据进行单属性的信息查询,缺乏结合时间范畴和空间范畴的分析,需要大量志愿者来记录和分析。同时,多数失散人员提供的并不是准确的时间,也不是具有确切边界的空间范围。模糊时空范围查询是一种针对具有模糊特性时空信息的查询方式[8]。学者们基于时空模糊查询思想做了许多研究,如陈逸菲针对不确定移动对象,提出了带有截集概念的模糊时空范围[6];柏禄一等对模糊时空数据间的拓扑关系进行研究[9-10];侯志伟等提出包含时间点、时间段、时间位置和时间距离的时间本体概念[11];MacEachren等将GIS应用于个体时空数据集的可视化和时空分析[12];Bigolin等以模糊空间对象和时空对象从面向对象空间数据库中选择和挖掘信 息[13-14]。上述模糊时空的研究只针对某个时间或空间信息研究其时空差异大小,并没有考虑时间和空间信息之间的影响。时间地理学基于空间的平面坐标XY分布,加入了时间T进行分析,构成一个立体的时空框架[15-16],将时空约束用于确定活动双方的时空交集[17],时间地理学工具包括时空路径和时空棱镜等[18]。但传统的时间地理学模型主要考虑短时间内单个主体在限定时间的移动范围,很少应用于两个模糊时空范围的长时序移动过程中的相似匹配研究。

2 数据源及研究方法

2.1 数据源


2.2 研究方法

Fig. 1 Flow chart of spatial-temporal fuzzy matching degree model for the information of lost people

图 1 失散人员信息时空模糊匹配度模型流程图

3 失散人员时空模糊匹配模型

3.1 时空模糊匹配指标及含义

3.1.1 时空信息
Tab. 1 The weight of indicators in different age groups

表1 不同年龄段各指标权重表

匹配指标项 0~2岁 2~4岁 4~10岁 10岁以上
孩子姓名 0.04 0.04 0.05 0.20
出生时间 0.22 0.11 0.10 0.21
失踪时间 0.22 0.14 0.19 0.16
出生/失踪地点 0.06 0.11 0.15 0.18
方言口音 0.05 0.13 0.18 0.10
血型 0.41 0.47 0.33 0.15
一致性检验 0.027 0.041 0.019 0.022
3.1.2 方言信息
Fig. 2 Location distribution of Chinese dialects

图2 汉语方言区位置分布图(根据“中国汉语方言图”修改)

3.2 时空模糊匹配指标权重

Tab. 2 Indicators and weight of fuzzy matching indicators for spatiotemporal information

表2 时空信息模糊匹配指标项及权重表

匹配指标项 二级指标(权重)
孩子性别 一致(1) 不一致(0)
孩子姓名 完全相同(1) 含有相同字(0.7) 完全不相同(0.5)
血型信息 完全匹配(1) 可能匹配(0.8) 完全不匹配(0.1)
出生时间 当年(1) 前后一年(0.8) 前后三年(0.6) 前后五年(0.2)
失踪时间 前后三个月(1) 前后六个月(0.8) 前后两年(0.6) 前后五年(0.1)
精确到省级 该省界内部(1) 国内邻接省(0.4)
精确到市级 该市区内部(1) 该省内邻接县(0.5) 同省其他地区(0.3)
精确到县级 该县镇内部(1) 该县镇所在市(0.7) 同省非本市区(0.2)
精确到一级方言 第一级匹配(1) 完全不匹配(0.5)
精确到二级方言 第二级匹配(1) 仅第一级匹配(0.5) 完全不匹配(0.2)
精确到三级方言 第三级匹配(1) 第一、二级匹配(0.7) 仅第一级匹配(0.3) 完全不匹配(0)

3.3 匹配度指数计算

e = i = 1 n R i W ij / i = 1 n R i ( n 6 1 k 4 (1)

4 基于时间地理学的模型修正方法

4.1 匹配度模型存在的问题


4.2 基于时间地理学的模型修正方法

时间地理学认为时间变量和空间变量同等重要[28],其主要包括时空路径和时空棱镜2个最核心的工具[27]。其中,时空路径详尽地记录了个体活动的时空属性,由控制点和路径段落构成[29-30],其时空范围是时段[t1,t2]内经过的空间范围[x1,y1,x2,y2 ]所构成的时空立方体 [14]。而针对具有多次贩卖经历或失散过程地点存在变化的失踪者,时空路径可以将时间作为第三轴,立体地描述其失踪过程的时空范围,通过时空距离进行匹配,如图3右边的示意图所示。
Fig. 3 The method of path correction(left: single space-time prism, right: space-time path)

图3 路径修正方法(左:单时空棱镜,右:时空路径)

D = i = 0 n d i / T (2)
传统的时空棱镜是由前后2个反向圆锥组成的交集[31],其边界是个体所能到达的最大时空范 围[32]。改进的时空棱镜思想利用2个相交的时空棱镜,利用圆锥边界表达失散人员提供的失踪地点Bi与现在所在位置Ai之间,由于记忆模糊等因素影响下有可能匹配的最大范围。失散时空棱镜检验可适用于双方都只有失散地点的情况(图3),也适用于一方具有路径而另一方只有失散地点的情况(图4)。计算两个时空棱镜重合的体积与失散匹配方的总体积之比,或失散路径重合的长度与失散匹配方的总长度之比,即为失散人员间的地点时间重合度C
Fig. 4 Prism correction method of double space-time

图4 双时空棱镜修正方法

根据匹配度大小筛选出较为相似的失散人员,利用时间地理学模型修正方法进行修正。修正过程按是否存在失散路径分为2种情况,失散路径指失散过程中双方都到达过2个以上不同地点。若存在失散路径,利用式(2)计算其时空路径模糊总误差距离D,认为D应低于1000 km,小于500 km优先考虑;若不存在失散路径,选择时空棱镜修正方法,认为时间地点重合度C必须大于零,大于50%应优先考虑。

5 计算案例与结果讨论

5.1 计算案例及分析

Tab. 3 Matching index analysis of the cases

表3 案例各匹配指标项分析表

匹配指标项 寻子方 寻家方 指标阈值权重 失踪年龄 指标权重
孩子姓名 黄*龙 黄*涛 0.7 4~10岁 0.05
出生时间 1976年3月 1976年12月 1.0 0.10
失踪时间 1982年6月 1983年4月 0.6 0.19
失踪地点 福建省三明市 福建省龙岩市连城县 0.5 0.15
方言口音 闽语 南方方言 0.3 0.18
Tab. 4 Calculation table of matching degree for lost people information

表4 失散人员案例信息匹配度计算表

匹配指标项 性别 孩子姓名 出生时间 失踪时间 失踪地点 方言口音 匹配度
失散匹配方 黄*龙 1976年3月 1982年6月 福建省三明市 闽语
指标权重 1.00 0.05 0.10 0.19 0.15 0.18
案例1 黄*涛 1976年12月 1983年4月 福建省连城县 南方方言 0.56
1.00 0.70 1.00 0.60 0.50 0.30
案例2 林*阳 1976年5月 1982年9月 广东省东莞市 粤语 0.55
1.00 0.50 1.00 1.00 0.00 0.30
案例3 朱*楠 1979年8月 1986年1月 缺失数据 闽方言 0.51
1.00 0.50 0.20 0.10 0.15 0.70
案例4 张*原 1974年7月 1985年2月 福建省漳州市 南方方言 0.30
1.00 0.50 0.60 0.10 0.30 0.30
案例5 吴*媛 1976年2月 1982年7月 福建省福州市 闽方言 0.00
0.00 0.50 1.00 1.00 1.00 1.00

5.2 时空匹配项分析

Fig. 5 Threshold and weight of the fuzzy distance of the time of the cases

图5 案例时间模糊距离阈值及权重

Fig. 6 Map of weight distribution and the fuzzy spatial extent

图6 模糊空间范围及权重分布图

6 失踪人员信息匹配原型系统设计

6.1 数据库设计及实现平台

本系统将AIR技术与GIS相结合,基于Flex(Adobe Flash Builder 4.6)开发平台,选择SuperMap iServer 7C为GIS云服务器,利用SuperMap iClient 7C for Flash进行系统开发。“捡·爱”宝贝回家信息匹配系统是以中国行政区划数据为依托,分别建立了中国失散人员属性信息数据库和地理空间数据库。其中,中国失散人员属性信息数据库包括用户数据表、孩子寻家方信息搜索表及索引、父母寻子方信息搜索表及索引、父母寻子方详细信息表和管理员信息表;地理空间数据库包括中国行政区划分级地图、中国汉语言方言分布区分级地图和中国失散人员地区统计专题图。
为保证数据库运转稳定高效,数据库管理平台采用SQL Server 2008 R2数据库和 SuperMap SDX+空间数据库引擎共同来管理数据。SuperMap SDX+采用空间数据库存储技术、索引技术和查询技术,具有“空间–属性数据一体化”、“矢量–栅格数据一体化”和“空间信息–业务信息一体化”的集成式空间数据库管理能力。

6.2 系统功能与模块设计

Fig. 7 The structure of the query system of lost

图7 失散人员信息查询系统结构框架图

Fig. 8 Matching query function map of people informationlost people information query system

图8 失散人员信息查询系统匹配查询功能图

7 结论

本文针对失散人员信息不完善和以往查询方式的不足,引入模糊时空范围分级和年龄记忆模糊度的概念,提出适用于失散人员的汉语方言分区,建立失散人员信息时空模糊匹配度计算模型。并结合时间地理学的时空棱镜和时空路径工具,设计了模型时空修正方法,以此判别匹配结果是否在失散匹配方可能到达的时空范围内。本文还将WebGIS 技术与富客户端开发技术结合起来,建立了失散人员信息的综合模糊查询系统,并设计案例进行验证。结果表明,该模型能筛选出匹配度较高的 信息。

