基于WiFi探针数据的城市出行轨迹提取

廖嘉欣; 吴启用; 兰小机; 张红庆

doi:10.12082/dqxxkx.2021.200777

地球信息科学学报 >

2021 , Vol. 23 >Issue 11: 1946 - 1955

DOI: https://doi.org/10.12082/dqxxkx.2021.200777

地球信息科学理论与方法

基于WiFi探针数据的城市出行轨迹提取

廖嘉欣 ^,¹ ,
吴启用 ¹ ,
兰小机 ^,¹^,^* ,
张红庆 ²

展开

1. 江西理工大学土木与测绘工程学院,赣州 341000
2. 广东矩阵流大数据科技有限公司,东莞 523000

*兰小机（1965— ）,男,江西高安人,博士,二级教授,主要从事GIS应用开发。E-mail: landcom8835@163.com

廖嘉欣（1997— ）,男,江西定南人,硕士,主要从事无线传感器网络与GIS研究。E-mail: 1204163777@qq.com

收稿日期: 2020-12-22

要求修回日期: 2021-02-18

网络出版日期: 2022-01-25

基金资助

国家自然科学基金项目(41561085)

国家自然科学基金项目(40971234)

版权

收起

Urban Travel Trajectory Extraction based on WiFi Probe Data

LIAO Jiaxin ^,¹ ,
WU Qiyong ¹ ,
LAN Xiaoji ^,¹^,^* ,
ZHANG Hongqing ²

Expand

1. School of Civil and Surveying and Mapping Engineering, Jiangxi University of Science and Technology, Ganzhou 341000, China
2. Guangdong Matrix Flow Big Data Technology Company Limited, Dongguan 523000, China

*LAN Xiaoji, E-mail: landcom8835@163.com

Received date: 2020-12-22

Request revised date: 2021-02-18

Online published: 2022-01-25

Supported by

National Natural Science Foundation of China, No(41561085)

National Natural Science Foundation of China, No(40971234)

Copyright

Copyright reserved © 2021. Office of Journal of Geo-information Science All articles published represent the opinions of the authors, and do not reflect the official policy of the Chinese Medical Association or the Editorial Board, unless this is clearly specified.

Fold

摘要

为了更便捷地提取城市居民的出行轨迹,从而分析个体的日常空间行为,进而为城市管理的各项措施决策提供数据支撑,本文提出基于WiFi探针数据的城市出行轨迹提取方法,主要解决WiFi探针数据的路网匹配及丢失轨迹重构问题。首先,通过对终端MAC码和时间戳进行多列排序后提取出轨迹记录序列,利用信号强度RSSI值为每条记录提取坐落在路网上的候选点集。其次,设计基于局部评价的算法,对于每一个候选点,利用其前后相邻的几条记录提取的候选点集与其之间的时空关系,先后对其进行时间一致性评价和空间一致性评价,再结合以时间反比动态构建的权函数,得到最终评分;然后将每个候选点集中评分最高的点作为最佳匹配点,至此完成轨迹记录的路网匹配。最后,先采用基于深度优先的路径搜索算法搜索出丢失轨迹上下点之间的所有可行路径,再基于TOPSIS法决策出最优的重构路径。本文以东莞市市中心区域收集的WiFi探针数据为实验数据进行测试,平均每日可提取6万多条轨迹,与其中获取的GPS数据相比较验证了方法的可行性,为城市出行轨迹挖掘提供了新的解决方案。

关键词： WiFi探针数据; 轨迹提取; RSSI值; 局部评价; 路网匹配; 深度优先搜索; TOPSIS决策法; 轨迹重构

本文引用格式

廖嘉欣 , 吴启用 , 兰小机 , 张红庆 . 基于WiFi探针数据的城市出行轨迹提取[J]. 地球信息科学学报, 2021 , 23(11) : 1946 -1955 . DOI: 10.12082/dqxxkx.2021.200777

Abstract

In order to extract the travel trajectory of urban residents more conveniently, analyze the daily spatial behavior of individuals, and provide data support for the decision-making of urban management measures, this paper proposes an urban travel trajectory extraction method based on WiFi probe data, which mainly solves the problem of map matching and lost trajectory reconstruction of WiFi probe data. First, extract the track record sequence by sorting the terminal MAC code and timestamp in multiple columns, and use the RSSI value to extract the candidate point set located on the road network for each record. Secondly, an algorithm based on local evaluation is designed: for each candidate point, the spatio-temporal relationship between the candidate point set extracted from the adjacent records is used to evaluate its temporal consistency and spatial consistency, and then the final score is obtained by combining with the weight function dynamically constructed in inverse time ratio, then the highest score point in each candidate point set is selected as the best matching point. Finally, a depth-first-based path search algorithm is used to search for all feasible paths between the upper and lower points of the lost trajectory, and then the optimal reconstruction path is determined based on the TOPSIS method. In this paper, the WiFi probe data collected in the central area of Dongguan City is used as the experimental data to test, and more than 60 000 tracks can be extracted every day on average. Compared with the GPS data, the feasibility of the method is verified, which provides a new solution for urban travel trajectory mining.

Key words： WiFi probe data; trajectory extraction; RSSI value; local evaluation; map matching; depth first search; TOPSIS; trajectory reconstruction

1 引言

在城市时空数据挖掘研究中,轨迹数据蕴含了对象丰富的时空动态信息,而完整的出行轨迹信息则可体现出行者在时间尺度和空间尺度的出行情况,从而可以分析出行者移动模式及其背后隐含的城市空间特征^[1],是规划决策、交通管理、设施运营等重大工作的基本数据支撑。通过对城市出行轨迹的聚类、统计等分析处理,再关联其他社会、经济、人口等数据,能够发现城市人口流动模式^[2]、社会活动动态^[3]、能源消耗分布^[4]等情况,从而帮助到城市管理决策的制定。

近年来,移动智能终端引发的颠覆性变革使得智能手机、平板电脑等移动智能终端产品迅速普及,基本已经达到“人手一机”且“机不离身”的程度,这时便可以认为终端位置即为个人位置。终端设备的位置数据也因其数据量大、覆盖广的优点被广泛应用研究于人群分布^[5,6]、交通分析^[7,8]、职住空间分布^[9,10]等领域。与此同时,WiFi作为无线通讯技术的一种,因其传输速率高、系统简单、成本低等优点,获得了广泛应用。移动终端与WiFi信号源交互时,会发送Probe request探针数据包,数据包中包含了终端的MAC地址,而WiFi探针则会截取这部分信息再加上相应的时间戳和信号强度,当终端在不同的WiFi探针之间移动时,就会生成终端的移动记录^[11]。与现有的出行信息收集方案相比,WiFi探针数据具有成本低、样本量大、连续性强等优点,越来越多的专家学者运用WiFi探针数据进行研究分析,例如陈菁菁等^[12]验证了WiFi探针数据获取和特征分析的有效性,实现了上海轨道交通网络的客流特征分析;李思杰等^[13]利用轨道交通网络范围内的WiFi探针数据,提出基于改进的接受信号强度指示（RSSI）定位算法的乘客出行轨迹推断模型;徐洋等^[14]针对会议、大型活动等场景,提出了基于三边测量定位和信号强度（RSSI）的应用于大型场馆的人群定位新方法,建立了场馆内的人群轨迹模型;朱晨迪等^[15]出了一种基于地图信息的粒子滤波与WiFi地标相结合的混合定位算法,通过地图信息以及地标点对观测值修正的同时,更新粒子的位置与权重,从而确定目标位置。上述研究主要集中在对WiFi探针数据的宏观统计及流量特征提取上,对于出行轨迹、出行行为等出行信息的挖掘提取有也仅限于轨道交通层面或是室内环境,而对于城市道路交通层面的出行信息的挖掘提取较少涉及。

从WiFi探针数据中提取轨迹主要有2个难点。① 检测记录的路网匹配。探针检测范围大致是一个以探针点为圆心,半径为300 m左右的圆,如果直接将探针点作为检测记录的匹配点,则会产生较大误差。② 丢失轨迹的重构。WiFi探针在数据采集阶段的采样率并非百分之百,设备在经过探针探测范围时可能会受到信号阻隔、信号干扰等因素的影响,造成WiFi探针漏检,需要设计合适的策略进行缺失轨迹的重构。

目前关于路网匹配的研究主要针对的是GPS数据,其中,对于与WiFi探针数据类似的低频GPS数据,进行路网匹配时常用的是基于隐马尔可夫模型（Hidden Markov model, HMM）的算法^[16]。Arvind等^[17]将目标的位置计算为在一段时间内检测到目标的AP位置的质心;郑诗晨等^[18]基于PF原理构建行车轨迹-路网匹配方法,使得匹配计算过程相对独立。关于轨迹重构的方法主要有最短路径法^[19]以及基于灰色关联法（GRA）的补全决策算法^[20], 2种方法都是基于车牌识别数据。

针对上述问题,本文提出了基于局部评价的路网匹配算法以及基于深度优先和TOPSIS的轨迹重构法,完成了从WiFi探针数据中提取城市出行轨迹,并应用于东莞市的交通大数据采集项目中。

2 数据来源及预处理

在本文中,出行轨迹提取所需要的数据有WiFi探针数据和路网时空数据,其中WiFi探针数据存在大量的冗杂数据及错误数据需要清洗,路网时空数据则需要从路网矢量数据和WiFi探针数据中提取,所以需要进行数据的预处理。

2.1 WiFi探针数据

WiFi探针数据即布设在各路口附近的探针所探测到的所有终端设备的记录集合,原始数据中含有许多属性,而提取轨迹只利用其中的一部分,需要剔除掉多余的属性,以便后续的处理。经剔除后所保留的有意义的属性为以下4个：终端设备MAC码、检测到此终端的探针MAC码、检测时间、信号强度值RSSI。将WiFi探针数据按终端设备MAC码分开,再按检测时间排序后,即得每个终端设备的被检测记录集合。

由于探针检测区域的环境比较复杂,在探针的数据采集过程中存在许多无效数据及异常,如表1所示。

表1 WiFi探针数据中的问题

Tab. 1 The problem with WiFi probe data

问题	描述	特征/例子
数据错误	信号源自身故障或环境干扰导致的终端MAC、时间、RSSI值错乱	终端MAC全为“0”或全为“F”时间属性缺失或记录错误RSSI为“-1”或小于-100
MAC随机跳变	部分苹果和华为的设备存在MAC码随机跳变情况	MAC码仅出现一次
“乒乓效应”	数据重复	终端处于2个或多个探针之间时,短时间内被重复检测到
固定设备干扰	不构成轨迹的设备如路由器、闲置的笔记本、手机平板等	长时间仅被个别探针重复检测到

上述问题中,产生数据错误的原因十分复杂,现阶段也缺乏有效的理论和方法纠正,故根据特征对其进行删除处理;MAC跳变设备的跳变机制也暂不明确,无法还原,仅知道随机的MAC码不会出现第2次,故将其直接删除。“乒乓效应”和固定设备干扰问题则根据以下策略进行处理：

（1）10 s去重

如果某一终端在10 s内重复被不同探针检测到,则依据RSSI最大原则保留RSSI值较大的那条检测记录,视为该终端处于RSSI值较大的WiFi探针检测范围内。

（2）固定设备过滤

固定设备中类似路由器之类的设备具有很明显的特征,此类设备会在一天24 h内都持续被相同的探针检测到,而像笔记本电脑、平板电脑之类的设备则受开关机的影响,不一定整天都有信号,但至少也会在较长的一段时间内被同一探针检测到。因此只需判断每个终端是否存在长时间被同一探针检测的情况,有则标记为固定设备后删除。

将上述有问题的数据依次删除即可完成WiFi探针数据的清洗,余下可用于轨迹提取的数据如表2所示。

表2 清洗之后的数据记录样例

Tab. 2 The sample data records after cleaning

探针的MAC地址	终端的MAC地址	时间戳	信号强度
00117F1B93CC	BCE******7E0	2020-07-09 09:20:50	-85
00117F14C3D4	BCE******7E0	2020-07-09 09:22:45	-80
00117F1B9584	BCE******7E0	2020-07-09 09:30:35	-76
……	……	……	……

2.2 路网时空数据

路网时空数据包括路网数据以及路网中具体路段的距离和行程速度数据。路网数据是一个有向图G=(V,E),其中V是顶点集,即路网中的路口; E是有方向的边的集合,代表路口间的路段。

单个终端途经两相邻探针点时,以此终端在 2个探针的检测时间差和2个探针的距离求得的路段行程速度误差较大,因为终端被检测时的具体位置不一定与探针重叠,但只要样本足够多,就可以抵消这部分误差^[17]。对预处理后的WiFi探针数据中的每个终端的记录进行遍历,就可以得到所有终端在各个路段的行驶速度,只要各路段上的行驶速度样本足够多,对样本数据进行滤波处理后就能得到较为准确的路段的行驶速度区间,具体处理步骤如下：

（1）设置行程速度上下限。样本数据中可能含有行人步行数据以及其他异常数据,需要设置上下限来初步过滤。

（2）设置统计窗口。为了各路段在各阶段时期的主体特征数据能够保留,设置路段按时间排序后的每100个样本为统计窗口。

（3）循环迭代过滤。利用平均数和标准差以及中位数和绝对偏差对统计窗口内的样本进行循环过滤,直至样本数据满足条件。

处理效果如图1所示。

显示原图|下载原图ZIP|生成PPT

图1 滤波前后的路段行程速度分布

Fig. 1 Speed of road segment before and after filtering

3 出行轨迹提取

出行轨迹提取的主要环节有检测记录的路网匹配以及丢失轨迹重构。

3.1 基于局部评价的路网匹配

大多数地图匹配算法都会把观测值垂直投影到最近的路段上,但这样容易造成比较明显的错误,如图2所示。根据匹配点

c 3

的上一点

c 2

和下一点

c 4

所处的位置可知,

c 3

应该匹配到水平路段上,而不是离探针点最近的垂直路段的

c 3'

上,因为车辆通常不会在直线行驶的途中拐到另一条路段上后又拐回水平路段上。这意味着我们可以将路网的拓扑信息和观测值的前后数据结合起来,以提供更好的匹配结果。此外,观测值前后数据与观测值的时间间隔越大,它们之间隐含的关系就会越弱。

显示原图|下载原图ZIP|生成PPT

图2 匹配错误示意

Fig. 2 The example of matching error

基于以上观察,本文先利用基于RSSI的测距算法计算每个检测记录坐落在路网上的候选点集。

3.1.1 基于RSSI的测距算法计算候选点

通常情况下,终端只会被一个探针探测到,此时只能采用对硬件要求较低的基于RSSI的测距算法,根据RSSI值与距离的关系,求出终端与探针之间的距离。RSSI值与距离的计算公式如下^[21]：

（1）

P r (d) = P r (d 0) - 10 γ lo g 10 d d 0

式中：

d 0

为参考距离,通常取值1 m;

d

为终端与探针之间的距离;

P r (d)

和

P r (d 0)

分别是终端与探针的距离为

d

和

d 0

时的RSSI值;

γ

为路径传播损耗指数,根据环境的变化而变化,取值范围为2~5。

通过实验测试,计算出所有探针的

P r (d 0)

与

γ

值,再将式(1)变形即可求出终端与探针的距离。

（2）

d = d 0 10 P r d 0 - P r (d) 10 γ

从WiFi数据中提取轨迹数据,不仅要把检测记录转换为点集序列,为符合实际,序列中的每个点还必须位于路网上。因此,对于每一条检测记录R_i,计算其终端此时可能所在的候选点集CP的步骤为：以R_i的探针坐标为圆心,以计算出的终端与探针的距离为半径画圆,圆与路段的交点集即为R_i的候选点集。如图3所示。将一个终端的所有检测记录都提取出候选点集后,便能将检测记录序列R₁→R₂→R₃→R₄转换为CP₁→CP₂→CP₃→CP₄如图4所示,其中CP₁={

c 11, c 12, c 13

}。

显示原图|下载原图ZIP|生成PPT

图3 候选点计算示意

Fig. 3 The calculation of candidate point

显示原图|下载原图ZIP|生成PPT

图4 候选点集序列提取示意

Fig. 4 The extraction of candidate point set sequence

得出所有检测记录的候选点集后,再设计一个局部评价算法,通过分析目标点集中的点与前后几个参考点集之间的时空关系,并结合以时间反比动态构建的权函数,先后得出目标点集中候选点的方向一致性评分和时间一致性评分。如图5所示,算法将一个目标点集和前后至多10个参考点集作为一个迭代窗口,遍历轨迹中的所有候选点集,便能得到所有候选点的评分,最后选取每个候选点集中评分最高的点初步构建最佳匹配轨迹。

显示原图|下载原图ZIP|生成PPT

图5 局部评价算法迭代过程示意

Fig. 5 The iteration process of local evaluation algorithm

其中,

a r

为参考点集

C P r

中候选点的个数。

3.1.2 方向一致性评价

在此评价算法中,先评价目标点集中的点与前后参考点集方向的一致性,筛选出一致性评分较高的点。对于每一个目标点

c s t

的一致性评分的计算方法如下：

（1）计算参考点集中的点

c r i

到目标点

c s t

在路网中的最短距离的平均值,视为该参考点集到目标点的平均最短距离

D r → s t

。

（3）

D r → s t = ∑ i=1 a r d (c r i → c s t) a r

式中：

d (c r i → c s t)

为

c r i

到

c s t

在路网中的最短距离;

a r

为参考点集

C P r

中候选点的个数。

（2）对于目标点

c s t

,若参考点集

C P r

到该点的平均最短距离为

C P r

到目标点集中所有目标点的平均最短距离中最小的,则参考点集对该点的方向一致性初步评分

V r → s t

为1,否则为0。

（4）

v r → s t = 1 D r → s t = Min (D r → s) 0 D r → s t ≠ Min (D r → s)

式中：

Min (D r → s)

代表参考点集

C P r

到目标点集中所有目标点的平均最短距离里最小的值。

（3）将所有参考点集对目标点的方向一致性初步评分分别乘上参考点集与目标点集之间的加权函数,再将乘积累加即得到目标点

c s t

的方向一致性评分

V s t

。

（5）

V s t = ∑ r = 1 A r v r → s t ∙ W r → s

式中：

A r

为参考点集的个数;

W r → s

代表参考点集与目标点集之间的加权函数（与间隔时间长短成反比）。

本文认为参考点集对目标点集的影响与时间间隔应满足高斯分布函数,因此令加权函数为：

（6）

W r → s = f ∆ t = e - ∆ t 2 β 2

式中：

β

是与WiFi数据中终端设备的连续2条记录之间的平均时间间隔相关的参数。

对所有候选点集中的候选点经过上述处理后,能筛选出每个候选点集中一个或2个方向一致性评分明显较大的候选点,将其余的点移出候选点集。

3.1.3 时间一致性评价

完成空间一致性评价后,再结合路网时空数据对剩余的候选点做时间一致性评价。候选点的时间一致性评分的计算方法如下：

（1）确定参考点

c r i

与目标点

c s t

之间的移动处于哪个时间段以及最短路径会经过哪些路段,根据2.2得到的路网时空数据中路段在该时间段的通行速度区间,求得2点之间移动的最长通行时间

∆ t Max c r i → c s t

和最短通行时间

∆ t Min c r i → c s t

。

（2）参考数据记录

R r

与目标数据记录

R s

之间的时间差即为参考点与目标点之间的真实时间间隔

∆ t r → s

,以此再计算参考点集对目标点的时间一致性初步评分

f r → s t

。

（7）

f r → s t = e 12 - ∑ i = 1 a r Max ∆ t Max c r i → c s t - ∆ t r → s, ∆ t r → s - ∆ t Min c r i → c s t ∆ t Max c r i → c s t - ∆ t Min c r i → c s t a r

式中：

a r

表示参考点集

C P r

中候选点的个数（经方向一致性评价筛选后的）。

（3）将所有参考点集对目标点的时间一致性初步评分分别乘上参考点集与目标点集之间的加权函数,再将乘积累加即得到目标点

c s t

的时间一致性评分

F s t

。

（8）

F s t = ∑ r = 1 A r f r → s t ∙ W r → s

式中：

A r

为参考点集的个数;

W r → s

代表参考点集与目标点集之间的加权函数（与间隔时间长短成反比）。

从每个候选点集中选出一个时间一致性得分最高的点作为此候选点集的匹配点,即完成对WiFi探针数据的路网匹配。当上下2个匹配点不在同一条路段上时,需要插入交叉路口点来补充轨迹,此时有2种情况：① 若两匹配点所在的路段相邻,则插入相邻两路段的公共节点即可;② 若不相邻,则需完成丢失轨迹重构,再插入重构的轨迹节点。

3.2 丢失轨迹重构

如3.1.3节最后所描述,当一个终端设备连续的2条检测记录匹配点所在的路段之间不相邻,则说明终端在两记录之间存在漏检现象,需要设计合适的策略进行缺失轨迹的补充。又因为如果补充的路口节点数过多,将会使补充的轨迹不可信,所以要限制补充的路口节点数。因此,采用基于深度优先的路径搜索算法,搜索出所有可行路径,通过控制深度来完成对路口节点数的限制,如果在限制深度的条件下找不到可行路径,则将轨迹拆分。基于深度优先的路径搜索算法的中心思想是对每一个可能的分支节点深入搜索到限制深度为止,而且每个节点只出现一次。

之后问题就转变为多个路径的决策问题,考虑到上一步搜索出来的可行路径通常有限,不需要用过于复杂的决策方法,此处选用逼近理想解的TOPSIS法来完成最佳路径的决策。最佳路径的决策考虑的因素主要有路径总距离、转弯次数、主干道路段个数及时间一致性,决策因素规范化函数如下：

（9）

f D = e d min - d d max - d min d max ≠ d min 1 d max = d min

（10）

f C = e c min - c c max - c min c max ≠ c min 1 c max = c min

（11）

f M = e m min - m m max - m min m max ≠ m min 1 m max = m min

（12）

f T = e 12 - Max t - t min, t max - t t max - t min t max ≠ t min 1 t max = t min

式中：

f D

、

f C

、

f M

、

f T

分别表示路径总距离、转弯次数、主干道路段个数、时间一致程度的规范化函数,且都是函数值越大,路径为真实路径的可能性越大;

t Max

、

t Min

分别为可行路径中的最大通行时间和最小通行时间;

c Max

、

c Min

分别为可行路径中的最大转弯次数和最小转弯次数;

m Max

、

m Min

分别为可行路径中的最多主干道路段个数和最少主干道路段个数;

d Max

、

d Min

分别为可行路径中的最大总距离和最小总距离。

TOPSIS法决策最佳路径的具体步骤如下：

（1）令

f i 1

、

f i 2

、

f i 3

、

f i 4

分别是可行路径

k i

的总距离、转弯次数、主干道路段个数、时间一致性程度属性的属性值,构成规范化决策矩阵如下：

（13）

M = f D f C f M f T k 1 k 2 ⋮ k n f 11 f 12 f 13 f 14 f 21 ⋮ f n 1 f 22 ⋮ f n 2 f 23 f 24 ⋮ ⋮ f n 3 f n 4

式中：

k i

表示可行路径,共有n条可行路径。

（2）假设各属性的权重向量为

w = (ω 1, ω 2, ω 3, ω 4)

,则加权规范化决策矩阵为：

（14）

M * = ω 1 f 11 ω 2 f 12 ω 1 f 21 ω 2 f 22 ω 3 f 13 ω 4 f 14 ω 3 f 23 ω 4 f 24 ⋮ ⋮ ω 1 f n 1 ω 2 f n 2 ⋮ ⋮ ω 3 f n 3 ω 4 f n 4 = y 11 y 12 y 21 y 22 y 13 y 14 y 23 y 24 ⋮ ⋮ y n 1 y n 2 ⋮ ⋮ y n 3 y n 4

（3）寻找最优最劣解。在加权规范化决策矩阵中,找出每一列中最大值记为

y j +

,最小值记为

y j -

,分别构成最优解向量

F +

、最劣解向量

F -

。

（15）

F + = y 1 +, y 2 +, y 3 +, y 4 +

（16）

F - = y 1 -, y 2 -, y 3 -, y 4 -

（4）计算可行路径

k i

与最优最劣解向量的欧式距离

S i +

、

S i -

。

（17）

S i + = ∑ j = 1 4 (y ij - y j +) 2 i = 1, 2, 3, …, n

（18）

S i - = ∑ j = 1 4 (y ij - y j -) 2 i = 1, 2, 3, …, n

（5）计算可行路径

k i

与最优解的相对接近程度

C i +

。

（19）

C i + = S i - (S i + + S i -), i = 1, 2, 3, …, n

（6）计算所有可行路径与最优解的相对接近程度后,选取相对接近程度最高的可行路径作为最佳路径。

将最佳路径的路口节点补充到断点之间,即完成出行轨迹的提取,轨迹输出为坐标点的时间序列,其中包括匹配点和插入点。

4 实验结果及分析

4.1 数据源介绍

为验证基于WiFi探针数据的轨迹提取方法,本文选择东莞市某区域作为实验区域,该区域是东莞市的行政中心、文化中心,市中心广场及国际会展中心都位于此区域。在该区域内总共部署了81个WiFi探针点位,基本情况及路网结构如图6所示,包括150条路段和93个交叉口。

显示原图|下载原图ZIP|生成PPT

图6 实验区域探针点位及路网分布

Fig. 6 The distribution of probe points and road network in experimental area

实验数据包括：① 2020年9月26日该区域采集到的WiFi探针数据作为实验基础数据,数据记录总共16 775 187条,大小795 MB;② WiFi探针点位数据,其中包含探针MAC地址、经度、纬度;③ 路网数据,其中包含交叉路口点位的编号、经度、纬度,路段的编号和构成路段的两交叉路口点位编号,以及它们之间的拓扑关系。

4.2 实验结果

对实验基础数据进行预处理,删除错误及异常数据后剩余有效数据2 091 449条,其中包含终端设备234 617个;提取出路网中各路段在各个时段中的最大通行速度和最小通行速度。对预处理后的WiFi探针数据进行轨迹分段,再筛选出检测探针数大于5的轨迹,共筛选出69 687条。根据式（2）为所有轨迹的每条记录提取候选点集,再执行3.1.2和3.1.3节所述的局部评价算法,先后进行方向一致性评价和时间一致性评价,选出候选点集中的最佳匹配点,检测所有轨迹中匹配点所在路段的相邻情况,发现所有轨迹都存在不相邻情况,其中可重构的有68 802条,需二次拆分的有253条。

4.2.1 轨迹提取准确分析

为验证提取轨迹的真实性,令实验者同时开启手机的WiFi开关和GPS轨迹记录APP,在研究区域内出行5次,提取的实验者轨迹和APP记录的真实GPS轨迹如图7所示。

显示原图|下载原图ZIP|生成PPT

图7 轨迹提取实例

Fig. 7 The trajectory extraction results

图7中的点分别是一号至五号轨迹的GPS点,除黄色以外的实线分别是一号至五号轨迹提取正确的路径,黄色实线是提取错误的路径,黑色虚线是没提取出的路径。对提取结果进行统计,统计结果如表3所示。

表3 轨迹提取实例结果统计

Tab. 3 Statistics of trajectory extraction instance results (m)

轨迹	实际匹配长度	提取长度	提取正确	提取错误	未提取
一号轨迹	17 750	16 596	14 177	2419	3573
二号轨迹	11 324	10 727	10 727	0	597
三号轨迹	2634	2634	2634	0	0
四号轨迹	2940	2940	2940	0	0
五号轨迹	15 217	13 663	13 407	256	1810

表4 轨迹重构整体情况

Tab. 4 The overall situation of trajectory reconstruction

重构点个数	重构次数/次	占比/%
1	234 826	70.50
2	55 073	16.53
3	24 915	7.48
4	10 083	3.03
≥5	8184	2.46

令匹配准确率等于“提取正确长度/实际匹配长度”,则一号轨迹的准确率为79.87%,二号轨迹的准确率为94.73%,三号和四号轨迹的准确率为100%,五号轨迹的准确率为88.11%。在一号轨迹中,路线设计的初衷是为了途经更多WiFi探针,但这却导致WiFi探针漏检时的轨迹重构难度加大,重构出了错误的轨迹,使得准确率不高;且骑行时实验者在人行道,而路网中的路段选取的是道路中线,这也导致匹配点与同时刻的GPS点距离较大。二号轨迹则是在机动车道上的目的明确的一次往返轨迹,因而提取的轨迹与真实轨迹基本重合,且匹配点与同时刻GPS点的误差在50米以内,但也存在遗漏,即在路段中调头的轨迹细节没能提取出来。三号和四号轨迹为出租车轨迹且距离较短,所以提取效果好。五号轨迹虽然在最后刻意绕路时轨迹重构出错,但整体准确率较高。

4.2.2 丢失轨迹重构情况分析

从WiFi探针数据提取的轨迹中,不仅有数据在路网的匹配点,还有插入的交叉路口点。在这些插入的点中,在匹配点附近的,则仅是为了补齐转弯细节的补充点,而不在匹配点附近的,则认为是重构轨迹中的重构点。

实验提取的轨迹中需要进行重构的有68 802条,总计进行了333 081次轨迹重构,平均每条轨迹需要进行重构4.84次,每次重构平均插入1.50个重构点。重构整体情况如表4所示,其中重构点个数为1或2个的重构次数占总次数的87.03%,且重构点为1或2个时的轨迹重构通常有很高的真实性。而TOPSIS法在囊括了路径总距离、转弯次数、主干道路段个数、时间一致程度4个因素后,在2个重构点以上的轨迹重构中也能保证一定的可靠性。

为了研究交通高峰时期的交通量是否超过WiFi探针数据收集的瓶颈,使得数据漏检的比例增大,进而加大轨迹重构的难度,分析了轨迹重构情况在时间轴上的分布,如图8所示。虽然重构次数会随着交通量的增大而产生明显的峰值,但各个时间段的平均重构点个数一直稳定在1.5左右,且不同重构点个数的重构次数占比在各个时间段上也很稳定。由此可知,轨迹缺失的情况在全天的分布都很稳定,不存在交通高峰期缺失更长轨迹的情况,也说明WiFi探针还未达到数据收集瓶颈且设备检测率全天都比较稳定。

显示原图|下载原图ZIP|生成PPT

图8 轨迹重构情况时间分布

Fig. 8 The time distribution of trajectory reconstruction

5 结论

WiFi探针数据多用于流量特征提取或室内定位研究,鲜有用于道路交通层面的轨迹挖掘,且相关研究中没有深入研究数据路网匹配问题,这样获得的轨迹在准确性方面存在一定的不足。本文实现了基于WiFi探针数据的出行轨迹提取,通过以下2个方面构建终端检测记录—出行轨迹对应关系：① 针对终端检测记录的路网匹配问题,提出了基于局部评价的匹配点筛选算法,利用前后数据之间隐含的关系来寻找最佳匹配点;② 针对丢失轨迹的重构问题,则是利用TOPSIS决策方法,结合了路径总距离、转弯次数、主干道路段个数及时间一致性4个因素,决策出最佳路径,最终提取出出行轨迹。最后,将方法应用于东莞市某区域,平均每日可提取6万多条轨迹。实验选取其中5条做验证,结果表明,对于17.7 km以上的非机动车轨迹提取的准确率有79.87%,对于其余4条机动车轨迹（长度分别为11.3、2.6、2.9、15.2 km）提取准确率均在85%以上,说明利用WiFi探针确实能够提取海量轨迹数据,这主要依赖于WiFi探针设备的覆盖范围及设备的检测率,且机动车轨迹的提取效果比非机动车轨迹的好。本文方法可适用于其他无线探测设备如蓝牙网关/探针,如果要应用于更大区域的轨迹提取,则需进一步研究探测设备布设的最优方案。

参考文献

原文顺序 | 文献年度倒序 | 文中引用次数倒序

[1]	刘瑜, 肖昱, 高松, 等. 基于位置感知设备的人类移动研究综述[J]. 地理与地理信息科学, 2011, 27(4):8-13,31,2. [ Liu Y, Xiao Y, Gao S, et al. A review of human mobility research based on location aware devices[J]. Geography and Geo-information Science, 2011, 27(4):8-13,31,2. ]

[2]	付鑫, 孙茂棚, 孙皓. 基于GPS数据的出租车通勤识别及时空特征分析[J]. 中国公路学报, 2017, 30(7):134-143. [ Fu X, Sun M P, Sun H. Taxi commute recognition and temporal-spatial characteristics analysis based on GPS data[J]. China Journal of Highway and Transport, 2017, 30(7):134-143. ]

[3]	Moreira-Matias L, Gama J, Ferreira M, et al. Time-evolving O-D matrix estimation using high-speed GPS data streams[J]. Expert Systems With Applications, 2016, 44:275-288. DOI

[4]	Luo X, Dong L, Dou Y, et al. Analysis on spatial-temporal features of taxis' emissions from big data informed travel patterns: A case of Shanghai, China[J]. Journal of Cleaner Production, 2016, 142:926-935. DOI

[5]	钟炜菁, 王德, 谢栋灿, 等. 上海市人口分布与空间活动的动态特征研究——基于手机信令数据的探索[J]. 地理研究, 2017, 36(5):972-984. DOI [ Zhong W J, Wang D, Xie D C, et al. Dynamic characteristics of Shanghai's population distribution using cell phone signaling data[J]. Geographical Research, 2017, 36(5):972-984. ]

[6]	秦萧, 甄峰, 熊丽芳, 等. 大数据时代城市时空间行为研究方法[J]. 地理科学进展, 2013, 32(9):1352-1361. [ Qin X, Zhen F, Xiong L F, et al. Methods in urban temporal and spatial behavior research in the big data era[J]. Progress in Geography, 2013, 32(9):1352-1361. ]

[7]

方家, 王德, 谢栋灿, 等. 上海顾村公园樱花节大客流特征及预警研究——基于手机信令数据的探索[J]. 城市规划, 2016, 40(6):43-51.

[ Fang

, Wang

, Xie D

, et al. Research on dynamic change and early warning of large tourist flow based on mobile signal data analysis: A case study of Gucun park sakura festival in Shanghai[J]. City Planning Review, 2016, 40(6):43-51.]

[8]	周涛, 赵必成, 俞博. 基于CRISP-DM的交通大数据分析方法及实践——以重庆市手机信令数据和RFID数据为例[J]. 城市交通, 2017, 15(5):42-51. [ Zhou T, Zhao B C, Yu B. Transportation big data analysis methodology based on CRISP-DM: An example of cellular signaling and RFID data in Chongqing[J]. Urban Transport of China, 2017, 15(5):42-51. ]

[9]	蒋寅, 郑海星, 于士元, 等. 天津市职住空间分布与轨道交通网络耦合关系——基于手机信令数据分析[J]. 城市交通, 2018, 16(6):26-35. [ Jiang Y, Zheng H X, Yu S Y, et al. Relationship between job-housing spatial distribution and rail transit network in Tianjin: An analysis based on cellular data[J]. Urban Transport of China, 2018, 16(6):26-35. ]

[10]	陆振波, 龙振, 余启航. 基于手机信令数据的昆山市职住分布与通勤特征分析[J]. 现代城市研究, 2019, 34(3):50-55. [ Lu Z B, Long Z, Yu Q H. Analysis on the job-housing spatial distribution and commuting characteristics of Kunshan city based on cellular signaling data[J]. Modern Urban Research, 2019, 34(3):50-55. ]

[11]	李萍. 基于校园WiFi探测的用户移动性研究[D]. 北京:北京邮电大学, 2016. [Li P. Research on user mobility based on campus WiFi detection[D]. Beijing: Beijing University of Posts and Telecommunications, 2016. ]

[12]	陈菁菁, 江志彬. 基于WiFi嗅探数据的地铁网络客流分析技术[J]. 城市轨道交通研究, 2018, 21(5):153-157. [ Chen J J, Jiang Z B. Passenger flow analysis technology in metro network based on wi fi probing data[J]. Urban Mass Transit, 2018, 21(5):153-157. ]

[13]	李思杰, 朱炜, 黄兆东. 基于WIFI数据的城市轨道交通乘客出行时空轨迹推定[J]. 华东交通大学学报, 2017, 34(2):85-92. [ Li S J, Zhu W, Huang Z D. Travel time-space trajectory characterization of urban rail transit network based on WIFI data[J]. Journal of East China Jiaotong University, 2017, 34(2):85-92. ]

[14]	徐洋, 孙建忠, 黄磊, 等. 基于WiFi定位的区域人群轨迹模型[J]. 山东大学学报(理学版), 2019, 54(5):8-20. [ Xu Y, Sun J Z, Huang L, et al. Trajectory model of area crowd based on WiFi positioning[J]. Journal of Shandong University (Natural Science), 2019, 54(5):8-20. ]

[15]

朱晨迪, 贾俊, 张斌, 等. 融合地图信息与 WiFi地标的室内粒子滤波定位算法[J]. 山东科技大学学报(自然科学版), 2020, 39(1):91-99.

[ Zhu C

, Jia

, Zhang

, et al. Indoor particle filter positioning algorithm based on fusion of map information and WiFi landmark[J]. Journal of Shandong University of Science and Technology(Natural Science), 2020, 39(1):91-99. ]

[16]	高文超, 李国良, 塔娜. 路网匹配算法综述[J]. 软件学报, 2018, 29(2):225-250. [ Gao W C, Li G L, Ta N. Survey of map matching algorithms[J]. Journal of Software, 2018, 29(2):225-250. ]

[17]	Thiagarajan A, Ravindranath L, LaCurts K, et al. VTrack: accurate, energy-aware road traffic delay estimation using mobile phones[C]//Proceedings of the 7th ACM Conference on Embedded Networked Sensor Systems - SenSys '09. New York: ACM Press, 2009.

[18]	郑诗晨, 盛业华, 吕海洋. 基于粒子滤波的行车轨迹路网匹配方法[J]. 地球信息科学学报, 2020, 22(11):2109-2117. DOI [ Zheng S C, Sheng Y H, Lv H Y. Vehicle trajectory-map matching based on particle filter[J]. Journal of Geo-Information Science, 2020, 22(11):2109-2117. ]

[19]	Yang J H, Sun J A. Vehicle path reconstruction using automatic vehicle identification data: An integrated particle filter and path flow estimator[J]. Transportation Research Part C: Emerging Technologies, 2015, 58:107-126. DOI

[20]	阮树斌, 王福建, 马东方, 等. 基于车牌识别数据的机动车出行轨迹提取算法[J]. 浙江大学学报(工学版), 2018, 52(5):836-844. [ Ruan S B, Wang F J, Ma D F, et al. Vehicle trajectory extraction algorithm based on license plate recognition data[J]. Journal of Zhejiang University (Engineering Science), 2018, 52(5):836-844. ]

[21]	Erceg V, Greenstein L J, Tjandra S Y, et al. An empirically based path loss model for wireless channels in suburban environments[J]. IEEE Journal on Selected Areas in Communications, 1999, 17(7):1205-1211. DOI

Options

文章导航

模态框（Modal）标题

摘要

本文引用格式

Abstract

1 引言

2 数据来源及预处理

2.1 WiFi探针数据

表1 WiFi探针数据中的问题

表2 清洗之后的数据记录样例

2.2 路网时空数据

图1 滤波前后的路段行程速度分布

3 出行轨迹提取

3.1 基于局部评价的路网匹配

图2 匹配错误示意

图3 候选点计算示意

图4 候选点集序列提取示意

图5 局部评价算法迭代过程示意

3.2 丢失轨迹重构

4 实验结果及分析

4.1 数据源介绍

图6 实验区域探针点位及路网分布

4.2 实验结果

图7 轨迹提取实例

表3 轨迹提取实例结果统计

表4 轨迹重构整体情况

图8 轨迹重构情况时间分布

5 结论

参考文献