Spatial-temporal trajectory classification aims at predicting the category of a spatial-temporal trajectory. The classification of spatial-temporal trajectories plays an important role in urban planning, personalized user recommendation and so on. The process of trajectory classification includes three stages: trajectory preprocessing, feature extraction and classification. This paper reviews the recent research progress on trajectory classification. Firstly, we introduce the process of trajectory classification. Then, the trajectory classification algorithms are classified into three categories according to the method of feature extraction, including the trajectory classification algorithm based on motion feature, the trajectory classification algorithm based on classification rule and the trajectory classification algorithm based on image signal analysis. We also discuss the basic ideas, advantages and disadvantages of these algorithms. Thirdly, we compare the existing classification algorithms according to the sensors, feature extraction and classifiers used in these algorithms. Finally, we introduce the challenges of the existing trajectory classification algorithms.

1 引言

近年来,随着智能采集设备的发展,研究人员很容易收集用户的时空轨迹数据,如可利用移动手机、全球定位系统GPS、加速度计等采集轨迹数据。轨迹数据挖掘的研究包括时空轨迹的聚类分析、伴随模式挖掘、频繁模式挖掘以及轨迹分类等。时空轨迹分类指通过训练轨迹数据建立一个模型,通过这个模型可以预测一条轨迹的类别。轨迹分类具有重要的应用价值,包括智能城市交通规划,识别用户轨迹的交通模式,如骑自行车或坐公交或小汽车[1-3],识别可疑车辆,识别飓风轨迹的强度值[4-5],识别出租车的载客、空载或停靠等状态[6],以及识别轨迹是否为异常轨迹等[7]。Krumm等[8]提出基于wifi数据的时空轨迹分类算法,使用隐马尔可夫模型将轨迹划分为停留与运动2类,Yin等[9]提出DBN模型,最低一层为wifi信号,基于该层向上挖掘分析,最终得到用户活动的目的。随着GPS精准定位的普及,大量的轨迹分类研究开始基于GPS数据,研究者们基于GPS数据提取轨迹的重要特征,建立分类模型,并得到了较高的准确率[10]。Gonzalez等[11]利用GPS收集数据,运用神经网络原理自动识别交通出行方式。其提出了一个关键点算法,过滤一些不必要的GPS数据,而只保留最重要的点的信息。之后,研究者使用平均速度、停留时间等特征以及关键点作为神经网络的输入,取得了较高的准确率[12]。如今,智能手机成为了人们的日常生活必备,而智能手机自带10多种传感器,使研究者可以获得多种数据,轨迹研究更加精确。 Assemi等[13]利用手机上的一个应用ATLAS II(Advanced Travel Logging Application for Smartphones II)收集数据,该应用运行于手机后台,记录手机的经度纬度、速度、方向、时间戳等信息,当用户停留时间超过一定阈值时停止记录。除了对传感器所收集到数据分析之外,Wang等[14]发现,大量的用户位置信息可以从CDR(Call Detail Records)-呼叫详细记录中收集到。该类数据在用户打电话、发短信或浏览网页时会自动产生,因此数据较便宜并且容易获取。通过该类数据研究者可以分析出用户的旅行信息-用户标识,目的地,开始时间,结束时间。

2 时空轨迹分类过程

Fig. 1 The process of trajectory classification

图1 轨迹分类过程图

轨迹预处理主要包括轨迹重采样、去噪、分段等过程。轨迹重采样指通过插值等手段使轨迹采样点间的时间间隔相同,便于后续轨迹挖掘。在一些使用多种数据综合考虑的场合,对数据进行重采样十分重要。轨迹去噪指去除轨迹数据中的噪声点,Lin等[17]使用Kalman Filter平滑轨迹,如图2所示,平滑后的走路段轨迹的速度累积分布函数与平滑前的累积分布函数对比图,发现平滑后走路明显更加符合人类的认知,走路段的速度均小于4 m/s。
Fig. 2 Cumulative distribution function of velocity[17]

图2 速度的累积分布函数图[17]

Zheng等[18]使用决策树、支持向量机、贝叶斯网络、条件随机域4种分类手段分别将轨迹数据划分为走路、骑车、公交、私家车4种类型,结果发现决策树的分类效果最好。Jahangiri等[19]使用k近邻、支持向量机、决策树、Bagging与随机森林5种分类手段将轨迹划分为包括走路在内的5种类别,其准确率为90%以上。Shafique等[20]使用支持向量机、神经网络、决策树、Boosted Decision Tree、随机森林与朴素贝叶斯分别进行实验,发现随机森林与boosted decision trees分类精度最高,但是随机森林的计算速度更快,更适合轨迹分类。
除了使用单独的一种分类器完成轨迹分类任务以外,许多研究者使用多阶段分类的方式。 Reddy等[21]考虑到轨迹前后模式的转化概率,即一段轨迹属于某种类别的概率与前后段轨迹所属类别相关。首先使用决策树确定每一段属于某种运动模式的概率,然后将此概率作为隐马尔可夫模型的输入,实验最高精确度达到93.6%。

3 时空轨迹分类算法


3.1 基于运动特征的时空轨迹分类算法

在特征提取过程中,Zheng等发现不同的运动模式在停留的次数多少、运动方向变化程度等方面不同,从图3、4可看出,走路,开车与坐公交的停留次数存在较大差异;走路与开车的运动方向改变频率也存在较大差异。因此,提出了3种有效的特征值,分别为Heading change rate (HCR),Stop Rate (SR)与Velocity Change Rate (VCR),分别表示一段轨迹中运动方向超过一定阈值、速度小于一定阈值以及速度变化超过一定阈值的采样点个数的比例。
Fig. 3 Speed changes of different traffic modes[3]

图3 不同交通模式速度变化情况[3]

Fig. 4 Different trajectories of different traffic modes[3]

图4 不同交通模式轨迹[3]

Su等[16]提出了基于智能手机的交通模式识别算法。通过智能手机上的加速度计、重力传感器以及气压计得到特征值,并使用XSTND、YMAX、ZSTND 3个重要特征值,分别代表三维空间中的x、y、z轴上的加速度的标准差与最大值。
Fig. 5 The classification model

图5 分类模型

Biljecki等[1]认为移动模式的转换中间应该存在停留点,同时信号缺失点也可能是移动模式转换点,因为模式的转化可能引起信号的短暂缺失,如在火车站里面信号不好。该分段算法计算每一个采样点的速度,如果连续12 s时间间隔内采样点的速度都未超过2 km/s,则认为该处发生了停留,标记为分段点。同时,查看连续采样点间的时间间隔,如果间隔大于30 s,则认为信号缺失,标记为分段点。但这种方法不能识别运动模式的转换中间没有经过短暂停留的情况。Biljecki利用GIS信息(开放街道地图数据,Open Street Map)来辅助GPS轨迹分类。该方法使用速度信息以及距交通网络(公共汽车线路、地铁线、道路路网)的邻近指数来作为轨迹的特征值。

3.2 基于分类规则的时空轨迹分类算法

Lee等[4]首先对轨迹进行考虑类别的分段,认为轨迹的一些重要属性可能存在于轨迹的部分段中,因此提出一种考虑轨迹标签的分段方法。如图6所示,图中虚线与实线表示不同的2类轨迹段。对于分类来说,明显前半段更加重要。因为与虚线同一类的轨迹不会出现在前半段,所以需要把实线分段,提取出前半段。该方法首先将轨迹段通过计算MDL(Minimum Description Length)值,找到在形状上发生较大变化的地方进行分段,然后考虑每一段的起点与终点附近的其他类型的段的个数是否大于一定阈值,如果大于阈值则分段。
Fig. 6 Trajectory segmentation for critical segments

图6 重要轨迹分段

Fig. 7 Regional classification rules[4]

图7 区域分类规则[4]

Fig. 8 The flow diagram of Patel D algorithm

图8 Patel D算法流程图

3.3 基于图像信号分析的时空轨迹分类算法

该类轨迹分类算法将轨迹路径看作信号序列或者图像形式,并试图确定产生信号或图像的轨迹类别。首先将轨迹信息转换为信号或图像,并从中提取轨迹的特征。该类轨迹分类手段面临的主要问题是:① 如何将轨迹转换为图像或信号;② 如何处理不同长度的轨迹;③ 如何提取特征,对于每一段轨迹应该提取何种特征;④ 如何将时间信息考虑在轨迹分类当中。
Fig. 9 The process of changing a trajectory into an image[31]

图9 轨迹转换为图像过程[31]

4 时空轨迹分类算法比较

Tab. 1 Comparison of classification algorithms of different trajectories

表1 各轨迹分类算法比较

算法类别 轨迹采集方式 分类器 轨迹特征 作者 优缺点
运动特征 GPS 专家系统 最大速度的95%,平均速度,平均移动速度,段出现的位置是否有基础设施且接近程度值 Biljecki F[1] 该类方法结合轨迹的特点以及统计学知识,提取具有较强识别能力的运动特征,但没有考虑到轨迹出现的地点以及具体时间信息
GPS 决策树、支持向量机、贝叶斯网络、条件随机域 角度变化率 (HCR),停留次数比例 (SR)与速度变化率 (VCR) Zheng Y[3, 18]
GPS 无监督学习 最大速度分布情况 Lin M[17]
GPS 决策树+隐马尔可夫 单条轨迹特征,前后段轨迹类别转换特征,地理数据特征 Zhu Y[6]
GPS、加速度计数据、陀螺仪数据 k近邻、支持向量机、决策树、Bagging与随机森林 加速度、速度、谱熵等165个特征值 Jahangiri A[19]
GPS 支持向量机 运动轨迹的全局特征与局部特征 朱进[23]
GPS 支持向量机 加速度、减速度、加速度和减速度标准偏差 Sun Z[32]
加速度计、 陀螺仪 支持向量机、神经网络、决策树、Boosted Decision Tree、随机森林与朴素贝叶斯 两传感器数据标准差、偏度和峰度 Shafique M A[20]
GPS 神经网络 平均速度、停留时间、关键点信息等 Gonzalez P A[11]
GPS 高斯混合模型 速度信息 Zhu W[15]
GPS,加速度计 决策树+隐马尔可夫模式 均值,方差等 Reddy S[21]
GPS、真实交通数据 贝叶斯、决策树、随机森林 速度信息、平均车辆亲密度、平均铁路亲密度、平均候选车辆亲密度 Stenneth L[33]
GPS 支持向量机 速度、加速度 Bolbol A[22]
gms、wifi 决策树 基站信息、信号强度、接入wifi的持续时间等 Mun M[34]
分类规则 GPS、呼叫详细记录 支持向量机 起点位置、终点位置、从起点到终点的运动时间 Wang H[14] 该类方法充分利用训练数据,挖掘具有较强识别能力的分类规则,考虑到轨迹的时间以及地点信息,但仅适用于训练数据足够充分,便于挖掘规律的情况
GPS 支持向量机 区域分类规则、路径分类规则 Brinkhoff T[28]、Lee J G[4]
Patel D[5]
图像信号 加速度计 Adaboost+隐马尔可夫 基于帧的特征、基于峰值的特征(加速度)、基于段的特征值 Hemminki S[35] 该类方法更加注重轨迹形状对轨迹分类结果的影响,但轨迹转化为图像或信号时,并不能将时间信息考虑进去
GPS 支持向量机 墨西哥帽小波、回归系数等5种特征的平均值与标准差 Macdonald A[30]
GPS 逻辑回归、支持向量机、决策树 转化为图像,使用神经网络自动生成特征 Endo Y[31]

5 结论与展望


