
  • 朱进 , 1 ,
  • 江南 , 2, 3*, * ,
  • 胡斌 2, 3
  • 1. 苏州科技学院环境科学与工程学院,苏州 215009
  • 2. 南京师范大学 虚拟地理环境教育部重点实验室,南京 210023
  • 3. 江苏省地理信息资源开发与利用协同创新中心,南京 210023
*通讯作者:江 南(1957-),男,教授,研究方向为地理信息系统与虚拟地理环境。E-mail:

作者简介:朱 进(1983-),男,江苏南京人,讲师,研究方向为轨迹数据挖掘。E-mail:

收稿日期: 2015-04-13

  要求修回日期: 2015-10-10

  网络出版日期: 2016-02-04



The Application of Multiple Movement Parameters in Trajectory Classification for Moving Objects

  • ZHU Jin , 1 ,
  • JIANG Nan , 2, 3, * ,
  • HU Bin 2, 3
  • 1. School of Environmental Science and Engineering, Suzhou University of Science and Technology, Suzhou 215009,China
  • 2. Key Laboratory for Virtual Geographic Environment, Ministry of Education, Nanjing Normal University, Nanjing 210023, China
  • 3. Jiangsu Center for Collaborative Innovation in Geographical Information Resource Development and Application, Nanjing 210023, China
*Corresponding author: JIANG Nan, E-mail:

Received date: 2015-04-13

  Request revised date: 2015-10-10

  Online published: 2016-02-04


朱进 , 江南 , 胡斌 . 移动对象多种运动参数在轨迹分类的应用[J]. 地球信息科学学报, 2016 , 18(2) : 143 -150 . DOI: 10.3724/SP.J.1047.2016.00143


The purpose of trajectory classification is to predict the class labels of unknown trajectories in terms of the trajectory characteristics. Trajectory classification has many real-world applications, for examples: suspicious vehicles identification, illegal fishing vessels detection, transportation mode detection, etc. Currently, most trajectory classification methods only take two movement parameters which are speed and acceleration into account, and only employ simple statistics such as the mean, median and maximum values, thus they can't fully explore the characteristics of trajectories, which leads to relatively low classification accuracy. In order to solve this problem, based on a thorough literature review on movement parameters and quantitative statistics, this paper proposes a trajectory classification method based on the movement characteristics of moving objects. For movement parameters of velocity, acceleration, sinuosity, direction and turning angle, this method employs statistics such as skewness, kurtosis, coefficient of variation and autocorrelation from time series analysis to construct discriminative global features. In addition, this method extracts local features from sub-trajectories after trajectory segmentation. For direction and turning angle, this method incorporates directional statistics to compute their features accurately. The experimental results of this method based on three real trajectory datasets including vessel, wild animal and hurricane datasets, indicate that the classification accuracies of this method are 100%, 80% and 71.43% respectively. The experiments verify the movement features constructed in this paper are discriminative and effective.

1 引言

轨迹分类方法可分为2类,第1类分类方法利用数据挖掘和机器学习方法,对轨迹建模或构建复杂的特征并分类。文献[12]先对子轨迹用高斯混合模型(Gaussian Mixture Models,GMM)建模,再对整条轨迹用隐马尔可夫模型(Hidden Markov Model,HMM)进行分类。文献[13]对子轨迹构建基于区域和轨迹聚类的特征,基于区域的特征是几乎只包含一类轨迹的区域;轨迹聚类特征是几乎只包含一类轨迹的聚簇。该方法的局限性在于它仅考虑了轨迹的空间信息,而忽略了轨迹的运动特征,考虑下面2种情况:首先,如图1所示,如果移动对象的空间活动范围几乎重叠,几乎不可能构建基于区域的特征或轨迹聚类特征;其次,如图2所示,如果一条轨迹不属于一个区域(蓝色矩形为2级飓风的区域特征)或不接近任何轨迹簇,则该轨迹为异常轨迹,如图中橙色飓风,不具有任何特征。文献[14]把持续时间信息引入轨迹分类并生成了2类特征:基于持续时间的区域和有速度差别的路径,但特征提取方法过于复杂。文献[15]研究了道路网络上的轨迹分类,并使用频繁序列模式作为判别特征进行分类,该方法需要道路网络来构建特征。第2类轨迹分类方法对交通轨迹分类,应用于交通模式检测。Zheng等[7]提取了轨迹长度、移动对象速度和加速度等特征,并利用机器学习方法(决策树、支持向量机、贝叶斯网络和条件随机场)进行分类。在随后的工作中,Zheng等[6]采用了3个新特征:方向变化率(heading change rate),停止率(stop rate)和速度变化率(velocity change rate),以提高分类精度。文献[16]采用模糊逻辑方法,并以速度和加速度作为分类特征。文献[10]同样以速度和加速度作为特征,并利用方差分析(analysis of variance, ANOVA)来选择最佳的判别特征。Sun和Ban对卡车和小汽车分类,结果表明,加速度和减速度的变化是最有区分力的特征[11]。文献[8]利用GIS信息(开放街道地图数据,Open Street Map)来辅助GPS轨迹分类,该方法用速度信息以及距交通网络(公共汽车线路、地铁线、道路路网)的邻近指数来作为特征。文献[9]从轨迹中提取全局和局部运动特征(速度、加速度)进行分类,全局特征从整条轨迹中提取,局部特征从子轨迹中提取。回顾基于交通模式检测的轨迹分类方法,可以发现它们通常只采用速度、加速度这2个运动参数进行分类,且对这2个运动参数大多只利用简单的统计量如平均值、中值、最大值来构建特征,没有充分挖掘出轨迹的特点。
Fig. 1 Animal dataset including three types of animals

图1 3种动物的轨迹数据集

Fig. 2 Hurricane dataset, including scale 2 and scale 3 hurricanes

图2 飓风数据集(包含2、3级飓风)

本文基于文献[9]的全局和局部运动特征分类方法,通过全面总结关于运动特征及其统计量的相关文献,归纳构建了更有区分力和稳定的全局特征,并利用支持向量机(Supporting Vector Machine,SVM)[17]进行轨迹分类,以期提出一种简单、灵活、精确的轨迹分类方法,提出的特征可用于交通模式检测等应用。对速度、加速度、曲率、方向和转角等运动参数,利用偏度系数、峰度系数、变异系数和自相关系数等高级的统计量得到了有区分力的全局运动特征;对方向和转角,引入方向统计学(Directional Statistics)来计算其运动特征。实验利用了3个真实轨迹数据集来评估该方法,结果显示本方法构建的运动特征在不同数据集下有效可行。

2 基于运动特征的轨迹分类

本方法如图3所示,包含3个步骤:(1)轨迹预处理:去除异常、重采样和噪声平滑;(2)全局和局部特征提取;(3)主成分分析(Principal Component Analysis,PCA)[18]降维和SVM分类。步骤(1)、(3)可参考文献[9],本文详述步骤(2)。
Fig. 3 Trajectory classification according to global and local movement characteristics

图3 利用全局和局部运动特征进行轨迹分类

2.1 全局运动特征

为提取全局特征,首先计算出每个采样点或每个轨迹段的运动参数,然后对运动参数计算统计量如均值、中位数、标准差等作为全局特征。文献[9]共采用6个全局特征,对速度、加速度以及曲率分别计算均值和标准差。轨迹可表示为一个点序列 P i P 1 , P 2 , , P n ,每个点 P i 包含位置 x i , y i 和时间 t i ,即 P i = x i , y i , t i 。利用式(1)-(5),可计算出速度( v i ),加速度( a i )和曲率( s i ),其中, dist P i , P i + 1 P i P i + 1 之间的欧氏距离。
d i = dist P i , P i + 1 (1)
t i = t i + 1 - t i (2)
v i = d i / t i (3)
a i = v i + 1 - v i / t i (4)
s i = dist P i - 1 , P i + dist P i , P i + 1 / dist P i - 1 , P i + 1 (5)
本研究的全局运动参数包含5个:速度、加速度、曲率、方向和转角。曲率(sinuosity)为两点之间的移动距离与两点之间的直线距离之比,可揭示路径的弯曲度。方向(direction)和转角(turning angle)如图4所示。方向是连续采样点之间的移动方向,它用方向和基本方向(如北)之间的夹角来表示;转角可通过计算连续方向之间的差异而得到。文献[6]采用式(6)计算转角(文献[6]把方向和转角称为heading和heading change):
p i · turnAng = p i + 1 · direct - p i · direct (6)
Fig. 4 Direction and turning angle

图4 方向和转角

本研究通过方向统计学[20]来计算,采用以下统计量计算上述运动参数特征:均值、中位数、标准差,变异系数、最大的3个数、最小的3个数、自相关系数、偏度系数和峰度系数。变异系数(coefficient of variation)是标准差除以均值的商,是描述数据散布程度的标准度量。最大的3个数来源于文献[7],用最大的3个数,而不是最大值主要是考虑到GPS的定位精度和误差。同样,本研究还包含最小的3个数。偏度(skewness)和峰度(kurtosis)衡量统计分布的形状,偏度衡量分布的不称性,峰度衡量分布的陡峭程度。自相关系数(autocorrelation)是时间序列分析[21]中的概念,衡量不同步长下观测值的相关程度。时间序列可表示为序列 x t x 1 , x 2 , , x N 。为了计算自相关系数,可先用式(7)计算自协方差系数 c k
c k = 1 N t = 1 N - k x t - x ¯ x t + k - x ¯ (7)
式中: k 为时滞;N为序列的长度。
然后,再利用式(8)计算时滞为1的自相关系数 r 1 ,其中c0c1利用式(7)计算得到。
r 1 = c 1 c 0 (8)
Fig. 5 The direction representation of X using angle θ

图5 通过角θ表示X的方向

方向可以表示为单位向量 X 或单位圆上的点。设定单位圆的基本方向(如东)后,则点 X 可以通过角度 θ 利用式(9)表示,如图5所示:
X = cosθ , sinθ T (9)
(1)方向均值(Mean Direction)
给定单位向量 X 1 , , X n ,以及相应角度 θ i , i = 1 , , n ; θ 1 , , θ n 的方向均值 θ ¯ X 1 + + X n 的合成向量(合力) X ¯ 的方向(合力大小为 R ¯ ); X j 用坐标 cos θ j , sin θ j 表示,其中, j = 1 , , n ; X ¯ 的坐标为 ( C ¯ , S ¯ )
C ¯ = 1 n j = 1 n cos θ j , S ¯ = 1 n j = 1 n sin θ j (10)
R ¯ >0时, R ¯ 通过式(11)计算:
R ¯ = C ¯ 2 + S ¯ 2 1 2 (11)
R ¯ = 0 时, θ ¯ 没有定义,当 R ¯ < 0 时, θ ¯ 通过式(12)计算:
θ ¯ = arctan S ¯ C ¯ if C ¯ 0 arctan S ¯ C ¯ + π if C ¯ < 0 (12)
(2)方向中值(Median Direction)
θ 1 , , θ n 的方向中值 θ ˜ 是满足以下2个条件的角度 ϕ :(1)一半数据点位于弧度区间 ϕ , ϕ + π ;(2)大部分的数据点更接近 ϕ 而不是 ϕ + π 。当样本数 n 是奇数,方向中值是角 θ 1 , , θ n 中的一个,当 n 是偶数时,它是2个相邻角度的中点。
(3)圆周方差(Circular Variance)
为衡量方向的散布,可利用式(13)的圆周方差计算( 0 R ¯ 1 ):
V = 1 - R ¯ (13)
(4)圆周标准差(Circular Standard Deviation)
圆周标准差用式(14)计算,其中, v [ 0 , ) 取值,而 V 0,1 取值。
v = - 2 log 1 - V 1 2 = - 2 log R ¯ 1 2 (14)
(5)两个角度之间的距离(Distance between angles)
式(6)不能直接用来计算转角。如图6所示, P 1 P 2 P 3 是一条轨迹上的3个连续点,基本方向为东。假设 α = 20 ° , β = 330 ° ,利用式(6)来计算转角γ,则 γ = 20 ° - 330 ° = 310 ° γ 应为 20 ° + ( 360 ° - 330 ° ) 。转角代表2个角度之间的距离,因此,可利用式(15)来计算 α β 之间的转角:
1 - cos ( α - β ) (15)
Fig. 6 Calculation of the turning angle

图6 转角的计算

2.2 局部运动特征


3 轨迹分类实验分析

本实验的运行环境:CPU为Intel® Core™ i5-2400 3.10 GHz 4核CPU,内存为4GB,操作系统为Windows® 8.1 64位。利用方向统计学Matlab工具箱CircStat toolbox[22]计算方向和转角的特征,其他特征使用C++计算。用R语言进行分类,其中PCA和SVM分别使用psych(和e1071 R(包,e1071使用LIBSVM[23-24]库作为SVM实现。为测试分类精度,本实验采用文献[10]中的轨迹数据集,分别 是船舶(、野生动物(和飓风(数据集。

3.1 船舶数据集

船舶数据集中的轨迹来自2艘船只:R/V Point Lobos(船1)和ROV Ventana(船2),分别作为2类轨迹。两船的GPS采样频率都为10 s,轨迹数目分别是12和15,所有数据集随机选择20%的轨迹作为测试轨迹。
计算局部特征时需要指定运动参数时间序列曲率的阈值参数,对3个数据集,在0.3到0.9范围之内通过实验分析,发现0.6作为阈值参数较为合理,因此,实验采用0.6作为阈值参数。这与文献[9]的阈值0.95不同,原因可能是数据集的GPS采样频率不同,文献[9]数据集的采样频率是1 s。
Tab. 1 Classification accuracy for vessel dataset

表1 船舶数据集的分类精度

特征 RB-TB G1(L) L1(L) G1+L1(L) G2(L)
精度 / (%) 40 80 100 100 100
表1可看出,RB-TB的精度最低,而G1(L)精度为80%,这说明仅通过空间信息进行分类的方法并不可靠。L1(L)和G1+L1(L)的精度均为100%,表明局部特征的有效性。G2(L)的精度也为100%,表明本文方法的全局特征比文献[9]的全局特征更有区分力。由于L1(L)、G+L1(L)和G2(L)的精度已经达到100%,因此,实验没有用RBF核作对比 实验。
Tab. 2 The meanings of prefixes in statistics

表2 统计量前缀的含义

前缀 含义 前缀 含义 前缀 含义
M1 均值 B1 最小值 AUTO 自相关系数
M2 中值 B2 第二小值 S 偏度系数
T1 最大值 B3 第三小值 K 峰度系数
T2 第二大值 STD 标准差
T3 第三大值 CV 变异系数
Fig. 7 The boxplots of statistics for vessels

图7 船舶数据集运动特征的箱线图

3.2 野生动物数据集

Tab. 3 Classification accuracy for wild animal dataset

表3 野生动物数据分类精度

特征 精度 / (%) 特征 精度 / (%)
RB-TB 36.67 G1(L) 40
L1(L) 36.67 L1(R) 56.67(21)
G1+L1(L) 40 G1+L1(R) 53.33(9)
G2(L) 80 G2(R) 43.33(18)
G2+L1(L) 80 G2+L1(R) 73.33(18)
Fig. 8 The boxplots of global features for animals

图8 动物数据集全局特征的箱线图

3.3 飓风数据集

飓风数据集使用1950-2012年大西洋飓风数据,采样频率为6 h。实验选取萨菲尔-辛普森飓风等级[25]为2和3的飓风,轨迹数分别为67条和77条。
Tab. 4 Classification accuracy for hurricane dataset

表4 飓风数据集的分类精度

特征 精度 / (%) 特征 精度 / (%)
RB-TB 50 G1(L) 46.43
L1(L) 46.43 L1(R) 71.43
G1+L1(L) 39.29 G1+L1(R) 64.29
G2(L) 53.57 G2(R) 67.86
G2+L1(L) 57.14 G2+L1(R) 71.43

3.4 轨迹分类结果分析

对于船舶、动物和飓风数据集,精度分别达到了100%、80%和71.43%。精度呈降序排列,本文认为这与轨迹的采样频率有关,其中,3个数据集采样频率分别为10 s,几十分钟至一两个小时和6 h。随着采样频率的增大,计算出的统计信息将变得更加准确,特别是速度、加速度等物理量。以飓风数据集为例,萨菲尔-辛普森飓风等级是持续1 min的平均风速的最大值[25]。若飓风的采样频率为1 min,则可对飓风准确分类。因此,采样间隔越小,分类精度越高。
由于全局和局部特征数量较多,且不同类型的轨迹分类,特征的重要性会有差异(如区分行人和汽车,一般采用速度即可区分),因此,特征选取对轨迹的分类精度有重要影响。由于特征数目较多且其中许多特征可能具有相关性,因此,本研究采用PCA进行降维。对于特征选取问题,如果有领域专家知识(如萨菲尔-辛普森飓风等级按照持续 1 min的平均风速最大值来分类),则可以利用领域专家知识来辅助选取特征,如果没有领域专家知识,则可采用探索性数据分析方法[26]、方差分析等方法来选取特征。实验分析中的箱线图展示了本文选取特征的有效性,在实际应用中,可使用箱线图作为探索性数据分析工具来辅助特征选取。针对具体的轨迹类型,利用领域专家知识或其他特征选取方法,从本文提出的众多特征中合理选择特征进行分类,才能获得最好的分类效果。

4 结论


