Extraction of Muck Truck Operation Behavior Considering Trajectory Restoration and Classification

  • ZHUANG Hanchen , 1, 2 ,
  • ZHANG Yaru 1, 2 ,
  • WANG Wenxuan 1, 2 ,
  • ZHANG Shuliang , 1, 2, *
Expand
  • 1. Key Laboratory of VGE of Ministry of Education, Nanjing Normal University, Nanjing 210023, China
  • 2. Jiangsu Center for Collaborative Innovation in Geographical Information Resource Development and Application, Nanjing 210023, China
*ZHANG Shuliang, E-mail:

Received date: 2022-06-16

  Revised date: 2022-08-19

  Online published: 2023-04-19

Supported by

National Natural Science Foundation of China(42071364)

Abstract

The muck truck trajectory data contain rich behavior pattern information, including key features such as parking behavior, transportation paths, abnormal activities, and muck loading and dumping OD points, etc. It has gradually become the main data source for operation monitoring and operation behavior supervision of muck trucks. However, at present, the traditional sign-in system of vehicle-mounted GPS data combined with site electronic fences is still commonly used in extraction of the muck truck operation behavior, which has a series of problems such as mutual inclusion and overlap between the electronic fence and the road. Aiming at the problem of misjudgment of vehicle operation in traditional extraction of muck truck operation behavior, this paper proposes a muck truck operation behavior extraction method considering trajectory restoration and classification. Firstly, the operation behavior pattern of muck trucks is recognized from two aspects: motion state and geometric form. Secondly, the stopping point extraction algorithm taking into account time and distance is used to extract the vehicle stopping point, and the mapping relationship between the stopping point and the trajectory is processed to complete the trajectory matching based on the stopping point. Then, the average similarity function is constructed to enhance the semantic information of the trajectory. Finally, the SR-LGBM algorithm is proposed to filter the operating trajectory and non-operating trajectory and extract the operation behavior of muck trucks. The test results show that the accuracy of the proposed method is 97.29%, which is significantly improved compared with the traditional classification algorithms such as GaussianNB and Logistic Regression. Our proposed methods effectively solve the misjudgment problem caused by the overlap of electronic fences and roads or multiple fences, and can accurately and efficiently extract the operation behavior of muck trucks.

Cite this article

ZHUANG Hanchen , ZHANG Yaru , WANG Wenxuan , ZHANG Shuliang . Extraction of Muck Truck Operation Behavior Considering Trajectory Restoration and Classification[J]. Journal of Geo-information Science, 2023 , 25(4) : 754 -765 . DOI: 10.12082/dqxxkx.2023.220414

1 引言

渣土车作为城市建设的运输主体,其行为包括工地装载、道路运输与土场倾倒3个主要阶段。由于作业过程的复杂性与工地环境的特殊性,工地装载阶段作为渣土车作业行为,是整个渣土车行为过程中最为重要的一环。然而由于目前缺乏有效的监管手段,渣土车违规作业现象频发,对城市环境、居民生活及社会发展造成了很大影响,因此亟需对渣土车作业行为进行探测与提取。
目前停车打卡的传统管理方式会降低车辆工作效率,且易受人为因素影响,具有一定的不确定性。应用车载GPS结合电子围栏签到是一种新的监管模式,但该方法仍存在一定局限,如电子围栏与道路重叠、多个电子围栏交叉重合等问题,导致错报误报、签到信息冗余和车辆作业误判等情况。
近年来,随着行为模式研究的发展,从海量的轨迹定位数据中提取行为模式并分析其时空分布规律已成为大数据时代车辆行为提取的主要手段。根据车辆轨迹数据行为提取方式的不同,可分为轨迹聚类方法、时间序列方法、密度分析方法与机器学习方法等。轨迹聚类通过识别停留点[1],将连续的轨迹分成若干段具有相似形态的轨迹簇,形成热点路径以推测车辆行为模式,例如向隆刚等[2]提出关联于地理空间要素的Stop/Move模型,研究轨迹主体相对于地理空间要素的时空模式,但该方法存在一些不符合现实的假设条件,对停留期间的行为识别及其定量化还存在一定的难度。时间序列方法针对间隔采样的车辆轨迹数据能够实现较好的相似性度量,Liu[3]基于海量出租车轨迹数据,通过改进GSP算法挖掘轨迹特征,实现对出租车行为模式的分析;兰志辉等[4]提出了一种基于时间序列聚类的停留点检测算法,能有效检测不规则采样轨迹中的停留点。时间序列方法在挖掘车辆行为规律方面较为简单[5],但轨迹数据转时间序列数据时存在信息损失,导致出现行为模式的误识别。密度分析方法利用离散的轨迹点或轨迹线数据生成连续曲面,识别出车辆集聚区域,从而推测该区域车辆时空分布模式[6-8],例如,SIRIPIROTE等[9]基于轨迹数据和路网信息得到停留时间、与最邻近道路距离等特征的概率密度分布,采用最大熵模型与极大似然估计方法,识别跨城运输货车的装卸点和休息点,但较为依赖宽带,对轨迹数据集要求极高;李军等[10]基于客运班车轨迹数据,通过建立格网索引改进DBSCAN算法,实现对道路客运班车停留站点位置的提取,但算法参数的选取对提取效果有一定的影响。随着机器学习方法的发展,其自发、主动的特征学习能力极大满足了轨迹数据行为提取的需求[11],常用的算法包括逻辑回归[12]、提升树[13]、朴素贝叶斯[14]、神经网络[15-16]、支持向量机[17-18]、随机森林[19]及遗传算法[20-21]等,如Wang等[22]提出了基于LGBM算法的交通方式分类方法,实现了从GPS轨迹数据中识别包括步行、骑自行车、乘坐公共汽车、乘坐出租车、驾驶汽车、乘坐地铁和乘坐火车7种交通方式。
我国重型货车基本实现了车载定位装置的全覆盖,通过全程定位产生的时空轨迹数据使得利用轨迹研究渣土车行为模式成为可能。然而,上述轨迹行为挖掘研究多基于出租车轨迹数据开展,渣土车区别于出租车具有其独特的作业模式,需要针对渣土车作业轨迹模式与特征进行深入研究。
本文提出一种顾及轨迹还原与分类的渣土车轨迹数据作业行为提取方法。通过认知渣土车作业行为,识别渣土车作业行为模式,基于停留点匹配轨迹,再对匹配轨迹的语义信息进行增强,还原得到包含整个作业行为的轨迹信息,最后利用本文提出的SR-LGBM算法提取渣土车作业行为。本文创新性地提出平均相似值函数与SR-LGBM算法,通过集成化建模思维,提出基于轨迹数据的渣土车作业行为提取新思路。

2 研究方法

本文提出顾及轨迹还原与分类的作业行为提取方法,该方法通过分析渣土车作业模式,还原渣土车作业行为的完整轨迹,再对轨迹分类以提升精度,技术路线如图1所示:① 认知渣土车作业行为,分析其作业轨迹的运动与几何形态,识别渣土车作业行为模式具体阶段;② 提取停留点并过滤,在停留点的支持下完成轨迹匹配;③ 利用最小二乘准则拟合路线,基于相似性分割轨迹,增强匹配轨迹的语义信息,至此完成车辆作业轨迹的还原;④ 提取轨迹关键特征参数,提出SR-LGBM算法进行轨迹分类,剔除非作业行为,最后得到渣土车作业轨迹。
图1 渣土车作业行为提取方法流程

Fig. 1 Extraction of the muck truck operation behavior

2.1 渣土车轨迹数据作业行为模式识别

渣土车作业行为发生在工地内部及周边,根据作业过程中车辆轨迹的运动状态和几何形态差异,可以将其概括为准备阶段、持续阶段和完结阶段 3个阶段(图2图3),这3个阶段共同组成了渣土车作业行为模式。① 准备阶段。渣土车在道路减速,发生转向,离开主干道并经短途道路驶入工地。② 持续阶段。渣土车从大门驶入工地执行装载任务。在运输量较大,区域内车辆较多的情况下,渣土车排队会产生连续的短时停留行为;在进行装卸载时,会产生长时停留行为。完成装载后,渣土车从工地出口驶离。③ 完结阶段。渣土车在道路加速,发生转向,经短途道路重回主干道。
图2 渣土车作业行为示意

Fig. 2 The operation behavior of the muck truck

图3 渣土车作业行为阶段示意

Fig. 3 The operation behavior stage of the muck truck

区别于一般移动特征,渣土车作业行为具备特定的运动状态与几何形态,对其作业行为模式进行分析描述。运动状态是渣土车移动特征的表现,集中体现为渣土车轨迹的瞬时速度、加速度和停留时长等;几何形态反映了渣土车轨迹的空间关系,体现为路网距离、转角、轨迹复杂度和驶入驶出点差异等。其中停留时长表示渣土车在作业过程中停留频度和程度,轨迹复杂度表示轨迹形成图形的复杂程度,驶入驶出点差异表示渣土车驶入工地时刻产生的轨迹点与驶出工地时刻产生的轨迹点之间的差异大小。因此渣土车作业行为模式表达为:
P = S p r e p a r e p i , , p j S d u r a t i o n p i , , p j S c o m p l e t e p i , , p j
S p x , , p y = v , a , s s , d , θ , t c , i o
式中: P表示渣土车作业行为模式; S p r e p a r e S d u r a t i o n S c o m p l e t e分别表示准备阶段、持续阶段和完结阶段; S p x , , p y表示由轨迹点 p x至轨迹点 p y构成的某个阶段; v为瞬时速度; a为加速度; s s为停留时长; d为路网距离; θ为转角; t c为轨迹复杂度; i o为驶入驶出点差异。

2.2 基于停留点的轨迹匹配

在轨迹数据中,停留点提取是将空间轨迹转换到语义轨迹的关键步骤[23],一般将停留点分为轨迹中停留点和环绕轨迹停留点[24]。在渣土车作业行为中,轨迹中停留点表示渣土车在同一位置保持静止一段时间,装载时原地停车产生的停留点属于此类型;环绕停留点表示渣土车一段时间在固定的小范围内缓慢移动,连续的多次短时停车排队等候产生的停留点属于此类型。这2种类型的停留点使得作业行为能够与一般移动行为进行区分。目前已有很多关于轨迹停留点识别算法的研究,如基于距离的聚类算法[25]和基于密度的聚类算法[26-27],但由于实际工地的面积和形态存在较大差异,渣土车轨迹点呈现为不同的稠密区域,因此聚类算法参数的选取较为困难。此外,渣土车的装载行为、卸载行为和非作业时段长时停车行为会产生大量速度为0的轨迹点,基于速度的停留点提取算法[28]不能有效地概括停留行为,会产生大量冗余信息,降低后续分析效率。针对渣土车轨迹的独有特征,本文提出了顾及时间与距离的停留点提取算法。该算法跳跃式地向后搜索停留点,不涉及速度阈值,能够有效提取上述2种类型的停留点,避免渣土车停留点识别中的漏判问题,具体方法如下:
假设存在轨迹点集 { p 1 p 2 p t p t + 1 p n },设 R T m i n T m a x分别为距离阈值、间隔下限和间隔上限,将轨迹的起点 p 1作为起始轴心点(图4(a)),将轴心点之后采样的轨迹段定义为后继点,将轴心点之后采样的第一个轨迹点称为直接后继点。停留点提取算法的具体步骤为:
图4 停留点提取算法示意

Fig. 4 The extraction algorithm of stay points

(1)以轴心点为圆心,以 R为半径绘制圆形范围作为探测区域。如果探测区域内不存在轴心点的后继结点,则将轴心点的直接后继结点作为新的轴心点,重复第(1)步。
(2)记探测区域内轴心点的最后一个后继点为 p t图4(b)),计算轴心点与点 p t的时间间隔记作 T,若满足 T m i n T T m a x,则记 p t为停留点,将 p t的直接后继点 p t + 1作为新的轴心点(图4(c));若 T < T m i n T > T m a x,则将当前轴心点的直接后继结点作为新的轴心点(图4(d))。
(3)判断是否访问至尾结点 p n,如果不是,则返回第(1)步;否则,算法到此步结束。
渣土车作业行为受到时间和空间上的约束,作业行为均发生在规定时段内,且作业过程中的装载和排队等候行为均在工地内部产生,故需对停留点集进行过滤,剔除位于工地边界外且非作业时段内的停留点。本文基于过滤后的停留点集匹配轨迹,能够还原停留点对应的工地内轨迹信息,对应渣土车作业行为模式的持续阶段。渣土车在作业期间至少产生一次停留,存在多个停留点对应同一条作业行为的情况,因此轨迹匹配需要处理停留点与轨迹的映射关系。整个轨迹匹配过程的数学表达为:
p i n p o u t t r a j , t r a j m a t c h s e t
s a t y i , s a t y i + 1 , , s t a y n p i n p o u t
s t a y s a t y i , s a t y i + 1 , , s t a y n
f s t a y = t r a j
式中:对于待匹配轨迹 t r a j,存在一组工地内轨迹点集 p i n p o u t包含于 t r a j,在停留点提取算法的输出结果中,有且仅有一组停留点集 s a t y i , s a t y i + 1 , , s t a y n p i n p o u t的子集。对属于 s a t y i , s a t y i + 1 , , s t a y n的任意停留点 s a t y,总有函数 f满足停留点 s a t y到其对应匹配轨迹 t r a j的映射。如图5所示,假设存在停留点集 s t a y 1 , s t a y 2和待匹配轨迹点集 p 1 p 2 p 14,将 s t a y 1 s t a y 2其中之一作为输入即可完成轨迹匹配。
图5 停留点支持下的轨迹匹配示意

Fig. 5 Trajectory matching with stop points

2.3 匹配轨迹的语义信息增强

除持续阶段的轨迹信息,渣土车作业行为包括准备阶段与完结阶段的轨迹语义信息[29]。车辆正常行驶过程中,在交叉路口等复杂的路段也会产生一系列轨迹行为,而此类轨迹并不属于作业行为的准备阶段和完结阶段,故直接对工地内轨迹向外进行补全具有一定的不确定性,容易造成数据噪声的增加。因此需要对工地外部轨迹进行分割,区分车辆其他行为与作业行为,增强匹配轨迹准备阶段与完结阶段的语义信息。本文采用最小二乘准则拟合车辆路线,从速度和几何2个角度出发构建平均相似值函数分割轨迹,增强匹配轨迹的语义信息,使得每段匹配轨迹包含渣土车准备阶段、持续阶段和完结阶段的完整作业行为。
以增强准备阶段轨迹的语义信息为例,首先需要确定探测区域,探测区域选取过小,会缺失部分准备阶段或完结阶段的轨迹信息,如果选取过大,会包含大量与作业无关的轨迹信息,导致噪声数据增加,经实验本文选取以匹配轨迹首节点为圆心的200 m半径范围为探测区域,提取区域内的所有前继轨迹点,按一定规则计算最优分割点,将区域内的所有前继轨迹点分为2个部分,利用最小二乘准则分别对两段子轨迹拟合直线,如图6所示。
图6 匹配轨迹的准备阶段语义信息增强示意

Fig. 6 Semantic information enhancement for the preparation phase of matching trajectories

拟合的直线方程实际上不具有速度和方向信息。为了使其概括子轨迹信息,依据两子轨迹的整体前进方向对拟合直线赋予方向信息,即方位角 α 1 α 2,同时还需计算两段子轨迹各点的平均速度对拟合直线赋予速度信息,即 v ¯ 1 v ¯ 2。根据离匹配轨迹点较近的子轨迹,增强准备阶段轨迹的语义信息。同理,通过计算匹配轨迹尾结点的后继轨迹点,能够实现完结阶段轨迹语义信息的增强。
由于轨迹的分割结果很大程度上决定了语义增强的准确性,区分作业行为与其他车辆行为,合理选取对匹配轨迹进行补全的轨迹段是轨迹语义信息增强中的关键问题。因此本文构建了顾及轨迹速度和几何的平均相似值函数,确定最优分割点,能实现工地外轨迹的最优截取,最小化语义信息增强后轨迹数据的噪声,平均相似值函数如式(7)所示。
F (p) = i = 1 2 j = 1 l i S v j ' - v i ' ¯ , M i n α j - α i , 360 - α j - α i 4 × i = 1 2 l i
式中: p为分割点,即 p及其前继点为第1段子轨迹, p的后继点为第2段子轨迹。为了消除奇异值导致的负面影响,函数中对瞬时速度值进行归一化处理,根据GPS记录点所属子轨迹的区间,使用归一化方法将其限定在 0,1的范围内。 l i为第i条子轨迹中的GPS记录点总数, v i ' ¯为第 i条子轨迹内所有GPS记录点的归一化瞬时速度均值。 α i为第i条子轨迹对应的拟合直线的方位角, v j ' α j分别为第i条子轨迹中第j个GPS记录点的归一化瞬时速度和方位角,j的取值范围大于1并且小于p的前继或后继轨迹点的总数”。 F ( p )数值越大,表明以 p为界进行分割后,两段子轨迹内部的相似值越大;反之越小。当此函数值取最大值时,所对应的 p为最优分割点。
本文假设在子轨迹内部,渣土车具有大小相似的行驶速度与大致同向的行驶方向。在平均相似值函数中, S v , α以当前子轨迹拟合直线的方位角与平均速度为基准,对子轨迹内每一个GPS记录点计算轨迹内相似值,具体计算方法如式(8)所示。
S v ' , α = 4 ω 1 v ' - v ' 2 + ω 2 1 - c o s α 2
式中: v '为当前GPS轨迹点的归一化瞬时速度与其所属子轨迹内所有GPS记录点归一化瞬时速度均值的差异; α为当前GPS轨迹点的方位角与其所属子轨迹方位角的差异; ω 1 ω 2分别为速度和几何2个视角的权值,其中设 ω 1 + ω 2 = 1。当 S v , α值越小时,则表示与其所属子轨迹弱相似;当 S v , α值越大时,则表示与其所属子轨迹强相似,表示此GPS记录点与整体子轨迹比较下具有较高的相似程度,其速度与几何特征与子轨迹总体的差异也越小。

2.4 SR-LGBM轨迹提取算法

根据渣土车作业行为特定的运动状态与几何形态,从瞬时速度、加速度、路网距离、停留时长、转角、轨迹复杂度、驶入驶出点差异7个视角对已得到的轨迹提取轨迹关键特征参数,具体特征描述如表1所示。在路网距离视角中,路网距离中值和路网距离标准差可由路网匹配方法计算得到;在停留时长视角中,累计停留时长比率是指渣土车作业行为过程中累计停留时长占作业总时长的比例;在轨迹复杂度视角中,轨迹覆盖面积是指渣土车作业轨迹点集的最小凸包面积;轨迹平滑比率是指轨迹线要素简化后剩余轨迹点的数量与简化前轨迹点数量的比值。
表1 匹配轨迹的关键特征描述

Tab. 1 Key features of matching trajectories

视角 变量 单位 特征描述
瞬时速度 v i m e a n m/s 平均瞬时速度
v i s t d m/s 瞬时速度标准差
加速度 a m e a n m/s2 平均加速度
a s t d m/s2 加速度标准差
路网距离 r d m e d m 路网距离中值
r d s t d m 路网距离标准差
停留时长 d u r a t i o n s 累计停留时长
s t o p R a t i o 累计停留时长比率
转角 a n g l e m e a n ° 平均转角
a n g l e s t d ° 转角标准差
轨迹复杂度 l e n g t h m 轨迹长度
a r e a m2 轨迹覆盖面积
s m o o t h R a t i o 轨迹平滑比率
驶入驶出点差异 Δ d m 两点间距
Δ v i m/s 速度差
Δ a m/s2 加速度差
Δ r d m 路网距离差
Δ θ ° 方位角差
本文提出SR-LGBM算法对已有轨迹进行分类,该算法的核心思路是采用SVM-RFE算法[30]对LGBM[31]分类算法的特征选择部分进行改进,提高分类模型性能,降低过拟合风险,并且强化模型处理高维数据的能力。LGBM算法能够通过超参数bagging_fraction和feature_fraction进行特征选择,bagging_fraction的取值在(0,1)范围内,并指定用于训练每棵树的训练样本的百分比。feature_fraction指定训练每棵树时特征采样的百分比,因此其取值范围也位于(0,1)之间。但是原算法的特征选择方法具有一定的局限性,当特征数量较多时,容易引起过拟合。改进后的算法能够对每个特征进行得分排序,通过多次迭代去掉低得分特征。
(1)标准化关键特征参数,进行特征选择,具体方法为:假设初始训练样本集为 4 , x i R D , v i { 1,2 , , l },其中 x i为第 i个样本, v i为第 i个特征类别; N表示样本量; D表示样本特征数; l表示类别数。第一轮训练时,算法会选择所有的特征来训练,得到分类的超平面后,使用排序评价准则公式计算每个特征的排序系数,具体方法如式(9)所示。
r a n k i = 1 2 α T Q α - 1 2 α T Q ( - i ) α
式中: α为拉格朗日乘子; T为训练次数; Q ( - i )是消除第 i个特征的 Q矩阵; K为核函数。迭代执行算法,得到特征排序表,通过构造 N个嵌套的特征子集评估子集的得分,最终获得最优的特征子集,确定模式需要的特征数。
(2)完成特征选择后,采用具有不同特征数的数据训练得到对应的若干组分类模型,选取最佳分类结果作为已有轨迹的标签,算法具体参数如表2所示。将分类结果为非作业行为的数据从已有轨迹中剔除,最终完成渣土车作业行为提取。
表2 SR-LGBM算法的主要参数

Tab. 2 Main parameters of SR-LGBM algorithm

参数 解释
kernel linear SVM核函数类型,本文采用线性核函数
C 0.1 SVM惩罚系数,用于调整准确率和泛化能力
num_leaves 255 每棵树的叶子数量
max_bin 255 表示最大的桶的数量,能根据此值来自动压缩内存
max_depth no limit 描述了树的最大深度,能够处理模型的过拟合
min_child_samples 20 一片叶子需具有的最小记录数,用来处理过度拟合的问题
feature_fraction 0.8 在每次迭代中随机选择用于构建树的特征的部分
bagging_fraction 0.8 每次迭代要使用的数据,一般用于加快训练和避免过度拟合

3 试验与分析

3.1 试验数据与预处理

试验数据采用南京市10辆渣土车在2020年4月至2021年4月所产生的轨迹数据,如图7所示。该数据包含时间戳,经纬度位置及瞬时速度等信息。由于每辆渣土车的行驶里程差异,每辆车的GPS记录点在30~120万个不等,总计7 041 279个GPS记录点,平均采样时间间隔在30 s以下。路网数据来源于Open Street Map(https://www.openstreetmap.org/),工地边界数据通过遥感影像获取,总计包含442个工地,如图8所示。
图7 渣土车GPS轨迹数据

Fig. 7 GPS trajectory data of muck truck

图8 工地边界数据

Fig. 8 Site boundary data

GPS定位设备存在定位误差与采样误差,其产生的原因有:GPS信号被建筑遮挡、终端硬件故障等[32],这导致原始车辆轨迹往往包含一些异常,故在提取渣土车作业行为之前,必须对原始轨迹数据中的异常进行过滤。本文剔除空间位置异常和瞬时速度异常的轨迹点,利用Visvalingam-Whyatt算法[33]对轨迹进行压缩,去除因车辆长时间停车产生的冗余数据,其中压缩算法的有效面积容差设置为1 m2。城市中车辆行驶路线受到路网的强力约束,需对轨迹数据进行路网匹配[34],将轨迹点映射至最近的道路上,减少GPS数据与实际轨迹的偏差,图9为匹配结果。然而渣土车在工地内部行驶时车辆运动受道路的约束较弱,直接将轨迹点映射到路网上无法反映渣土车在工地内的真实轨迹,因此本文的路网匹配操作不改变原始轨迹点的空间位置信息,仅赋予原始轨迹点2个属性:① 路段编号,即路网匹配的路段编号; ② 偏移量,即到最近路段的垂直距离。
图9 轨迹点路网匹配结果

Fig. 9 The road network matching results of trajectory point

3.2 结果与精度分析

3.2.1 渣土车作业轨迹还原

以某一处工地为例,原始轨迹数据如图10所示,灰色点要素为渣土车轨迹点,黄色线要素为工地的几何边界。首先,为了准确提取渣土车停留行为,需要对停留点提取算法设置合理的阈值,过大的距离半径会将低速行驶误判为停留行为,过小的距离半径则会大幅增加停留点数量,降低算法效率,时间上限与下限的大小决定了提取的停留时长。结合渣土车作业的真实情况,经对比实验本文设置距离半径 R设为100 m,时间下限 T m i n设为60 s,时间上限 T m a x设为10 800 s。然后在空间和时间上对提取的停留点集进行过滤,空间上使用工地的几何边界进行过滤,根据南京市渣土运输管理办法,本市实行渣土运输限时为上午7时至夜间22时,因此本文提取当日22:00至次日7:00且位于工地内部的停留点。如图11所示,过滤得到的停留点表示为红色三角,此处工地的停留点表现为明显的集聚特征。基于过滤后的停留点集匹配轨迹,还原的工地内轨迹如图12所示。
图10 渣土车轨迹与工地边界数据

Fig. 10 Muck truck trajectories and site boundary data

图11 停留点提取及过滤结果

Fig. 11 Extraction and filtering results of stay points

图12 基于停留点集匹配的轨迹

Fig. 12 Trajectories matching based on stop point set

基于相似性增强匹配轨迹准备阶段和完结阶段的轨迹语义信息,综合考虑轨迹的速度特征与几何特征,平衡二者对结果的影响,本文将平均相似值函数中的速度特征权值 ω 1和几何特征权值 ω 2均设置为0.5。如图13所示,工地以外的轨迹已被增强至匹配轨迹,在图中表现为绿色轨迹段,至此得到了包含完整作业阶段的轨迹。对于试验中10辆渣土车的轨迹数据,通过轨迹匹配与轨迹语义信息增强得到完整轨迹总计3930条。
图13 匹配轨迹的语义信息增强

Fig. 13 Semantic information enhancement for matching trajectories

3.2.2 渣土车作业轨迹分类

对语义信息增强后的轨迹计算18个关键特征参数,并对特征值进行标准化,使用SR-LGBM算法进一步区分作业轨迹和非作业轨迹,得到轨迹的分类结果。以两处工地为例,分类结果如图14图15所示。其中非作业轨迹不符合渣土车的作业行为模式。非作业轨迹具体表现为包含长时停留行为,可能是车辆故障导致的长时停车(图14);或者表现为始终沿道路行驶,不具有作业路线形态(图15)。本文方法能有效解决电子围栏与道路重叠或多个围栏交叉造成误判问题,剔除非作业轨迹,完成渣土车作业行为提取,针对试验数据共得到2775条作业轨迹。
图14 轨迹分类结果(局部1)

Fig. 14 Trajectory classification results(part 1)

图15 轨迹分类结果(局部2)

Fig.15 Trajectory classification results(part 2)

3.2.3 SR-LGBM算法精度分析

将经过人工核验的标记数据作为训练数据,SR-LGBM算法能够对特征重要性进行排序。如表3所示,加速度标准差 a s t d、轨迹平滑比率 s m o o t h R a t i o和瞬时速度标准差 v i s t d更能反应渣土车作业行为的模式,轨迹覆盖面积 a r e a、累计停留时长 d u r a t i o n和两点间距 Δ d则对渣土车作业行为模式的体现较弱。
表3 作业轨迹关键特征重要性排序

Tab. 3 Importance ranking of key features of operation trajectories

排序 变量 描述 排序 变量 描述
1 a s t d 加速度标准差 10 Δ a 加速度差
2 s m o o t h R a t i o 轨迹平滑比率 11 s t o p R a t i o 累计停留时长比率
3 v i s t d 瞬时速度标准差 12 r d s t d 路网距离标准差
4 a m e a n 平均加速度 13 l e n g t h 轨迹长度
5 Δ v i 速度差 14 Δ r d 路网距离差
6 a n g l e s t d 转角标准差 15 r d m e d 路网距离中值
7 a n g l e m e a n 平均转角 16 Δ d 两点间距
8 v i m e a n 平均瞬时速度 17 d u r a t i o n 累计停留时长
9 Δ θ 方位角差 18 a r e a 轨迹覆盖面积
采用准确率、精确率、召回率、F1值对不同特征数下SR-LGBM的输出结果进行评价。结果如表4所示,随着特征个数的增加,各评价指标先升高后保持平稳,当输入前11个特征指标后,本文方法的性能最佳,此时准确率为97.29%,精确率、召回率和F1值均为98.17%。当特征数超过11个以后,评价指标不再呈现上升趋势,个别指标表现为小幅度的下降。
表4 不同特征数下SR-LGBM的输出结果评价

Tab. 4 Evaluation of SR-LGBM output results under different feature numbers (%)

特征数 准确率 精确率 召回率 F1值
3 89.74 92.55 93.71 93.13
5 95.00 96.15 97.14 96.65
7 94.91 96.68 96.46 96.57
9 95.00 96.05 97.26 96.65
11 97.29 98.17 98.17 98.17
13 97.03 98.05 97.94 98.00
15 96.78 97.72 97.94 97.83
17 96.86 97.83 97.94 97.89
为了进一步对比算法的性能,将SR-LGBM算法与LGBM算法及其他经典算法如高斯朴素贝叶斯(GaussianNB),K最邻近算法(k-Nearest Neighbors),二元逻辑回归(Logistic Regression),深层感知机(Multi-layer Perceptron),高斯核函数支持向量机(RBF-SVM)等进行对比。不同算法之间的对比结果如表5所示,本文所提出的SR-LGBM算法相较于LGBM算法能得到更好的分类结果,相对于其他5种算法,其准确率、精确率、F1值均为最高,证明了SR-LGBM算法具有最佳的轨迹提取效果。
表5 不同算法的渣土车作业行为分类结果比较

Tab. 5 Comparison of classification results of muck truck operation behaviors with different algorithms (%)

算法 准确率 精确率 召回率 F1值
GaussianNB 89.40 90.11 96.06 92.99
k-Nearest Neighbors 86.43 92.40 88.76 90.54
Logistic Regression 92.45 95.85 93.74 94.79
Multi-layer Perceptron 92.54 96.86 92.82 94.79
RBF-SVM 88.80 89.17 96.41 92.65
LGBM 96.01 97.43 97.32 97.37
SR-LGBM 97.29 98.17 98.17 98.17

4 结论与展望

4.1 结论

针对渣土车作业行为提取中的误判问题,本文提出一种渣土车轨迹数据作业行为提取方法。首先针对渣土车作业行为进行认知,分析包括运动状态和几何形态在内的作业行为模式;其次基于停留点进行轨迹匹配,然后对匹配轨迹进行语义信息增强,最后基于SR-LGBM算法实现渣土车作业行为提取。以南京市渣土车真实轨迹数据为例,对该方法进行了有效验证并进行案例分析,研究结论为:
(1)基于停留点匹配轨迹,并构建平均相似性函数进一步增强匹配轨迹准备阶段和完结阶段的轨迹语义信息,还原得到渣土车完整轨迹总计3930条;通过计算轨迹的18个关键特征变量,采用SR-LGBM算法对已匹配轨迹进行分类,剔除非作业轨迹,筛选得到2775条作业轨迹。
(2)SR-LGBM算法分类精度与训练样本特征数有关,随着特征个数增加,分类的准确率、精确率、召回率与F1值呈先升高后保持平稳的趋势,在前11个特征指标下性能达到最佳,此时准确率为97.29%,精确率、召回率和F1值均为98.17%。
(3)相比高斯朴素贝叶斯、K最邻近、二元逻辑回归、深层感知机、高斯核函数支持向量机等经典分类算法,该方法针对渣土车作业轨迹分类具有更优效果,其准确率、精确率、召回率、F1值均为最高,能保证基于渣土车轨迹数据提取作业行为的可靠性。
因此,本文提出的顾及轨迹还原与分类的提取方法改善了传统方法导致的作业行为误判等问题,实现了高效、准确的渣土车作业行为提取,对于管理渣土车作业行为、探索渣土车作业时空规律具有重要的理论意义和应用价值。

4.2 展望

然而,由于数据问题本身的限制,本文仍存在一些不足与问题,在未来计划与工作中,可以通过进一步的研究与探索,不断完善该模型,以实现更准确、更符合实际情况的作业轨迹提取。
(1)由于不同城市的渣土车轨迹数据定位精度、采样时间间隔等特征存在差异,在未来研究中将探索本文算法的参数调整规则,以提高算法在其他城市渣土车轨迹数据下的适用性;
(2)本文仅对工地内渣土车作业行为提取进行了研究,未来将集成多源空间数据对渣土车出行链模式进行深入研究,提高算法可扩展性。
[1]
Gong L, Sato H, Yamamoto T, et al. Identification of activity stop locations in GPS trajectories by density-based clustering method combined with support vector machines[J]. Journal of Modern Transportation, 2015, 23(3):202-213. DOI:10.1007/s40534-015-0079-x

DOI

[2]
向隆刚, 龚健雅, 吴涛, 等. 一种面向Stop/Move抽象的轨迹时空关系[J]. 武汉大学学报·信息科学版, 2014, 39(8):956-962.

[Xiang L G, Gong J Y, Wu T, et al. Spatio-temporal trajectory relationships based on Stop/Move abstraction[J]. Geomatics and Information Science of Wuhan University, 2014, 39(8):956-962.] DOI:10.13203/j.whugis20130061

DOI

[3]
Liu J, Yu X, Xu Z, et al. A cloud-based taxi trace mining framework for smart city[J]. Software: Practice and Experience, 2017, 47(8):1081-1094. DOI:10.1002/spe.2435

DOI

[4]
兰志辉, 陈莉, 段治州. 基于时间序列聚类的轨迹停留点检测算法[J]. 计算机应用研究, 2020, 37(12):3557-3560.

[Lan Z H, Chen L, Duan Z Z. Trajectory stops detection algorithm based on time series clustering[J]. Application Research of Computers, 2020, 37(12):3557-3560.] DOI:10.19734/j.issn.1001-3695.2019.09.0533

DOI

[5]
张健钦, 仇培元, 杜明义. 基于时空轨迹数据的出行特征挖掘方法[J]. 交通运输系统工程与信息, 2014, 14(6):72-78.

[Zhang J Q, Qiu P Y, Du M Y. Mining method of travel characteristics based on spatio-temporal trajectory data[J]. Journal of Transportation Systems Engineering and Information Technology, 2014, 14(6):72-78.] DOI:10.16097/j.cnki.1009-6744.2014.06.011

DOI

[6]
刘汇慧, 阚子涵, 孙飞, 等. 采用轨迹大数据探测短时非营运行为[J]. 武汉大学学报·信息科学版, 2016, 41(9):1192-1198.

[Liu H H, Kan Z H, Sun F, et al. Taxis' short-term out-of-service behaviors detection using big trace data[J]. Geomatics and Information Science of Wuhan University, 2016, 41(9):1192-1198.] DOI:10.13203/j.whugis20150569

DOI

[7]
向隆刚, 邵晓天. 载体轨迹停留信息提取的核密度法及其可视化[J]. 测绘学报, 2016, 45(9):1122-1131.

[Xiang L G, Shao X T. Visualization and extraction of trajectory stops based on Kernel-density[J]. Acta Geodaetica et Cartographica Sinica, 2016, 45(9): 1122-1131.] DOI:10.11947/j.AGCS.2016.20150347

DOI

[8]
李思宇, 向隆刚, 张彩丽, 等. 基于低频出租车轨迹的城市路网交叉口提取研究[J]. 地球信息科学学报, 2019, 21(12):1845-1854.

DOI

[Li S Y, Xiang L G, Zhang C L, et al. Extraction of urban road network intersections based on low-frequency taxi trajectory data[J]. Journal of Geo-information Science, 2019, 21(12):1845-1854.]

[9]
Siripirote T, Sumalee A, Ho H W. Statistical estimation of freight activity analytics from Global Positioning System data of trucks[J]. Transportation Research Part E: Logistics and Transportation Review, 2020, 140:101986. DOI:10.1016/j.tre.2020.101986

DOI

[10]
李军, 解超, 王林, 等. 基于轨迹数据的道路客运班车停留站点位置提取方法[J]. 交通信息与安全, 2021, 39(4):60-67.

[Li J, Xie C, Wang L, et al. A Method for Extracting Regular Bus Parking Stops of Road Passenger Transport Based on Trajectory Data[J]. Journal of Transport Information and Safety, 2021, 39(4):60-67.] DOI:10.3963/j.jssn.1674-4861.2021.04.008

DOI

[11]
吴华意, 黄蕊, 游兰, 等. 出租车轨迹数据挖掘进展[J]. 测绘学报, 2019, 48(11):1341-1356.

[Wu H Y, Huang R, You L, et al. Recent progress in taxi trajectory data mining[J]. Acta Geodaetica et Cartographica Sinica, 2019, 48(11):1341-1356.]

[12]
Sheng K, Liu Z, Zhou D C, et al. Research on ship classification based on trajectory features[J]. Journal of Navigation, 2018, 71(1):100-116. DOI:10.1017/s0373463317000546

DOI

[13]
Xue Q W, Xing Y Y, Lu J. An integrated lane change prediction model incorporating traffic context based on trajectory data[J]. Transportation Research Part C: Emerging Technologies, 2022, 141:103738. DOI:10.1016/j.trc.2022.103738

DOI

[14]
Khelfa B, Tordeux A. Lane-changing prediction in highway: Comparing empirically rule-based model MOBIL and a naïve Bayes algorithm[C]// 2021 IEEE International Intelligent Transportation Systems Conference. IEEE,: 1598-1603. DOI:10.1109/ITSC48978.2021.9564927

DOI

[15]
Ma X L, Yu H Y, Wang Y P, et al. Large-scale transportation network congestion evolution prediction using deep learning theory[J]. PLoS One, 2015, 10(3):e0119044. DOI:10.1371/journal.pone.0119044

DOI

[16]
Xu J, Rahmatizadeh R, Bölöni L, et al. Real-time prediction of taxi demand using recurrent neural networks[J]. IEEE Transactions on Intelligent Transportation Systems, 2018, 19(8):2572-2581. DOI:10.1109/TITS.2017.2755684

DOI

[17]
梁军辉, 林坚, 杜洋. 大数据条件下城市用地类型辨识研究——基于出租车GPS数据的动态感知[J]. 上海国土资源, 2016, 37(1):28-32.

[Liang J H, Lin J, Du Y. Research on the identification of urban land use under the big data condition: Dynamic awareness based on taxi GPS data[J]. Shanghai Land & Resources, 2016, 37(1):28-32.]

[18]
Yao B Z, Chen C, Cao Q D, et al. Short-term traffic speed prediction for an urban corridor[J]. Computer-Aided Civil and Infrastructure Engineering, 2017, 32(2):154-169. DOI:10.1111/mice.12221

DOI

[19]
李秋萍, 刘逸诗, 巩诗瑶, 等. 基于居民出行活动特征的个体经济水平推断方法[J]. 武汉大学学报·信息科学版, 2019, 44(10):1575-1580.

[Li Q P, Liu Y S, Gong S Y, et al. Individual income level inference method based on travel behavior of urban residents[J]. Geomatics and Information Science of Wuhan University, 2019, 44(10):1575-1580.] DOI:10.13203/j.whugis20170426

DOI

[20]
Tu W, Li Q Q, Fang Z X, et al. Optimizing the locations of electric taxi charging stations: A spatial-temporal demand coverage approach[J]. Transportation Research Part C: Emerging Technologies, 2016, 65:172-189. DOI:10.1 016/j.trc.2015.10.004

DOI

[21]
张毅, 朱攀. 电动出租车专用充电场站选址模型研究[J]. 地球信息科学学报, 2021, 23(5):802-811.

DOI

[Zhang Y, Zhu P. Research on site selection model of special charging stations for taxis[J]. Journal of Geo-information Science, 2021, 23(5):802-811.] DOI:10.12082/dqxxkx.2021.200360.

DOI

[22]
Wang B J, Wang Y L, Qin K, et al. Detecting transportation modes based on LightGBM classifier from GPS trajectory data[C]// 2018 26th International Conference on Geoinformatics. IEEE,: 1-7. DOI:10.1109/GEOINFORMATICS.2018.8557149

DOI

[23]
高强, 张凤荔, 王瑞锦, 等. 轨迹大数据:数据处理关键技术研究综述[J]. 软件学报, 2017, 28(4):959-992.

[Gao Q, Zhang F L, Wang R J, et al. Trajectory big data: A review of key technologies in data processing[J]. Journal of Software, 2017, 28(4):959-992.] DOI:10.13328/j.cnki.jos.005143

DOI

[24]
Zheng Y. Trajectory data mining: An overview[J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2015, 6(3):29. DOI:10.1145/2743025

DOI

[25]
Ashbrook D, Starner T. Using GPS to learn significant locations and predict movement across multiple users[J]. Personal and Ubiquitous Computing, 2003, 7(5):275-286. DOI:10.1007/s00779-003-0240-0

DOI

[26]
Alvares L O, Bogorny V, Kuijpers B, et al. A model for enriching trajectories with semantic geographical information[C]// Proceedings of the 15th annual ACM international symposium on Advances in geographic information systems. Seattle, Washington. New York: ACM, 2007:1-8. DOI:10.1145/1341012.1341041

DOI

[27]
Zhou C Q, Frankowski D, Ludford P J, et al. Discovering personally meaningful places: An interactive clustering approach[J]. ACM Transactions on Information Systems, 2007, 25(3): 12-es. DOI:10.1145/1247715.1247718

DOI

[28]
侯颖超, 王盼成, 刘兴权, 等. 基于速度的空间轨迹停留点提取算法[J]. 地理与地理信息科学, 2016, 32(6):63-68,2.

Wang P C, Liu X Q, et al. Algorithm Study for stay points recognition of spatial trajectory based on velocity[J]. Geography and Geo-information Science, 2016, 32(6):63-68,2.] DOI:10.3969/j.issn.1672-0504.2016.06.011

DOI

[29]
姚迪, 张超, 黄建辉, 等. 时空数据语义理解:技术与应用[J]. 软件学报, 2018, 29(7):2018-2045.

[Yao D, Zhang C, Huang J H, et al. Semantic understanding of spatio-temporal data: Technology & application[J]. Journal of Software, 2018, 29(7):2018-2045.] DOI:10.13328/j.cnki.jos.005576.

DOI

[30]
Guyon I, Weston J, Barnhill S, et al. Gene selection for cancer classification using support vector machines[J]. Machine Learning, 2002, 46(1/2/3):389-422. DOI:10.102 3/A:1012487302797

DOI

[31]
Ke G L, Meng Q, Finley T, et al. LightGBM: A highly efficient gradient boosting decision tree[C]// Proceedings of the 31st Internati onal Conference on Neural Information Processing Systems. New York: ACM, 2017:3149-3157.

[32]
齐凌艳, 陈荣国, 温馨. 基于语义轨迹停留点的位置服务匹配与应用研究[J]. 地球信息科学学报, 2014, 16(5):720-726.

DOI

[Qi L Y, Chen R G, Wen X. Research on the LBS matching based on stay point of the semantic trajectory[J]. Journal of Geo-information Science, 2014, 16(5):720-726.] DOI:10.3724/SP.J.1047.2014.00720

DOI

[33]
Visvalingam M, Whyatt J D. Line generalisation by repeated elimination of points[J]. The Cartographic Journal, 1993, 30(1):46-51. DOI:10.1179/000870493786962263

DOI

[34]
郑诗晨, 盛业华, 吕海洋. 基于粒子滤波的行车轨迹路网匹配方法[J]. 地球信息科学学报, 2020, 22(11):2109-2117.

DOI

[Zheng S C, Sheng Y H, Lv H Y. Vehicle trajectory-map matching based on particle filter[J]. Journal of Geo-Information Science, 2020, 22(11):2109-2117.]

Outlines

/