A Research on Road Type Classification Considering the Multi-mode Features of Road Network and Trajectories

  • ZHANG Caili , 1, 2 ,
  • XIANG Longgang , 1, * ,
  • LI Yali 1 ,
  • LIN Zhiyong 3
Expand
  • 1. State Key Lab of Information Engineering in Surveying, Mapping and Remote Sensing, Wuhan University, Wuhan 430079, China
  • 2. Urban and Rural Construction College, Shaoyang University, Shaoyang 422000, China
  • 3. School of Remote Sensing and Information Engineering, Wuhan University, Wuhan 430079, China
*XIANG Longgang, E-mail:

Received date: 2022-04-23

  Revised date: 2022-05-27

  Online published: 2022-12-25

Supported by

National Natural Science Foundation of China(41771474)

National Natural Science Foundation of China(42071432)

Abstract

Path planning and vehicle navigation not only rely on the basic road network structure, but also need information such as grades to assist, to achieve navigation services such as "road priority". Road type is not only reflected in the static skeleton information of the road network, but also in the dynamic semantic information presented by the trajectories. To identify the missing road type of the road sections in the existing road network such as OpenStreetMap (OSM) and road network generation products, a road type classification method considering multi-mode features of the road network and trajectories was proposed. First, the connection between trajectory points and named roads was realized through the cleaning of trajectory data, map matching, and the merging of OSM based on names. Then, a set of descriptive features of road type was formed as the basis for identifying road type by taking the named road as the analytical unit. Specifically, based on the systematic analysis of the road geometric features, road distribution features, road topological features, and one-way and two-way information of the road network structure, we further mined and integrated the static and dynamic features of trajectories, such as width, traffic volume, speed, and so on. Finally, a Random Forest (RF) model was used as the base classifier for feature selection and model training to identify road type. In order to verify our proposed method, we selected the OSM road network and crowd-sourced trajectories in the Hanzheng Street area and the second ring area of Wuhan to carry out the experiment. Our method achieved excellent classification results, the accuracy in verification set of the small area on Hanzheng Street reached 91.2%, and the accuracy in verification set of the larger area on the second ring reached 80.8%. Compared with single-class features, integrated road network and trajectory features greatly improved the accuracy of road type identification. Compared with the road type classification in the form of the original road section, the road type identification in the form of road name reconstruction was better. Compared with existing methods, e.g., commonly used K-Nearest Neighbor (KNN), Support Vector Machine (SVM), Gaussian Naive Bayes (GNB), and other models, our proposed method achieved a higher accuracy. Feature rationality analysis also verified the effectiveness of the proposed method in this paper.

Cite this article

ZHANG Caili , XIANG Longgang , LI Yali , LIN Zhiyong . A Research on Road Type Classification Considering the Multi-mode Features of Road Network and Trajectories[J]. Journal of Geo-information Science, 2022 , 24(10) : 1925 -1940 . DOI: 10.12082/dqxxkx.2022.220218

1 引言

道路网是智慧城市规划和建设的基础,其道路等级划分对制图综合[1]、专题地图构建、路径规划[2]、道路功能资源有效配置[3]具有重要意义。对道路网复杂网络系统的等级结构特性进行分析是交通地理信息系统研究的重点之一[4]。目前基于遥感影像、轨迹数据、激光点云等路网相关数据发展了大量的自动或半自动道路提取方法[5-6],但生成的产品通常缺乏道路属性信息,如道路等级信息,制约路网产品的多尺度表达、智能导航、基础地理信息更新等应用。OSM路网为志愿者地理信息(Volunteered Geographic Information, VGI)数据,依靠广大公众用户共同协作创建、编辑、管理与维护,先天具有现势性好、覆盖范围广、信息丰富、获取方便等特点[7],是全球范围内地理空间数据生产与更新[8]的良好数据资料。OSM路网虽然定义了“fclass”标签表示道路的等级信息,但仍在一些区域(如欠发达地区)缺失严重。随着互联网的发展和位置定位技术的普及,成本低、覆盖广、易于获取、现势性强、且蕴含丰富道路语义信息的众源轨迹数据为路网属性更新提供了可能[8-10]。因此本文聚焦道路网中的道路等级属性信息,以OSM路网为基础数据,融合众源轨迹信息进行道路等级分类研究,不仅可以为OSM路网补全缺失道路等级属性信息提供技术支撑,还可以为各路网相关数据生成的路网骨架结构填充道路等级属性信息提供技术借鉴,对于增强VGI应用、补充导航数据具有重要意义。
目前国内外基于轨迹数据进行道路等级识别的研究较少,已有工作倾向于采用高质量轨迹数据进行简单道路等级识别。如Jun等[8]考虑交通流量、轨迹点速度、轨迹点到中心线距离等特征,采用SVM对基于轨迹构建路网进行道路等级挖掘。其他强相关研究主要涉及地图综合中的道路选取工作。Van等[9]认为道路通行车辆数不受时间和速度影响,与实际偏离较小,基于道路通行车辆数对OSM道路进行重要性评定。而Ajmar等[10]则分别考虑道路轨迹密度及平均速度对OSM道路进行评定。考虑到单一特征较为简单,文献[11]—文献[18]不同程度地综合考虑道路几何、道路分布、道路拓扑、交通流量、上下文信息(POI)、网眼密度等特征,基于熵权法及专家经验知识分析[13]等进行加权叠加,进而进行道路评定。这些方法主要采用单一指标或多指标加权叠加的非监督分类方法进行道路重要性评定,然后基于道路重要性进行道路选取。考虑非监督分类方法中各特征之间的关系不能完全由加权叠加进行反映,近几年随着机器学习的发展,许多学者将选取道路(重要性道路)标注为1,不选取道路(不重要道路)标注为0,尝试基于重要性评价指标,采用随机森林、深度学习等监督分类方法[19-21]对测试集进行道路选取,取得一定进展。现有直接相关研究及间接相关研究大多考虑信息片面的单源低阶特征,不够系统与全面,难以精确捕获道路等级属性信息。
考虑道路重要性评价指标中道路网反映的道路几何、道路分布及道路拓扑信息及轨迹数据反映的道路宽度、道路流量及道路速度等语义信息与道路等级密切相关,因此本文综合考虑路网及轨迹数据,挖掘两者之间的互补特征,提出一种顾及路网与轨迹多模特征的道路等级识别方法。首先根据道路名对OSM路网进行重新构建,以命名道路为分析单元,计算基于路网与轨迹数据设计的多模态特征,形成道路等级分类样本。然后随机抽取样本的70%作为训练样本,采用不受维数干扰、分类精度较高的随机森林作为道路等级的分类器,进行模型训练,对剩余30%样本进行验证。实验结果表明以命名道路为分析单元,集成路网及轨迹数据特征的道路等级分类模型取得了较高的分类精度,优于仅考虑轨迹或路网单类特征识别结果,小范围汉正街区域的验证集准确率为91.2%,而大范围二环区域的验证集准确率达到80.8%。本文还基于原始路段进行了试验,其试验结果精度低于本文方法,但路网轨迹集成识别结果优于单类特征识别结果,进一步验证路网轨迹融合的必要性。与现有方法及常用的KNN、SVM、GNB等模型进行比较也表明本文以命名道路为分析单元、综合考虑路网轨迹特征有较强优势。

2 基于多模特征的道路等级分类方法

由于道路在设计定位与服务区域等方面的差异,不同道路等级承担截然不同的交通功能,不仅体现出不同的道路几何特征、道路分布特征、道路拓扑特征及道路单双向特征,还体现出不同车流量、速度、宽度等轨迹数据蕴含的丰富道路语义特征,因此,本文首先进行路网及轨迹数据预处理,然后以命名道路为分析单元,集成路网及轨迹数据,系统分析与挖掘道路等级的多元、多阶互补特征,形成关于道路等级的高判别性描述特征集,作为识别道路等级的基础与依据,最后采用随机森林对路网进行道路等级分类研究,具体流程如图1所示。
图1 基于多模特征的道路等级分类流程

Fig. 1 The workflow of road type classification based on multi-mode features

2.1 数据预处理

(1)轨迹数据预处理
由于GPS(Global Positioning System)设备系统误差、采样频率、信号漂移等情况的存在,众源轨迹数据中不可避免存在噪声和异常,在使用这些位置数据时必须进行质量清洗;加之地图匹配是道路语义信息挖掘的基础,因此本文进行了一系列轨迹数据预处理:① 噪声过滤:将位置或时间戳重复的冗余轨迹点剔除,并基于经验保留速度为0~150 km/h轨迹点;② 停留检测:对轨迹进行停留检测[22],保留停留几何中心,并将中心点属性赋值为停留点各属性平均值;③ 轨迹分割:将两轨迹点间距离超过 1 km或时间间隔为负或超过120 s轨迹进行打断,保留轨迹点个数大于C1的轨迹;地图匹配:基于隐马尔可夫匹配法[23](HMM)将轨迹数据与原始道路网数据进行匹配。
(2)OSM路网数据预处理
命名道路、路段及stroke道路是道路等级划分中常用的3种道路形式。其中命名道路按自然道路进行表征,与stroke道路形式相比,极少出现等级不一致情况。一方面OSM路网以节点-边的形式进行表达,另一方面OSM路网中存在大量双向路双线表示形式(图2),具有相同等级属性的自然道路基于节点及方向分割为多条路段,在进行道路等级识别前,需要判断哪些路段为同一条道路。因此本文对原始OSM路网进行路名重构,以命名道路为基本单元进行道路等级分类研究。
图2 路段示例

Fig. 2 Road section example

由于OSM路网的路名信息缺失严重,除存在同名路段相接(图2(a))、相邻(图2(b))需要横向合并外,为补全自然意义道路,如果两路段路名相同,中间连接路段无道路名(图2(c)),则中间路段也需与两边路段合并为同一道路。道路横向合并后,为保证双向路合并为同一道路,本文还进行了纵向合并(图2(d))。以图3为例,原始路段经横向、纵向合并为道路集R=[a, b, c, d],其中a=[a1, a2],c=[c1, c2]为双向路。每条命名道路均可上溯到其组成的原始路段。具体步骤如下:
图3 路名重构示例

Fig. 3 Road reconstruction in name

(1)遍历道路网路段,获取遍历路段起点、终点距离最近且与该路段行驶方向一致同名路段,即左邻近同名路段及右邻近同名路段,如e0左邻近同名路段为e1,右邻近同名路段为e6
(2)以识别出的左邻近同名路段为基准向左扩展,搜寻与其行驶方向一致且与其起点最近同名路段,如果存在,记为新的左邻近同名路段。
(3)以识别出的右邻近同名路段为基准向右扩展,搜寻与其行驶方向一致且与其终点最近同名路段,如果存在,记为新的右邻近同名路段。
(4)重复步骤(2)、(3)直到路段左边同名路段、右边同名路段搜索完毕,并记录该路段横向合并线路。假如e8路段路名未知,则e0横向合并线路为a1={e1, e0, e6, e14}。
(5)遍历横向合并线路a1记录的路段,如果路段终点与其右邻近同名路段起点不是同一点,则两路段之间存在无名路段,需基于Dijkstra最短路径算法,获取路段终点与其右邻近同名路段起点之间最短路径对应路段,插入横向合并线路a1中,如将e8插入e6e14之间。
(6)除记录的横向合并路段外,遍历路网中其他路段,重复步骤(1)—步骤(5),直到路网中所有路段遍历一遍,形成横向合并线路集。如图3形成的横向合并线路集为R=[a1, a2, b, c1, c2, d],其中a1={e1, e0, e6, e14},a2={e15, e9, e11, e12, e13},b={e7, e3, e10},c1={e4},c2={e5},d={e2}。
(7)遍历横向合并线路集,在横向合并线路1/4处、中心点、3/4处求线路的垂线,如果存在与1/4处和中心点处或3/4处和中心点处垂线相交且路名一致的线路,则纵向合并两线路。如图3中,线路a1,a2可纵向合并为a;线路c1,c2可纵向合并为c,图3最终可合并为R=[a, b, c, d ]。

2.2 多模态特征设计

2.2.1 面向OSM路网的特征设计

基于OSM路网设计的特征是可直接基于OSM路网进行计算,比较容易进行描述和形式化表达的特征,具体可分为道路几何特征、道路分布特征、道路拓扑特征及道路单双向特征。
(1)道路几何特征
道路长度、弯曲度是路网最直观的几何特征。长度越长,弯曲度越小,道路越平顺,等级就越高[14]。其中度量道路长度指标包括道路直线距离及道路曲线距离,度量弯曲度指标包括垂直比及非直线系数。道路曲线距离更接近实际道路长度,非直线系数较垂直比更为常用,因此本文选取道路曲线距离(Ldis)及非直线系数(RC)进行几何特征度量。
(2)道路分布特征
道路网的分布特征,从宏观上反映了道路在空间分布上的疏密情况,被许多学者[14-16]用于道路重要性评价,一般可基于网眼密度进行度量。由于上文已考虑道路长度信息,因此对于网眼密度,本文采用道路邻接网眼面积(NArea)进行度量。考虑到道路组成单元节点(node)与路段(link)的分布也在一定程度反映道路分布情况,本文还分别统计了node与link分布密度(ldens、pdens)均值信息。其中node及link分布密度搜索范围设置为50 m。
(3)道路拓扑特征
在图论中,对于节点重要性的度量指标有很多,最主要的为节点群聚系数、点度中心性、接近中心性、中介中心性及特征向量中心性等[4]。为评价道路等级,本文从3个方面进行网络拓扑特性分析。值得说明的是如果以原始link为研究对象,则(1)和(2)设计特征相同。
① 以道路自身方面度量
将路名重构道路转换为对偶图,以道路为对偶图的节点直接进行节点群聚系数(LLCE)、度中心性(LLCD)、接近中心性(LLCC)、中介中心性(LLCB)及特征向量中心性(LLPG)计算。
② 以组成对象-link方面度量
将原始路网转换为对偶图,以link为对偶图的节点,对组成对象link进行网络拓扑特性重要性评价。而link组成道路,在一定程度影响道路的等级分布,因此以道路组成对象-link为基本单元计算道路拓扑特征如下:
L = ( i = 0 n l i ) / n ( 线 ) ( ( i = 0 n l i ) / n + ( j = 0 m l j ) / m ) / 2 ( 线 )
式中:mn为组成单线路的link个数;lilj为组成单线路的link单元对应的节点群聚系数(LCE)、度中心性(LCD)、接近中心性(LCC)、中介中心性(LCB)及特征向量中心性(LPG),0≤in, 0≤jm
③ 以组成对象-node方面度量
考虑node同link一样组成一条道路,在一定程度影响道路的等级评定,因此本文直接对原始路网进行网络拓扑特性分析,基于式(2)计算node网络拓扑特征,然后以组成道路的所有node网络特征平均值作为道路拓扑特征。
P = ( i = 0 n p i ) / n ( 线 ) ( ( i = 0 n p i ) / n + ( j = 0 m p j ) / m ) / 2 ( 线 )
式中:mn为组成单线路的node个数;pipj为组成单线路的node单元对应的节点群聚系数(PCE)、度中心性(PCD)、接近中心性(PCC)、中介中心性(PCB)及特征向量中心性(PPG),0≤in, 0≤jm
(4)道路单双向特征
道路单双向是道路等级评价中重要的特征之一,可基于OSM 路网中“oneway”字段获取。考虑OSM路网标签不全,本文首先基于文献[9]对原始路段中“oneway”字段缺失的路段进行补全。将路段匹配轨迹点头方向与路段结点记录方向一致轨迹点个数或相反轨迹点个数与总轨迹点数相除,如果方向一致轨迹点数占比大于K(默认为0.9),则路段“oneway”判别为“F”;如果方向相反轨迹点数占比大于K,则判别为“T”,其他情况则为双向路,判别为“B”。路名重构路网与原始路网形式不一,因此不能直接利用原始路段单双向信息,需对该信息重新赋值,如果重构路段为纵向合并路段,则该路段为双向路,赋值为1,否则进一步判断该路段“oneway”字段是否为“B”,如果是,则赋值为1,否则为0。

2.2.2 面向轨迹数据的特征设计

道路宽度、车流量、速度等语义信息与道路等级具有较强关联性[24],可以有效反映道路网的等级,但这些信息无法基于OSM路网进行获取,因此本文基于轨迹数据进行了设计。
(1)道路宽度特征
浮动车轨迹点在道路上形成以道路中心线为中心的高斯分布模式,可有效反映相关道路宽度信 息[25],因此本文以路段节点记录方向为基准,将轨迹点在路段左边距离记录为负,右边距离记录为正,基于距离分布进行道路宽度相关特征估计。考虑异常轨迹点影响,本文首先根据统计学经验,对[u-2σ, u+2σ]区间外距离进行了剔除,然后将距离最大值与距离最小值的差值作为道路宽度特征之一。对于距离统计度量,需将所有负距离取绝对值后进行计算,由于轨迹点到道路中心线距离统计情况未知[8],因此本文前期计算了多种统计度量(如平均值(meanw0)、众数(modew0)、标准差(stdw0)、中位数(medianw0)、以5为间隔的5~95百分位(w5-w95)等),特征选择阶段再筛选与道路等级最相关的度量。道路宽度相关特征计算如下:
W = ( i = 0 n w i ) / n ( 线 ) ( ( i = 0 n w i ) / n + ( j = 0 m w j ) / m ) / 2 ( 线 )
式中:mn为组成单线路的link个数;wiwj为组成单线路的link单元所对应的宽度相关特征,如距离最大值与距离最小值的差值、轨迹点到道路中心线距离统计量等,0≤in, 0≤jm
(2)道路车流量特征
道路上的轨迹点数及道路上通行车辆数可以在一定程度上反映道路的重要性。但是道路上轨迹点数会受速度及通行时间影响,因拥堵而偏离实际。而道路通行车辆数跟所花时间和速度相关性较小,有较小偏离实际情况[9]。因此本文统计道路所匹配的轨迹条数表征其车辆总通行情况。考虑到低等级道路更大程度上服务于进出交通,而高等级道路主要服务于通过交通[25]。因此本文还统计了该道路转向其他道路,或其他道路转向该道路的进出流量及组成该道路的link单元间的通过流量。道路车流量特征计算如下:
T = ( i = 0 n t i ) / n ( 线 ) ( ( i = 0 n t i ) / n + ( j = 0 m t j ) / m ) / 2 ( 线 )
式中:mn为组成单线路的link个数;titj为组成单线路的link单元所对应的各类车流量,如总流量(trinum)、进出流量(triTnum)及通过流量(triSnum),0≤in, 0≤jm
(3)道路速度特征
不同的道路等级有不同的限速标准,因此道路车辆行驶速度与道路等级具有强相关性。考虑到道路轨迹点速度统计同轨迹点到道路中心线距离统计一样未知[8],因此本文首先根据统计学经验,对[u-2σ, u+2σ]区间外速度进行了剔除,也计算了多种统计度量S(如平均值(means0)、众数(modes0)、标准差(stds0)、中位数(medians0)、以5为间隔的5~95百分位(s5-s95)),特征选择阶段再筛选与道路等级最相关的度量,具体计算如下:
S = ( i = 0 n s i ) / n ( 线 ) ( ( i = 0 n s i ) / n + ( j = 0 m s j ) / m ) / 2 ( 线 )
式中:m,n为组成单线路的link个数;si,sj为组成 单线路的link单元所对应的速度统计量,0≤in, 0≤jm

2.3 道路等级分类

RF采用所有决策树投票方式进行分类,精度较高,且可以进行特征重要性评价,因此本文采用该方法进行道路等级分类。首先基于本文设计特征,以命名道路为单位进行特征计算,然后随机抽取70%样本作为训练样本,30%作为测试样本,利用训练样本,基于随机森林分类器进行特征选择,最后基于选择特征训练的模型对测试样本进行道路等级分类。路段等级较低,或较短,会有较少车流量信息,进而影响这些路段基于轨迹数据计算的道路宽度、流量、速度特征,这些路段所占比例较多,如果直接剔除,一方面导致其组成的道路几何特征计算不准确,另一方面减少了等级样本多样性,影响模型训练。因此在特征计算过程中为保证数据的完整性及可利用性,本文将轨迹点数小于C2对应路段计算的宽度、流量、速度特征标记为0。

2.3.1 特征选择

基于对数据和任务的认识进行的特征设计适用于道路等级信息提取,但是可能存在不同特征间相关性强、统一特征内差异性小等问题,若全部特征参与计算,模型训练将会更加困难且可解释性降低。为此,需对设计特征进行选择与评价。
Spearman相关系数对研究变量的数据分布形态和样本容量无特殊要求,因此本文采用Spearman相关系数定量研究设计特征之间、设计特征与标签之间的相关性。将设计特征之间相关系数绝对值大于0.8定义为高相关特征。对于高相关特征的一组特征,按照设计特征与标签之间相关系数进行取舍,保留正负相关系数排序最靠前的特征。
为剔除低重要性特征,本文基于随机森林模型对训练样本进行了10次训练,首先对上述选择特征的特征重要性求平均,然后归一化处理进行特征重要性累加分析,保留特征重要性累加值为95%的特征。基于这些特征,反复构建模型,剔除贡献最差的特征,直到所有特征都已遍历,选出最佳特征组合。为了增强稳定性,采用5折交叉验证的方法进行处理。为保证分类模型计算速度及精度,所有特征均进行了Min-max标准化处理。

2.3.2 模型训练

随机森林依照集成学习策略将多“棵”决策树的预测结果作为最终结果。在模型训练过程中,本文基于网格搜索调参法[26],采用5折交叉验证,采用最优参数方案进行道路等级识别。其中最大特征确定方式设置为“None”。不纯度设置为“gini”。最大树深度设置为“None”、叶子结点包含的最少的样本数设置为1。为避免样本不均衡,类别权值设置为“balanced”。弱分类器的个数则基于精细格网进行搜索。其中衡量特征贡献大小的基尼指数公式如下:
G i n i ( T ) = j i ( f ( C i , T ) / | T | ) ( f ( C j , T ) / | T | )
式中:T表示训练数据集; f(Ci, T)/|T|、f(Cj, T)/|T|分 别为所选样本属于类别CiCj的概率。

3 实验数据及结果分析

3.1 研究区与数据集

为验证本文方法,先后截取了汉正街小范围区域与二环内大范围区域,采用OSM路网[27]及2019年7月—2019年9月众源轨迹数据进行实验(图4)。OSM路网为VGI数据,获取成本低,几何精度高[5],且具有大量道路等级标签,可作为道路等级识别研究的基础路网。本文采用的轨迹数 据采样间隔大部分为0~60 s,定位精度多集中在50 m以内,受周围环境影响噪声较大。每个轨迹点记录了其对应车辆标识、采集时间、经度、纬度、速度和航向信息。二环区范围较大,较汉正街小范围区域有更丰富的等级样本分布,存在更复杂的网络结构,截取大、小 2个区域进行实验,可以有效评估本文设计特征的泛化能力。从图4(c)、图4(d)可以观察到,虽然两区域轨迹数据噪声较大,但由于道路等级原因导致的轨迹分布不均非常明显,因此从直观上看引入轨迹数据进行道路等级识别具有适用性。
图4 实验数据

Fig. 4 Experimental data

为验证本文方法,基于道路名对原始OSM路网进行了重构,并对原始轨迹数据进行了预处理。由于本文轨迹数据质量较差,因此轨迹预处理后保留的最小轨迹点个数C1设置为3。为验证该参数设置的合理性,对实验区域轨迹点个数分布进行了统计,如图5所示。由图5可以看到,两试验区中轨迹点个数普遍偏小,且轨迹点个数为3占比最大,其中汉口区中占比达30.9%,而二环区中占比达31.3%。本文将C1设置为3较为合理,可以保留更多的轨迹信息。经路网及轨迹数据处理后,OSM数据及轨迹数据具体统计如表1所示。
图5 轨迹点数分布情况

Fig. 5 Distribution of trajectory points number

表1 数据集描述信息

Tab. 1 The description of two datasets

实验区域 OSM路网 轨迹数据
原始路段数/条 重建样本数/条 轨迹点数/个 平均采样频率/s 面积/km2
汉正街数据集 1438 520 568 906 29.31 4.2×2.8
二环区数据集 14 340 5187 15 946 541 30.26 14.8×14.3
基于“GB/T51328-2018 城市综合交通体系规划标准”[28],国家按城市道路所承担的城市活动特征,对道路进行了不同粒度等级划分,如将道路分为干线道路、集散道路和支线道路3个大类;城市快速路、主干路、次干路和支路4个中类;I级快速路、II级快速路、I级主干路、II级主干路、III级主干路、次干路、I级支路和II级支路8个小类。一方面OSM路网与我国等级分类的8个小类不匹配,另一方面本文采用的轨迹数据质量较差,进行较细粒度等级划分困难。加之干线道路、集散道路和支线道路的划分粒度较粗,因此本文参考了标准中的中粒度划分,对OSM道路等级进行重新分配(表2);考虑到本文处理的道路为车辆通行道路,将“fclass”字段为:“footway”,“path”,“pedestrian”,“cycleway”,“bridleway”,“steps”,“track”,“track_grade1”,“track_grade2”,“track_grade3”, “track_grade4”,“track_grade5”,“unknown”的路段进行了剔除。
表2 OSM路网等级重新分配

Tab. 2 Road type redistribution of OSM

等级ID 新划分等级 释义 OSM 对应原始等级
0 fast 城市环线,无红绿灯,立体交叉 motorway, trunk
1 fast_link 高架与地面的连接路 motorway_link, trunk_link
2 primary 城市主要行车道路 primary
3 primary_link 一般为左转、右转、提前掉头专用道 primary_link
4 secondary 连接主干路,兼有服务功能 secondary
5 branch 连接小区路、次干路,以服务功能为主 tertiary, secondary_link, tertiary_link
6 service 园区内部能够驾车的道路 service, residential, living_street, unclassified

3.2 实验结果与精度评定

基于本文方法,我们对汉正街及二环区进行了实验。每类实验均分为训练和测试两个阶段,所有实验评价指标均取10次实验均值为最终评定结果。其中总体评定采用了测试集分类准确率(Accuracy),各等级识别结果评定采用了精确率(Precision)、召回率(Recall)、F1值(F1-score) 3个指标,计算公式见式(7)—式(10)。T为测试集所有等级识别正确数量,All为总的测试集数量。TP为某类等级识别正确的数量,FP为某类等级识别错误的数量,FN为某类等级未识别到的数量。精确率反映某类等级正确识别情况,召回率则反映某类等级漏识别情况,F1-score是精确率和召回率的调和均值。
A c c u r a c y = T / A l l
P r e c i s i o n = T P / ( T P + F P )
R e c a l l = T P / ( T P + F N )
F 1 - s c o r e = 2 × P r e c i s i o n × R e c a l l / ( P r e c i s i o n + R e c a l l )
由于路段对应轨迹点数影响轨迹特征计算结果,因此我们对最小轨迹点数C2进行了分析。我们将最小轨迹点数C2的上限设置为60,下限设置为0。不仅考虑了本文将研究区域中低于轨迹点数C2对应路段计算的轨迹语义特征赋值为0的实验方案,还考虑了将研究区域中低于轨迹点数C2对应路段进行剔除的实验方案。记录2个实验方案中等级识别准确率和最小轨迹点数C2的对应关系,结果如图6图7所示。可以看到,无论在汉正街区域还是二环区域,在不同的最小轨迹点数对应结果中,剔除路段的结果准确率明显是低于不剔除路段结果准确率。这主要由于本文采用了路网轨迹特征融合方法,在轨迹特征不可靠时路网互补特征起到作用的缘故。2种方案中最小轨迹点数为0时对应结果准确率最高。因此本文将最小轨迹点数C2设置为0,实验结果如表3所示。可以看到基于本文方法两实验区域总体准确率较好,二环区由于范围较大,道路名称缺失严重,真实道路构建不完整,较汉正街分类准确率较低,但也达到了80%。各等级分类结果中“fast”、“fast_link”、“primary”、“primary_link”、“service”等识别结果也均达到了60%以上。而“secondary”及“branch”由于功能设计很类似,反映在相应特征上也类似,因此较难区分,识别率较低。
图6 不剔除轨迹点较少路段的等级识别准确率

Fig. 6 Road type recognition accuracy that does not eliminate road segments with fewer trajectory points

图7 剔除轨迹点较少路段的等级识别准确率

Fig. 7 Road type recognition accuracy for eliminating road segments with fewer trajectory points

表3 道路等级识别结果

Tab. 3 Road type recognition results (%)

等级ID 等级类别 汉正街 二环区
精确率 召回率 F1值 精确率 召回率 F1值
0 fast 80.6 100.0 89.3 65.4 59.7 62.4
1 fast_link 100.0 100.0 100.0 77.7 87.2 82.2
2 primary 100.0 67.5 80.6 61.0 67.5 64.1
3 primary_link 100.0 75.0 85.7 64.8 74.7 69.4
4 secondary 50.2 80.0 61.7 49.3 42.6 45.7
5 branch 63.9 71.2 67.4 54.8 63.2 58.7
6 service 98.1 95.1 96.6 94.8 89.6 92.1
总体准确率 91.2 80.8

3.3 实验结果对比分析

为验证OSM路网特征与轨迹语义特征集成优势,本文采用OSM路网特征(OSMF)、轨迹语义特征(TRIF)利用随机森林分类器进行实验,与本文采用集成特征(OSMF+TRIF)方法进行比较。除以路名重构道路为基本分析单元进行10组道路等级分类实验外,还对比了基于路段为分析单元的道路等级分类结果。10次重复实验对测试集准确率求平均,结果如表4所示,可以看到无论以路名重构道路形式还是路段形式,两类特征融合后道路等级分类准确率均比仅基于OSM路网特征或轨迹语义特征高。而路名重构后分类准确率也明显高于原始路段分类结果,这与预期一致。
表4 本文方法消融实验结果

Tab. 4 Ablation experimental results of the method in this paper (%)

类别 原始路段 路名重构道路
汉正街 二环区 汉正街/ 二环区
OSMF 83.7 69.5 90.4 77.0
TRIF 64.7 58.0 79.1 64.3
OSMF+TRIF 84.8 75.1 91.2 80.8
在不同等级分类结果中,与仅考虑OSM路网特征相比,融合轨迹特征后,以路段及路名重构路段为分析单元的道路等级分类指标呈现出不同程度的下降与提升,如图8图9所示。对于汉正街区域,融合轨迹数据后,虽有些道路等级召回率有所提升,但精确率提升不明显,尤其是基于路名重构道路形式的道路等级分类结果,这主要由于汉口区较小,路名比较完备,基于路名重构道路后较为准确的反映了自然道路形态,导致本文较为完备的路网设计特征就可以很好的反映不同道路等级特性,得到较好的分类结果。而对于二环区,由于“fast”、“secondary”、“branch”与其他道路等级相比有明显的轨迹特征区分,因此在路网特征基础上融合轨迹特征,ID为0、4、5的道路等级分类精确率、召回率及F1值得到有效提高。
图8 路段形式在特征融合后不同等级分类指标提升率

Fig. 8 The improvement rate of road type classification index after feature fusion in road section form

图9 路名重构道路形式在特征融合后不同等级分类指标提升率

Fig. 9 The improvement rate of road type classification index after feature fusion in name reconstruction road form

特征融合后,以路名重构道路为研究单元识别结果相较于以路段为研究单元识别结果,不仅在总体准确率有较好表现,在各等级平均分类指标中也有较好表现,如图10所示。基于道路名合并路段后ID为1、2、3分类精确率提升较为明显,而其他类别指标没有太大变化,这可能是由于合并后,“fast_link”、“primary”及“primary_link”的道路长度、宽度、流量特征凸显导致。
图10 路名重构后不同等级分类指标的提升率

Fig. 10 The improvement rate of road type classification index after name reconstruction

本文以路名重构道路为单位,综合考虑路网及轨迹数据互补特征集,提出了一种新的道路等级识别方法。与文献[8]方法及常用的最近邻算法(KNN)、支持向量机(SVM)、高斯朴素贝叶斯(GNB)等模型相比,本文方法实现了更高的准确率,如表5所示。文献[8]方法考虑交通流量、轨迹点速度、轨迹点到中心线距离等特征,采用SVM进行道路等级识别,无论基于原始路段还是基于路名重构道路,其结果明显低于本文集成路网轨迹特征方法。KNN、SVM、GNB模型以路名重构道路为单位进行道路等级识别时的准确率均比以原始路段为单位识别准确率高,同时KNN、SVM、GNB模型集成路网轨迹互补特征时,准确率也均比仅考虑单类特征时高,再一次表明以路名重构道路为单位,集成路网及轨迹特征进行道路等级识别的优势。GNB算法比较简单,成长空间并不是太大,在本文道路等级识别中效果最差。SVM有4个重要参数:核函数K、误差项的惩罚参数C、核函数参数G、多项式poly函数的维度D(选择其他核函数忽略)。在采用SVM进行训练时均进行了精细的网格搜索。同样采用KNN训练时2个重要参数:最近邻个数k和距离度量p也进行了精细格网搜索。
表5 与其他分类模型及方法比较结果

Tab. 5 Results compared with other classification models and methods

模型 方法 原始路段 路名重构道路
汉正街/% 二环区/% 汉正街/% 二环区/%
RF 本文方法 84.8 75.1 91.2 80.8
SVM 文献[8]方法 68.4 56.4 76.9 60.1
KNN OSMF 80.8 62.2 86.7 73.5
TRIF 60.7 48.6 76.1 49.5
OSMF+TRIF 81.7 68.6 89.9 75.4
SVM OSMF 79.7 64.2 86.2 69.9
TRIF 66.4 56.3 76.2 60.4
OSMF+TRIF 83.4 70.4 88.0 74.4
GNB OSMF 54.7 54.4 63.5 60.4
TRIF 51.6 57.0 57.1 42.3
OSMF+TRIF 58.5 61.7 74.4 66.9

3.4 特征设计合理性分析

由于道路拓扑特征是道路重要性评价中最常用的指标,因此本文以该类特征为基准,基于相同数据集,通过逐步增加某类特征进行实验,进而验证本文特征设计的合理性,结果如表6所示。可以看出在道路拓扑特征基础上增加道路几何特征、道路分布特征及道路宽度特征,测试集分类准确率在汉正街及二环区均得到了提升。表明本文设计的道路拓扑特征、道路几何特征、道路分布特征、道路宽度特征在本文所选的2个实验区呈现正效应。而基于路网获取的单双向信息,基于轨迹数据获取的流量及速度特征,在不同区域有不同的表现。通过分析原因可总结为如下3点:
表6 本文方法特征设计合理性分析

Tab. 6 Feature design reasonability analysis of the method in this paper

特征类别 汉正街/% 二环区/%
拓扑特征 79.1 70.4
拓扑特征+几何特征 81.7 78.0
拓扑特征+分布特征 86.0 79.6
拓扑特征+单双向 90.4 77.0
拓扑特征+宽度 92.6 78.3
拓扑特征+流量 91.5 80.0
拓扑特征+速度 91.2 80.8
(1)不同区域道路网结构分布、周围环境不同,在一定程度上影响特征计算结果;
(2)二环区范围较大,道路名缺失严重,真实道路构建不完整,导致某些道路计算的特征与实际有偏差;
(3)城市道路较为复杂,存在两侧分布有泊车位置道路、车流量较高但等级较低道路、限速较低等级较高道路(附近有学校、事故频发)等,这些特殊道路在不同区域分布不同,导致基于轨迹获取的流量及速度对道路等级识别结果影响不同。虽然特征合理性分析实验中添加某类特征在某个区域等级识别准确率会有所下降,但在另一个区域却相反,并且无论汉正街还是二环区,路网轨迹特征融合识别结果比仅基于路网或轨迹特征识别结果好。
在随机森林中,通过某特征划分后平均基尼指数减少程度越大,则该特征分类能力越强[29],因此本文采用平均不纯度减少(MDI)进行各特征重要性评价。为避免不确定性影响,本文还基于10次实验计算的MDI指标进行了特征重要性平均值计算。本文路网轨迹融合方法所选择特征的平均重要性排序如图11所示,结合本文设计的多模态特征信息(表7),可以看到汉正街与二环区道路等级识别选取特征中速度与交通流量相关特征排名靠前,其他设计特征虽排名不高,但有所选择。也再次证明本文所设计的道路几何特征、道路分布特征、道路拓扑特征、道路单双向、道路宽度特征、道路流量特征及道路速度特征的合理性。
图11 本文方法特征重要性评价

Fig. 11 Feature importance evaluation of the method in this paper

表7 多模态特征统计信息

Tab. 7 Multimodal feature statistics

特征来源 特征类别 指标 含义
路网数据 道路几何特征 Ldis 道路几何长度
RC 道路弯曲度
道路分布特征 NArea 道路邻接网眼面积
pdens 道路上n个节点密度平均值
ldens 道路上n-1个路段线密度平均值
道路拓扑特征 LLCE、LLCD、LLCC、LLCB、LLPG 从道路自身方面度量的节点群聚系数、度中心性、接近中心性、中介中心度、特征向量中心性
PCE、PCD、PCC、PCB、PPG 从组成对象node方面度量的节点群聚系数、度中心性、接近中心性、中介中心度、特征向量中心性
LCE、LCD、LCC、LCB、LPG 从组成对象link方面度量的节点群聚系数、度中心性、接近中心性、中介中心度、特征向量中心性
轨迹数据 道路流量特征 trinum 道路所匹配的轨迹条数
triTnum 一条道路转向其他道路,或其他道路转向该道路的进出流量
triSnum 道路组成的路段单元间通过流量
道路单双向特征 oneway 道路的单双向信息
道路宽度特征 W 道路匹配轨迹点到道路中心线距离的最大值与最小值之差
meanw0、modew0、stdw0、medianw0 道路匹配轨迹点到道路中心线距离绝对值的平均值、众数、标准差、中位数
w5-w95 道路匹配轨迹点到道路中心线距离绝对值的5~90百分位
道路速度特征 means0、modes0、stds0、medians0 道路匹配轨迹点速度的平均值、众数、标准差、中位数
s5-s95 道路匹配轨迹点速度的5~90百分位

4 结论与展望

由于高等级道路限速高、红绿灯设置少、路面较为宽阔,复杂程度低,用户易于驾驶。因此在给定起点终点的条件下,当两条路径总代价相当情况下,除一些特殊偏好(如路径上风景优美、无收费站等)外,用户多倾向于选择高等级道路。因此在路径规划过程中,可考虑设置道路等级信息,优化导航路径规划方案。除此之外道路等级还能够为道路网多尺度表达、城市规划等提供重要依据。基于道路等级所反映的道路几何特征、道路分布特征、道路拓扑特征、道路单双向特征及道路语义特征,本文基于OSM路网提出一种顾及路网与轨迹多模特征的道路等级分类方法,首次进行了全面系统的道路等级识别分析及论证,期望解决OSM路网部分路段及路网生成产品等级缺失问题。主要结论如下:
(1)与单类特征相比,无论以路段形式为分析单元还是命名道路为分析单元,分别采用RF、KNN、SVM、GNB为基本分类模型,集成路网与轨迹特征均可有效提高道路等级分类准确率。
(2)与路段形式进行道路等级分类相比,无论是否集成路网与轨迹特征,分别采用RF、KNN、SVM、GNB为基本分类模型,以路名重构道路形式进行道路等级分类效果均更好。
(3)本文以命名道路为分析单元,融合路网及轨迹特征,采用RF分类模型进行道路等级分类方法,比采用KNN、SVM、GNB分类模型及其他方法更可获得较优的结果。
本文方法在道路等级识别方面取得了初步成果,但仍有不足之处有待改进:
(1)进行辅路探测研究,对路段纵向合并进行完善,以期进一步提高本文方法的识别准确率;
(2)引入新的特征或数据对功能服务相似的“secondary”,“branch”等级识别进行优化;
(3)考虑并行计算,解决融合方法的算法速度和效率较低问题;
(4)分析错误识别等级与真实等级的差异,挖掘不适宜道路等级,以期对城市道路规划建设有所借鉴;
(5)进行不同粒度等级挖掘,对道路等级识别进行更系统探索。

:感谢武汉大学-华为空间信息技术创新实验室对本文提供资助。

[1]
Yu W H, Zhang Y F, Ai T H, et al. Road network generalization considering traffic flow patterns[J]. International Journal of Geographical Information Science, 2020, 34(1):119-149. DOI: 10.1080/13658816.2019.1650936

DOI

[2]
Goto A, Nakamura H. Functionally hierarchical road classification considering the area characteristics for the performance-oriented road planning[J]. Transportation Research Procedia, 2016, 15(1):732-748. DOI: 10.1016/j.trpr o.2016.06.061

DOI

[3]
李辉, 朱苗苗, 韩志玲, 等. 面向功能的城市道路等级结构分析及资源配置[J]. 公路, 2020, 65(7):6.

[ Li H, Zhu M M, Han Z L, et al. Research on hierarchy and resource allocation of urban road based on road function[J]. Highway, 2020, 65(7):6. ]

[4]
栾学晨, 杨必胜, 张云菲. 城市道路复杂网络结构化等级分析[J]. 武汉大学学报·信息科学版, 2012, 37(6):728-732.

[ Luan X C, Yang B S, Zhang Y F. Structural hierarchy analysis of streets based on complex network theory[J]. Geomatics and Information Science of Wuhan University, 2012, 37(6):728-732. ] DOI: 10.13203/j.whugis201 2.06.024

DOI

[5]
Lyu H Y, Pfoser D, Sheng Y H. Movement-aware map construction[J], International Journal of Geographical Information Science, 2021, 35(6):1065-1093. DOI: 10.1080/13658816.2020.1863409

DOI

[6]
Arman M A, Tampère C M J. Lane-level routable digital map reconstruction for motorway networks using low-precision GPS data[J]. Transportation Research Part C: Emerging Technologies, 2021, 129(1):103234. DOI: 10.1 016/j.trc.2021.103234

DOI

[7]
马超. 自发地理信息道路数据融合处理关键技术研究[D]. 郑州: 解放军信息工程大学, 2017.

[ Ma C. Research on key technology of data fusion of volunteered information geographic road data[D]. Zhengzhou: Information Engineering University, 2017. ]

[8]
Li J, Qin Q M, Han J W, et al. Mining trajectory data and geotagged data in social media for road map inference[J]. Transactions in GIS, 2015, 19(1):1-18. DOI: 10.1111/tgis.1 2072

DOI

[9]
Van W K, Biljecki F, Stefan V D S. Automatic update of road attributes by mining GPS tracks[J]. Transactions in GIS, 2016, 20(5):664-683. DOI: 10.1111/tgis.12186

DOI

[10]
Ajmar A, Arco E, Boccardo P. Definition of a methodology to derive road network functional hierarchy classes using car tracking data[J]. Int. Arch. Photogramm. Remote Sens. Spatial Inf. Sci, 2020, XLIII-B4-2020:307-312. DOI: 10.5194/isprs-archives-XLIII-B4-2020-307-2020

DOI

[11]
Jiang B. Street hierarchies: A minority of streets account for a majority of traffic flow[J]. International Journal of Geographical Information Science, 2009, 23(8):1033-1048. DOI: 10.1080/13658810802004648

DOI

[12]
Zhou C, Li W J, Jia H G. Road network generalization based on float car tracking[J]. Int. Arch. Photogram. Remote Sens. Spatial Inf. Sci, 2016, XLI-B4-2016:71-77. DOI: 10.5194/isprsarchives-XLI-B4-71-2016

DOI

[13]
邓敏, 陈雪莹, 唐建波, 等. 一种顾及道路交通流量语义信息的路网选取方法[J]. 武汉大学学报·信息科学版, 2020, 45(9):1438-1447.

[ Deng M, Chen X Y, Tang J B, et al. A method for road network selection considering the traffic flow semantic information[J]. Geomatics and Information Science of Wuhan University, 2020, 45(9):1438-1447. ] DOI: 10.13203/j.whugis20180053

DOI

[14]
曹炜威, 张红, 何晶, 等. 顾及结构和几何特征的道路自动选取方法[J]. 武汉大学学报·信息科学版, 2017, 42(4):5.

[ Cao W W, Zhang H, He J, et al. Road selection considering structural and geometric properties[J]. Geomatics and Information Science of Wuhan University, 2017, 42(4):520-524. ] DOI: 10.13203/j.whugis20140862

DOI

[15]
韩远. 基于多属性决策层次分析法的道路选取方法[D]. 兰州: 兰州交通大学, 2020.

[ Han Y. Road selection based on multi-attribute decision-making analytic hierarchy process[D]. Lanzhou: Lanzhou Jiao tong University, 2020. ]

[16]
胡云岗, 陈军, 李志林, 等. 基于网眼密度的道路选取方法[J]. 测绘学报, 2007, 36(3):111-117.

[ Hu Y G, Chen J, Li Z L, et al. Selective omission of road features based on mesh density for digital map generalization[J]. Acta Geodaetica et CartographicaSinica, 2007, 36(3):111-117. ]

[17]
施树明, 于壮, 林楠, 等. 面向汽车运行工况数据采集的道路等级K核划分方法[J]. 中国公路学报, 2016, 29(11):171-178.

[ Shi S M, Yu Z, Lin N, et al. Road hierarchy for vehicle driving cycle data collection based on k-core algorithm[J]. China Journal of Highway and Transport, 2016, 29(11):171-178. ] DOI: CNKI:SUN:ZGGL.0.2016-11-025

DOI

[18]
Zhou Q, Li Z. Empirical determination of geometric parameters for selective omission in a road network[J]. International Journal of Geographical Information Science, 2016, 30(2),263-299. DOI: 10.1080/13658816.2015.1085 538

DOI

[19]
袁林辉. 集成学习与多参数体系对OSM道路网自动选取的研究[D]. 南京: 南京大学, 2018.

[ Yuan L H. Study on ensemble learning and multi-parameters system for OSM road network selection[D]. Nanjing: Nanjing University, 2018. ]

[20]
Zheng J, Gao Z, Ma J, et al. Deep graph convolutional networks for accurate automatic road network selection[J]. ISPRS International Journal of Geo-information. 2021, 10(11):768. DOI: 10.3390/ijgi10110768

DOI

[21]
Zhou Q, Li Z. A comparative study of various supervised learning approaches to selective omission in a road network[J]. The Cartographic Journal, 2017, 54(3):254-264. DOI: 10.1179/1743277414Y.0000000083

DOI

[22]
向隆刚, 邵晓天. 载体轨迹停留信息提取的核密度法及其可视化[J]. 测绘学报, 2016, 45(9):1122-1131.

[ Xiang L G, Shao X T. Visualization and extraction of trajectory stops based on kernel-density[J]. Acta Geodaetica et CartographicaSinica, 2016, 45(9):1122-1131. ] DOI: 10.11947/j.AGCS.2016.20150347

DOI

[23]
Newson P, Krumm J. Hidden markov map matching through noise and sparseness[C]. Proceedings of the 17th ACM SIG-SPATIAL International Conference on Advances in Geographic Information Systems, Washington, USA, 2009:336-343. DOI: 10.1145/1653771.1653818

DOI

[24]
刘凯, 龚星星, 常四铁. 城市道路分级体系及相关因素研究[J]. 交通运输工程与信息学报, 2012, 10(4):7.

[ Liu K, Gong X X, Chang S T. Study on urban road hierarchy and related factors[J]. Journal of Transportation Engineering and Information, 2012, 10(4):7. ] DOI: CNKI:SUN:JTGC.0.2012-04-015

DOI

[25]
唐炉亮, 杨雪, 靳晨, 等. 基于约束高斯混合模型的车道信息获取[J]. 武汉大学学报·信息科学版, 2017, 42(3):341-347.

[ Tang L L, Yang X, Jin C, et al. Traffic lane number extraction based on the constrained gaussian mixture model[J]. Geomatics and Information Science of Wuhan University, 2017, 42(3):341-347. ] DOI: 10.13203/j.whugi s20140965

DOI

[26]
Xu Y, Xie Z, Wu L, et al. Multilane roads extracted from the OpenStreetMap urban road network using random forests[J]. Transactions in GIS, 2019, 23(2):224-240. DOI: 1 0.1111/tgis.12514

DOI

[27]
OpenStreet Map. https://www.openstreetmap.org/.

[28]
城市综合交通体系规划标准(GB/T51328-2018)[S]. 2018.

[ Standard for urban comprehensive transport system planning (GB/T51328-2018)[S]. 2018. ]

[29]
何云, 黄翀, 李贺, 等. 基于Sentinel-2A影像特征优选的随机森林土地覆盖分类[J]. 资源科学, 2019, 41(5):170-179.

[ He Y, Huang C, Li H, et al. Land-cover classification of random forest based on Sentinel-2A image feature optimization[J]. Resources Science, 2019, 41(5):992-1001. ] DOI: 10.18402/resci.2019.05.15

DOI

Outlines

/