轨迹与交通

面向路网匹配的层次化语义相似性度量模型

  • 王玉竹 , 1, 2, 3, 4 ,
  • 闫浩文 , 1, 2, 3, 4, * ,
  • 禄小敏 1, 2, 3, 4
展开
  • 1.兰州交通大学测绘与地理信息学院,兰州 730070
  • 2.地理国情监测技术应用国家地方联合工程研究中心, 兰州 730070
  • 3.甘肃省地理国情监测工程实验室, 兰州 730070
  • 4.甘肃大禹九州空间信息科技有限公司院士专家工作站,兰州 730050
*闫浩文(1969—),男,甘肃民勤人,博士,教授,博导,主要从事地图自动综合、空间关系等方面的研究。 E-mail:

王玉竹(1989—),女,甘肃文县人,博士生,主要从事地图自动综合方面的研究。E-mail:

收稿日期: 2022-11-20

  修回日期: 2022-12-28

  网络出版日期: 2023-04-19

基金资助

国家自然科学基金项目(41930101)

国家自然科学基金地区基金项目(42161066)

甘肃省高等学校产业支撑计划项目(2022CYZC-30)

Hierarchical Semantic Similarity Metric Model Oriented to Road Network Matching

  • WANG Yuzhu , 1, 2, 3, 4 ,
  • YAN Haowen , 1, 2, 3, 4, * ,
  • LU Xiaomin 1, 2, 3, 4
Expand
  • 1. Faculty of Geomatics, Lanzhou Jiaotong University, Lanzhou 730070, China
  • 2. National-Local Joint Engineering Research Center of Technologies and Applications for National Geographic State Monitoring, Lanzhou730070, China
  • 3. Gansu Provincial Engineering Laboratory for National Geographic State Monitoring, Lanzhou 730070, China
  • 4. Academician Expert Workstation of Gansu Dayu Jiuzhou Space Information Technology Co., Ltd., Lanzhou 730050, China
*YAN Haowen, E-mail:

Received date: 2022-11-20

  Revised date: 2022-12-28

  Online published: 2023-04-19

Supported by

National Natural Science Foundation of China(41930101)

Regional Fund of National Natural Science Foundation of China(42161066)

Industrial Support and Program Project of Universities in Gansu Province(2022CYZC-30)

摘要

当前路网主要借助属性表中若干特征项的属性信息对其进行语义相似性评估,很少顾及到路网的分级层次结构、空间拓扑信息以及邻域要素信息,一定程度上影响着语义相似性评估结果的准确性。针对上述问题,本文提出一种“整体(骨架树)→部分(同构子树)→个体(stroke)”的路网层次化语义相似性度量模型,该模型顾及了路网属性特征项、上下级拓扑关联和邻域POI的语义信息,突破了传统模型仅以路网属性特征项的语义信息作为相似性评估指标的局限性。① 利用stroke技术表达路网,并对其进行分级;② 将路网数据映射到关联骨架树,进而建立考虑其层次性的路网相似性度量模型;③ 利用层次分析法和熵权法分别确定约束指标权值,并通过加权法计算路网的语义相似度。将该模型应用到路网匹配实验中,并与既有模型进行对比,结果表明利用本文提出的语义相似性度量模型,同时结合同构子树进行道路匹配,不仅可以提高匹配结果的准确性,而且可以提高匹配效率。对于文中案例所选的路网,拓扑关联语义信息对匹配结果的影响较邻域POI语义信息更显著,且与遍历法相比,以同构子树作为参照进行路网匹配,其匹配速率得到明显提升。

本文引用格式

王玉竹 , 闫浩文 , 禄小敏 . 面向路网匹配的层次化语义相似性度量模型[J]. 地球信息科学学报, 2023 , 25(4) : 714 -725 . DOI: 10.12082/dqxxkx.2023.220901

Abstract

The road network data have characteristics such as multiple sources and heterogeneity, which affect the data sharing and integrating to some extent. As a solution to deal with this problem, this study proposes a same-name road matching technology, which mainly depends on road similarity metric and its matching strategy. The semantic similarity is a more effective metric than geometric similarity, therefore it is of great theoretical value and practical significance to conduct road network matching based on semantic similarity metric. At present, the semantic similarity of road networks is mainly evaluated by the attribute information of some feature items in the attribute table, with little concern for the hierarchical structure of road network, spatial topology information, and neighborhood element information, which has limitation in the estimation accuracy of the semantic similarity results. To address the above problems, a hierarchical semantic similarity metric model named "whole (skeleton tree) → part (isomorphic subtree) → individual (stroke)" is proposed in this paper, in which the semantic information of attribute feature items, topological association of upper and lower classes, and POIs in the neighborhood of the road network is taken into account, thereby overcoming the limitation of the traditional model. Firstly, the road network is expressed using stroke technique and ranked hierarchically. Next, the road network data are mapped to the associated skeleton tree according to the hierarchical relationship between various classes of stroke, and then a road network similarity metric model is established considering the hierarchical nature. Finally, the weights of constraint indexs are determined using hierarchical analysis and entropy weighting method respectively, and the semantic similarity of the road network is calculated using the weighting method. The model proposed in this paper is verified in the road network matching experiments and compared with the existing iterative model. The results show that the proposed matching road network using the semantic similarity metric model combined with isomorphic sub-trees can not only improve the accuracy of matching results but also increase the matching efficiency. From the case study of the road network conducted in the paper, the topology association semantic information has a more significant impact on the matching results than that of neighborhood POI semantic information, and the matching efficiency is remarkably improved when using isomorphic subtrees as reference for road network matching compared with the iterative method.

1 引言

路网是由不同等级和用途的道路通过一定的布局组成的网状道路系统。路网地理数据作为一个国家或地区的基础地理数据,不仅在军事、经济、运输等领域意义重大,而且在城市规划、数字城市、智慧城市、城市扩张等方面也发挥着非常重要的作用[1-3]。由于路网地理数据资源具有多源、异构、异质等特点,一定程度上影响着其空间数据的共享、融合等,同名道路匹配是解决该问题的核心技术之一,故学者们从不同的角度提出多种路网匹配方法,如基于概率松弛的路网匹配法[4]、基于多边形的路网匹配法[5]、基于扩展节点的路网匹配法[6]和基于骨架线网的道路和居民地联动匹配法[7]
当前研究大多通过求解线要素的几何相似性或者语义相似性实现路网匹配[8-9],前者主要指同一或不同尺度下路网数据的距离相似性、形状相似性和拓扑相似性等[10-13],而后者主要指路网的概念属性相似性[14-16]。与路网几何相似性丰富的研究成果相比,语义的模糊性、不易量化等特点导致其相似性成果明显偏少,但少有的研究成果也为路网语义相似性研究提供了参考与借鉴。吴冰娇等[14]基于路网属性表中若干特征项,提出一种面向匹配的主客观集成赋权法的路网语义相似性计算模型,结果显示该模型能够提高路网的匹配精度,但匹配过程中需要求解参考数据与目标数据中两两路段的相似性,导致其匹配速度偏低;谭永滨等[15]将路网属性信息划分为要素类别信息、地物名称信息以及辅助信息3部分,提出一种语义支持的路网属性相似性模型,但需要利用几何相似性提前确定匹配候选集;赵云鹏等[16]以路网分类语义关系作为控制条件,建立一种基于多特征融合的路网语义相似性度量模型,并在路网匹配中利用属性特征项的权重作为约束条件来提高其匹配效率。
上述研究成果均只利用属性表中的若干特征项进行语义相似性评估,进而对路网进行匹配、融合。实际上,路网数据不仅属性特征丰富,而且分级层次结构明显[17-18],综合利用属性特征语义和分级层次结构开展路网相似性评估和匹配融合显得更加自然、合理。此外,统计表明部分路网数据的属性信息并不完整,甚至存在缺失的情况,这会或多或少影响语义相似性评估结果的准确性,进而影响路网的匹配质量。然而,路网不是独立存在于地理环境之中,而是与邻域内其他地理实体相互联系、相互制约和相互渗透,除自身语义存在相似性外,其邻域内的其他地理实体也具备一定相似性,尤其是与道路密切相关的POI,故可以利用邻域要素语义信息相似性间接地评估路网的相似性,从而提高评估结果的准确性。
基于此,本文拟在前述成果的基础上进行改进,提出一种面向路网匹配的层次化语义相似性度量模型,该模型综合考虑了路网的属性特征、空间拓扑特征和邻域要素特征,突破了传统模型仅以路网属性特征项的语义信息作为相似性评估指标的局限性。在匹配过程中,该模型以同构子树作为参照逐级匹配,有效减少了冗余匹配,进而提高了路网的匹配效率。

2 研究方法

本文旨在借助路网的层次性建立语义相似性度量模型,进而实现多源路网数据的高效匹配,其技术路线如图1所示。
图1 研究技术路线

Fig. 1 Technical route in this study

2.1 路网层次化语义相似性度量模型

2.1.1 路网stroke生成

传统的路网通常采用弧段-节点模型进行表达,同一条道路由若干弧段和结点组成,具有数据量庞大、组织形式复杂等缺点。利用stroke技术可以有效地减少弧段和节点数量,进而提高路网相似性计算以及路网匹配的效率,故本文以stroke作为表达路网结构特征的基本单元。通过特定的标准判断拓扑关联的弧段是否属于同一stroke的过程称为stroke连接,而路网stroke可以理解为按照一定的准则将路段连接成的道路链[19]。当前,stroke判断准则大致可分语义一致性和方向一致性两类[20-21]。本文采用两者兼顾的连接策略,即依次按照弧段名称、弧段等级、弧段夹角优先级的顺序构建stroke,其流程图如图2所示。
图2 路网stroke生成流程

Fig. 2 Flow chart of road network stroke generation

2.1.2 路网stroke层次化表达

对于两条相似的stroke,其周围的路网层次结构也具有一定的相似性。为在路网语义相似性评估及其匹配中反映这种层次结构,本文借助路网关联骨架树建立路网层次化表达模型,即按照2.1.1中生成的各stroke之间的空间分级连接关系,将其映射在树状结构中,进而构建路网层次关联骨架树模型。主要步骤如下:
(1)按照stroke的属性等级生成各级stroke集Sset-j,下标j代表stroke属性等级。如路网中高速、一级、二级、三级和四级道路生成的stroke集可分别标记为Sset-ISset-ⅡSset-ⅢSset-ⅣSset-Ⅴ
(2)构建虚拟根节点(Anything),并将集合Sset-I中的stroke作为虚拟根节点的子节点。
(3)判断集合Sset-I中I级stroke和Sset-Ⅱ中Ⅱ级stroke的空间连接关系,将与I级stroke相连接的Ⅱ级stroke作为I级stroke的子节点,其他子节点按照同样的方法生成对应地子节点。如果当前子节点存在多个父节点,则将该子节点归属为长度最长的父节点。
(4)按照上述方法,直至所有叶节点生成完毕,与路网关联的完整骨架树便构建完成,如图3所示。
图3 路网stroke及其关联骨架树

Fig. 3 Road network stroke and its associated skeleton tree

2.1.3 层次结构的相似性度量模型

在群组目标中,人脑对目标信息的认知并非相互独立,而是结合周围事物的结构特征进行综合判断。为了体现人脑的这种认知过程,本文将路网层次结构映射到关联骨架树上进行模拟,即建立“整体(骨架树)→部分(同构子树)→个体(stroke)”的路网层次化语义相似性度量模型。图4可以直观地反映该模型的构建原理。需要说明的是,关联骨架树中的同构子树并不唯一,而是存在若干个规模不一的同构子树。因此,在同构子树提取过程中,首先提取初始骨架树中的最大同构子树,接着在初始骨架树中删除最大同构子树,再从剩余的骨架树中重新搜索最大同构子树,直至某一骨架树为空集。
图4 层次化相似性度量模型构建原理

Fig. 4 Principle of establishing hierarchical similarity metric model

2.2 层次结构的路网匹配

路网匹配过程中,匹配候选集的选取直接影响着匹配速度和质量。如果采用遍历的方式,即在匹配过程中求解参考数据与目标数据中两两路段的相似性,不仅需要高性能计算机,而且计算量大、耗时长,进而影响匹配精度和匹配效率。本文借助前述层次模型中的同构子树作为参照,从高等级stroke到低等级stroke逐级匹配,并以高等级stroke约束低等级stroke进行匹配,有效减少了冗余匹配,提高了匹配速度。主要匹配步骤如下:
(1)定义stroke对的语义匹配函数。若stroke对匹配成功,则有fm(stroke_i)=1.0;否则, fm(stroke_i)=0。
(2)计算stroke对相似性。在初始关联骨架树中提取最大同构子树,计算同构子树中stroke对的相似性Sp
(3)判断匹配函数。若Sp大于匹配阈值ε,stroke对匹配成功,取fm(stroke_i)=1.0,并将其添加到集合M中,并对与其连接的低一级stroke对进行匹配;否则,取fm(stroke_i)=0,并将其添加到集合N中,同时对同级其他stroke对进行匹配。
(4)在剩余关联骨架树中,继续执行步骤(2)和步骤(3),直到某一骨架树为空集。

2.3 路网语义信息相似性计算

传统的路网语义相似性模型主要利用属性表中若干特征项的相似性加权进行计算。本文在此基础上对其进行改进,即通过路网stroke的属性特征项语义相似、空间拓扑关联语义相似、邻域要素语义相似加权综合计算(图4),其相似性度量函数定义为:
S I a , I b = w p S p I a , I b + w r S r I a , I b + w v S v I a , I b
式中:IaIb代表不同数据源或不同尺度下的路网stroke;Sp(Ia, Ib)代表属性特征项语义相似度;Sr(Ir, Ir)代表空间拓扑关联语义相似度;Sv(Ia, Ib)代表邻域要素语义相似度;wpwrwv分别代表对应地语义权重,其大小与其特征项的相对重要程度有关,并满足wp+wr+wv=1.0。

2.3.1 属性特征项语义相似度

道路作为一种线状地理实体,除具有较为抽象化的空间几何形态外,还包括非空特征的信息描述,即特征项的属性信息。分析本文实例中路网属性表中特征项的表达形式,可以将其划分为3种:字符型、数值型和枚举型。无论何种类型的属性特征项,在计算实体语义相似性时都会给其造成一定的影响,但其影响程度或多或少存在差异,需要对其进行区别,即引入权重因子表征其影响程度。
(1)字符型属性语义相似度
字符型语义主要利用字符串指代道路的某种属性,本文仅考虑stroke名称,其相似性采用编辑距离法计算:
S p c I a , I b = 1 - D i s t a n c e I a , I b M a x L I a , L I b
式中:Distance(Ia, Ib)分别代表2条stroke对应名称的编辑距离,L(Ia)和L(Ib)分别代表2条stroke对应名称的字符串长度,Max[L(Ia), L(Ib)] 代表取L(Ia)和 L(Ib)中的较大值。
(2)数值型属性语义相似度
数值型语义主要是通过数字描述道路的属性,其差值与语义相似度呈反比,即差值越小、相似度越高。结合实际情况给定阈值,当差值小于阈值时,认为二者完全相似,反之,则认为相似度为0。本文仅考虑stroke长度,其相似计算公式如下:
S p n I a , I b = 1 n a - n b λ 0 n a - n b > λ
式中:nanb分别代表2条stroke的长度;λ代表阈值。
(3)枚举型属性语义相似度
枚举型语义主要通过列举的方式对其属性进行描述,一般具有2级及以上的状态属性,可用字符串或者数值来表征,但后者不具备数学计算意义,仅反映属性的等级差异。本文仅考虑stroke等级,具体计算公式如下:
S p g I a , I b = 1 - f g a - f g b m
式中:f(ga)和f(gb)分别代表2条stroke对应排列序号;m代表序号最大值。
(4)属性特征语义总相似度
属性特征语义总相似度通过字符型属性语义相似度、数值型属性语义相似度和枚举型属性语义相似度加权得到:
S p I a , I b = w p c S p c I a , I b + w p n S p n I a , I b + w p g S p g I a , I b
式中:wpcwpnwpg为对应不同属性项的权重,满足wpc+wpn+wpg=1.0。

2.3.2 空间拓扑关联语义相似度

空间拓扑是路网结构中最重要的特征之一,表现为路口与路段之间的点-线拓扑关系,能够直观、清楚地反映路网的连接状况。为更好地反映路网的层次性,文中涉及的空间拓扑语义特指某一stroke与其上、下级stroke的连接关系,即当前stroke与较高和较低一级stroke的连接数量,其空间拓扑关联语义相似可以表示为:
S r I a , I b = 1 - n d a u p - n d b u p M a x n d a u p , n d b u p · 1 - n d a d o w n - n d b d o w n M a x n d a d o w n , n d b d o w n
式中: n d a u p n d b u p分别代表当前stroke对与其较高一级stroke的连接数量, n d a d o w n n d b d o w n分别代表当前stroke对与其较低一级stroke的连接数量。

2.3.3 邻域要素语义相似度

地理实体并不是孤立存在于地理环境中,而是与其他地理实体相互联系、相互制约和相互渗透,尤其是邻域环境内的地理实体,其相互作用非常强烈,如路网与其周边的POI,除了路网自身具备良好的相似性外,其邻域环境中的POI也颇为相似[22]。在路网语义相似性计算中,可能存在局部数据缺失的情况,致使其不足以通过自身相似性得到正确的结果,但可以通过邻域环境中的POI间接增强路网的语义相似性。本文利用路网stroke缓冲区内POI强度Ps的相似度表征其邻域要素的语义相似度[23],即
S v I a , I b = M i n P s a , P s b M a x P s a , P s b
P s = T p i i = 1 n T p i · w p i S p
式中:PsaPsb分别代表2条stroke的POI强度;Tpi代表第i类POI数量;Sp代表stroke的缓冲区面积;wpi代表第i类POI的权重;Min(Psa, Psb)和Max(Psa, Psb)分别代表取PsaPsb中的较小值和较大值。因关注角度不同,POI分类存在些许差异,本文参考文献[23]—[24],将POI分为13类,即行政机构、住宿、教育、医疗、餐饮、娱乐、购物、文体、出行、金融、旅游、企事业单位和房产,为便于后续分析,文中将其依次定义为第1类到第13类POI。

2.3.4 权重计算

空间相似是一种不确定性估算,具有明显的模糊性,各指标的权重合理取值对其结果的影响非常显著。目前权重计算可大致划分为主观赋权法和客观赋权法两类,前者根据专家的经验进行决策,后者则根据数据的信息量确定。对于无法获取足够信息量的权重值,如wpwrwv采用主观赋权法确定(层次分析法[25]),其余权重采用客观赋权法(熵权法[16])确定。

2.3.4.1 层次分析法

层次分析法的核心思想是把研究问题根据实际情况分解为若干层次,通过对比各指标之间的相对重要程度确定权值,主要计算过程如下:
(1)构建层次分析结构
文中相似性权重层次分析结构主要由目标层和准则层构成(图5),前者对应相似性权重M,后者对应相似性评估指标,即属性特征语义相似性Z1、拓扑关联语义相似性Z2和邻域要素语义相似性Z3
图5 相似性权重层次分析结构

Fig. 5 Hierarchical analysis structure of similarity weights

(2)构造判断矩阵
根据指标Z1、Z2、Z3相对重要程度,结合1-9标度法,构建对应地相似性权重判断矩阵z(表1)。
表1 相似性判断矩阵

Tab. 1 Similarity judgment matrix

M Z1 Z2 Z3
Z1 1 2 4
Z2 1/2 1 3
Z3 1/4 1/3 1
(3)求解特征向量和特征根
① 采用和法对判断矩阵中各列归一化
z - i j = z i j i = 1 n z i j i , j = 1,2 , , n
式中:zij代表指标Zi相对于Zj的相对重要程度;n代表指标总数量。
② 将归一化后的判断矩阵各行求和。
s i j = j = 1 n z - i j i , j = 1,2 , , n
③ 将sij进行归一化,即可得到各指标权重。
w i j = s i j j = 1 n s i j i , j = 1,2 , , n
④ 求解判断矩阵最大特征值。
λ m a x = 1 n i = 1 n Z W i w i i = 1,2 , , n
式中:ZW分别代表判断矩阵和指标权重矩阵。
(4)一致性检验
① 求解一致性偏离指标CI
C I = λ m a x - n n - 1
② 根据表2中的RI值和一致性偏离指标CI求解随机一致性比率CR
表2 1-10阶矩阵RI值

Tab. 2 RI of 1-10th order matrix

矩阵阶数 1 2 3 4 5 6 7 8 9 10
RI 0 0 0.58 0.90 1.12 1.24 1.32 1.41 1.45 1.49
C R = C I R I
③ 矩阵一致性检验。
CR<0.1时,矩阵具有满意的一致性,否则,调整相似性判断矩阵,直到得到满意一致性。

2.3.4.2 熵权法

熵权法主要关注点在于数据本身的变异程度,利用其信息熵确定各指标熵权值。文中采用 Shannon提出的信息熵公式确定评价指标权重。
(1)计算属性项pj的熵值。
H p j = - m u i N U · l o g 2 m u i N U
(2)确定属性项pj的权值。
w p j = H p j j = 1 m H p j
式中:UNU分别代表属性特征项pj的取值集合以及属性取值的个数;mui代表属性值为Ui的个数(uiU); m代表属性特征项的总个数。

3 实验分析

以某地2015年、2019年路网数据(1:100万)和POI数据为研究对象进行匹配试验,其数据如图6图7所示。统计发现,原始路网数据中同时具备名称、等级和长度3种属性特征的弧段数量不足总弧段数量的80%(2015年约为77.4%,2019年约为79.7%),且约有9.0%(2015年约为6.8%,2019年约为8.7%)的弧段仅具备长度1种属性特征。对于此类路网数据,如果仅利用特征项的属性信息计算路网相似性,势必会影响计算结果的准确性,进而影响路网匹配的质量和精度。因此,采用本文提出的语义模型确定相似性显得更加合理。表3给出原始路网和stroke技术整合之后路网的弧段和节点数量,可以发现,后者的弧段和节点数量大幅减少,有效的减少了路网相似度和路网匹配的计算量。
图6 同一地区不同时间的路网数据

Fig. 6 Road network data from different times at the same area

图7 同一地区不同时间的 POI数据

Fig. 7 POI data from different times at the same area

表3 提取stroke前后不同年份的路网数据统计信息对比

Tab. 3 Comparison of statistical information of road network data with different years before and after extracting stroke

年份 原数据 Stroke处理后
弧段数量 节点数量/个 弧段数量 节点数量/个
2015 1050 1162 324 915
2019 1737 1876 402 1623

3.1 指标权值

利用层次分析法确定权值,主要与若干指标的相对重要程度有关,而与数据本身变异程度无关,为了便于对比分析,其权值采用同一判断矩阵(表1)。与层次分析法不同,熵权法主要与数据本身的变异程度有关,故不同数据得到的属性特征项的熵值必然存在差异,其对应地权值也不一致。权值计算结果见表4
表4 语义相似性指标权值

Tab. 4 Index weights of semantic similarity

指标权重 年份 指标权重 年份
2015 2019 2015 2019
wp 0.562 0.562 wp5 0.112 0.115
wr 0.321 0.321 wp6 0.092 0.093
wv 0.117 0.117 wp7 0.092 0.094
wpc 0.379 0.386 wp8 0.041 0.037
wpn 0.361 0.371 wp9 0.062 0.064
wpg 0.260 0.243 wp10 0.062 0.057
wp1 0.063 0.058 wp11 0.062 0.063
wp2 0.102 0.107 wp12 0.098 0.093
wp3 0.082 0.083 wp13 0.057 0.059
wp4 0.075 0.077

3.2 夹角阈值的确定

根据Gestalt良性延续性原则,弧段之间夹角越接近180°,越有可能成为同一stroke,既有研究中主要通过经验设置夹角阈值,进而判断弧段夹角是否大于阈值来确定是否属于同一stroke[21]。研究表明不同的路网可能具有不同的最佳阈值,但为了满足良性延续性原则,夹角阈值一般设置为120°~140°[26],本文通过试算法确定夹角阈值,图8为不同匹配阈值下夹角阈值与查全率Cc和查准率Cp的关系曲线(其他匹配阈值下曲线变化趋势类似,这里仅以匹配阈值0.65和0.85为例进行说明),可以观察到: ① [α]=120°~140°,夹角阈值变化对查全率和查准率的影响较小,其幅值波动在3.0%以内; ② [α]<125°,夹角阈值变化对查全率影响十分微弱,[α]≥125°,查全率随着夹角阈值的增大呈递减趋势; ③ 随着夹角阈值的增大,查准率呈先增大后减小的趋势,峰值在[α]=123°。路网匹配结果的质量一般采用查全率和查准率综合评估,上述分析易知夹角阈值取为123°匹配结果较为满意,故下文分析均是在[α]=123°的条件下展开。
图8 查全率和查准率与夹角阈值的关系曲线

Fig. 8 The relationship curves between the recall ratio and precision ratio and the angle threshold

3.3 对比验证

为验证文中模型的可靠性,将其匹配结果与文献[16]进行对比。文献[16]选取路网属性特征项的语义信息进行相似度计算,其权重采用客观法(熵权法)确定,这与本文中属性特征语义相似度计算方法基本一致,但文献[16]并未考虑路网空间拓扑关联和邻域要素的语义信息。此外,文献[16] 利用属性特征项的权重作为约束条件来提高其匹配效率,而本文利用同构子树作为约束条件进而提高匹配效率。上述2个方面恰好也是本文提出的新思路,通过与文献[16]进行对比,可以较好验证本模型的有效性。
表5给出不同匹配阈值下CcCp计算结果以及平均匹配时间t。分析表中数据,不难发现,匹配阈值与查全率呈负相关,而与查准率呈正相关。此外,对比文献[16]和本文得到的结果,可以看出,对于同一匹配阈值,本文得到的查全率和查准率总体上高于文献[16]得到的结果,如文献[16]在匹配值0.90时,查全率和查准率分别为0.62和0.94,而本文则分别为0.76和0.99,分别提高了0.14和0.05。说明本文得到的匹配结果更加准确,这也间接地反映了本文提出的路网语义相似性度量模型的可靠性。此外,注意到文献[16]平均匹配时间为42.15 s,而本文所需匹配时间为21.35 s,前者约为后者的2倍,说明本文给出的模型匹配效率更高。
表5 不同匹配阈值下查全率和查准率

Tab. 5 Recall ratio and precision ratio with different matching thresholds

匹配阈值 语义相似性模型
文献[16] 本文
Cc Cp t/s Cc Cp t/s
0.65 1.00 0.37 42.15 1.00 0.52 21.35
0.70 0.92 0.54 1.00 0.69
0.75 0.82 0.68 0.93 0.75
0.80 0.74 0.80 0.89 0.86
0.85 0.66 0.89 0.82 0.92
0.90 0.62 0.94 0.76 0.99
0.95 0.53 0.99 0.68 1.00
1.00 0.48 1.00 0.56 1.00

3.4 敏感性分析

为认识不同语义信息以及匹配方法对匹配结果的影响程度(即敏感程度),分别对4种方法得到的匹配结果进行对比,各方法的具体信息及其得到的查全率、查准率、平均匹配时间分别见表6表7。对比方法1和方法2,可以发现,前者的查全率和查准率总体上低于后者(平均低8.0%和2.6%),说明邻域POI语义信息可以一定程度上改善道路的匹配结果,主要表现为语义信息缺失路段同名道路识别能力的提高。对比方法2和方法3,不难看出,2种方法所消耗的时间相差不大,但后者得到的查全率和查准率均高于前者(平均高3.7%和3.8%),表明拓扑语义信息较邻域POI语义信息对匹配结果的贡献更大,即对匹配结果的敏感性更强。对比方法3和方法4可知,前者的查全率和查准率总体上高于后者(平均高2.2%和3.5%),但平均匹配时间明显少于后者,仅为后者的1/9,说明以同构子树为参照进行匹配,不仅可以大幅提高匹配速率,而且还可以一定程度上改善匹配结果。
表6 各种方法的具体信息

Tab. 6 Details of each method

方法 相似度计算指标 匹配方法
方法1 属性特征语义 以同构子树为参照的层次匹配法
方法2 属性特征语义、邻域POI语义 以同构子树为参照的层次匹配法
方法3 属性特征语义、拓扑关联语义 以同构子树为参照的层次匹配法
方法4 属性特征语义、拓扑关联语义 遍历法
表7 各方法得到的查全率和查准率

Tab. 7 Recall ratio and precision ratio obtained by each method

匹配
阈值
方法1 方法2 方法3 方法4
Cc Cp t(s) Cc Cp t(s) Cc Cp t(s) Cc Cp t(s)
0.65 1.00 0.38 14.14 1.00 0.39 18.42 1.00 0.44 16.76 1.00 0.41 152.41
0.70 0.93 0.54 0.96 0.56 0.98 0.61 0.97 0.58
0.75 0.84 0.69 0.91 0.69 0.94 0.72 0.92 0.72
0.80 0.78 0.80 0.83 0.82 0.88 0.83 0.86 0.80
0.85 0.66 0.88 0.76 0.90 0.81 0.91 0.80 0.88
0.90 0.63 0.95 0.71 0.96 0.72 0.97 0.71 0.91
0.95 0.56 0.98 0.64 0.99 0.69 1.00 0.67 0.98
1.00 0.48 1.00 0.50 1.00 0.51 1.00 0.48 1.00

4 讨论

路网相似性度量及其匹配方法丰富多彩,但由于出发点不同,难免出现不足之处。任何一种方法都不能使得路网匹配准确率达到100%,持续研究该问题的主要目的之一在于不断完善现有方法的缺点,进而提高匹配效率和质量。
目前,路网语义相似性度量主要以属性表中的特征项作为评估因子,在属性信息缺失较多时部分道路无法估算语义相似度,进而影响后续路网数据的匹配。本文在既有研究成果的基础上对其进行改进:以路网数据蕴含的分级层次结构为基础,建立综合考虑道路属性特征语义、空间拓扑关联语义和邻域POI语义的相似性度量模型,降低了属性信息缺失对道路语义相似性估算和匹配结果的影响,提高了基于语义信息进行路网匹配的适用性。
stroke连接过程中,夹角阈值大多通过经验确定,而本文以路网匹配结果为约束条件通过试算法确定。由于不同的数据源最优夹角阈值可能存在差异,倘若采用本文得到的夹角阈值进行路网匹配,可能影响路网匹配的准确性,故建议根据具体的研究案例通过试算确定。值得注意的是,本文虽然在既有方法的基础上对其进行了改进,但仍然存在不足之处:① 邻域要素相似度计算时仅考虑了POI,未考虑邻域内其他地理要素;② 关联骨架树依据道路连接关系和道路等级建立,未考虑诸如交通量等信息。此外,路网不仅具有鲜明的空间结构特征,而且具有丰富的语义特性,综合路网几何相似性和语义相似性进行路网匹配是下一步需要开展的工作。

5 结论

(1)综合考虑路网属性特征、空间拓扑特征和邻域要素特征的语义信息,提出一种“整体(骨架树)→部分(同构子树)→个体(stroke)”的路网层次化语义相似性度量模型。
(2)提出的度量模型,利用stroke技术表达道路弧段,基于骨架关联树表征路网层次结构特性,采用层次分析法和熵权法确定语义权重,借助同构子树计算stroke对的相似度。
(3)引入同构子树作为匹配参照,实现从高等级stroke到低等级stroke逐级匹配,同时以高等级stroke约束低等级stroke进行匹配,有效减少了冗余匹配,提高了匹配速度。
(4)实例对比分析表明,利用本文提出的语义相似性度量模型,结合同构子树进行道路匹配,不仅可以提高匹配结果的准确性,而且还可以提高匹配效率。与既有文献给出的方法相比,匹配阈值0.9时,查全率和查准率分别提高了0.14和0.05,平均匹配时间减小了50%左右。
(5)实例敏感性分析表明,拓扑关联语义信息对匹配结果影响程度明显高于邻域POI语义信息,且以同构子树作为参照进行路网匹配,相较于遍历法其匹配速率得到显著提升,前者平均匹配时间仅为后者的1/9。
[1]
杨敏, 艾廷华, 周启. 顾及道路目标stroke特征保持的路网自动综合方法[J]. 测绘学报, 2013, 42(4):581-587,594.

[Yang M, Ai T H, Zhou Q. A method of road network generalization considering stroke properties of road object[J]. Acta Geodaetica et Cartographica Sinica, 2013, 42(4):581-587,594.]

[2]
李琛强, 娄宁, 杨永崇, 等. 西安市路网时空演变与城市空间变化关系研究[J]. 测绘科学, 2021, 46(11):173-180,200.

[Li C Q, Lou N, Yang Y C, et al. Study on relationship between spatio-temporal evolution of road network and urban spatial evolution in Xi'an[J]. Science of Surveying and Mapping, 2021, 46(11):173-180,200.] DOI:10.16251/j.cnki.1009-2307.2021.11.025

DOI

[3]
王庆国, 张昆仑. 复杂网络理论的武汉市路网结构特征[J]. 测绘科学, 2019, 44(4):66-71.

[Wang Q G, Zhang K L. Research on the structure characteristics of Wuhan road network based on complex network theory[J]. Science of Surveying and Mapping, 2019, 44(4):66-71.] DOI:10.16 251/j.cnki.1009-2307.2019.04.011

DOI

[4]
Yang B S, Zhang Y F, Luan X C. A probabilistic relaxation approach for matching road networks[J]. International Journal of Geographical Information Science, 2013, 27(2):319-338. DOI:10.1080/13658816.2012.683486

DOI

[5]
Fan H C, Yang B S, Zipf A, et al. A polygon-based approach for matching OpenStreetMap road networks with regional transit authority data[J]. International Journal of Geographical Information Science, 2016, 30(4):748-764. DOI:10.1080/13658816.2015.1100732

DOI

[6]
Abdolmajidi E, Mansourian A, Will J, et al. Matching authority and VGI road networks using an extended node-based matching algorithm[J]. Geo-Spatial Information Science, 2015, 18(2/3):65-80. DOI:10.1080/10095020.2015.1071065

DOI

[7]
刘闯, 钱海忠, 王骁, 等. 利用城市骨架线网的道路和居民地联动匹配方法[J]. 测绘学报, 2016, 45(12):1485-1494.

[Liu C, Qian H Z, Wang X, et al. A linkage matching method for road and habitation by using urban skeleton line network[J]. Acta Geodaetica et Cartographica Sinica, 2016, 45(12):1485-1494.] DOI:10.11947/j.AGCS.2016.20160221

DOI

[8]
孙群. 空间数据相似性研究的若干基本问题[J]. 测绘科学技术学报, 2013, 30(5):439-442.

[Sun Q. Research on some fundamental issues of spatial data similarity[J]. Journal of Geomatics Science and Technology, 2013, 30(5):439-442.] DOI:10.3969/j.issn.1673-6338.2013.05.001

DOI

[9]
孙群. 多源矢量空间数据融合处理技术研究进展[J]. 测绘学报, 2017, 46(10):1627-1636.

[Sun Q. Research on the progress of multi-sources geospatial vector data fusion[J]. Acta Geodaetica et Cartographica Sinica, 2017, 46(10):1627-1636.] DOI:10.11947/j.AGCS.2017.20170387

DOI

[10]
陈万鹏, 崔虎平. 基于相似性度量的城市路网实体匹配算法[J]. 测绘与空间地理信息, 2018, 41(12):39-42,46.

[Chen W P, Cui H P. Urban road network entity matching algorithm based on similarity measurement[J]. Geomatics & Spatial Information Technology, 2018, 41(12):39-42,46.] DOI:10.3969/j.issn.1672-5867.2018.12.011

DOI

[11]
刘闯, 钱海忠, 王骁, 等. 顾及上下级空间关系相似性的道路网联动匹配方法[J]. 测绘学报, 2016, 45(11):1371-1383.

[Liu C, Qian H Z, Wang X, et al. A linkage matching method for road networks considering the similarity of upper and lower spatial relation[J]. Acta Geodaetica et Cartographica Sinica, 2016, 45(11):1371-1383.] DOI:10.11947/j.AGCS.2016.20160062

DOI

[12]
邓红艳, 武芳, 王辉连, 等. 基于拓扑相似性的道路网综合模型[J]. 测绘科学技术学报, 2008, 25(3):183-187.

[Deng H Y, Wu F, Wang H L, et al. A generalization of road networks based on topological similarity[J]. Journal of Geomatics Science and Technology, 2008, 25(3):183-187.]

[13]
安晓亚, 孙群, 尉伯虎. 利用相似性度量的不同比例尺地图数据网状要素匹配算法[J]. 武汉大学学报(信息科学版), 2012, 37(2):224-228,241.

[An X Y, Sun Q, Yu B H. Feature matching from network data at different scales based on similarity measure[J]. Geomatics and Information Science of Wuhan University, 2012, 37(2):224-228,241.] DOI:10.13203/j.whugis2012.02.021

DOI

[14]
吴冰娇, 王中辉, 杨飞. 用于多尺度道路网匹配的语义相似性计算模型[J]. 测绘科学, 2022, 47(3):166-173.

[Wu B J, Wang Z H, Yang F. A semantic similarity computational model for multi-scale road network matching[J]. Science of Surveying and Mapping, 2022, 47(3):166-173.] DOI:10.16251/j.cnki.1009-2307.2022.03.022

DOI

[15]
谭永滨, 唐瑶, 李小龙, 等. 语义支持的地理要素属性相似性计算模型[J]. 遥感信息, 2017, 32(1):126-133.

[Tan Y B, Tang Y, Li X L, et al. Semantic-based geographic feature property similarity measurement model[J]. Remote Sensing Information, 2017, 32(1):126-133.] DOI:10.3969/j.issn.1000-3177.2017.01.022

DOI

[16]
赵云鹏, 孙群, 刘新贵, 等. 面向地理实体的语义相似性度量方法及其在道路匹配中的应用[J]. 武汉大学学报·信息科学版, 2020, 45(5):728-735.

[Zhao Y P, Sun Q, Liu X G, et al. Geographical entity-oriented semantic similarity measurement method and its application in road matching[J]. Geomatics and Information Science of Wuhan University, 2020, 45(5):728-735.] DOI:10.13203/j.whugis20190039

DOI

[17]
翟仁健, 武芳, 黄博华, 等. 城市道路网面域层次结构特征的识别与表达[J]. 测绘科学技术学报, 2014, 31(4):413-418.

[Zhai R J, Wu F, Huang B H, et al. A method for recognition and representation of areal hierarchy of urban road networks[J]. Journal of Geomatics Science and Technology, 2014, 31(4):413-418.] DOI:10.3969/j.issn.1673-6338.2014.04.018

DOI

[18]
何海威, 钱海忠, 刘海龙, 等. 道路网层次骨架控制的道路选取方法[J]. 测绘学报, 2015, 44(4):453-461,470.

[He H W, Qian H Z, Liu H L, et al. Road network selection based on road hierarchical structure control[J]. Acta Geodaetica et Cartographica Sinica, 2015, 44(4):453-461,470.] DOI:10.11947/j.AGCS.2015.20130787

DOI

[19]
田晶, 何青松, 颜芬. 道路网stroke生成问题的形式化表达与新算法[J]. 武汉大学学报·信息科学版, 2014, 39(5):556-560.

[Tian J, He Q S, Yan F. Formalization and new algorithm of stroke generation in road networks[J]. Geomatics and Information Science of Wuhan University, 2014, 39(5):556-560.] DOI:10.13203/j.whugis20120127

DOI

[20]
Touya G. A road network selection process based on data enrichment and structure detection[J]. Transactions in GIS, 2010, 14(5):595-614. DOI:10.1111/j.1467-9671.2010.01215.x

DOI

[21]
Zhou Q, Li Z L. A comparative study of various strategies to concatenate road segments into strokes for map generalization[J]. International Journal of Geographical Information Science, 2012, 26(4):691-715. DOI:10.1080/1365 8816.2011.609990

DOI

[22]
罗国玮, 叶嘉媛, 王金凤. 基于多特征相似性的多源POI匹配方法[J]. 测绘通报, 2022(4):96-100.

[Luo G W, Ye J Y, Wang J F. Multi-source POI matching method based on multi-feature similarity[J]. Bulletin of Surveying and Mapping, 2022(4):96-100.] DOI:10.13474/j.cnki.11-2246.2022.0117

DOI

[23]
郑业晴, 朱欣焰, 张发明, 等. 基于路网相似性的路段行程时间估计[J]. 计算机应用研究, 2018, 35(6):1681-1685.

[Zheng Y Q, Zhu X Y, Zhang F M, et al. Link travel time estimation based on road similarity[J]. Application Research of Computers, 2018, 35(6):1681-1685.] DOI:10.3969/j.issn.1001-3695.2018.06.018

DOI

[24]
张玲. POI的分类标准研究[J]. 测绘通报, 2012(10):82-84.

[Zhang L. Research on POI classification standard[J]. Bulletin of Surveying and Mapping, 2012(10):82-84.]

[25]
刘海龙, 钱海忠, 王骁, 等. 采用层次分析法的道路网整体匹配方法[J]. 武汉大学学报·信息科学版, 2015, 40(5):644-651.

[Liu H L, Qian H Z, Wang X, et al. Road networks global matching method using analytical hierarchy process[J]. Geomatics and Information Science of Wuhan University, 2015, 40(5):644-651.] DOI:10.13203/j.whugis20130350

DOI

[26]
Chaudhry O, Mackaness W. Rural and urban road network generalization deriving 1:250 000 from 1:1250[C]. International Cartographic Conference, A Coruna. 2005.

文章导航

/