一种集成词汇-结构-语义表示的地址匹配策略

亢孟军; 何欣阳; 刘诚; 王明军; 高宇灵

doi:10.12082/dqxxkx.2023.220784

地球信息科学学报 >

2023 , Vol. 25 >Issue 7: 1378 - 1385

DOI: https://doi.org/10.12082/dqxxkx.2023.220784

一种集成词汇-结构-语义表示的地址匹配策略

亢孟军 ^,¹^,² ,
何欣阳 ¹ ,
刘诚 ¹ ,
王明军 ^,¹^,^* ,
高宇灵 ¹

展开

1.武汉大学资源与环境科学学院，武汉 430079
2.城市空间信息工程北京市重点实验室，北京 100038

*王明军（1974— ），男，陕西宝鸡人，讲师，研究方向为网络地理信息系统。E-mail: dawnson.wang@whu.edu.cn

亢孟军（1983— ），男，河南三门峡人，副教授，博导，研究方向为空间信息可视化、地名地址处理、地理信息软件开发、地理智能计算。E-mail: mengjunk@whu.edu.cn

收稿日期: 2022-10-13

修回日期: 2022-11-30

网络出版日期: 2023-06-30

基金资助

自然资源部城市国土资源监测与仿真重点实验室开放基金资助课题(KF-2019-04-064)

国家重点研发计划项目(2022YFC3005700)

收起

An Integrated Processing Strategy Considering Vocabulary, Structure and Semantic Representation for Address Matching

KANG Mengjun ^,¹^,² ,
HE Xinyang ¹ ,
LIU Cheng ¹ ,
WANG Mingjun ^,¹^,^* ,
GAO Yuling ¹

Expand

1. School of Resource and Environmental Sciences, Wuhan University, Wuhan 430079, China
2. Beijing Key Laboratory of Urban Spatial Information Engineering, Beijing 100038, China

*WANG Mingjun, E-mail: dawnson.wang@whu.edu.cn

Received date: 2022-10-13

Revised date: 2022-11-30

Online published: 2023-06-30

Supported by

The Open Fund of Key Laboratory of Urban Land Resources Monitoring and Simulation, Ministry of Natural Resources(KF-2019-04-064)

National Key Research and Development Program of China(2022YFC3005700)

Fold

摘要

地址匹配是地理编码的核心基础，本文针对现有地址匹配算法与地址数据库反馈交互局限性问题，提出词汇-结构-语义三层解构地址的匹配处理策略。词汇层通过地名词典和结合尾字特征的正则表达式定义粒度剖分规则，以地址词元素为基本单元完成词汇级别解析；结构层定义地址模式类型以实例化数据组织，完成顾及上下地址层级结构的模型匹配；语义层抽象地址语义形式化表达，实现融合深度语义的地址匹配。同时，本文在综合地址词元素筛选、地址层级结构剖分和地址语义理解基础上对经过完全解析的地址数据不断反哺作为数据参考，从而实现数据库支持下的算法逻辑绑定与结果集成。本文以浙江省湖州市德清县地址数据作为实例进行验证，实验结果表明，在低重复率的多次采样实验下，平均匹配率达到92.83%，正确率为95.37%；通过实例分析表明，本文方法在完善地址参考库的基础上改进算法性能和精度，能有效解决地址结构缺失和语义近似推断，适应多样地址类型。

关键词： 地址语言模型; 地址匹配; 集成策略; 地址参考库; 地址匹配度标准化

本文引用格式

亢孟军 , 何欣阳 , 刘诚 , 王明军 , 高宇灵 . 一种集成词汇-结构-语义表示的地址匹配策略[J]. 地球信息科学学报, 2023 , 25(7) : 1378 -1385 . DOI: 10.12082/dqxxkx.2023.220784

Abstract

Address matching refers to the process of matching the description address with the address in the standard address library, which is the core foundation of geocoding. It can convert the location description information into spatial coordinates, so as to build the association between texts and coordinates. Usually, Chinese address data has the problems of ambiguous expression, low standardization, and poor overall data quality. The current situation of Chinese data have greatly increased the construction cost of address reference library, which puts forward higher requirements for address matching algorithms and prompts the exploration of adopting integrated address matching strategies in practice. According to the fact that there has limited interaction between the existing address matching algorithms and address database feedback, this paper presents an integrated processing strategy for address matching. It describes a progressive logical matching strategy from vocabulary, structure, and semantics levels, which can support data organization while realizing deep text parsing. The vocabulary level parses the address structure to achieve word segmentation and text filtering from the character perspective; The structure level defines data organization of the address model and completes the quick indexing under hierarchical structure; The semantic level is the formal expression of address semantics, integrating semantic understanding and information extraction methods. Besides, on the basis of comprehensive address element filtering, hierarchical structure subdivision, and semantic understanding, we continuously feed back the fully parsed address data as reference to achieve the algorithm logic binding and results integration supported by the database. Thus, the efficiency of engine construction and the quality of algorithm are effectively improved. In order to verify our proposed strategy,we select the address data of Deqing County, Huzhou City, Zhejiang Province to carry out a comparison experiment. The results show that our strategy achieves stable and satisfied results indicated by matching rate, accuracy, and time indicators. Compared with the classical address matching algorithms, our strategy has obvious advantages in increasing the accuracy and saving time. The average matching rate is 92.83%, and the accuracy rate is 95.37%, under the low repetition rate multiple sampling experiment. Our results indicate that the proposed strategy can effectively solve the matching problems such as address element missing and approximate semantic calculation and improve the matching degree, matching rate, and matching efficiency. For addressing text elements that may indicate multiple spatial meanings, it is necessary to further combine spatial topology analysis to optimize the accuracy of address element recognition.

Key words： address language model; address matching; integration strategy; address reference library; address matching standardization

1 引言

地址匹配是指将描述地址与标准地址库中地址相匹配的过程，其结果能够将文本形式的位置描述信息转化为地理空间坐标^[1-2]，实现构建二者之间的关联。中文地址数据异构复杂^[3]，存在多义性表达^[4]、规范化程度低^[5]、整体数据质量不高^[6]的问题，对地址匹配算法提出了更高要求。

地址匹配作为地理编码的核心算法环节，需要依赖地址参考库（Address Reference Database，ARD）或语料库（Address Corpora Database，ACD）的构建^[7-8]，综合评价地址匹配引擎的质量，不仅要考虑匹配度、匹配率和算法效率等指标，也要考虑地址参考库的建设成本和数据质量^[9]。中文地址数据源的现状极大增加了地址参考库的建设成本，促使在实践中探索采用集成地址匹配策略，从地址要素^[10]、地址结构^[11]、语义表示^[12]（Semantic Representation）层面处理，解构地址文本描述，并交互反馈参考库构建，从而有效提升引擎建设效率和算法质量。

当前主流地址匹配算法总体上可分为两类：结构化匹配^[13-14]和基于语义表示的地址匹配^[15]。前者通过提取地址要素，并解析地址描述句法模式，构建地址结构树^[11,16]，进而基于枚举的规则结构，利用词典方式执行匹配^[17-18]；后者借助深度学习算法对自然语言的表达，将地址语义表达、匹配算法和空间语义融合转化为深度神经网络模型的构建问题^[19]，通过对地址语言模型的训练优化、解析挖掘深层语义特征，支持地址匹配。

地址参考数据集是2类算法的基础，前者需依赖完备而规范的结构化地址参考库，后者则必须从大规模标准或非标准地址语料库中进行持续学习^[20]。结构化处理是语义解析的基础，支持快速的检索应用^[21]，但是人工穷举地址结构的方式，无法更准确理解非标准地址^[22]，从而无法适应大规模地址数据集更新场景^[23]；而深度学习的地址匹配虽然可以从语义上进一步提升匹配精度，但面向匹配应用的地址语料库以及为提升匹配指标的算法设计，对标准地址库实时反馈更新贡献有限，同时语言模型的训练耗时较长，对实时应用有一定制约^[24]。可见两类方法各有其应用局限，而集成2类方法优点，采用集成处理策略，可在提升匹配效率同时，顾及到地址参考库的完善。

本文提出了一种地址匹配的集成处理策略，是将多种的地址匹配方法进行整合，实现地址词汇-结构-语义三层递进式逻辑匹配。词汇层级解析地址语法结构实现词粒度切分，完成字符视角下的文本过滤；结构层级定义地址模式类型实例化数据组织，完成层级剖分下的快速索引；语义层级抽象地址语义形式化表达，综合语义理解和信息提取方式；三层匹配逻辑相互补充，在实现深度文本解析的同时反哺数据组织，实现数据库支持下的算法逻辑绑定与结果集成。本文定义了地址匹配集成处理策略，并详细描述其中关键技术原理，并以浙江省湖州市德清县为试验区验证了算法有效性。

2 地址匹配集成处理策略

地址匹配集成处理策略是一种融合多种算法逻辑的综合匹配技术流程，解决单策略优势互补下地址文本的完全解析与匹配，其总体策略如图1所示。

显示原图|下载原图ZIP|生成PPT

图1 地址匹配总体策略

Fig.1 Overall policy of address matching

基于具有实际意义和明确地理指向的地名词典和结合尾字特征的正则表达式，对地址字符串分词解析后形成的地址语义要素集，从以下3个层面执行地址匹配策略：

（1）地址元素匹配：即词汇层，其本质上是词汇级别的字符匹配，其关键在于索引库构建^[25]和词元素匹配。依据文本原生语法结构切分的词元素将直接效应于检索结果，获得广度优先的排序集合，以限定后续步骤的检索范围。

（2）地址结构构建及语义解析：即结构层，是构建规则地址树结构^[11]的空间层级匹配方法。以获取该元素上下级空间从属依赖关系为目标检索匹配结果，需解决地址要素等级的定义、分类和识别，其结果是对地址元素匹配文本的结构化筛选。

（3）地址语义表示：即语义层，利用表示学习方法^[20]量化地址参考和查询语义形式化表达。考虑如何正确表达地址文本上下文语义关系，以高维数学空间中语义近似词作为相似性表达，在语义层级上补充结构化筛选不足。

地址匹配切换策略如下（图1）：① 将地址语义要素集记为集合

Q = q i | q i ∈ Q, q i ≠ ∅, 0 ≤ i ≤ n

，将单词

q i

视为关键词作为匹配的条件过滤；② 遍历

Q

，依据地址树模型组织为地址层级结构，分别对子地址集合按照空间指向相关性进行匹配，判断其是否能检索到最详细的地址元素，若能检索到最详细的地址元素，则将对应地址作为精确的匹配结果；③ 当存在某一层级结点无对应匹配结果时，则在记录其父节点的基础上，将该元素反馈至①中，重复筛选检索结果；④ 在③的基础上，回溯并提取所有的路径节点元素，以序列化形式进行地址语义表达和检索。一般而言，需要进行词汇和语义级别处理元素包括以地名、单位名称、标志性建筑物名称表示的空间要素描述，以及表示道路建筑物方向距离的描述等。

地址匹配核心在于如何实现地址文本的完整解析^[26]。集成策略中需解决地址元素识别抽取、地址模式分类与规则化组织、地址文本序列化表达和归一化评分体系等关键问题。

2.1 地址元素匹配

以词汇作为语义单元建立索引，还原地址结构的文本属性，实现词元素与标准库的反馈查询。解析方法如下：① 解析原始地址文档结构，规则化提取关键词以构建文档标识对象，用于查询或反哺地址语料库；② 利用解析后单词创建地址记录倒排索引库，包含索引序列、对应文档对象以及关键词映射；③ 索引查询，将经过粒度分词且不依赖地址等级结构的文本元素封装为多个关键词对象，对返回的倒排表进行逻辑并集运算；若存在空结果集，则将待匹配地址视为反哺语料入库。该层级以字符文本视角呈现泛化性结果，实现词语切分和交互反馈参考库的构建。

2.2 地址结构构建及语义解析

地址元素上下文之间存在空间约束关系，而词元素解析只能满足字符相关性，需要利用分层地址模型和上下文特征信息识别地址元素的边界^[27]，有效还原地址文本的空间特征。本文抽象地址文本模式结构，定义单条地址

a i

为地址元素

e i

的类别组合而成的链表结构，其形式化表示为：

M a d d r = m i | m i ∈ C i

，其中

m i

表示地址元素的类别，

C i

表示地址元素

e i

类别的集合。地址要素类别及其形式化表达如表1所示。

表1 地址模式形式化表达

Tab. 1 Formal epression of address model

要素类别	形式化表达	描述
线状拓扑类	$C l t$	存在线性拓扑关系的类别，以道路门牌号为主
面状拓扑类	$C p t$	存在面状拓扑关系的类别，以大型社区为主
楼栋类	$C b l d$	具体到楼栋单体的地理要素
单元类	$C u n i t$	指在多单元的楼栋中明确单元位置的类别
楼层类	$C f l o o r$	明确楼层的类别
户号类	$C r o o m$	明确某楼层具体户号的类别。
地标类	$C p o i$	指呈面状或点状形态的地址元素类别
方位描述	$C d r c$	指描述与某一具体位置相关方位的描述词
距离描述	$C d i s$	指描述与某一具体位置相关距离的描述词

在地址序列化表示下，可提取出相应的类别排序规律，其常见组合方式如表2所示。地址元素提取与标注步骤如下：① 构建行政区划四级地名词典作为基础分词规则，以地址模式序列构建的正则表达式作为辅助规则；② 将地址文本视为观测序列

O = O 1, O 2, O i

，

O i

表示文本字符元素，以维特比算法进行动态规划，寻找符合地址规则的最佳分词路径；③ 依据地址形式化表达构建的地名词性标注代码表替换原有词性结构，改进符合地址元素识别的隐式马尔科夫模型，对每个元素可能所属等级求解最大联合概率密度，并对结果进行标注，完成地址元素层级结构化解析。

表2 地址元素类别常见组合

Tab. 2 Common combinations of address categories

组合方式	示例
$C l t$ + $C n u m b e r$	三里湾路1号
$C l t$ + $C n u m b e r$ + $C s u f f i x$	三里湾路1-1号
$C l t$ + $C n u m b e r$ + $C p t$	西郊路192号庆元新村
$C l t$ + $C n u m b e r$ + $C s u f f i x$ + $C p t$	西郊路192-1号庆元新村
$C l t$ + $C n u m b e r$ + $C p t$ + $C b l d$	环城北路142号德意房产1幢
$C l t$ + $C n u m b e r$ + $C b l d$ + $C u n i t$	环城北路128号10幢3单元
$C l t$ + $C n u m b e r$ + $C b l d$ + $C u n i t$ + $C r o o m$	环城北路128号10幢3单元101室

识别提取后的地址元素按照空间层级关系组织为地址树结构

X

，同时构建元素与地址等级的映射关系。地址元素类别集合记为

C

，遍历集合

C

与标准地址参考库中的地址类型索引集

S

进行匹配。匹配原理为：① 从地址树中遍历地址元素

X i

，同时获取其对应的地址等级

C i

；② 判断

C i

是否符合地址索引集S中的地址类型，若不符合，则获取下一级地址元素，重复②进行判断；③ 当

C = c i | c i ∈ S, c i ≠ ∅

时，检索

S i

对应的表结构，检索项为

X i

及其上下层元素

X i - 1

、

X i + 1

，若存在[

X i - 1

，

X i

，

X i + 1

]的完整匹配结果，则记相似度为1并输出；若存在部分元素符合匹配的情况，则将检索结果依据相似度评分公式依次计算相似值，作为匹配结果集之一；若存在明确地址等级类型但检索为空的情况，视为参考库缺失地址，则将其依据地址等级识别结果反哺进地址参考库；④若

C = c i | c i ∉ S, c i ≠ ∅

，则视为无法判断的地址等级，需要互补词汇和语义的匹配结果，同时将该地址词条反哺进地址语料库。此外，由于门牌号和楼栋号存在依赖的地址要素，因此可以进一步判断地址元素等级与其叶结点对应等级[

C i

，

C i + 1

] 是否符合

C l t, C n u m b e r

或者

C p t, C b l d

的空间等级约束关系，有助于进一步缩小检索范围。

2.3 地址语义表示

同一空间指示的地理位置可能存在不同的语言表达方式，需挖掘地址深层结构中的含义信息，通过高维稠密实值向量编码单地址元素，从而计算文本语义相似和类比关系。若将地址元素视为一个单词文本

w i

，则其上下文表示为

…, w i - 2, w i - 1, w i + 1, w i + 2, …, w n

。由于地址中的每个要素都具有其实际的地理含义，其中数字和字母元素常用于标识地理要素位置信息，需要重视地址中的低频词。因此本文使用更适用于低频词学习的Skip-Gram模型^[28]来训练地址词向量。输入项为维度为

n

的one-hot向量，经过与

n × N

大小的矩阵乘法运算，得到

N

维度的投影层，再与

C

个

n × N

大小的矩阵相乘得到前后

C

个词语的预测概率^[29]，以最大概率下的

N

维稠密向量作为输出项，作为地址元素的词嵌入表示。

经过语言模型训练获得的单词向量集为

D w

，

D w

依赖于地址语言模型的训练维度和单词量

V

。对于单词文本

w i

，其词向量表示为

e i = D w V i

，

V i

为模长为

V

的向量，其在

e i

处值为1，在其他位置为 0。则可将地址文本视为单个地址元素向量的集合

e = k 1 e 1, k 2 e 2, ⋯, k n e n

，其中

k n

为元素系数，用于表示不同地址元素的语义权重。在词向量表征的基础上，计算待匹配地址的句向量，以检索高维数学空间中余弦相似度最大值作为匹配结果。

实际应用中，由于欧式距离和余弦距离在单位向量中存在单一线性关系，因此采用标准归一化向量降低欧式距离和余弦距离的不一致性，二者之间关系如式（1）所示。在此场景下，欧式距离值最小即表示二者文本语义相似度最高。

（1）

Q - X 2 = 2 1 - c o s Q, X

式中：

Q

为待匹配地址的句向量表示；

X

为语料库检索地址的句向量表示。

2.4 地址匹配度标准化

地址匹配度是指待匹配地址与结果地址的相似程度，其依赖于结果地址与待匹配地址中识别一致的地址元素个数占结果文本总词数的比例，见式（2）。

（2）

D = Q n X n = q 1 + q 2 + ⋯ + q n q 1 + q 2 + ⋯ + q i + x 1 + ⋯ + x t

式中：D为地址匹配度，范围为

0,1

；

Q n

为待匹配地址；

q n

为

Q n

中可识别的地址元素；

X n

为结果地址；

q i

为

X n

中与待匹配地址识别一致的地址元素，

x t

为结果文本中除去

q i

的剩余部分，下标均为对应的地址元素个数。依据

q i

和

q n

数量关系，对地址匹配相似度进行归一化表示，如式（3）所示。

（3）

D = 1 - l o g n i 0 < i < n, t = 0 1 i = n, t ≥ 0 V q ∙ V x V q V x 0 ≤ i < n, t ≥ 0

式中：

V q

和

V x

分别表示待匹配地址和结果地址的映射向量。考虑到不同地址等级分词权重，进而引入TF-IDF词频权重系数，则

V q

和

V x

具体表示为式（4）—式（6）所示，

w

即为地址词元素，

t f w i n x

表示词元素

w

在结果文本中出现的频率，

i d f w

表示词元素

w

的逆文本频率指数。

（4）

V q ∙ V x = ∑ t f w i n x ∙ i d f w 2

（5）

V q = ∑ i d f w 2

（6）

V x = ∑ t f w i n x ∙ i d f w 2

3 实验结果与讨论

本文以2018—2020年浙江省湖州市德清县第二次人口普查数据进行地址匹配实例验证，经过数据去重、去符号化后，以227 954条数据建立标准地址参考库，以117 120条数据建立地址语料库。以经过清洗后的高德地图数据作为待测数据集，每次随机抽样10 000条数据作为数据样本验证本文方法。地址清洗主要完成重复地址的删除；对地址中无意义的字符如星号、分号等进行过滤，以及剔除了无明确空间指示的无效地址。经过清洗后的实验数据保留了以下文本特征：① 具有可识别的空间指向性；② 地址文本表达形式多样；③ 涵盖村镇、道路、门牌号等多种地址类型。

实验将匹配结果中的地址分别与待匹配地址进行匹配度计算，选择匹配度最高的地址作为最终结果。地址匹配率为某个匹配度区间下地址数所占总地址数的比例，统计各匹配度区间下的地址条目，结果如表3所示。

表3 地址匹配度统计结果

Tab. 3 Statistics of address match degree

匹配度区间	样本1		样本2		样本3
匹配度区间	匹配条目	匹配率/%	匹配条目	匹配率/%	匹配条目	匹配率/%
<60%	196	1.96	145	1.45	120	1.20
60%~75%	241	2.41	223	2.23	243	2.43
75%~85%	326	3.26	294	2.94	364	3.64
85%~100%	9 237	92.37	9 338	93.38	9 273	92.73
总条目/条	10 000		10 000		10 000

地址匹配度在一定程度上依赖于参考地址库的收录规格，对于不同数据源的地址词条，存在满足实际匹配需求但匹配度不为1的情况。经大量数据实验分析，地址匹配度大于85%的地址超过总地址数的92%，说明匹配结果是有效的，则将匹配度大于85%的地址匹配率视为样本整体匹配率，同时通过人工查验方式计算匹配的正确率。为了评价匹配效率，计算单条匹配地址耗时，实验结果如表4所示，各样本重复度如表5所示。

表4 地址匹配实验结果

Tab. 4 Experimental result of address matching

数据集	匹配率/%	正确率/%	时间/s
样本1	92.37	95.52	0.101 9
样本2	93.38	95.15	0.109 7
样本3	93.73	95.43	0.102 8
平均值	92.83	95.37	0.104 8

表5 随机样本重复度

Tab. 5 Repeatability of random sample

数据集	重复率/%
样本1-样本2	3.21
样本1-样本3	2.95
样本2-样本3	2.96

样本数据中，村镇和道路类型的地址，其地址元素具有可识别的空间逻辑完整性，道路和自然村的上下层级指示清晰，匹配表现优于其他地址类型；门牌号和楼栋号类等具有依附性特征的地址元素，匹配结果依赖于上层地址空间指示的明确性和地址附号的唯一性。匹配成功的地址示例如表6所示，集成策略采用地址空间层级结合地址要素识别的方法，可以有效解决地址多层级缺省问题，地址语义表达能在一定程度上识别同义词和地址尾字特征语义推断的问题，能够应用于大部分非标准地址类型。

表6 成功匹配的地址示例

Tab. 6 Examples of successfully matched addresses

原地址	说明	匹配结果
武康街道余英坊2幢1号	地址要素不完整，缺少“吉祥社区”级别地址要素	浙江省湖州市德清县武康街道吉祥社区余英坊2幢1号室
兴康南路88号	地址要素不完整，仅有“道路+门牌号”级地址要素	浙江省湖州市德清县武康街道祥和社区兴康南路88号
雷甸镇新立村外婆桥	存在地址要素文本书写错误，错别字“新立村”为“新利村”	浙江省湖州市德清县雷甸镇新利村外婆桥6号
武康镇欧诗漫街65-1号	存在同义词 “武康镇”与“武康街道”	浙江省湖州市德清县武康街道振兴社区欧诗漫街65-1号
北湖东街266-1	缺少尾字特征“号”	浙江省湖州市德清县阜溪街道北湖东街266-1号
武康东升街	缺少尾字特征“街道”	浙江省湖州市德清县武康街道春晖社区东升街
佳得利商贸城21幢2号	仅有POI要素	浙江省湖州市德清县武康街道振兴社区佳得利商贸城21幢

为了进一步验证本文方法的有效性，基于相同数据和评价指标，将本文方法与地址树匹配方法、传统全文检索方法、基于Word2Vec的地址匹配方法进行比较，实验结果比对如表7所示。

表7 不同匹配方法对比结果

Tab. 7 Comparison of different matching methods

匹配方法	匹配率/%	正确率/%	时间/s
地址树	91.49	93.16	0.073 7
全文检索	89.35	92.99	0.128 1
Word2Vec	73.32	80.29	0.725 4
本文	92.83	95.37	0.104 8

依据上述结果可知，在低重复率的多次采样实验下，本文策略在匹配率、正确率和时间指标上均达到了稳定、较好的结果，相比于经典的地址匹配算法，本文在正确率和时间方面都具有明显优势，匹配率达到了92.83%，正确率达到了95.37% ，单条地址匹配平均时间为在0.104 8 s，其主要原因是集成策略有效降低了匹配的逻辑成本，多策略结果融合能够在稳定匹配率的基础上进一步提升正确率。相比于对数据结构和数据质量有较高要求的地址树模型，集成策略结合地址元素解析和层级回溯，降低了对数据模型规则的依赖，从而适应多元的地址表达方式；区别于通用的全文检索和语言表示模型，集成策略采用了更符合地址领域的匹配逻辑和训练模型。

本文提出的集成匹配策略在处理空间推断关系和方向距离描述时表现不足，例如在上下级空间关系缺失的前提下，容易将距离要素识别为门牌号要素。针对这类地址，需要进一步规范输入项的空间指示，进而可通过缓冲区筛选近似匹配结果。对于方向距离描述文本语义的识别错误问题，需进一步补充上下文语法结构，尤其注重区分数字和字母在不同语义环境下的表达内容。在地址管理和应用过程中，应进一步推广标准地址服务应用，以节省算力、存储和算法复杂度。

4 结语

本文提出的地址匹配集成处理策略，将地址剖析实例集成到地址数据库中，在地址匹配的同时不断反哺数据参考库，降低地址标准库建设成本。通过词汇-结构-语义进行多层次匹配，有效解决地址要素缺失补全和输入项近似语义推算等匹配问题，综合提升匹配度、匹配率和匹配效率。

本文提出的集成匹配策略主要贡献如下：① 算法将参考库构建纳入集成体系，以库结构分级组织地址元素，实现对输入项的全局解析，有效提升匹配成功率；② 采用逐级地址节点回溯，有效解决不规范地址输入的层级缺失问题，实现文本空间层级自动补全；③ 从语义角度解决部分不规范地址输入问题，包括错别字识别、近义词解析以及空间指示关键词缺失的近似推断等。

本文围绕地址匹配集成策略算法进行了一定的研究，但对于相对位置关系、方位关系的描述性地址，还需要进一步考虑泛化文本识别与匹配。对于可能指示多空间含义地址文本元素，需要进一步结合空间拓扑分析，优化地址元素识别的准确度。

参考文献

原文顺序 | 文献年度倒序 | 文中引用次数倒序

[1]	Tian Q, Ren F, Hu T, et al. Using an optimized Chinese address matching method to develop a geocoding service: A case study of Shenzhen, China[J]. ISPRS International Journal of Geo-Information, 2016, 5(5):65. DOI:10.3390/ijgi5050065 DOI

[2]	Lan, Longley. Geo-referencing and mapping 1901 census addresses for England and Wales[J]. ISPRS International Journal of Geo-Information, 2019, 8(8):320. DOI:10.3390/ijgi8080320 DOI

[3]	Li L, Wang W, He B, et al. A hybrid method for Chinese address segmentation[J]. International Journal of Geographical Information Science, 2018, 32(1):30-48. DOI:10.1080/13658816.2017.1379084 DOI

[4]	Shan S L, Li Z X, Yang Q, et al. Geographical address representation learning for address matching[J]. World Wide Web, 2020, 23(3):2005-2022. DOI:10.1007/s11280-020-00782-2 DOI

[5]	张志军, 邱俊武, 亢孟军, 等. 城市地址模型概念框架的关键问题[J]. 测绘通报, 2018(9):96-102. DOI [Zhang Z J, Qiu J W, Kang M J, et al. Key issues of conceptual framework for urban address model in China[J]. Bulletin of Surveying and Mapping, 2018(9):96-102.] DOI:10.13474/j.cnki.11-2246.2018.0288 DOI

[6]	Xu L C, Du Z H, Mao R C, et al. GSAM: A deep neural network model for extracting computational representations of Chinese addresses fused with geospatial feature[J]. Computers, Environment and Urban Systems, 2020, 81:101473. DOI:10.1016/j.compenvurbsys.2020.101473 DOI

[7]	Coetzee S, Bishop J. Address databases for national SDI: Comparing the novel data grid approach to data harvesting and federated databases[J]. International Journal of Geographical Information Science, 2009, 23(9):1179-1209. DOI:10.1080/13658810802084806 DOI

[8]	Dumedah G. Address points of landmarks and paratransit services as a credible reference database for geocoding[J]. Transactions in GIS, 2021, 25(2):1027-1048. DOI:10.1111/tgis.12716 DOI

[9]	Zhang H W, Ren F, Li H T, et al. Recognition method of new address elements in Chinese address matching based on deep learning[J]. ISPRS International Journal of Geo-Information, 2020, 9(12):745. DOI:10.3390/ijgi9120745 DOI

[10]	Luo A, Liu J P, Li P P, et al. Chinese address standardisation of POIs based on GRU and spatial correlation and applied in multi-source emergency events fusion[J]. International Journal of Image and Data Fusion, 2021, 12(4):319-334. DOI:10.1080/19479832.2021.1961314 DOI

[11]	亢孟军, 杜清运, 王明军. 地址树模型的中文地址提取方法[J]. 测绘学报, 2015, 44(1):99-107. DOI [Kang M J, Du Q Y, Wang M J. A new method of Chinese address extraction based on address tree model[J]. Acta Geodaetica et Cartographica Sinica, 2015, 44(1):99-107.] DOI:10.11947/j.AGCS.2015.20130205 DOI

[12]	Lin Y, Kang M J, Wu Y Y, et al. A deep learning architecture for semantic address matching[J]. International Journal of Geographical Information Science, 2020, 34(3):559-576. DOI:10.1080/13658816.2019.1681431 DOI

[13]	张雪英, 闾国年, 李伯秋, 等. 基于规则的中文地址要素解析方法[J]. 地球信息科学学报, 2010, 12(1):9-16. [ Zhang X Y, Lv G N, Li B Q, et al. Rule-based approach to semantic resolution of Chinese addresses[J]. Journal of Geo-information Science, 2010, 12(1):9-16.] DOI

[14]	应申, 李威阳, 贺彪, 等. 基于城市地址树的地址文本匹配方法[J]. 地理信息世界, 2017, 24(6):81-86. [Ying S, Li W Y, He B, et al. Address text matching method based on city address tree[J]. Geomatics World, 2017, 24(6):81-86.] DOI:10.3969/j.issn.1672-1586.2017.06.017 DOI

[15]	Santos R, Murrieta-Flores P, Calado P, et al. Toponym matching through deep neural networks[J]. International Journal of Geographical Information Science, 2018, 32(2):324-348. DOI:10.1080/13658816.2017.1390119 DOI

[16]	Cheng R Z, Liao J X, Chen J. Quickly locating POIs in large datasets from descriptions based on improved address matching and compact qualitative representations[J]. Transactions in GIS, 2022, 26(1):129-154. DOI:10.1111/tgis.12838 DOI

[17]	Sun Z, Qiu A G, Zhao J, et al. Technology of fuzzy Chinese-geocoding method[C]// 2013 International Conference on Information Science and Cloud Computing. IEEE,: 7-12. DOI:10.1109/ISCC.2013.9 DOI

[18]	Hu X K, Al-Olimat H S, Kersten J, et al. GazPNE: annotation-free deep learning for place name extraction from microblogs leveraging gazetteer and synthetic data by rules[J]. International Journal of Geographical Information Science, 2022, 36(2):310-337. DOI:10.1080/13658816.2021.1947507 DOI

[19]	Melo F, Martins B. Automated geocoding of textual documents: A survey of current approaches[J]. Transactions in GIS, 2017, 21(1):3-38. DOI:10.1111/tgis.12212 DOI

[20]	Chen J, Chen J P, She X R, et al. Deep contrast learning approach for address semantic matching[J]. Applied Sciences, 2021, 11(16):7608. DOI:10.3390/app11167608 DOI

[21]	李晓林, 张懿, 李霖. 基于地址语义理解的中文地址识别方法[J]. 计算机工程与科学, 2019, 41(3):551-558. [Li X L, Zhang Y, Li L. A Chinese address recognition method based on address semantics[J]. Computer Engineering & Science, 2019, 41(3):551-558.] DOI:10.3969/j.issn.1007-130X.2019.03.023 DOI

[22]	Lee K, Claridades A R C, Lee J. Improving a street-based geocoding algorithm using machine learning techniques[J]. Applied Sciences, 2020, 10(16):5628. DOI:10.3390/app10165628 DOI

[23]	宋子辉. 自然语言理解的中文地址匹配算法[J]. 遥感学报, 2013, 17(4):788-801. [Song Z H. Address matching algorithm based on Chinese natural language understanding[J]. Journal of Remote Sensing, 2013, 17(4):788-801.] DOI:10.11834/jrs.20132164 DOI

[24]	徐流畅. 预训练深度学习架构下的语义地址匹配与语义空间融合模型研究[D]. 杭州: 浙江大学, 2020. [ Xu L C. Research on semantic address matching and semantic-geospatial fusion model based on pretrained deep learning architecture[D]. Hangzhou: Zhejiang University, 2020.]

[25]

张琛, 陈张建, 刘江涛, 等. Lucene自适应分词的地址匹配方法改进与实现[J]. 测绘科学, 2021, 46(10):185-193.

[ Zhang

, Chen

Z J

, Liu

J T

, et al. Improvement and realization of address matching based on adaptive word segmentation in Lucene[J]. Science of Surveying and Mapping, 2021, 46(10):185-193.] DOI:10.16251/j.cnki.1009-2307.2021.10.024

DOI

[26]	Comber S, Arribas-Bel D. Machine learning innovations in address matching: A practical comparison of word2vec and CRFs[J]. Transactions in GIS, 2019, 23(2):334-348. DOI:10.1111/tgis.12522 DOI

[27]	Javidaneh A, Karimipour F, Alinaghi N. How much do we learn from addresses? on the syntax, semantics and pragmatics of addressing systems[J]. ISPRS International Journal of Geo-Information, 2020, 9(5):317. DOI:10.3390/ijgi9050317 DOI

[28]	Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[J]. CoRR, 2013, abs/1301.3781. arXiv:1301.3781

[29]	钟艾妮. 基于Word2Vec的中文地址匹配[D]. 武汉: 武汉大学, 2020. [ Zhong A N. Research on Chinese address matching based on Word2Vec[D]. Wuhan: Wuhan University, 2020.]

Options

文章导航

模态框（Modal）标题

摘要