Word Embedding-based Method for Entity Category Alignment of Geographic Knowledge Base

  • XU Zhaohua , 1 ,
  • ZHU Yunqiang , 2, 3, * ,
  • SONG Jia 2, 3 ,
  • SUN Kai 2, 4 ,
  • WANG Shu 2
Expand
  • 1. School of Architecture Engineering, Shandong University of Technology, Zibo 255000, China
  • 2. State Key Laboratory of Resources and Environmental Information System, Institute of Geographic Sciences and Natural Resources, Chinese Academy of Sciences, Beijing 100101, China
  • 3. Jiangsu Center for Collaborative Innovation in Geographical Information Resource Development and Application, Nanjing 210023, China
  • 4. University of Chinese Academy of Sciences, Beijing 100049, China
* ZHU Yunqiang, E-mail:

Received date: 2020-09-29

  Request revised date: 2020-12-23

  Online published: 2021-10-25

Supported by

General Program of National Natural Science Foundation of China(41771430)

Strategic Priority Research Program of the Chinese Academy of Sciences (Category A)(XDA23100100)

Key Program of National Natural Science Foundation of China(41631177)

Copyright

Copyright reserved © 2021

Abstract

Geographic knowledge base is a collection of geographic entities and the relationships between them, which plays an important role in many applications of knowledge services, such as intelligent search, question answering, and recommendation. However, due to the differences in the data source, data form, and publisher, the existing geographical knowledge bases have the problems of homonym and homographs in the place name, spatial footprint, and feature type. Thus it leads to a barrier of the knowledge sharing and fusion between different geographic knowledge bases. Semantic alignment is an effective way to solve semantic heterogeneity, and the alignment of feature types is very important to further improve the accuracy of the alignments of place names and spatial footprints. The existing methods of feature type alignment mainly rely on the traditional similarity measures of string and structure of feature types that are unable to capture their deep semantic correlation, thereby influencing the alignment accuracy. Therefore, this paper proposes a word embedding based method to align the feature type. The proposed method uses the word embedding model to learn the semantic information of feature type from the corpus and represent the learned information as a vector, so as to capture the deep semantic information of feature type which cannot be obtained by using the existing methods, thereby increasing the alignment accuracy. Meanwhile, this paper enhances the geographic semantics of the corpus by the combination of the corpus of geographic information and the general corpus used in the word embedding model, which can help to more accurately measure the correlation of feature types. In the case study, the method is applied to align the feature types of different geographic knowledge bases. The results show that the averageFl score is up to 0.9568, and indicates the method can effectively capture the deep semantic information of geographic feature types, effectively improving the alignment accuracy of entity categories.

Cite this article

XU Zhaohua , ZHU Yunqiang , SONG Jia , SUN Kai , WANG Shu . Word Embedding-based Method for Entity Category Alignment of Geographic Knowledge Base[J]. Journal of Geo-information Science, 2021 , 23(8) : 1372 -1381 . DOI: 10.12082/dqxxkx.2021.200566

1 引言

地理知识库是大量地理空间信息和知识有序组织和关联的集合,对于促进地理知识的共享和地理信息的挖掘发挥着重要作用[1]。地理知识库通常包含地理实体3个层次的语义信息:实体地名、空间位置和类别。地理实体的类别信息主要用于区分具有不同特征的地理实体集合,对于地理实体在地理知识库中的分类组织和关联起着至关重要的作用[2]。然而,由于不同的地理知识库的建设机构和建设目标不同、采用的标准也不一样,导致地理实体类别存在“同形异义”(同一词汇在不同语境中的含义不同)和“同义异形”(含义相同或相似的类别用不同的词汇表达)等语义异构问题[3],严重影响和阻碍了地理知识的融合与共享。
解决不同地理知识库中实体类别语义异构的主要方法就是对地理实体类别进行对齐[4],通过判断来自两个或多个不同地理知识库的实体类别是否表示现实世界中的同一类地物,来建立地理实体类别间语义上的映射关系,进而实现地理实体类别间的转换与对齐。国内外现有的地理实体类别对齐主要采用:基于结构特征(实体类别在其分类体系中的位置层次)和基于词汇特征(实体类别名称的字面信息和其描述语义)的2类对齐方法[5]
基于结构特征的对齐方法[6,7]主要考虑类别分类体系的树状结构,通过类别在该树状结构中的父子、兄弟结点等信息,来度量结构相似度,基于此判断来自不同地理知识库的实体类别是否为同一类别,从而实现实体类别的对齐。基于结构特征的方法充分利用了实体类别的结构层次信息来计算相似度,但由于没有考虑类别所蕴含的语义信息,导致该方法的对齐精度并不理想。而且,由于不同来源和形式的地理知识库实体类别结构差别较大,该方法的普适性也较差。
基于词汇特征的方法主要利用实体类别在字面和语义层面的语言特征来计算相似度,由此判断2个实体类别是否为同一类别。例如,字符距离法[8,9,10]通过比较2个类别名称的字符距离来判断它们的相似度,其计算过程相对简单,但是由于仅利用了字符层面的特征度量实体类别的相似度,无法捕捉到类别名称背后隐含的语义信息,导致其对齐精度仍然不高。
近年来,词嵌入作为一种挖掘词汇深层次相关语义的方法引起了自然语言处理(Natural Language Processing,NLP)社区的极大关注[11]。词嵌入主要基于“上下文相近的词,其语义也相似”的核心思想[12],将字或词嵌入(映射)到一个数学上的向量空间[13],使得语义相似的词在向量空间上具有相近的方向。借助于词嵌入技术,可将待对齐的对象转化成由实数组成的低维向量,由于该向量体现了对象的上下文语义特征信息,故利用该向量可以更加准确地度量对象间的相关性。因此,基于词嵌入的对齐方法能够从语料中学习词的深层次语义信息,从而有效提高对齐精度。目前,已有一些研究将词嵌入方法引入到实体地名的对齐中。例如,Santos等[14]基于深度神经网络对地名进行词嵌入表达,生成地名的向量表示。基于地名的词向量计算相似度,实现了地名的对齐,结果表明该方法优于传统的基于字符距离的对齐方法。然而,利用词嵌入方法进行地理实体类别对齐的研究目前还鲜有报道和发表。
在此背景下,本文以英文地理实体类别为研究对象,开展基于词嵌入的地理实体类别对齐研究。首先利用主流的矩阵分解词嵌入模型Glove (Global Vectors for Word Representation)将待对齐的实体类别转换为词向量,然后利用实体类别的词向量计算它们的相关性,进而实现地理实体类别的对齐。进一步地,考虑到Glove模型主要基于通用的语料库训练产生词向量,语料中缺乏地理语义信息,直接将其应用于地理实体类别对齐仍有一定的局限性,因此,本文在通用语料库的基础上融入地理信息语料,以此丰富和增强词嵌入模型输出向量中实体类别的地理语义信息,进而提高地理知识库实体类别对齐的精度。最后以GeoNames和OpenStreetMap中的实体类别为例进行实验,验证本文方法对提升地理实体类别对齐精度的有效性,并对实体类别对齐结果进行评价。

2 研究方法

2.1 总体框架

总体上,基于词嵌入的地理实体类别对齐方法主要包含语料构建、基于词嵌入模型训练生成词向量、词向量相似度计算及对齐结果生成3个步骤(图1):① 构建词嵌入模型训练所需的语料库,为基于词嵌入模型生成词向量奠定语料基础;② 将构建好的语料输入词嵌入模型进行训练,生成能够充分表达地理实体类别语义信息的词向量;③ 根据生成的词向量,计算来自不同地理知识库的实体类别的相似度,然后根据相似度计算结果生成地理实体类别的对齐结果。
图1 地理知识库实体类别对齐框架

Fig. 1 Framework for aligning the entity types of geographic knowledge bases

2.2 语料构建

语料指大量的有关人类语言表达的信息,主要存在形式有文本、音频等[15]。维基百科等通用语料库因其覆盖领域广、规模大,已经成为各种应用经常使用的重要语料来源[16]。因此,本文选用维基百科作为通用语料库,并进一步对其进行地理语义信息的增强。首先利用Wikipedia Extractor[17]工具提取英文维基百科[18]作为基础语料,包括:1300万个句子,2.9亿个词,其中约101万个句子与地理语义有关。为了更好地捕捉地理语义信息,本文进一步利用美国当代英语语料库(COCA)[19]、the Alexandria Digital Library Gazetteer(ADL)[20]、GeoNames[21]、OpenStreetMap[22]等与地理信息相关的语料库对维基百科语料进行增强,得到地理语义增强的语料库。其中,美国当代英语语料库约有360万个句子与地理语义有关;ADL、GeoNames、OpenStreetMap分别约有1300、700、1000个句子的地理语义信息。维基百科与上述地理信息相关语料融合后的语料库共包含约1660.3万个句子,其中与地理语义相关的语料约461.3万个句子。地理语义语料相对于全部语料的占比上升到27.8%,如表1所示。
表1 地理信息语义增强前与增强后语料对比

Tab. 1 Corpora comparison between wikipedia and geo-infromation enhanced wikipedia

语料 地理语义相关语料/万句 总语料/万句 地理语义相关语料占比/%
增强前语料 维基百科 101 1300 7.8
维基百科
COCA
增强后语料 ADL 461.3 1660.3 27.8
GeoNames
OpenStreetMap
由于语料中通常包含有大量的连词、介词、副词等辅助性的词汇,这些词汇通常被视为语料中的噪声信息,在使用前往往需要去除这类噪声信息。为此,本文对上述语料信息进行了字符过滤(标点和特殊字符)和停用词去除预处理。字符过滤主要利用正则表达式方法,对语料中的文本进行判断和过滤;去除停用词(包括语气助词、介词、副词、连接词等)则是利用共识的停用词表,在语料中匹配到停用词后,直接去除。

2.3 基于词嵌入模型训练生成词向量

语料构建完成后,将作为训练数据训练词嵌入模型,进而得到语料中每个词的词向量。词向量[23]由一组实数表征,记为[R1, R2, R3, ···, Rn](其中R1, R2, R3, RnR,R为实数,n为向量维度),这组数值在向量空间[24]上表现为空间上的一个点。图2为词向量在二维向量空间中的示意图,其中xy分别代表该向量空间的一个维度。向量空间越相近的词,其语义也越相近,其相近程度可通过向量之间的夹角进一步量化。
图2 词向量在二维向量空间中的表达

Fig. 2 The word vectors represented in a two-dimensional vector space

词向量所表征的语义相似程度与词嵌入模型有直接关系[25,26,27]。由于Glove (Global Vectors for Word Representation)[28]词嵌入模型能够充分利用所有的语料信息,并遵循出现频率越高的词权重越大的原则,可以更加充分捕捉词之间的语义信息,因此本研究采用Glove模型作为词向量训练模型。基于Glove模型训练得到词向量的方法涉及到共现概率比率计算、共现矩阵构建、代价函数及训练方法 4个步骤,具体如图3所示。
图3 基于Glove模型生成词向量的总体流程

Fig. 3 The general process of generating word vectors using Glove

(1)共现概率比率计算词嵌入模型是经过训练生成词向量来表征词与词之间相关程度的数学模型。具体到Glove词嵌入模型,它基于词的共现概率的比率来量化语料中词与词在语义上的相关程度。共现概率的比率指的是上下文词 k 分别与中心词 i j 共同出现的概率比值。具体计算方法如下:
P ik = X ik X i
P jk = X jk X j
ratio = P ik P jk
式中: P ik 表示语料中词 k 出现在中心词 i 的上下文中的概率; X ik 为中心词 i 和上下文词 k 在指定大小的上下文窗口(Context window)内共同出现的次数; X i 为中心词 i 的上下文窗口中所有单词出现次数的总和,即 X i = k = 1 V X ik ,其中 V 表示词表大小; ratio 表示 P ik P jk 的比率, ratio 远大于1时,说明上下文词 k 与中心词 i 更相关;相反, ratio 远小于1时,说明上下文词 k 与中心词 j 更相关。表2展示了由维基百科抽取的2个词church,hospital和它们的上下文词之间的共现概率及比率。表中共现概率比率( P ik / P jk )远大于1时,说明了 k i 高度相关,而与 j 不相关; P ik / P jk 远小于1时,说明了 k j 高度相关,而与 i 不相关; P ik / P jk 1 时,代表 k i j 都相关或者都不相关。因此,可以通过共现概率比率与1的关系将区分词(worship和medical)和非区分词(building和stream)更好地分出来,进而去除非区分词带来的噪声。
表2 中心词与上下文词共现概率及其比率示例

Tab. 2 The example of co-occurrence probability and their ratio between central words and their contextual word

共现概率和共现概率比率 k
worship medical building stream
P k | church 3.6×10-3 5.1×10-4 2.3×10-3 4.8×10-5
P k | hospital 7.4×10-5 4.5×10-2 1.9×10-3 5.3×10-5
P k | church / P k | hospital 48.65 1.13×10-2 1.21 0.91
(2)共现矩阵构建
在Glove模型中,共现概率计算所依赖的中心词与上下文词共同出现的次数是通过构建基于语料的共现矩阵得到的,即基于一个上下文窗口不断滑动遍历整个语料,通过不断滑动获取中心词与上下文词共同出现的次数构造共现矩阵[29]图4描述了基于上下文窗口滑动遍历一段语料的过程,所得到的共现矩阵如表3所示。
图4 基于上下文窗口滑动构造共现矩阵的过程

Fig. 4 The process of constructing co-occurrence matrix by moving the context window

表3 基于语料构建共现矩阵示例

Tab.3 The example of co-occurrence matrix is constructed based on corpus

共现次数 a church is building for public worship
a 0 2 2 1 1 1 0
church 2 0 1 1 0 0 0
is 2 1 0 1 1 0 0
building 1 1 1 0 1 1 1
for 1 0 1 1 0 1 1
public 1 0 0 1 1 0 1
worship 0 0 0 1 1 1 0
(3) Glove模型的代价函数
代价函数主要用于度量模型对训练数据的拟合程度[30]。因此,基于语料进行Glove模型的无监督训练从而得到词向量的过程,实际上就转化为优化代价函数使模型最佳拟合训练数据的过程。Glove模型的代价函数主要是描述由词向量计算得到的共现概率比率与由语料构建共现矩阵计算出的共现概率比率的差异程度,即由语料构建共现矩阵计算共现概率比率是真值,而训练过程正是寻找最逼近真值时词向量的值,如式(4)所示,代价函数的训练过程即是拟合 F 的过程:
F ( w i , w j , w ˜ k ) = P ik P jk
式中: F 是词向量 w i w j w ˜ k 的函数; w i w j 分别表示中心词 i , j 的词向量; w ˜ k 表示上下文窗口内词 k 的词向量; P ik P jk 为基于共现矩阵计算得到的共现概率的比率。
Glove模型基于最小二乘法构造了关于词向量和共现矩阵的代价函数 J ,如式(5)所示。
J = i . j = 1 V f X ij w i T w ˜ j + b i + b ˜ j - log X ij 2
式中: V 是词汇表的大小; X ij 为中心词 i 与上下文词 j 共同出现的次数; w i 表示中心词 i 的词向量; w ˜ j 表示上下文词 j 的词向量; b i , b ˜ j 分别表示 w i w ˜ j 的偏差; f x 是权重项。
(4) Glove模型训练方法
Glove模型的训练目标是寻找代价函数 J 的最小值,主要采用AdaGrad[31]梯度下降算法寻找 J 的最小值,从而获得代价函数中的 w i w ˜ j b i b ˜ j 参数的最优解。具体训练过程如下:
首先,随机初始化词向量并按照共现矩阵构建法构建初始的共现矩阵X。然后,遍历出X中所有的非零元素,作为每一次参数更新的输入,计算 w i w ˜ j b i b ˜ j 的梯度并累积更新4个参数的累积梯度变量。
按照上述过程,经过不断迭代和随机抽样,可以训练得到更新后的矩阵W,该矩阵包含了模型训练后每个词的词向量。此时,由于代价函数达到了最小值,由词向量计算得到的共现概率比率与其真值之间的差异最小,因此所得词向量为最优解。

2.4 词向量相似度计算及对齐结果生成

基于地理实体类别的词向量,进一步可通过相似度计算模型量化地理实体类别之间的相似度。度量词向量之间相似度的计算模型主要包括欧氏距离和余弦相似度2种。欧氏距离[32]是将词向量看作空间中的点,通过点之间的距离,衡量向量间的相似度。余弦相似度[33]是计算词向量在向量空间方向上的差异,即根据2个词向量所成夹角的余弦值衡量词向量之间的相近程度。本文中词向量的方向表征了词的语义特征,与余弦相似度更加契合,故采用余弦法计算2个词向量的相似度。余弦相似度越接近1,说明2个向量的方向越相近,则2个词的相似度越大;反之,余弦相似度越接近0,2个词的相似度越小。余弦相似度的计算方法如式(6)所示。
dist X , Y = cos θ = i = 1 v x i × y i i = 1 v ( x i ) 2 × i = 1 v ( y i ) 2
式中: X Y 分别为2个词的词向量,表示为 X = x 1 , x 2 , , x v T Y = y 1 , y 2 , , y v T
基于词向量计算出的余弦相似度,进一步进行地理实体类别的对齐,其过程如下:给定地理知识库A中的一个实体类别,计算其与地理知识库B中所有实体类别的词向量余弦相似度,并对计算结果由高到低进行排序,相似度最高的类别对视为匹配的实体类别对。同理,依次获取地理知识库A中其他类别的对齐结果,进而生成全部的地理实体类别对齐结果。将对齐结果表示成三元组的形式: ( T Ax , T By , s ) ,其中 T Ax 表示待匹配的地理知识库A中的类别, T By 表示匹配到的地理知识库B中的类别, s 表示该类别对的相似度[34]

3 实证及结果分析

3.1 实验数据与设计

本文以2大地理知识库(GeoNames和OpenStreetMap)为实验对象,选择GeoNames中行政区划、水文、土地利用等439个二级地理实体类别作为待对齐类别。对齐实验设计为2组,分别采用基于通用语料库和基于地理信息语义增强的语料库来训练Glove模型生成词向量用于对齐。同时,为了验证词嵌入模型所用向量维数对实体类别对齐结果的影响,每组实验设置了不同维度进行对比分析。
第一组实验条件:采用英文维基百科语料库作为训练语料库,设置滑动窗口大小为5(左右都为2),词向量维度分别为50维、100维、200维。第二组实验条件:在其他实验条件保持不变的情况下,将原有的语料库更换为地理语义增强的语料库。2组实验采用相同的实验过程:① 基于语料库训练Glove模型,获取词向量;② 根据词向量,计算类别的相似度;③ 根据相似度计算结果,获取对齐结果。
为了评价实体类别对齐实验结果精度,本文采用信息检索中常用的查准率( P )、查全率( R )和调和平均值( F 1 )来评价对齐的结果[35]。其中,查准率为输出结果中正确对齐的结果数 R T 与结果总数 N A 的比值;查全率为 R T 与待对齐实体类别对中应对齐的总数即真值 N T 的比值; F 1 是查准率和查全率的调和平均值。3个评价指标的计算公式如式(7)-式(9)所示。
P = R T N A × 100 %
R = R T N T × 100 %
F 1 = 2 × R × P P + R × 100 %

3.2 实验结果分析与评价

(1)词向量训练结果
上述实验可训练得到语料增强前对应的3种维度(50维、100维、200维)的词向量文件和语料增强后对应的3种维度的词向量文件。由于每次训练都要进行随机初始化,故训练得到的组成词向量的实数值可能并不相同,但每一次训练结果中相似词的词向量之间的方向是相近的。表4为基于通用语料训练得到的100维的地理实体类别词向量的结果示例(限于篇幅表中仅展示了实体类别词向量的前9维)。
表4 基于通用语料获取的地理实体类别词向量(100维)

Tab. 4 The word vectors of geographic feature types based on the general corpus (100 dimensions)

实体类别 词向量
oasis -0.580 40, 0.148 84, -0.454 19, -0.300 85, -0.554 18, -0.018 43, 0.351 84, 0.408 83, -0.404 40…
park -1.095 60, -0.155 51, -0.972 22, -1.818 40, -0.598 84, 0.344 45, -0.099 34, 1.859 00, 0.853 13…
administrative 0.066 86, -0.268 48, -3.086 20, 0.268 34, 0.436 32, -0.222 43, 3.822 60, 0.232 78, 0.286 44…
coalfield -0.165 19, -0.702 90, -0.065 52, 0.517 61, 0.911 22, -1.699 70, -0.621 05, 0.115 77, 0.970 76…
sea 0.430 72, 0.001 32 0.017 85, -0.515 49, -0.544 66, -0.251 15, -0.376 32, 0.409 69, 0.070 36…
port 3.260 20, 0.402 33, -0.378 02, 0.746 37, -0.283 72, -3.044 60, -0.688 62, 0.387 26, 0.226 82 …
zone -0.342 23, -0.023 63, 0.070 36, 0.640 23, -0.023 48, -3.332 00, -0.204 02, -0.236 04, 0.423 27…
gasfield 0.557 30, -0.371 48, 0.221 42, -0.185 06, -0.058 73, -0.036 90, -0.585 59, 0.514 58, -0.128 90…
stream 0.062 51, 0.973 83, 1.863 10, -0.659 92, 0.014 52, -0.326 38, -0.071 11, -0.182 26, -0.431 97…
(2)基于词向量的相似度计算结果
以类别swamp(沼泽)为例,采用维度为100的词向量文件,分别计算基于通用语料库和基于地理信息语义增强语料库的实体类别相似度,并按相似度由高到低进行排序,其结果如表5所示。
表5 基于通用和地理信息语义增强语料库的实体类别相似度结果对比(以swamp为例)

Tab. 5 Comparison of feature types similarity based on the general corpus and geo-information enhanced corpus (taking "swamp" as an example)

序号 基于通用语料库计算的相似度 序号 基于地理信息语义增强语料库的相似度
T Ax T By s T Ax T By s
1 swamp wetland 0.9255 1 swamp moor 0.9801
2 swamp mud-flat 0.9067 2 swamp marsh 0.9772
3 swamp moor 0.8891 3 swamp wetland 0.9364
4 swamp marsh 0.8743 4 swamp mud-flat 0.9105
swamp swamp
(3)基于相似度的实体类别对齐结果
基于上述相似度计算结果,选择相似度最高的作为对齐的类别对。表5中,当采用通用语料库时,swamp与wetland对齐;当采用地理信息语义增强语料库时,swamp与moor对齐。每组实验,采用不同维度的词向量文件,均可输出439对匹配的类别。当维度设置为200时,2组实验的对齐结果如表6所示。
表6 基于通用语料库与地理信息语义增强语料库的实体类别对齐结果(200维)

Tab. 6 Alignment results of feature types based on general corpus and geo-information enhanced corpus (200 dimensions)

序号 基于通用语料库计算的相似度 序号 基于地理信息语义增强语料库的相似度
T Ax T By s T Ax T By s
1 wells blowhole 0.6355 1 wells spring 0.9127
2 caldera peak 0.6187 2 caldera volcano 0.9187
3 islet island 0.9345 3 islet island 0.9864
4 channel bay 0.6561 4 channel strait 0.8548
5 oilfield farmland 0.2718 5 oilfield fuel 0.6744
6 field(s) greenfield 0.4481 6 field(s) meadow 0.9133
7 promenade path 0.7213 7 promenade corridor 0.8691
8 swamp wetland 0.9376 8 swamp moor 0.9835
9 sill ridge 0.6755 9 sill stone 0.7591
10 portage transport 0.8366 10 portage transport 0.9185
11 gulf coastline 0.5738 11 gulf bay 0.9313
12 area range 0.8746 12 area district 0.9218
13 harbor(s) bay 0.7312 13 harbor(s) port 0.9865
14 watercourse waterway 0.8067 14 watercourse waterway 0.9822
15 desert dune 0.8367 15 desert sand 0.9763
(4)地理实体类别对齐结果精度评价
首先,从GeoNames的439个待匹配类别中,随机选择100个;然后,通过专家从OpenStreetMap中找到与其最相似的类别,形成专家构建的用于结果验证的100对实体类别参考数据集。
基于实验获取的对齐结果和专家构建的参考数据集,分别计算查准率、查全率和调和平均值(表7)。评价结果显示:
表7 基于通用语料库和地理信息增强语料库的对齐结果精度评价

Tab. 7 The accuracy evaluation of alignment results based on general corpus and geo-information enhanced corpus

维度(d) 基于通用语料库 基于地理信息语义增强的语料库
P R F 1 P R F 1
50 0.8462 0.8652 0.8556 0.9355 0.9775 0.9560
100 0.8720 0.8427 0.8571 0.9659 0.9551 0.9605
200 0.8861 0.7865 0.8333 0.9765 0.9326 0.9540
平均值 0.8681 0.8315 0.8487 0.9593 0.9551 0.9568

注:蓝色数值代表在3种维度下该列指标取得最好结果时对应的某一维度的指标值。

(1)基于通用语料库的平均 F 1 值为0.8487,说明基于词嵌入的实体类别对齐方法至少可达到0.8以上的准确度。基于词嵌入的方法可有效度量实体类别间的相关性,具有较好的对齐效果;
(2)基于地理信息语义增强语料的实验结果在各项指标上均优于通用语料的实验结果,查准率平均提高9.12%,查全率平均提高12.36%, F 1 值平均提高10.81%,说明通过融合地理语义信息,可切实增强词嵌入模型的地理信息语义捕捉能力,从而进一步提升对齐精度;
(3)维度为200时,查准率最高,表明词向量维度增加可提升对齐结果的准确度,但同时却降低了查全率。与此相反,维度为50时,模型查准率最低,表明维度的下降会减弱向量对语义信息的捕捉能力,但查全率得到明显的上升。维度为100时,模型在 F 1 值上优于维度为50和200的结果,性能最好。

4 结论与展望

4.1 结论

针对已有基于结构和词汇特征相似度的地理实体类别对齐方法难以利用深层语义信息,导致实体类别对齐精度不高的问题,本文提出了一种地理信息语义增强的词嵌入地理实体类别对齐方法。该方法利用Glove词嵌入模型,从地理信息语义增强的语料中生成实体类别的词向量,并利用词向量计算实体类别间的相似度,进而获取最佳的实体类别对齐结果。同时,将地理信息语料融合到通用语料中,增强模型对地理语义信息的捕捉能力。以GeoNames与OpenStreetMap地理实体类别对齐为例,进行了方法验证与评价。结果表明:
(1)基于词嵌入的地理实体类别对齐方法可有效捕捉词汇隐藏的深层次语义信息,能够取得较好的实体类别对齐效果;
(2)将地理信息语料与通用语料进行融合,词向量模型可更加精准地表达地理实体类别隐含的地理信息语义,从而进一步提升地理实体类别的对齐准确率;
(3)随着词向量维度的增加,词向量对语义信息拟合得更加准确,进而提升实体类别对齐的查准率;但随着维度的进一步增加,其查全率会逐步下降。查准率与查全率之间的这种博弈关系,要求在应用词嵌入模型时选择合适的词向量维度。

4.2 展望

未来还需要进一步开展的研究:
(1)对齐结果与语料库规模直接相关,语料库规模越大,训练得到的词向量就越能体现词汇的语义信息,对齐准确率就越高,因此,还应进一步丰富和扩展语料库;
(2)随着语料库的扩展和词向量维度的增加,词嵌入计算复杂度也会急剧增加,因此,选择合适的词向量维度,通过高性能、并行化、分布式等计算策略,降低模型的计算复杂度,提升计算效率也是未来研究的重点;
(3)当前地理实体对齐结果的验证评价主要依靠专家人工建立测试数据集,因此,需要加快构建形成可开放共享的地理实体对齐结果评价的标准测试数据集;
(4)尽管本文的研究对象是英文实体类别对齐,但其方法也可用于中文实体类别的对齐。当然,由于中英文在词法、语法等方面存在的差异,还需进一步开展本文方法对中文实体类别对齐的适用性试验。
[1]
诸云强, 孙九林, 廖顺宝, 等. 地球系统科学数据共享研究与实践[J]. 地球信息科学学报, 2010, 12(1):1-8.

[Zhu Y Q, Sun J L, Liao S B, et al. Earth system scientific data sharing research and practice[J]. Journal of Geo-information Science, 2010, 12(1):1-8. ]

[2]
闾国年, 俞肇元, 周良辰, 等. 地理实体分类与编码体系的构建[J]. 现代测绘, 2019, 42(1):1-6.

[Lü G N, Yu Z Y, Zhou L C, et al. Construction of geographical entity classification and coding system[J]. Modern Surveying and Mapping, 2019, 42(1):1-6. ]

[3]
罗斌. 关于维基百科中的实体类别推断方法的研究[D]. 南京:东南大学, 2017.

[Luo B. Reaserch on the approach of entity type inference in wikipedia[D]. Nanjing: Southeast University, 2017. ]

[4]
Sun K, Zhu Y, Song J. Progress and challenges on entity alignment of geographic knowledge bases[J]. ISPRS International Journal of Geo-information, 2019, 8(2):77.

DOI

[5]
王汀, 高迎, 刘经纬. 一种面向中文本体模式的本体对齐框架[J]. 数据分析与知识发现, 2017, 1(2):47-57.

[Wang T, Gao Y, Liu J W. An ontology alignment framework for Chinese ontology pattern[J]. Data Analysis and Knowledge Discovery, 2017, 1(2):47-57. ]

[6]
俞婷婷, 徐彭娜, 江育娥, 等. 基于改进的Jaccard系数文档相似度计算方法[J]. 计算机系统应用, 2017, 26(12):137-142.

[Yu T T, Xu P N, Jiang Y E, et al. Text similarity method based on the improved Jaccard coefficient[J]. Computer Systems & Applications, 2017, 26(12):137-142. ]

[7]
尹康银, 宋自林, 乔可春, 等. 基于树结构RDF闭包生成算法研究[J]. 系统仿真学报, 2008, 20(4):1072-1075,1079.

[Yin K Y, Song Z L, Qiao K C, et al. Generating closure of RDF source based on tree structure[J]. Journal of System Simulation, 2008, 20(4):1072-1075,1079. ]

[8]
姜华, 韩安琪, 王美佳, 等. 基于改进编辑距离的字符串相似度求解算法[J]. 计算机工程, 2014, 40(1):222-227.

[Jiang H, Han A Q, Wang M J, et al. Solution algorithm of string similarity based on improved levenshtein distance[J]. Computer Engineering, 2014, 40(1):222-227. ]

[9]
于永彦. 基于Jaccard距离与概念聚类的多模型估计[J]. 计算机工程, 2012, 38(10):22-26.

[Yu Y Y. Multi-model estimation based on Jaccard distance and concept clustering[J]. Computer Engineering, 2012, 38(10):22-26. ]

[10]
徐爽, 张谦, 李琰, 等. 基于距离类别的多源兴趣点融合算法[J]. 计算机应用, 2018, 38(5):118-122.

[Xu S, Zhang Q, Li Y, et al. Multi-source point of interest fusion algorithm based on distance and category[J]. Journal of Computer Applications, 2018, 38(5):118-122. ]

[11]
江铭虎. 自然语言处理[M]. 北京: 高等教育出版社, 2007.

[Jiang M H. Natural language processing[M]. Beijing: Higher Education Press, 2007. ]

[12]
Rummelhart D E, Hinton G E, Williams R J. Learning internal representations by error propagation[J]. Readings in Cognitive Science, 1988, 323(2):399-421.

[13]
邓晓衡, 杨子荣, 关培源. 一种基于词义和词频的向量空间模型改进方法[J]. 计算机应用研究, 2019, 36(5):1390-1395.

[Deng X H, Yang Z R, Guan P Y, et al. Method based on word meaning and word frequency to improve vector space model[J]. Application Research of Computers, 2019, 36(5):1390-1395. ]

[14]
Santos R, Murrieta-Flores P, Calado P, et al. Toponym matching through deep neural networks[J]. International Journal of Geographical Information Science, 2017, 32(2):324-348.

DOI

[15]
By X U, Boran Z. Corpus-based contrastive studies on the causal conjunctions in EnglishChinese classics[J]. Foreign Language Teaching and Research, 2006, 38(4):292-296.

[16]
赵飞, 周涛, 张良, 等. 维基百科研究综述[J]. 电子科技大学学报, 2010, 39(3):321-334.

[Zhao F, Zhou T, Zhang L, et al. Research progress on Wikipedia[J]. Journal of University of Electronic Science and Technology of China, 2010, 39(3):321-334. ]

[17]
Weld D S, Hoffmann R, Wu F. Using Wikipedia to bootstrap open information extraction[J]. Acm Sigmod Record, 2009, 37(4):62-68.

[18]
Wikipedia Cprpus[DB/OL]. https://dumps.wikimedia.org/enwiki/, 2019- 6- 7

[19]
Corpus of Contemporary American English[DB/OL]. https://www.english-corpora.org/coca/, 2019- 8- 16

[20]
Alexandria Digital Library[EB/OL]. http://legacy.alexandria.ucsb.edu/, 2019- 10- 11

[21]
GeoNames[EB/OL]. http://www.geonames.org/export/codes.html, 2019- 11- 14

[22]
OpenStreetMap[EB/OL]. https://wiki.openstreetmap.org/wiki/Map_Features, 2019- 12- 21

[23]
Feng S, Liu R, Wang Q, et al. Word distributed representation based text clustering[C]. 2014 IEEE International Conference on Cloud Computing and Intelligence Systems, 2014:389-983.

[24]
Bai X, Cao H, Zhao T. Improving vector space word representations via kernel canonical correlation analysis[J]. Acm Transactions on Asian Language Information Processing, 2018, 17(4):1-16.

[25]
徐帆. Word Embedding方法的研究及应用[D]. 沈阳:沈阳航空航天大学, 2018.

[Xu F. Research and application of the word embedding method[D]. Shenyang: Shenyang Aerospace University, 2018. ]

[26]
Sutskever I, Vinyals O, Le Q V. Sequence to sequence learning with neural networks[J]. Advances in Neural Information Processing Systems, 2014, 27:3104-3112.

[27]
Levy O, Goldberg Y. Neural word embedding as implicit matrix factorization[J]. Advances in Neural Information Processing Systems, 2014, 3:2177-2185.

[28]
Pennington J, Socher R, Manning C. Glove: Global vectors for word representation[C]. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, 2014:1532-1543.

[29]
Saidani A, Kacem A, Belaid A. Co-occurrence matrix of oriented gradients for word script and nature identification[C]. International Conference on Document Analysis and Recognition, 2015:16-20.

[30]
Couso, Inés, Sánchez L. Machine learning models, epistemic set-valued data and generalized loss functions: An encompassing approach[J]. Information Sciences, 2016, 358:129-150.

[31]
Duchi J C, Hazan E, Singer Y. Adaptive subgradient methods adaptive subgradient methods for online learning and stochastic optimization[J]. Journal of Machine Learning Research, 2011, 12(7):2121-2159.

[32]
刘瑞元. 加权欧氏距离及其应用[J]. 数理统计与管理, 2002, 21(5):17-19.

[Liu R Y. Euclid distance with weight and its applications[J]. Journal of Applied Statistics and Management, 2002, 21(5):17-19. ]

[33]
张振亚, 王进, 程红梅, 等. 基于余弦相似度的文本空间索引方法研究[J]. 计算机科学, 2005, 32(9):160-163.

[Zhang Z Y, Wang J, Cheng H M, et al. An approach for spatial index of text information based on cosine similarity[J]. Computer Science, 2005, 32(9):160-163. ]

[34]
苏佳林, 王元卓, 靳小龙, 等. 融合语义和结构信息的知识图谱实体对齐[J]. 山西大学学报(自然科学版), 2019, 42(1):23-30.

[Su J L, Wang Y Z, Jin X L, et al. Knowledge graph entity alignment with semantic and structural information[J]. Journal of Shanxi University (Natural Science Edition), 2019, 42(1):23-30. ]

[35]
Shvaiko P, Euzenat, Jérôme. Ontology matching: State of the art and future challenges[J]. IEEE Transactions on Knowledge and Data Engineering, 2013, 25(1):158-176.

DOI

Outlines

/