基于通用知识库的地理实体开放关系过滤方法

高嘉良; 余丽; 仇培元; 陆锋

doi:10.12082/dqxxkx.2019.190005

地球信息科学学报 >

2019 , Vol. 21 >Issue 9: 1392 - 1401

DOI: https://doi.org/10.12082/dqxxkx.2019.190005

地理信息科学理论与方法

基于通用知识库的地理实体开放关系过滤方法

高嘉良 ¹^,² ,
余丽 ^,³^,^* ,
仇培元 ¹ ,
陆锋 ¹^,²^,⁴

展开

1 中国科学院地理科学与资源研究所资源与环境信息系统国家重点实验室,北京 100101
2 中国科学院大学,北京 100049
3 中国科学院文献情报中心,北京100190
4 江苏省地理信息资源开发与利用协同创新中心,南京 210023

*余丽（1986-）,女,湖北保康人,博士,馆员,主要从事知识图谱研究。E-mail: yul@mail.las.ac.cn

高嘉良（1994-）,男,山东临沂人,博士生,主要从事自然语言处理与地理知识图谱研究。E-mail：gaojl@lreis.ac.cn

收稿日期: 2019-01-02

要求修回日期: 2019-05-23

网络出版日期: 2019-09-24

基金资助

国家自然科学基金重点项目(41631177)

版权

收起

A Knowledge-based Method for Filtering Geo-entity Relations

GAO Jialiang ¹^,² ,
YU Li ^,³^,^* ,
QIU Peiyuan ¹ ,
LU Feng ¹^,²^,⁴

Expand

^1. State Key Laboratory of Resources and Environmental Information System, Institute of Geographic Sciences and Natural Resources Research, Chinese Academy of Sciences, Beijing 100101, China
^2. University of Chinese Academy of Sciences, Beijing 100049, China
^3. National Science Library, Chinese Academy of Sciences, Beijing 100190, China
^4. Jiangsu Center for Collaborative Innovation in Geographical Information Resource Development and Application, Nanjing 210023, China

*YU Li, E-mail：yul@mail.las.ac.cn

Received date: 2019-01-02

Request revised date: 2019-05-23

Online published: 2019-09-24

Supported by

National Natural Science Foundation of China(41631177)

Copyright

Copyright reserved © 2010. Office of Journal of Geo-information Science All articles published represent the opinions of the authors, and do not reflect the official policy of the Chinese Medical Association or the Editorial Board, unless this is clearly specified.

Fold

摘要

文本数据为地理知识服务提供了海量资源。面向文本数据的地理实体关系抽取是地理知识图谱构建的核心技术,直接影响地理知识推理与服务的质量。由于文本数据不可避免地含有噪声,从文本中抽取的地理实体关系需要质量评价和信息过滤。本文提出一种基于通用知识库的地理实体关系过滤方法,针对已抽取的地理实体关系从中筛选出高质量的结果：先利用“本体知识”、“事实知识”和“同义词知识”构建地理关系知识库,作为信息过滤的参照数据;再基于分布式向量表示模型度量已抽取的地理实体关系与参照数据之间的语义相似性,以提高地理知识图谱的丰度与鲜度。实验结果表明,相比业界流行的“Stanford OpenIE”工具,本文所提出的方法可将置信度区间[0, 0.2]和[0.8, 1]的MSE（Mean Square Error）从59.27%降至3.94%,AUC(Area Under the ROC Curve)从0.51提升至0.89。

关键词： 文本数据; 地理实体关系抽取; 地理知识图谱构建; 通用知识库; 开放关系抽取; 地理信息质量评价; 信息过滤

本文引用格式

高嘉良 , 余丽 , 仇培元 , 陆锋 . 基于通用知识库的地理实体开放关系过滤方法[J]. 地球信息科学学报, 2019 , 21(9) : 1392 -1401 . DOI: 10.12082/dqxxkx.2019.190005

Abstract

Knowledge Graphs (KGs) are crucial resources for supporting geographical knowledge services. Given the vast geographical knowledge in web text, extraction of geo-entity relations from web text has become the core technology for constructing geographical KGs. Furthermore, it directly affects the quality of geographical knowledge services. However, web text inevitably contains noise and geographical knowledge can be sparsely distributed, both greatly restricting the quality of geo-entity relationship extraction. Here, we proposed a method for filtering geo-entity relations based on existing Knowledge Bases (KBs). Specifically, ontology knowledge, fact knowledge, and synonym knowledge were integrated to generate geo-related knowledge. Then, the extracted geo-entity relationships and the geo-related knowledge were transferred into vectors, and the maximum similarity between vectors was the confidence value of one extracted geo-entity relationship triple. Our method takes full advantage of existing KBs to assess the quality of geographical information in web text, which helps improve the richness and freshness of geographical KGs. Compared with the Stanford OpenIE method, our method decreased the Mean Square Error (MSE) from 0.62 to 0.06 in the confidence interval [0.7, 1], and improved the area under the Receiver Operating Characteristic (ROC) Curve (AUC) from 0.51 to 0.89.

Key words： text data; geo-entity relations extraction; geo-KG building; common knowledge bases; open relation extraction; evaluation of geographic information quality; information filtering

1 引言

文本中蕴含的地理实体语义信息为地理知识服务提供了海量资源,但是非结构化的自然语言描述形式不利于计算机的理解和处理。因此,需要将非结构化文本中蕴含的语义信息转换为结构化形式,例如将含有语义的概念、实例和关系组织为三元组的形式（<头实体,关系,尾实体>,如<中国,首都,北京>）,形成一张具有语义的网络^[1],最终使得文本蕴含的地理知识可被计算机理解和使用,成为能够服务于生产、生活、生态的地理智慧。本文将地理实体界定为现实世界中独立存在,可唯一标识,具备专有名称的自然或人工地物,范围包括地点和机构。

关系抽取是获取上述三元组的主要途径。传统关系抽取方法主要是基于规则^[2]或监督机器学习^[3],只能识别预定义的关系类型。随着网络文本爆发式增长,地理实体之间的新型关系层出不穷,预定义的关系类型难以全面覆盖,限制了地理语义理解^[4]和空间推理^[5]的进一步发展。为了解决以上问题,开放关系抽取（Open Information Extraction,OpenIE）^[6]应运而生,旨在从文本中提取出能够用于表达实体之间关系的词或短语,不再限定关系类型,保留了自然语言灵活的表达形式。近年来,自然语言处理技术不断取得突破性进展,多个开源OpenIE系统可用于从文本中抽取地理实体的开放关系,如Reverb^[7],ClausIE^[8],OLLIE^[9],Stanford OpenIE^[10],OpenIE4^[11],OpenIE5^[12]等。由于缺乏人工干预^[7]且文本蕴含的地理实体关系相对稀疏,开放关系抽取工具难以保证抽取出的地理关系质量。因此,对已抽取出的地理关系进行甄别筛选是开放关系抽取过程中必不可少的环节。

过滤即“取其精华,弃其糟粕”,而评价是鉴别何为“精华”何为“糟粕”的必要过程。当完成评价后,根据选定阈值完成“取”和“弃”,即可实现过滤。目前,评价开放地理关系的质量多借助于权威的参照数据集,由多人历经数年手工构建而成,成本极高。因此,本文提出一种基于通用知识库的地理开放关系自动过滤方法：以大规模的通用知识库作为评价依据,解决了以往评价方法对权威参照数据集的依赖。

本文的创新点在于：① 充分考虑地理实体类别之间的语义关联,提出了一种类型约束的语义相似性度量方法,提高了地理信息质量评价的准确性;② 充分利用公开可获取的知识资源（“本体知识”、“事实知识”和“同义词知识”）,提出了一种自动构建参照数据集的方法,提升了地理实体关系过滤的自动化水平。

2 相关工作

文本数据涵盖了海量的以自然语言描述的非结构化地理信息^[13]。信源可信度和内容规范性是文本蕴含地理信息质量评价的两个核心指标,评价常采用监督分类的方法^[14]。使用的分类特征包括：数据生产者的专业知识、信誉、认可度,文本内容的拼写错误、标点符号、语法等。目前,非结构化地理信息质量评价主要针对社交媒体数据（如Twitter^[15],微博^[16]等）进行信源可信度计算,且未涉及内容可信度的评价。

一般地,非结构化信息需要先经信息抽取技术转化为三元组,再以三元组的置信度来确定非结构化信息的可靠性。预定义关系类型的大规模标注语料库常被作为参照数据集,例如被广泛使用的TAC 2013英语常规槽填充语料库（TAC 2013 English Regular Slot Filling Corpus）^[17]。该数据集是基于Wikipedia词条正文,由人工标注完成,共包含50种机构（16种属性）和50个人物（25种属性）,总计27 655个实例。然而,人工构建标注语料库过程繁琐,包含5个步骤：① 制定标注规范;② 查询出文本中某一属性的所有实例,由高级标注者确认;③ 自动标注配合手动编辑;④ 评定员对每个实例进行评估,确保所有标注实例的准确率达到90%以上; ⑤ 同行评审,该标注语料库虽然可靠性高,但是缺乏其他细粒度类型的地理实体,因此不适用于评价从文本中抽取的开放地理关系。

构建一个包含所有实体关系的参照集是一项难以完成的任务。常用的评价方法是针对随机采样的部分结果,由多位领域专家对同一样本进行质量判断。为了保证不同专家的评价一致性,还需要通过一致性检验（如kappa系数^[18]）。人工质量评价方法需要大量领域专家的参与,费时费力,难以大规模开展。

目前,自动化评价方法主要分为两类：链路预测^[19]和证据收集^[20]。链路预测基于知识图谱中已有的关系链接,预测实体之间存在新关系的概率。此方法被广泛应用于知识图谱的补全和推理任务,具体方法又分为：① 基于规则的方法^[21,22,23];② 概率图模型^[24,25];③ 基于知识图嵌入的推理方法^[26,27,28]。证据收集通过从知识库、网络共现或查询日志中收集的间接证据,推断关系成立的概率^[29]。

3 方法与实验

3.1 方法

本文研究目标是从开放关系抽取工具输出结果中过滤出高质量的地理实体关系三元组,需解决以下2个子问题：

（1）如何构建参照数据集;基于假设“关系受到地理实体类型的约束”,本文将地理关系知识形式化表达为“<class（sub, obj）,set（indicators）>”。其中,“class（sub, obj）”表示三元组中头、尾实体所属类别;“set（indicators）”是能够用于表达该种类别的地理实体之间关系的词或短语的集合。现有的通用知识库^[30]（例如DBpedia、YAGO、WordNet等）含有专家构建的本体、可靠的事实、丰富的同义词,3.1.1节将详细描述如何利用通用知识库获取地理关系知识,作为地理实体开放关系过滤的参照数据集。

（2）如何评价三元组质量：本文提出一种类型约束的语义相似性度量方法,采用内容可靠性指标,评价从文本中抽取的地理实体关系三元组的质量。在三元组“<sub, rel, obj>”中,如果关系“rel”与实体类型约束的指示词“indicator”的相似性越高,则该三元组越可靠。具体方法描述见3.1.2节。

地理实体开放关系过滤的整体流程如图1所示。

显示原图|下载原图ZIP|生成PPT

图1 地理实体关系过滤流程

Fig. 1 Flowchartfor filtering geo-entity relations

3.1.1 构建参照数据集

本文基于通用知识库的本体知识、事实知识、同义词知识,构建地理关系知识库,作为质量评价的参照数据集,流程如图2所示。

显示原图|下载原图ZIP|生成PPT

图2 获取地理实体的关系知识流程

Fig. 2 Flowchart for acquiring geo-entity relational knowledge

本体知识：本体描述了知识库的概念及其属性,规定了不同类型的实体间可拥有的关系类型。本文将本体中描述地理实体的概念与属性添加到“地理关系知识库”中。例如,从DBpedia的本体中抽取出的地理关系知识“<class（road, city）, set（beltway city）>”。

事实知识：描述客观世界中实体的各种属性,记为“fact<entity,attribute,value>”。当属性值“value”为实体时,属性“attribute”表示一种关系。本文将“value”为地理实体的事实知识添加到“地理关系知识库”。例如,“<class（road, city）, set（beltway city）>”经过事实知识扩充后,更新为“<class（road, city）, set{beltway city, route junction}>”。

同义词知识：将自然语言中的词归纳为同义词集,用于表示语言学的基本概念^[31],例如著名的语言学知识库WordNet（http://wordnet.princeton.edu）。本文首先根据地理实体的几何形态计算拓扑关系（采用Egenhofe^[32]定义的8种拓扑关系：“disjoint”, “meet”, “overlap”, “inside”, “contain”, “cover”, “coveredBy”, “equal”）,再使用同义词知识扩充拓扑关系的表达式。例如,上述的地理关系知识“<class（road, city）, set{beltway city, route junction}>”经过同义词知识扩充后,更新为“<class（road, city）, set{beltway city, route junction, pass through, cross, enter, connect, in }”。

3.1.2 评价三元组质量

自然语言描述的地理关系形式多样,难以与关系指示词“indicators”直接匹配。本文通过词嵌入方法,将地理关系和关系指示词映射到同一个低维、稠密向量空间中,再通过余弦距离计算两者的语义相似性,地理关系词与其所有指示词的相似度最大值作为置信度,保留置信度大于阈值的三元组作为可靠的地理实体关系实例,流程如图3所示。

显示原图|下载原图ZIP|生成PPT

图3 评价地理实体关系置信度流程

Fig. 3 Flowchart for filtering geo-entity relations

考虑到地理实体类型对关系的约束,先将文本中所有的地理实体转为类型名称,再训练一个短语向量模型Phrase2Vec^[33]（https://github.com/inejc/paragraph-vectors）,以预测地理关系和关系指示词的向量表达式。

3.2 实验

3.2.1 实验数据集

本文使用DBpedia （https://wiki.dbpedia.org/）作为事实型知识库,WordNet作为同义词知识库,Wikipedia （https://www.wikipedia.org/）英文词条正文作为文本语料库。数据集的详细描述如下：

（1）从DBpedia的本体中共提取出261个地理命名实体类型,包含机构（如公司、学校、政府机构、银行等）和地点（如岛屿、国家、大洋、山脉等）。

（2）从DBpedia中提取出头尾实体均为地理实体的类型对共1159个,关系指示词共177个。

（3）Wikipedia英文地理实体的正文作为抽取地理关系的语料,共2.8 GB。本文使用“Stanford OpenIE” （https://nlp.stanford.edu/software/openie.shtml）从该语料中抽取三元组,再使用DBpedia Spotlight （https://www.dbpedia-spotlight.org/）识别三元组中头尾实体的类型,过滤出头尾实体均为地理实体类型的三元组（共计517 805个）,用于评价地理关系的置信度。

（4）Wikipedia英文所有词条的正文作为训练Phrase2Vec模型的语料,共14.2 GB。短语向量的维度设为100维。

由于抽取出的地理实体关系缺乏真值,为了验证本文方法的有效性,我们随机抽样部分数据进行人工标注作为验证集：正确标注为1,错误标注为0;且人工判读每个样本是空间关系还是语义关系。构建真值集的过程为：首先,将“Stanford OpenIE”工具抽取出的517 805个三元组按照工具输出的置信度排序,划分成10个区间,尽可能保证每个区间的三元组数量大致相同。然后,从每个区间随机抽取100个三元组,共计1000个样本。每个样本同时由两名GIS专业的学生进行标注。最后,将1000个样本按照工具输出的置信度重新划分到10个区间上：[0, 0.1], [0.1, 0.2）, …, [0.8, 0.9], [0.9, 1.0]。基于人工标注结果计算每个区间的正例比率,作为该区间的真实概率,用于评价本文方法的性能。

3.2.2 实验设计

本文以“Stanford OpenIE”输出的置信度作为基准,对比分析提出方法的有效性。实验设计如表1所示：①Stanford OpenIE（StanOIE）：基准; ② KNOWfact：仅使用事实型知识库中提取的“关系知识”,即DBpedia的“本体知识”和“事实知识”; ③ KNOWfact+lex：联合使用事实型知识库和同义词知识库。

表1 实验设计框架

Tab. 1 Experiment design schema

方法	关系类型
方法	所有样本	空间关系样本	语义关系样本
StanOIE	All-StanOIE	Se-StanOIE	Sp-StanOIE
KNOWfact	All-KNOWfact	Se-KNOWfact	Sp-KNOWfact
KNOWfact+lex	All-KNOWfact+lex	Se-KNOWfact+lex	Sp-KNOWfact+lex

3.2.3 方法度量指标

本文使用3种度量指标评价方法的有效性：均方根误差（Mean Square Error, MSE）, 受试者工作特征曲线（Receiver Operating Characteristic Curve, ROC）, ROC曲线下方的面积（Area Under the ROC Curve, AUC）。

（1）MSE：使用方法输出的置信度和真实概率计算MSE,值越低,方法的效果越好。计算公式如式（1）所示。

（1）

MSE = 1 n ∑ i = 1 n Y i - Y ˆ l 2

式中：n为每个置信区间内样本总数;Y_i为方法输出的样本i置信度;

Y ˆ l

为区间l的真实概率,即区间l的正例比率。

（2）ROC和AUC：根据方法输出的置信度排序样本,分别将每个置信度作为阈值,大于阈值的样本视为正例,其他视为负例,计算真阳性率和假阳性率,如式（3）和式（4）所示。以FPR为横轴、TPR为纵轴绘制ROC曲线。ROC曲线愈靠近（0, 1）,方法愈有效;计算ROC曲线下方面积,AUC愈大,方法愈有效。

（2）

TPR = TP / (TP + FN)

（3）

FPR = FP / (TN + FP)

式中：TP为真阳性样本数;FP为假阳性样本数;FN为假阴性样本数;TN为真阴性样本数,如表2所示。

表2 正负例判别结果的混淆矩阵

Tab. 2 Confusion matrix of the discrimination result of positive and negative examples

人工标注	方法评价结果
人工标注	正例	负例
1	TP	FN
0	FP	TN

4 结果与讨论

4.1 MSE

3种方法的MSE分别如图4所示。图4（a）-（c)分别为所有样本的MSE、语义关系样本的MSE;和空间关系样本的MSE。

显示原图|下载原图ZIP|生成PPT

图4 3种方法的MSE曲线

注：Sp-StanOIE的曲线不连续,因为StanOIE在部分置信度区间上没有输出三元组。

Fig. 4 MSE curves for the three methods: KNOWfact+lex, KNOWfact, and StanOIE

对于三组样本,本文方法KNOWfact+lex在置信度区间[0,0.2]和[0.8,1]的MSE均低于另外2种方法,意味着对于置信度区间[0,0.2]的三元组,KNOWfact+lex分配给负例更低的置信度;同理,对于置信度区间[0.8,1]的三元组,KNOWfact+lex分配给正例更高的置信度。实验说明,从知识库中获取的关系知识能有效地区分正确和错误的抽取结果。

StanOIE对于三组样本的评价均表现最差。尤其图4(a)和图4(b)中,高置信度区间MSE曲线显著上扬。原因是StanOIE预测95%样本的置信度为1.0;事实上,正例样本在图4(a)中只占40%、图4(b)中只占29%。当评价空间关系时（图4(c)）,StanOIE在高置信区间的MSE较低,而在低置信区间的MSE较高。原因是StanOIE预测置信度为1.0的样本总数恰好接近正例样本数量,而预测置信度为0.0的样本仅占1%。实验说明,StanOIE偏好为抽取的三元组分配更高的置信度。

4.2 ROC和AUC

3种方法的ROC曲线如图5所示。图5(a)-(c)分别为所有样本的ROC曲线、语义关系样本的ROC曲线和空间关系样本的ROC曲线。

显示原图|下载原图ZIP|生成PPT

图5 3种方法的ROC曲线和AUC值

Fig. 5 ROC and AUC for the three methods: KNOWfact+lex, KNOWfact, and StanOIE.

针对三组样本,KNOWfact+lex的ROC曲线均完全包裹住其他2种方法的ROC曲线。当加入同义词扩充的拓扑关系后,AUC（Sp-KNOWfact+lex）达到最高值0.96,说明“同义词知识”对于评价地理实体之间的空间关系发挥了至关重要的作用。此外,StanOIE的ROC曲线接近于0-1对角线,说明StanOIE输出的置信度接近随机分布。

4.3 选择阈值

本文通过分析三组样本中的精度和召回率,选择合适的阈值过滤出可靠的关系三元组。图6反映精度和召回率随阈值变化的情况,当阈值达到0.7,精度为0.95,召回率为0.67;当阈值超过0.7后,精度稳定在0.95附近,而召回率急剧下降。图7为精度随召回率变化曲线,拐点是（0.67,0.95）召回率从0逐步增大到0.67时,精度始终很高,保持在0.95附近;而当召回率超过0.67继续增大时,精度却急剧下降。以上结果说明,选择0.7作为阈值,能够保证精度和召回率的平衡。

显示原图|下载原图ZIP|生成PPT

图6 精度与召回率随置信度变化的曲线

Fig. 6 Curves of accuracy and recall rate with confidence

显示原图|下载原图ZIP|生成PPT

图7 召回率-精度曲线

Fig. 7 Recall-precision curve

此外,分别统计了置信度区间[0,0.3）和[0.7,1]上3种方法预测出的正例和负例的百分比,如表3-表5所示,其中,后缀“-1”代表正例,后缀“-0”代表负例。

表3 空间关系的预测结果

Tab. 3 Percentages of the predictions for spatial relation samples (%)

样本类型	置信区间	方法
样本类型	置信区间	KNOWfact+lex	KNOWfact	StanOIE
Sp-0	[0, 0.3)	19.23	12.50	0.96
Sp-0	[0.7, 1]	6.72	10.57	98.07
Sp-1	[0, 0.3)	0.00	1.93	0.39
Sp-1	[0.7, 1]	95.75	20.46	99.62

表4 语义关系的预测结果

Tab. 4 Percentages of the predictions for semantic relation samples (%)

样本类型	置信区间	方法
样本类型	置信区间	KNOWfact+lex	KNOWfact	StanOIE
Se-0	[0, 0.3)	25.59	20.23	1.93
Se-0	[0.7, 1]	0.96	1.10	95.18
Se-1	[0, 0.3)	2.06	10.69	1.37
Se-1	[0.7, 1]	40.35	9.31	96.55

表5 全部样本的预测结果

Tab. 5 Percentages of the predictions for all samples (%)

样本类型	置信区间	方法
样本类型	置信区间	KNOWfact+lex	KNOWfact	StanOIE
All-0	[0, 0.3)	24.79	19.25	1.80
All-0	[0.7, 1]	1.68	2.29	95.54
All-1	[0, 0.3)	1.09	6.56	0.90
All-1	[0.7, 1]	66.48	14.57	97.99

对于三组样本中的负例,KNOWfact+lex输出到低置信度区间的三元组占比最大,输出到高置信度区间的三元组占比最小。同样地,对于三组样本中的正例,KNOWfact+lex的预测结果优于KNOWfact。特别是对于空间关系三元组的评价,KNOWfact+lex的正例召回率达到95.75%,正例准确率达到100%。以上结果证明,经过同义词扩充后的地理关系知识能够有效筛选出正确的空间关系。

StanOIE几乎过滤出了所有正例,但它同时也将绝大部分负例判定为正确。原因是无论抽取结果正确与否,StanOIE始终为三元组分配一个较高的置信度。

综上,选择0.7作为阈值,得到115 773个地理实体关系三元组,形成了一个高质量的地理知识库。

4.4 讨论

Stanford OpenIE倾向为抽取的三元组赋予较高的置信度,导致其抽取结果中含有大量的噪声。究其原因,开放关系抽取工具往往面向通用领域,大多基于语法或句法结构预测置信度（例如自然逻辑^[10]、协调分析^[11]、语言约束^[12]、句法模式^[8]等）,尚未考虑到地理领域特有的空间规律和文本蕴含地理实体关系的稀疏性。此外,语言学现象的复杂性也为开放关系抽取带来极大困难,依赖语法或句法结构的置信度评价方法难免出错。例如,Stanford OpenIE工具以1.0的置信度从句子“Dominated by WanHill, Summer Palace covers an expanse of 2.9 square kilometres”中抽取出三元组“<Summer Palace, covers expanse by, WanHill>”。虽然该三元组的句法结构正确,但违背了地理空间约束。本文方法通过从通用知识库中提取出地理关系约束,并利用同义词扩展拓扑关系,实现了地理关系的质量评价和过滤,证明了外部知识对于领域关系抽取至关重要。

然而,本文方法的效果受到如下因素的影响。首先,本文方法基于开放关系抽取工具的输出结果。如果OpenIE系统输出的三元组中,头尾实体之间本就不存在关系,但其类型满足地理关系约束,那么本文方法仍将判定该抽取结果正确。例如,句子“In the upper area of the Weilburg Lahntal （the Löhnberg Basin） are mineral springs, such as the famous Selters mineral spring in the municipality of Löhnberg.”,Stanford OpenIE工具抽取出三元组“<Weilburg, of area be, Löhnberg>”。由于头尾实体满足地理关系约束“<Settlement, geolocDepartment, PopulatedPlace>”,本文方法赋予该三元组0.732的置信度,导致过滤失败。其次,本文获取的地理关系知识仍然有限,远未能覆盖自然语言描述的关系形式。现实中,许多三元组实则在描述事件,例如“<Apple Inc., receive state aid from, Republic of Ireland >”,关系由多个不同含义的短语组成,而本文的地理关系知识为单个的词或短语,两者之间的语义联系甚微。整合更多知识库的地理关系知识^[34]或者参考多个OpenIE工具的抽取结果,可增强地理关系知识的丰富性。此外,利用机器学习方法（如最大期望算法^[35]）提升未知关系的评价能力^[36,37],已在多源冲突信息的真值发现任务中取得成效^[38],未来工作将借鉴此类方法提升地理开放关系质量评价^[39]的效果。

5 结论与展望

本文提出了一种基于通用知识库的地理关系自动过滤方法,用于提升开放关系抽取（OpenIE）技术应用于地理语义信息获取任务的效果。该方法整合了通用知识库的地理关系约束,将其作为参照来度量抽取的地理关系三元组的可靠性,实现了文本蕴含地理实体关系的信息过滤。实验证明,相比Stanford OpenIE的评价结果,在置信区间[0,0.2）和[0.8,1]上,本文方法将MSE由59.27%下降到3.94%,AUC由0.51提升到0.89,可有效地筛选出可靠的地理关系三元组,服务于地理知识图谱构建、地理关系语料标注、地理问答等。未来工作将融合多个OpenIE工具的抽取结果和集成多个知识库的地理关系知识,降低单抽取器和单参照知识库的局限性。同时,引入网络开放文本（如新闻、社交信息、领域文献等）用于抽取地理开放关系和训练词嵌入模型,以补充各种语言场景下的地理关系表达。

参考文献

原文顺序 | 文献年度倒序 | 文中引用次数倒序

[1]	Bollacker K, Evans C, Paritosh P, et al. Freebase: A collaboratively created graph database for structuring human knowledge[C]. Proceedings of the 2008 ACM SIGMOD international conference on Management of data. ACM, 2008: 1247-1250.

[2]	Fundel K, Küffner R, Zimmer R , RelEx-Relation extraction using dependency parse trees[J]. Bioinformatics, 2006,23(3):365-371.

[3]	Zeng D , et al. Relation classification via convolutional deep neural network[C]. Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: Technical Papers, 2014.

[4]	Yuan Y H, Liu Y, Wei G X . Exploring inter-country connection in mass media: A case study of China[J]. Computers Environment and Urban Systems, 2017,62:86-96.

[5]	Montello D R, Friedman A, Phillips D W . Vague cognitive regions in geography and geographic information science[J]. International Journal of Geographical Information Science, 2014,28(9):1802-1820. DOI

[6]	Purves R S , et al. The design and implementation of SPIRIT: A spatially aware search engine for information retrieval on the internet[J]. International Journal of Geographical Information Science, 2007,21(7):717-745.

[7]	Fader A, Soderland S, Etzioni O . Identifying relations for open information extraction[C]. Proceedings of the conference on empirical methods in natural language processing. Association for Computational Linguistics, 2011: 1535-1545.

[8]	Del Corro L, Gemulla R . Clausie: Clause-based open information extraction[C]. Proceedings of the 22nd international conference on World Wide Web. ACM, 2013: 355-366.

[9]	Schmitz M, Bart R, Soderland S , et al. Open language learning for information extraction[C]. Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Association for Computational Linguistics, 2012: 523-534.

[10]	Angeli G, Premkumar M J J, Manning C D . Leveraging linguistic structure for open domain information extraction[C]. Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing, 2015,1:344-354.

[11]	Pal H . Demonyms and compound relational nouns in nominal open IE[C]. Proceedings of the 5th Workshop on Automated Knowledge Base Construction, 2016: 35-39.

[12]	Saha S . Open information extraction from conjunctive sentences[C]. Proceedings of the 27th International Conference on Computational Linguistics, 2018: 2288-2299.

[13]	余丽, 陆锋, 张恒才 . 网络文本蕴涵地理信息抽取:研究进展与展望[J]. 地球信息科学学报, 2015,17(2):127-134. DOI [ Yu L, Lu F, Zhang H C . Extracting geographic information from web texts: Status and development[J]. Journalof Geo-information Science, 2015,17(2):127-134. ]

[14]	Castillo C, Mendoza M, Poblete B . Information credibility on twitter[C]. Proceedings of the 20th international conference on World wide web. ACM, 2011: 675-684.

[15]	Alrubaian M, Member S , IEEE, et al. A credibility analysis system for assessing information on Twitter[J]. IEEE Transactions on Dependable and Secure Computing, 2018,15(4):661-674.

[16]	蒋盛益, 陈东沂, 庞观松 , 等. 微博信息可信度分析研究综述[J]. 图书情报工作, 2013,57(12):136-142. [ Jiang S Y, Chen T Y, Pang G S , et al. Research review of information credibility analysis on Microblog[J]. Libray and Information Service, 2013,57(12):136-142. ]

[17]	Ellis J , et al. Linguistic resources for 2013 Knowledge base population evaluations[C]// in TAC, 2012.

[18]	Cohen J , A coefficient of agreement for nominal scales[J]. Educational psychological measurement, 1960,20(1):37-46.

[19]	Lu, L.Y. and T. Zhou , Link prediction in complex networks: A survey[J]. Physica a-Statistical Mechanics and Its Applications, 2011,390(6):1150-1170. DOI

[20]	Dong X, Gabrilovich E, Heitz G , et al. Knowledge vault: A web-scale approach to probabilistic knowledge fusion[C]. Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2014: 601-610.

[21]	Quinlan J R, Cameron-Jones R M . Foil: A midterm report[C]. European conference on machine learning. Springer, Berlin, Heidelberg, 1993: 1-20.

[22]	Lao N, Mitchell T, Cohen W W . Random walk inference and learning in a large scale knowledge base[C]. Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2011: 529-539.

[23]	Galárraga L A, Teflioudi C, Hose K , et al. AMIE: Association rule mining under incomplete evidence in ontological knowledge bases[C]. Proceedings of the 22nd international conference on World Wide Web. ACM, 2013: 413-422.

[24]	Richardson M P . Domingos. Markov logic networks[J]. Machine learning, 2006,62(1-2):107-136. DOI

[25]	Huang B, Kimmig A, Getoor L , et al. Probabilistic soft logic for trust analysis in social networks[C]. International Workshop on Statistical Relational Artificial Intelligence (StaRAI 2012), 2012.

[26]	Mikolov T, Sutskever I, Chen K , et al. Distributed representations of words and phrases and their compositionality[C]. Advances in neural information processing systems, 2013: 3111-3119.

[27]	Wang Z, Zhang J, Feng J , et al. Knowledge graph embedding by translating on hyperplanes[C]. Twenty-Eighth AAAI conference on artificial intelligence, 2014.

[28]	Krompaß D, Nickel M, Jiang X , et al. Non-negative tensor factorization with rescal[C]. Tensor Methods for Machine Learning, ECML workshop, 2013.

[29]	Li F, Dong X L, Langen A , et al. Knowledge verification for long-tail verticals[J]. Proceedings of the VLDB Endowment, 2017,10(11):1370-1381.

[30]	徐增林, 盛泳潘, 贺丽荣 , 等, 知识图谱技术综述[J]. 电子科技大学学报, 2016,45(4):589-606. [ Xu Z L, Sheng Y P, He L R , et al. Review on knowledge graph techniques[J]. Journal of University of Electronic Science and Technology of China, 2016,45(4):589-606. ]

[31]	Miller G A . Wordnet - a Lexical Database for English[J]. Communications of the Acm, 1995,38(11):39-41.

[32]	Egenhofer M J . A formal definition of binary topological relationships[C]. International conference on foundations of data organization and algorithms. Berlin: Springer, 1989: 457-472.

[33]	Schnabel T, Labutov I, Mimno D , et al. Evaluation methods for unsupervised word embeddings[C]. Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, 2015: 298-307.

[34]	Dong X L . Knowledge-Based Trust: Estimating the trustworthiness of web sources[J]. Proceedings of the Vldb Endowment, 2015,8(9):938-949.

[35]	Moon T K . The expectation-maximization algorithm[J]. Ieee Signal Processing Magazine, 1996,13(6):47-60.

[36]	Li F . Knowledge verification for long-tail verticals[J]. Proceedings of the VLDB Endowment, 2017,10(11):1370-1381.

[37]	Zhang H, Li Y, Ma F , et al. TextTruth: An unsupervised approach to discover trustworthy information from multi-sourced text data[C]. Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. ACM, 2018: 2729-2737.

[38]	Li Y . A survey on truth discovery[C]. ACM Sigkdd Explorations Newsletter, 2016,17(2):1-16.

[39]	陆锋, 余丽, 仇培元 . 论地理知识图谱[J]. 地球信息科学学报, 2017,19(6):723-734. [ Lu F, Yu L, Qiu P Y . On geographic knowledge graph[J]. Journal of Geo-information Science, 2017,19(6):723-734. ]

Options

文章导航

模态框（Modal）标题

摘要

本文引用格式

Abstract

1 引言

2 相关工作

3 方法与实验

3.1 方法

图1 地理实体关系过滤流程

图2 获取地理实体的关系知识流程

图3 评价地理实体关系置信度流程

3.2 实验

表1 实验设计框架

表2 正负例判别结果的混淆矩阵

4 结果与讨论

4.1 MSE

图4 3种方法的MSE曲线

4.2 ROC和AUC

图5 3种方法的ROC曲线和AUC值

4.3 选择阈值

图6 精度与召回率随置信度变化的曲线

图7 召回率-精度曲线

表3 空间关系的预测结果

表4 语义关系的预测结果

表5 全部样本的预测结果

4.4 讨论

5 结论与展望

参考文献