地球信息科学理论与方法

基于自动回标的地理实体关系语料库构建方法

  • 王姬卜 , 1, 2 ,
  • 陆锋 2, 3 ,
  • 吴升 1, 2 ,
  • 余丽 , 3, 4, *
展开
  • 1. 福州大学 福建省空间信息工程研究中心,福州 350002
  • 2. 海西政务大数据应用协同创新中心,福州 350002
  • 3. 中国科学院地理科学与资源研究所 资源与环境信息系统国家重点实验室,北京 100101
  • 4. 中国科学院文献情报中心,北京 100190
*通讯作者:余丽(1986-),女,博士,研究方向为信息抽取与知识组织。E-mail: yul@lreis.ac.cn

作者简介: 王姬卜(1993-),女,山西临汾人,硕士生,主要从事地理信息工程研究。E-mail:

收稿日期: 2018-01-04

  要求修回日期: 2018-03-28

  网络出版日期: 2018-07-13

基金资助

国家自然科学基金重点项目(41631177);数字福建建设项目(闽发改网数字函[2014]191 号、[2016]23 号、[2016]77号);福建省科技创新平台项目(2015H2001)

Constructing the Corpus of Geographical Entity Relations Based on Automatic Annotation

  • WANG Jibu , 1, 2 ,
  • LU Feng 2, 3 ,
  • WU Sheng 1, 2 ,
  • YU Li , 3, 4, *
Expand
  • 1. Spatial Information Research Center of Fujian Province, Fuzhou University, Fuzhou 350002, China
  • 2. Fujian Collaborative Innovation Center for Big Data Applications in Governments, Fuzhou 350002, China
  • 3. State Key Laboratory of Resources and Environmental Information System, Institute of Geographic Sciences and Natural Resources Research, Chinese Academy of Sciences, Beijing 100101, China
  • 4. National Science Library, Chinese Academy of Sciences, Beijing 100190, China
*Corresponding author: YU Li, E-mail:

Received date: 2018-01-04

  Request revised date: 2018-03-28

  Online published: 2018-07-13

Supported by

National Natural Science Foundation of China, No.41631177; Digital Fujian Construction Project, No.[2014]191, [2016]23, [2016]77; Fujian Science and Technology Innovation Platform Project, No.2015H2001

Copyright

《地球信息科学学报》编辑部 所有

摘要

地理实体关系语料库是地理信息获取与地理知识服务的基础数据资源,其规模直接影响机器学习模型训练的效果。快速更新的网络文本不断涌现新的关系实例,要求语料库及时更新以覆盖更丰富的关系实例。手工构建和更新语料库成本高昂,亟需一种快速构建大规模地理实体关系语料库的方法。本文提出一种基于回标技术的地理实体关系语料库构建方法。首先,参考地理实体分类标准与语义关系、空间关系分类标准,针对地理实体关系的自然语言描述习惯,建立地理实体关系的标注体系;然后,结合精确匹配与模糊匹配策略,提高客体匹配的覆盖率;接着,基于优序图法建立句子打分规则,实现种子三元组到句子映射的定量评价;最后,使用中文百度百科文本验证方法的有效性。实验结果显示,本文方法平均回标成功率为67.83%,关系标注的准确率为76.36%。相比人工构建空间关系标注语料库的过程,本文提出的语料自动构建方法,标注速度快,规模大,为自动扩充标注语料库提出了可行方案。同时,该方法兼顾了地理实体间的语义关系和空间关系,且关系类型不受限,可用于开放式关系抽取任务。

本文引用格式

王姬卜 , 陆锋 , 吴升 , 余丽 . 基于自动回标的地理实体关系语料库构建方法[J]. 地球信息科学学报, 2018 , 20(7) : 871 -879 . DOI: 10.12082/dqxxkx.2018.180032

Abstract

The corpus of geographical entity relations is the basic data resource of geographical information acquisition and geographical knowledge services, and its scale directly affects the training effect of machine learning models. Fast-updated web text is constantly emerging as a new relational example, requiring the corpus to be updated in a timely manner to cover richer relational instances. Manually constructing and updating corpus are expensive. Therefore, it needs a more efficient technology of corpus construction for massive geographical entity relations. In this paper, we propose an efficient method of corpus construction for massive geographical entity relations through the automatic annotation technique. First of all, based on encyclopedia resources, referring geographical entity classification standard and semantic relation, spatial relation classification standard to establish an annotation scheme of geographical relation, which considers both the linguistic habits of natural language and the annotation normalization. Secondly, we combine the fully-matching with the approximate matching to improve the coverage rate of object entity finding. Thirdly, we define the rules of sentence scoring by using the optimal sequence diagram method, as well as quantitatively evaluate the results of mapping the seed triples to the sentences. Finally, a series of experiments based on the Chinese BaiduBaike are carried out, which is used to verify the effectiveness of the improved automatic annotation. The results show that, the average success rate of the automatic annotation is 67.83%, and the average accuracy of the annotated relations by our method is 76.36%. Comparing with the manually annotated corpus of the spatial relations, the proposed method constructed a large-scale corpus of geographical entity relations more efficiently, which provides a feasible scheme for expending geographical entity relations corpus automatic. Experimental results on self-built corpus by LSTM (Long Short Term Memory) network shows that the accuracy of geographical relation extracting from web texts is 73.2%, and the accuracy of relative corpora is 75.2%, which proofs that the corpus of geographical entity relations is available. At the same time, this method takes into account the semantic relationship and spatial relationship between geographical entities, and it can be used for open relation extraction task. Besides, the relation types are not limited, which can be applied to open relation extraction.

1 引言

网络文本已成为广义地理信息的重要数据源,从自然语言描述的网络文本中抽取地理信息,成为传统地理信息采集的一种重要补充手段,为地理信息的深度挖掘、知识发现和知识服务带来巨大机遇[1,2,3]。地理实体关系语料库是一种蕴含地理实体关系的大规模结构化文本数据集,以描述地理实体或与地理实体具有密切联系的文本为数据源,按照统一的地理实体关系标注体系,将数据源中的文本逐句添加语义标签后形成语料库中的语料,可用于地理实体关系抽取、地理命名实体识别、地名消歧、地理实体关系的统计分析和假设检验等[4]
通用语料库的构建工作已取得了众多成果[5,6,7],但面向地理领域,与地理实体关系相关的语料库仍罕见。张雪英等[8,9]基于《中国大百科全书·中国地理》人工构建了地名标注语料库、空间关系标注语料库和事件时空信息标注语料库,是中文地理实体关系语料库构建的有益尝试。然而,人工构建的语料库虽然质量可靠,但是依赖领域专家知识,成本高,周期长,且语料库规模有限,难以满足网络文本对地理实体关系语料库更新的时效性要求。因此,基于可能蕴含地理信息的海量网络文本自动生成大规模地理实体关系语料库,成为地理信息抽取技术的迫切需求。
自动回标技术利用百科信息框(Infobox)中的属性值对<attribute,value>从百科正文中寻找对应的句子,能够自动构建关系抽取模型所需的训练语料库[10]。然而,该方法是否适用于构建地理实体关系语料库,尚缺乏实验支持。目前,自动构建大规模的地理实体关系语料库仍面临如下挑战:① 领域专家构建的地理实体关系标注规范适用于语料库的人工标注,却难以用于语料库的自动构建。原因在于,此类规范通常要求标注者深入理解上下文的语义,且涉及复杂空间关系的标注,包括隐含性拓扑关系标注、多维地理命名实体的空间关系标注[11]、以及嵌套空间关系标注等,没有人工参与,机器将无法自动理解标注规范,不能完成自动标注。② 同一个地理实体的不同表达形式为语料标注的多个环节带来了歧义,严重影响了地理实体关系语料库的质量。③ 自动回标过程缺乏定量化评价,导致一对多的过匹配现象,为语料带来了大量噪音。针对上述问题,本文提出一种基于自动回标技术的大规模地理实体关系语料库自动构建方法。首先,建立地理实体关系标注体系,以满足标注语料的规范化表达;其次,结合字符串精确匹配与模糊匹配策略,实现回标过程中地理实体的歧义消解;最后,引入优序图法构建句子匹配度打分模型,选择属性值对到句子的最优匹配作为标注结果,以提高标注语料的质量。

2 相关工作

相对于一般网络文本(如微博、网络论坛等)质量的良莠不齐,百科(如百度百科、维基中文百科等)文本用语相对规范,数据量大,结构化信息与非结构化信息并存,为自动构建关系语料库提供了良好的数据源。Nothman等[12]利用维基百科中的结构化信息及文本中的内链接实现了命名实体语料库的自动构建,跨领域的NER测试表明其结果优于其他手工标注的语料。Richman等[13]利用不同语言版本的维基百科数据自动构建了多语言的命名实体标注语料库。
在自动回标技术出现以后,由于其不受语言规则的限制,迅速被应用到基于中文百科的信息抽取研究中,并得到诸多改进。曾道建等[14]指出回标过程中指代消解会降低主语扩充的准确率,导致过匹配,但该研究仅对相关问题和解决方法进行了定性描述,尚缺乏定量分析。王汀等[15]引入优序图法对三元组中各元素的重要性进行量化,以选择出最优匹配的句子。然而,该评价方法变量取值只有3种,权值仅为0或1,打分结果呈不均匀的阶梯状分布,不利于回标结果的优选。王昊[16]组合了2种打分公式进行候选句子的筛选,但未对筛选效果进行分析。贾真等[17]利用同义词林扩展属性触发词,以提高关系抽取的规模和质量。杨宇飞[18]将回标结果分正例(已标注)和反例(未标注),利用朴素贝叶斯分类器提取反例特征,并进行分类标记,以扩充正例集合,利用正例是否包含触发词进行过滤,该方法能够达到扩充语料的效果,但语料质量取决于正例集合和触发词表的质量,对领域知识的依赖度较高。
目前,自动回标技术在地理实体关系语料构建方面应用较少。Blessing等[19]基于英文维基百科,利用回标技术建立了河流与水系的“流入”关系、郊区与城镇的“组成”关系,标注的关系种类有限。杨腾飞[20]利用百度百科摘要中的超链接关键词和分类树信息做比较,构建景点关键词集合,实现针对景点的地理命名实体标注,但尚未深入到关系标注工作。尽管自动回标技术已经应用于构建地理关系标注语料库,但仍存在规模小、关系类型单一等不足。在相关研究的基础上,本文对自动回标技术进行了改进,并实验验证了其有效性。

3 研究方法

构建地理实体关系语料库,即建立地理实体关系实例 triple 与描述该关系实例的句子 sentence 之间的映射 MAP < sentenc , triple > 。本文基于自动回标技术,实现地理实体关系语料库的自动构建,流程如图1所示。
Fig. 1 Process of automatic constructing corpus

图1 语料库自动构建流程

地理实体关系语料库自动构建包括:① 建立地理实体分类体系和地理实体关系分类体系,用于规范地理实体关系语料库的标注过程和表现形式。② 建立自动标注的核心流程,即:筛选种子三元组,利用命名实体消歧方法实现种子三元组与候选句子的匹配,利用优序图法实现匹配结果优选。③ 完成语料标注,评价语料质量。

3.1 建立标注体系

地理实体分类体系作为面向地理领域的专业标准,比通用命名实体分类体系更为细致。同时,网络文本的高度自由化要求地理实体分类还需兼顾语言的灵活性,需要形式化表达地理实体所蕴含地丰富地理语义。网络百科以开放标签标识词条类别,一个词条可有多个分类标签,但分类标签间层次关系不显著,与传统地理实体分类标准(如“基础地理信息要素分类与代码”)的分层次、不重复、标准统一等原则难契合。本研究在两种分类体系的基础上构建地理实体分类体系,以实现网络文本地理实体向标准地理要素标准的映射。Word2Vec是一个自然语言处理工具集,能够将字词转换为计算机可理解的词向量,并计算字词间的相似度。在本研究中,一个词条的分类标签集合视作一个“句子”,句中的每个标签作为一个词,形成Word2Vec的输入数据集;然后,利用N-gram语言模型计算词向量,将词向量间的余弦距离作为各标签的相似度度量,并利用系统聚类方法对标签进行聚类。最后,参考基础地理信息要素分类与代码标准,对标签分类结果进行调整优化,确定每一类目的类目名称、映射标签和从属关系,形成地理实体分类体系如图2所示。
Fig. 2 Classification system construction of geographic entity

图2 地理实体分类体系构建流程

语义关系是在客观知识体系中用来描述概念之间的关联,文献[21]从适用范围角度将其分为领域语义关系和经典语义关系。本文所称语义关系特指两个地理实体间的经典语义关系,包括等级关系(如部分-整体关系)、等同关系(如同义关系)、事件关系(如动作关系)等。空间关系是语义关系中面向地理位置的领域语义关系。张雪英等[4]在《中文文本地理空间关系标注体系》中将空间关系分为拓扑关系、方向关系和距离关系。为了避免关系转换引入语义误差,本文在构建关系分类体系时保留了拓扑关系的自然语言描述形式。
百科信息框由“属性名称”和“属性值”2部分构成,当属性值为实体时,“属性名称”表达了2个实体间的关系。因此,百科信息框的属性名称可作为实体关系分类体系的依据。然而,众源编辑导致同一种关系往往具有多个“属性名称”,增加了关系分类的不确定性。本研究将每一词条中的属性名称集合看作一个句子,每个属性名称看作一个词,利用Word2Vec工具,采用与地理实体分类体系相同的方法,进行关系聚类,并将结果与经典语义关系及空间关系进行人工比对调整,得到地理实体关系分类体系(图3)。
Fig. 3 Classification system construction of geographical relationship

图3 地理实体关系分类体系构建流程

3.2 筛选种子三元组

种子三元组是地理实体关系实例的一种结构化表达形式,由2个地理实体和1个表示二者关系的词构成,在句子匹配过程中,用于定位句子中地理实体和地理实体关系的标注信息。本文从百科信息框中筛选出表示地理实体关系的三元组,作为种子三元组 triple 。设地理实体 Entit y i 信息框中的任一条记录为 Att r m , Va l m ,若 Va l m 为地理实体,则构建种子三元组 Enti t y i , Re l m , Entit y j
Entit y i , Re l m , Entit y j = f st Entit y i , Att r m , Va l m (1)
式中: f st ( ) 为种子三元组筛选函数; Re l m Att r m 在地理实体关系分类体系中的名称; Va l m 为地理实体或地理实体组合 Entit y j 。在信息框中, Va l m 常以多个地理实体组合成的地名出现,如“北京市朝阳区”,本研究采用NLP工具对 Va l m 进行地理命名实体识别得到 Entit y j ,以确保组合中每个地理实体在句子中被独立标注。

3.3 映射种子三元组到句子

从文本中定位种子三元组所在的句子,并建立种子三元组到句子的映射,即初步构建起地理实体关系语料,如式(2)所示。
Sent , ( Sub , Rel , Obj ) = f ms ( SentArr , ( Entit y i , Re l m , Entit y j ) , Set ( Trigger ( Re l m ) ) ) (2)
式中: f ms ( ) 为映射函数; SentArr 为句子集合; ( Entit y i , Re l m , Entit y j ) 为种子三元组; Set ( Trigger ( Re l m ) ) Re l m 的触发词集合; Sent 为成功映射的候选句子; ( Sub , Rel , Obj ) 为标注的关系元组。
传统回标技术在当前实体的百科页面中,只寻找同时包含种子三元组中 Enti t y i Entit y j 的句子。该方法并未考虑句子表达种子三元组关系的正确性。数据分析发现,触发词对实体关系描述具有重要的指示作用。例如,地理实体关系“地理位置”具有“位于”、“坐落于”、“地址”等触发词。本文针对地理实体关系分类体系中的每一种关系,分别从百科文本中抽取关系词的前一个名词或者动词,作为该类关系的触发词。在回标过程中,当映射的句子包含触发词时,标注离 Obj 最近的一个触发词作为 Rel ,称为显式标注;否则,仅标注句子中的 Sub Obj ,将种子三元组的关系名称 Re l m 作为 Rel ,称为隐式标注。整个映射过程如图4所示。
Fig. 4 Quality evaluation for the automatically constructed corpus of geographical entity relations

图4 地理实体关系映射过程

地理实体一义多词现象普遍,同一个地理实体存在多种表达形式,需要进行命名实体消歧。种子三元组的 Entit y i 对应着百科页面的词条,百科编辑已对其进行歧义消解;但是 Entit y j 未经歧义消解。传统回标技术采用的字符串全匹配方法导致大量的 Entit y j 无法识别,极大降低了种子三元组映射到对应句子的成功率。本文利用正则表达式“a.*?b”,实现字符串模糊匹配算法,以提高“同义客体匹配”的命中率。

3.4 定量评价映射结果

传统回标过程缺乏定量评价,当一个种子三元组匹配到多个句子时,无法抉择最优的映射关系。本文基于优序图法实现种子三元组映射到句子的定量化评价,以筛选出最优匹配。
优序图法通过对多目标决策问题进行两两对比,最后给出全部方案的最优排序。设样本中共有 n 个元素,将 i j 两元素作比较,若元素 i j 重要,则 α ij = 1 ,若同等重要则为0.5,否则为0。样本中元素 i 的优序权重 γ i 计算方法如式(3)所示。
γ i = j = 1 n α ij n n - 1 2 + 0.5 n (3)
本文综合考虑主体 Sub 、客体 Obj 、关系 Rel 在句子中的重要程度,引入模糊匹配算法,构建句子打分规则,如式(4)所示。
Score = Su b e × γ Sub + Re l e × γ Rel + Ob j e × γ Obj × O fz (4)
其中, Su b e Re l e Ob j e 取值0或1,当句中存在与其相同或相似的元素时取1,不存在时取0。其他各部分参数含义及确定方式如下:
(1) γ Sub γ Rel γ Obj 分别为主体、关系、客体的优序权重。综合分析主体、关系、客体在候选句子匹配中的作用,确定 Obj > Rel > Sub ,优序权重为: γ Sub = 0.1 γ Rel = 0.3 γ Obj = 0.6
(2) O fz 为句子中 Obj 与三元组中 Entit y j 的相似度,基于Levenshtein距离计算得到。如式(5)所示, MAX Obj . Lengt h , Entit y j . Lengt h 表示 Obj Entit y j 中字符串长度的最大值, Step 表示2个字符串转换所需的最少编辑(替换、插入、删除)次数。
O fz = MAX Obj . Lengt h , Entit y j . Lengt h - Step MAX Obj . Lengt h , Entit y j . Lengt h (5)

4 实验分析

百度百科的每个地理实体词条都对地理实体的位置、历史、事件等信息进行了描述,词条页面中包含有结构化的信息框、开放分类标签和多义词释义等内容,词条数量多、文本质量可靠、更新频率快,众多中文信息抽取研究都将百度百科作为语料构建的数据来源。本文首先探讨百度百科作为自动构建地理实体关系语料库数据源的可用性,然后使用百度百科验证本文方法的可行性,最后定量化评价本文自动构建的语料库的规模和质量。

4.1 数据源可用性

本文在实验中建立的地理实体分类体系和地理实体关系分类体系如表1表2所示。表1将地理实体分为4大类94小类。表2将337类属性名称合并为4大类105小类地理实体关系。
Tab. 1 Classification of geographic entity

表1 地理实体分类

大类 项数 小类
地形地貌 35 大洋、海域、海湾、海峡、海滩、岛、礁、半岛、河流、湖泊、沼泽、运河、河口、水渠、瀑布、三角洲、滩涂、泉、温泉、冰川、冰盖、冰原、冰山、火山、大洲、山脉、山峰、山谷、悬崖、盆地、沙漠、荒漠、峡谷、丘陵、高原
建筑设施 36 自然保护区、风景名胜区、公园、公路、铁路、地铁、桥梁、汽车站、火车站、机场、港口、水库、水电站、核电站、工厂、体育场馆、展览馆、博物馆、图书馆、档案馆、电影院、剧院、美术馆、游乐场、城堡、宫殿、遗址、遗迹、陵墓、清真寺、教堂、寺庙、道观、广场、摩天大楼、大型雕塑
行政区划 11 国家、首都、外国行政区、外国城市、省级行政区、地级行政区、县级行政区、乡级行政区、村级行政区、城市群、城市
组织机构 12 企业、教育机构、医疗机构、研究机构、宗教组织、体育组织、演艺团体、行业协会、管理机构、政党、经济组织、政治组织
Tab. 2 Classification of geographic relationship

表2 地理实体关系分类

关系分类 关系名称 属性名称
项数 内 容 项数 内 容
空间关系 80 地理位置、地理区域、包含景点、包含高校、临近火车站、途经城市、过境公路、流经地区、连接城市、源头、所属城市、临近机场等 230 地理位置、位于、注入、主要景区、所属国家、途经、流经地区、所属山系
等同关系 8 中文名、全名、别名、简称、原名、誉名、外文名、译名 43 别称、别名、古称、美称、医院原名、公司简称、法语名称
等级关系 6 隶属、归属、下辖、分支机构、包含、组成 34 下辖地区、所属联盟、隶属单位、隶属、所属 公司、所属教会
事件关系 11 搬迁、创立、筹建、设计、建造、施工、运营、合作、管理、勘探、批准 30 筹建、筹建单位、开发商、待建路段、搬迁、管理单位、批准单位、建造者、运营单位
合计 105 337
基于上述2个分类体系评价百度百科数据源的可用性。根据百度百科的分类树随机提取1000个描述地理实体的词条;通过词条的百科标签将其归类到本文的地理实体分类体系中;统计每个词条的信息量,结果如表3所示。由表3可知:① 1000个地理类的百科词条中有915个被成功划分到本文的地理实体分类下,但不同类型地理实体的数量分布极不均匀。② 包含种子三元组的词条约占样本词条总数的69.07%,平均每个样本词条含有1.95个种子三元组,共包含91种地理实体关系,平均每个种子三元组对应10.9个句子。可见,百度百科蕴含了丰富的地理实体关系三元组,且地理实体关系类型丰富,能够为构建地理实体关系语料提供充足的数据资源。但语料库构建过程中需要平衡不同类型地理实体样本的数量,以保证语料库中地理实体类型和关系类型的多样性。
Tab. 3 Feasibility analysis for data source of geographic entry from Baidu Encyclopedia

表3 百度百科地理实体词条数据源可用性分析

分类 词条数 信息框数 含种子三元组的词条数 种子三元组数 关系种类数 句子数
地形地貌 30 24 19 91 27 1346
行政区划 126 107 91 364 33 4056
建筑设施 124 106 75 251 46 2287
组织机构 635 534 447 1075 52 11 753
总计 915 771 632 1781 91 19 442

4.2 标注质量评价

基于4.1的数据可用性分析结果,本节综合考虑地理实体的空间特征(如形状、面积等)和属性特征(如用途等),以及数据获取的难易程度,从地理实体分类体系的94个小类中选取了11类,包括河流、山脉、自然保护区、地标建筑、道路、博物馆、教育机构、企业、医疗机构、中国行政区划、外国行政区划,以验证本文方法的可行性。首先,为每种类型选取200个地理实体,共计2200个;然后,从百度百科中获取地理实体对应的页面和信息框;最后,基于本文提出的方法自动构建地理实体关系语料库。实验中,成功标注15 470个句子,显式标注9795个句子,隐式标注5675个句子。标注示例如图5、6所示。
Fig. 5 Sample of explicit annotation result

图5 显式标注结果示例

Fig. 6 Sample of implicit annotation result

图6 隐式标注结果示例

表4为实验主要环节数据统计信息。其中,成功率表示成功匹配句子的种子三元组数占该类地理实体全部种子三元组数的百分比;准确率为正确标注句子占标注句子的百分比,通过随机抽样计算。实验中从2200个词条得到了15 470句标注语料,总体回标成功率为67.83%,总体关系标注准确率为76.36%。
Tab. 4 Quality evaluation for the automatically constructed GRE corpus

表4 自动构建的地理实体关系语料库的质量评价

统计项 河流 山脉 地标建筑 道路 中国行政区划 外国行政区划
种子三元组数 1386 1404 934 2921 8080 4038
标注的句子数 1024 986 587 2147 6059 3161
标注的关系类型数 50 61 54 80 52 46
显式标注的句子数 776 696 345 1024 3896 2119
成功率/% 73.90 70.22 62.82 73.51 74.98 78.29
准确率/% 91 61 86 67 62 72
统计项 自然保护区 企业 教育机构 医疗机构 博物馆 总计
种子三元组数 457 774 1922 248 641 22 805
标注的句子数 317 398 349 94 347 15 470
标注的关系类型数 30 27 13 12 26 97
显式标注的句子数 243 120 313 78 187 9795
成功率/% 69.31 51.48 18.17 37.99 54.18 67.83
准确率/% 76 75 72 95 83 76.36
针对标注句子总量排名前10的关系类型,每种关系类型随机抽样100个句子,人工评价标注结果的正确性,结果如表5所示。其中,语料数最多的关系类型为“包含景点”、其次为“地理位置”。进一步分析可知,一个区域通常包含多个景点,使得此类关系数量较多;而地理位置是地理实体最重要的属性,百度百科的词条编辑中,地理位置是各类地理实体共有的属性名。在语料数较多的关系类型中,“流经地区”和“途经城市”都达到了90%以上的准确率,说明该方法对“河流”“道路”等具有特殊形态和功能的实体具有更高的辨识率。
Tab. 5 Top 10 relationship types of corpus number

表5 语料数居前10位的关系

关系名称 包含景点 地理位置 临近火车站 途经城市 别名 隶属 临近机场 流经地区 包含高校 所属城市
语料数 842 791 352 315 261 261 168 158 119 102
准确率/% 78 86 31 91 62 69 60 95 52 76
为验证本文所建语料库的有效性,本研究以自建语料库中10 000条语料作为训练集,2000条语料作为测试集,利用LSTM模型进行地理实体关系抽取实验。实验结果显示,抽取准确率为73.2%,召回率为75.2%,优于传统网络文本中地理实体关系[2]抽取效果。

5 讨论

本文提出的语料库自动构建方法通过自动回标技术降低了对领域专家的依赖,人工干预少,可快速生成大规模地理实体关系语料,标注关系类型丰富,保留了关系的自然语言描述形式,可服务于开放式地理实体关系抽取任务。然而,基于中文百科自动构建的地理实体关系标注语料库,其规模和质量受到如下因素的影响:
(1)影响主体匹配的因素:① 主语缺失影响匹配成功率。拟引入句法依存分析,根据句子的语义结构,判断句子是否缺少主语,并自动补齐。② 指代消解算法难以全面覆盖具有领域特征的代词,如“本公司”、“全镇”等,后续将进一步扩充指示代词集。
(2)影响客体匹配的因素:① 客体匹配错误。少数种子三元组不存在正确映射的句子,但采用模糊匹配方法,仍能获取到候选句子(噪声)。后续将尝试分析语料库中噪声句子分数的分布状态,设置阈值进行过滤。② 地理命名实体识别的破碎化。如“首都机场”分词为“首都”和“机场”。后续考虑研究相邻地理实体的合并规则,将其作为同一地理实体进行匹配。
(3)影响地理实体关系识别的因素:触发词是对候选句子进行优选的关键,但触发词表不全,丢失了大量潜在的地理实体关系。后续将尝试基于Bootstrapping的方法自动扩充触发词表,以扩大关系识别的覆盖率[22]

6 结论

本文基于回标技术,提出了一种地理实体关系语料库自动构建方法,并使用中文百度百科文本构建了地理实体关系标注语料库。通过实验,得到以下结论:① 百度百科包含的地理实体词条数据庞大,关系类型丰富,可以作为构建地理实体关系语料库的数据源。② 本文构建的地理实体关系标注体系,涵盖语义关系和空间关系,不仅保留了地理实体关系的自然语言描述形式,还弥补了人工定义的标注体系无法应用于自动标注语料的不足,为语料库的快速扩充和开放式地理信息抽取提供了新的思路。③ 本文改进了自动回标技术。利用模糊匹配识别同义客体,缓解了同一地理实体因表达形式不同而无法被识别的问题,提高了客体回标的成功率。同时,利用优序图法构建打分规则,降低了回标噪声,提高了语料标注的准确率。

The authors have declared that no competing interests exist.

[1]
陆锋,余丽,仇培元.论地理知识图谱[J].地球信息科学学报,2017,19(6):723-734.

[ Lu F, Yu L, Qiu P Y.On geographic knowledge graph[J]. Journal of Geo-information Science, 2017,19(6):723-734. ]

[2]
余丽,陆锋,张恒才.网络文本蕴涵地理信息抽取:研究进展与展望[J].地球信息科学学报,2015,17(2):127-134.lt;p>互联网的普及产生了大量蕴含着丰富地理语义的文本,为地理信息的深度挖掘和知识发现带来了巨大机遇。同时,蕴含地理语义文本的异构性和动态性,使得地理实体的属性数量和种类激增、地理语义关系复杂,对地理信息检索、空间分析和推理、智能化位置服务等提出了严峻的挑战。本文阐述了网络文本蕴含地理信息抽取的技术流程,从地理实体识别、地理实体定位、地理实体属性抽取、地理实体关系构建、地理事件抽取5个方面总结了网络文本蕴含地理信息抽取的进展和关键技术瓶颈,分析了可用于网络文本蕴含地理信息抽取的开放资源,并展望了未来的发展方向。</p>

DOI

[ Yu L, Lu F, Zhang H C.Extracting geographic information from web texts: Status and development[J]. Journal of Geo-information Science, 2015,17(2):127-134. ]

[3]
余丽,陆锋,刘希亮,等.稀疏地理实体关系的关键词提取方法[J].地球信息科学学报,2016,18(11):1465-1475.网络文本蕴含地理实体关系抽取技术,需要高时效、强鲁棒的关键词提取方法。与监督学习方法相比,无监督学习方法能捕获文本的动态变化特征并发现新增的关系类型,因此备受关注。其中,基于频率的关键词提取方法获得广泛研究,然而,网络文本蕴含的地理实体关系分布稀疏,基于频率的方法难以直接应用于地理实体关系的关键词提取。为解决该问题,本文基于公开访问的网络资源,提出一种语境增强的关键词提取方法。首先,基于在线百科和开放的同义词词典,通过语境合并和语义融合创建增强的语境,以降低语境中词语的稀疏性。接着,Domain Frequency和Entropy频率统计方法从增强语境中自动构建一个大规模语料。然后,基于该语料选择词法特征并统计其权值,用于扩大语境中词语间的差异。最后,使用选择的词法特征度量增强语境中词语的重要性,将权值最大的词语作为描述地理实体关系的关键词,并基于大规模真实网络文本开展实验。实验结果表明:对于地理实体关系的关键词识别,本文方法的平均精度为85.5%,比Domain Frequency和Entropy方法分别提高41%和36%;对于新增关键词识别,本文方法的精度达到60.3%。语境增强的关键词提取方法能有效地处理地理实体关系分布的稀疏性,可服务于网络文本蕴含地理实体关系的抽取。

[ Yu L, Lu F, Liu X L, et al.A method of context enhanced keyword extraction for sparse geo-entity relation[J]. Journal of Geo-information Science, 2016,18(11):1465-1475. ]

[4]
张雪英,张春菊,朱少楠.中文文本的地理空间关系标注[J].测绘学报,2012,41(3):468-474.为有效地解决当前相关标准和标准数据匮乏的问题,通过分析中文文本中地理空间关系描述的语言特点,提出中文文本的地理空间关系标注体系,并以GATE(General Architecture for Text Engineering)为标注工具,以《中国大百科全书中国地理》为文本数据源,采用交叉校验方式建立了地理空间关系标注语料库。实现了中文文本中地理空间关系描述的结构化表达,提供了地理空间关系信息抽取的标准化测试数据。

[ Zhang X Y, Zhang C J, Zhu S N.Annotation for geographical spatial relations in Chinese text[J]. Acta Geodaetica et Cartographica Sinica, 2012,41(3):468-474. ]

[5]
姜维,王晓龙,关毅,等.基于多知识源的中文词法分析系统[J].计算机学报,2007,30(1):137-145.汉语词法分析是中文自然语言处理的首要任务.文中深入研究中文分词、词性标注、命名实体识别所面临的问题及相互之间的协作关系,并阐述了一个基于混合语言模型构建的实用汉语词法分析系统.该系统采用了多种语言模型,有针对性地处理词法分析所面临的各个问题.其中分词系统参加了2005年第二届国际汉语分词评测,在微软亚洲研究院、北京大学语料库开放测试中,分别获得F量度为97.2%与96.7%.而在北京大学标注的《人民日报》语料库的开放评测中,词性标注获得96.1%的精确率,命名实体识别获得的F量度值为88.6%.

DOI

[ Jiang W, Wang X L, Guan Y, et al.Research on Chinese lexical analysis system by fusing multiple knowledge source[J]. Chinese Journal of Computers, 2007,30(2):285-289. ]

[6]
李丽双,党延忠,廖文平,等.CRF与规则相结合的中文地名识别[J].大连理工大学学报,2012(2):285-289.

[ Li L S, Dang Y Z, Liao W P, et al.Recognition of Chinese location names based on CRF and rules[J]. Journal of Dalian University of Technology, 2012(2):285-289. ]

[7]
周炫余,刘娟,邵鹏,等.基于层次过滤模型的中文指代消解[J].吉林大学学报(工学版),2016,46(4):1209-1215.

[ Zhou X Y, Liu J, Shao P, et al.Chinese anaphora resolution based on multi-pass sieve model[J]. Journal of Jilin University (Engineering and Technology Edition), 2016,46(4):1209-1215. ]

[8]
张春菊,张雪英,王曙,等.中文文本的事件时空信息标注[J].中文信息学报,2016,30(3):213-222.基于文本数据源的地理空间信息解析研究侧重于地名实体、空间关系等空间语义角色的标注和抽取,忽略了丰富的时间信息、主题事件信息及其时空一体化信息。该文通过分析中文文本中事件信息描述的语言特点和事件的时空语义特征,基于地名实体和空间关系标注研究成果,制定了中文文本的事件时空信息标注体系和标注模式,并以GATE(General Architecture for Text Engineering)为标注平台,以网页文本为数据源,构建了事件时空信息标注语料库。研究成果为中文文本中地理信息的语义解析提供标准化的训练和测试数据。<br/>

[ Zhang C J, Zhang X Y, Wang S, et al.Annotation of spatial-temporal information of event in Chinese text[J]. Journal of Chinese Information Processing, 2016,30(3):213-222. ]

[9]
张雪英,朱少楠,张春菊.中文文本的地理命名实体标注[J].测绘学报,2012,41(1):115-120.通过文本中地理信息的语义解析,可以帮助人们深入理解空间认知和空间语言的表达规律,解决自然语言与地理信息系统(GIS)之间的语义障碍问题,提升GIS空间查询、空间推理、地理信息检索和地理信息服务的智能化水平。制定标注体系和建立标注语料库,能够发现自然语言中地理信息描述的语言结构,建立它们的元数据。本文在分析中文文本和GIS中地理实体描述和表达机制差异的基础上,结合地理命名实体描述的语言特点,制定了中文文本的地理命名实体标注体系和标注规范,并以GATE(General Architecture for Text Engineering)作为标注平台,构建了基于《中国大百科全书中国地理》(简称“GeoCorpus”)的大规模标注语料库,较为有效地解决了当前相关标准和规模化标准数据匮乏的问题。

[ Zhang X Y, Zhu S N, Zhang C J.Annotation for geographical named entities in Chinese text[J]. Acta Geodaetica et Cartographica Sinica, 2012,41(1):115-120. ]

[10]
Wu F, Weld D S.Autonomously semantifying Wikipedia[C]// Sixteenth ACM conference on conference on information and knowledge management. Lisbon, Portugal: ACM. 2007:41-50.

[11]
申琪君. 中文文本空间关系标注方法研究[D].南京:南京师范大学,2010.

[ Shen Q J.Research of spatial relation tagging in Chinese-text[D]. Nanjing: Nanjing Normal University, 2010. ]

[12]
Nothman J, Ringland N, Radford W, et al.Learning multilingual named entity recognition from Wikipedia[J]. Artificial Intelligence, 2013,194:151-175.We automatically create enormous, free and multilingual silver-standard training annotations for named entity recognition (ner) by exploiting the text and structure of Wikipedia. Most ner systems rely on statistical models of annotated data to identify and classify names of people, locations and organisations in text. This dependence on expensive annotation is the knowledge bottleneck our work overcomes. We first classify each Wikipedia article into named entity (ne) types, training and evaluating on 7200 manually-labelled Wikipedia articles across nine languages. Our cross-lingual approach achieves up to 95% accuracy. We transform the links between articles into ne annotations by projecting the target article s classifications onto the anchor text. This approach yields reasonable annotations, but does not immediately compete with existing gold-standard data. By inferring additional links and heuristically tweaking the Wikipedia corpora, we better align our automatic annotations to gold standards. We annotate millions of words in nine languages, evaluating English, German, Spanish, Dutch and Russian Wikipedia-trained models against conll shared task data and other gold-standard corpora. Our approach outperforms other approaches to automatic ne annotation (Richman and Schone, 2008 [61], Mika et al., 2008 [46]) competes with gold-standard training when tested on an evaluation corpus from a different source; and performs 10% better than newswire-trained models on manually-annotated Wikipedia text.

DOI

[13]
Richman A E, Schone P.Mining Wiki resources for multilingual named entity recognition[C]// ACL 2008, Proceedings of the, Meeting of the Association for Computational Linguistics. Columbus, Ohio, USA. DBLP, 2008:1-9.

[14]
曾道建,来斯惟,张元哲,等.面向非结构化文本的开放式实体属性抽取[J].江西师范大学学报(自然版),2013,37(3):279-283.从非结构化文本中抽取给定实体的属性及属性值,将属性抽取看作是一个序列标注问题.为避免人工标注训练语料,充分利用百度百科信息框(Infobox)已有的结构化内容,对非结构化文本回标自动产生训练数据.在得到训练语料后,结合中文特点,选取多维度特征训练序列标注模型,并利用上下文信息进一步提高系统性能,进而在非结构化文本中抽取出实体的属性及属性值.实验结果表明:该方法在百度百科多个类别中均有效;同时,该方法可以直接扩展到类似的非结构化文本中抽取属性.

DOI

[ Zeng D J, Lai S W, Zhang Y Z, et al.Open entity attribute-value extraction from unstructured text[J]. Journal of Jiangxi Normal University (Natural Science), 2013,37(3):279-283. ]

[15]
王汀,冀付军,徐天晟.一种面向中文网络百科非结构化信息的知识获取方法[J].图书情报工作,2016(13):126-133.目的/意义]在进行大规模知识库构建时,基于手工方式的构建模式效率较低并且可行性较差,因此,从网络百科中自动地获取海量知识已经被越来越多的学者所关注。目前的研究主要关注于从英文网络百科数据源进行海量知识的抽取,而面向中文百科数据源进行的知识抽取研究工作尚处于起步阶段。[方法/过程]为解决中文大规模知识库的构建问题,提出一种新的基于中文网络百科架构的大规模知识库的自动化构建方法:在第一阶段,对知识三元组中的主语和宾语之间的语义关系进行自扩展学习;在第二阶段,基于条件随机场和支持向量机协同分类器,对标注出的属性和属性值实体之间的语义关系进行预测。[结果/结论]实验评测结果表明,该方法较前人工作在典型中文百科分类页面中的实体识别查准率和查全率分别最高有约10%和6%的提升。

DOI

[ Wang T, Ji F J, Xu T S.A novel knowledge extraction approach oriented on unstruactured information of Chinese online encyclopedia[J]. Library and Information Service, 2016(13):126-133. ]

[16]
王昊. 面向网络的中文实体关系抽取的研究[D].北京:中国科学院大学,2015.

[ Wang H.Research on web-based Chinese entity relation extraction[D]. Beijing: University of Chinese Academy of Sciences, 2015. ]

[17]
贾真,杨宇飞,何大可,等.面向中文网络百科的属性和属性值抽取[J].北京大学学报(自然科学版),2014,50(1):41-47.针对面向中文网络百科条目文章的属性和属性值抽取, 提出一种无监督方法。此方法将属性值看做命名实体, 利用频繁模式挖掘和关联分析, 从文本中抽取类别属性; 采用自扩展方法为属性建立触发词表; 基于属性触发词和属性值实体标注挖掘属性值抽取模式, 利用层次聚类算法获取高质量的模式。在互动百科中采集的数据集上进行实验, 结果表明所提方法行之有效。

DOI

[ Jia Z, Yang Y F, He D K, et al.Attribute and attribute value extracted from Chinese online encyclopedia[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2014,50(1):41-47. ]

[18]
杨宇飞. 面向中文网络百科的属性关系抽取研究[D].成都:西南交通大学,2014.

[ Yang Y F.Research on attribute relation extraction from Chinese online encyclopedia[D]. Chengdu: Southwest Jiaotong University, 2014. ]

[19]
BLESSING A, Schütze H.Fine-Grained geographical relation extraction from Wikipedia[C]// International Conference on Language Resources and Evaluation. Valletta, Malta. DBLP, 2010:2949-2952.

[20]
杨腾飞. 基于百度百科的地理命名实体识别[D].济南:山东科技大学,2015.

[ Yang T F.Based on the Baidu of geographical entity recognition[D]. Ji'nan:Shandong University of Science and Technology, 2015. ]

[21]
裘江南,张彬.客观知识体系中语义关系的分析分类研究[J].情报学报,2012,31(3):259-267.语义关系能够准确地描述概念间的内在联系,是客观知识体系结构的 重要组成部分,而对它的研究一直停留在隐性认知阶段.随着本体、语义Web和叙词表的语义化改造的深入研究和语义关系的不断丰富,需要对现有经典语义关系 建立分类体系.本文首先定义了语义关系的概念,系统分析了语义关系的属性和性质,并依据前人的研究和语义关系自身的含义,通过定性分析建立了客观知识体系 的经典语义关系的分类体系,最后与基于层次聚类所建立的关系分类树进行对比分析,验证了本文所建立的分类体系的合理性.这为语义关系识别、归类、组合研究 奠定了基础.

DOI

[ Qiu J N, Zhang B.Research on analysis and classification of semantic relations in objective knowledge system[J]. Journal of the China Society for Scientific and Technical Information, 2012,31(3):259-267. ]

[22]
余丽,陆锋,刘希亮.开放式地理实体关系抽取的Bootstrapping方法[J].测绘学报,2016,45(5):616-622.

[ Yu L, Lu F, Liu X L.A bootstrapping based approach for open geo-entity relation extraction[J]. Acta Geodaetica et Cartographica Sinica, 2016,45(5):616-622. ]

文章导航

/