特约稿件

稀疏地理实体关系的关键词提取方法

  • 余丽 , 1, 2 ,
  • 陆锋 , 1*, * ,
  • 刘希亮 1 ,
  • 程诗奋 1, 2 ,
  • 张雪英 3
展开
  • 1. 中国科学院地理科学与资源研究所 资源与环境信息系统国家重点实验室,北京 100101
  • 2. 中国科学院大学,北京 100049
  • 3. 南京师范大学 虚拟地理环境教育部重点实验室,南京 210046
陆 锋(1970-),男,博士,研究员,博士生导师,研究方向为导航与位置服务、空间数据库技术、交通地理信息系统等。E-mail:luf@lreis.ac.cn

作者简介:余 丽(1986-),女,博士生,研究方向为互联网空间信息搜索。E-mail:

收稿日期: 2016-07-18

  要求修回日期: 2016-09-22

  网络出版日期: 2016-11-20

基金资助

国家“863”计划项目(2013AA120305)

国家自然科学基金项目(41401460、41271408、41601421)

A Method of Context Enhanced Keyword Extraction for Sparse Geo-entity Relation

  • YU Li , 1, 2 ,
  • LU Feng , 1, * ,
  • LIU Xiliang 1 ,
  • CHENG Shifen 1 ,
  • ZHANG Xueying 3
Expand
  • 1. State Key Lab of Resources and Environmental Information System, Insititute of Geographic Scienes and Natural Resoure Reseorch, Chinese Academy of Scienes, Beijing 100101, China
  • 2. University of Chinese Academy of Sciences, Beijing 100049, China
  • 3. Key Laboratory of Virtual Geography Environment, Nanjing Normal University, Nanjing 210046, China
*Corresponding author: LU Feng, E-mail:

Received date: 2016-07-18

  Request revised date: 2016-09-22

  Online published: 2016-11-20

Copyright

《地球信息科学学报》编辑部 所有

摘要

网络文本蕴含地理实体关系抽取技术,需要高时效、强鲁棒的关键词提取方法。与监督学习方法相比,无监督学习方法能捕获文本的动态变化特征并发现新增的关系类型,因此备受关注。其中,基于频率的关键词提取方法获得广泛研究,然而,网络文本蕴含的地理实体关系分布稀疏,基于频率的方法难以直接应用于地理实体关系的关键词提取。为解决该问题,本文基于公开访问的网络资源,提出一种语境增强的关键词提取方法。首先,基于在线百科和开放的同义词词典,通过语境合并和语义融合创建增强的语境,以降低语境中词语的稀疏性。接着,Domain Frequency和Entropy频率统计方法从增强语境中自动构建一个大规模语料。然后,基于该语料选择词法特征并统计其权值,用于扩大语境中词语间的差异。最后,使用选择的词法特征度量增强语境中词语的重要性,将权值最大的词语作为描述地理实体关系的关键词,并基于大规模真实网络文本开展实验。实验结果表明:对于地理实体关系的关键词识别,本文方法的平均精度为85.5%,比Domain Frequency和Entropy方法分别提高41%和36%;对于新增关键词识别,本文方法的精度达到60.3%。语境增强的关键词提取方法能有效地处理地理实体关系分布的稀疏性,可服务于网络文本蕴含地理实体关系的抽取。

本文引用格式

余丽 , 陆锋 , 刘希亮 , 程诗奋 , 张雪英 . 稀疏地理实体关系的关键词提取方法[J]. 地球信息科学学报, 2016 , 18(11) : 1465 -1475 . DOI: 10.3724/SP.J.1047.2016.01465

Abstract

Geo-entity relation recognition from rich web texts requires robust and effective keyword extraction method. Unsupervised learning methods attract more attention because they can capture dynamic variations of features in text and discover additional relation types. Frequency-based methods for keyword extraction have been extensively studied. However, the sparse distribution of geo-entity relations in web texts makes it difficult to directly apply frequency-based methods to geo-entity keyword extraction. This paper proposes a context enhanced keyword extraction method to solve this problem. Firstly, the contexts of geo-entities are enhanced to reduce the sparseness of terms, with context merging and semantic fusion. Secondly, two well-known frequency-based statistical methods (Domain Frequency and Entropy) are used to automatically build a large-scale corpus. Thirdly, the lexical features and their weights are statistically determined based on the corpus. Finally, all terms in the enhanced contexts are measured according to their lexical features and the most important terms are picked as keywords of geo-entity pairs. Experiments are conducted with large and real web texts. The results show that compared with the Document Frequency and Entropy methods, the presented method improved the precision by 41% and 36%, respectively. It also correctly generated additional 60% of keywords.

1 引言

互联网为地理信息检索和知识发现提供了重要甚至唯一可得的资源[1],网络文本的模糊区域建模和定性空间推理研究已取得大量的成果[2-3]。地理实体关系常用于描述地理实体(或事件)的位置、范围和空间分布,对于感知地理世界和构建地理知识系统至关重要[4]。为了更好地理解网络文本蕴含的地理语义,迫切需要一套强有效的地理实体关系抽取方案。
监督学习方法能很好地处理给定的静态文本,但难以识别网络文本蕴含的地理实体关系[5]。其原因主要有:① 构建大规模的模式库或语料库代价很高,且学习模型的训练时间长,无法实时地处理海量网络文本[6]。② 网络文本覆盖各个领域,具有极强的异质性,导致训练好的学习模型移植性差[7]。③ 高动态网络文本不断产生新的关系类型,不能及时被预定义的模式和训练好的学习模型捕捉[8]。无监督学习方法因诸多优点,在网络文本挖掘领域引起了广泛关注。其不需要构建大规模的语料库[9],成本更低。且该类方法独立于数据分布,使用统计学方法能轻松捕获实时文本特征[10]。更重要的是,该类方法能抽取新增的关系类型,更适用于动态文本挖掘[11]
关键词为地理实体关系表达提供了重要的依据,是无监督学习方法抽取实体关系必不可少的组成部分[12-13],关键词提取技术已成为网络文本蕴含实体关系抽取的研究热点。无监督学习方法将关键词提取看作排序任务:基于频率、位置或语义对文档中的词语排序,再选择排名靠前的词语作为关键词[14]。现有关键词提取方法主要是频率统计,基于假设“给定一对实体,存在大量冗余的词语描述它们之间的关系”[15],词频是区分词语的唯一指标。然而,上述假设对于地理实体关系的关键词提取并不成立,原因如下:① 给定的一对地理实体极少出现在同一个句子中(实验数据中90%的地理实体对只出现过一次)。② 地理实体对的语境很短,包含的词语数量极其有限。此外,一个语义可使用多个不同的词语表达,同义词现象加剧了语境中词语分布的稀疏性[10]。③ 地理实体类型与空间关系具有强相关性[16]。例如,“流入”只能描述水系间的关系,不能描述建筑物间的关系。因此,合并同类型地理实体的语境有助于降低空间关系分布的稀疏性。然而,语义关系不受地理实体类型的约束,语境合并后的语义关系分布依旧稀疏。
此外,基于字母的语言(如英文)涉及的字母有限,词语以空格分隔,短语描述形式固定;且已有成熟的工具进行分词、词性标注、命名实体识别等预处理工作,为英文关系抽取奠定了坚实的基础。然而,基于字符的语言(如中文),用字分散,词语之间没有分隔符,语义表达形式多样,增加了中文关系抽取的难度。因此,针对中文地理实体关系的关键词提取问题,需要结合中文自然语言的特点,提出一套不同的解决方案。

2 实体关系抽取研究进展

为了从网络文本中抽取地理实体关系,许多研究者先手动创建一个关键词词典,用于设计关系模式或构建特征模板来训练机器学习模型。例如,Schockaert等[17]将蕴含地名隐式关系的文本转换成模式,作为查询条件在谷歌和雅虎中挖掘新的地名。该方法只关注了2种隐式的空间关系(“包含”和“相邻”),且只能处理层级结构的英文地址。Smole等[18]手动定义了26种关系来训练一个机器学习模型,用于识别地理实体之间的语义关系。该方法为识别出5种常见的语义关系(“is-a”、“is-located”、“has-purpose”、“is-result-of”、“has-parts”),人工标注了1308个地理实体的定义文本。Elia等[19]基于建立的语法库和词库(包含234个空间动词),实现了意大利语的命名实体空间关系检测。同样地,Cao等[20]使用手动创建的空间字典,设计了493个中文模式用于网络文本的空间关系匹配。然而,为地理实体关系抽取手动创建关键词词典,非常耗时且覆盖率低。Bootstrapping 是另一种著名的关键词生成方法,它利用迭代机制逐步扩展少量的种子关键词,最终自动形成一个大规模的关键词词典。相比手动创建方法,Bootstrapping方法虽更高效,但它对初始种子的选择较为敏感。总之,上述2种方法均依赖于领域知识,缺乏语言学理论的人难以 实现。
实体关系抽取领域,频率统计方法无需领域知识,能自动生成大量的关键词。该类方法利用海量文本的冗余性度量词语的重要程度,选择排名靠前的词语作为关键词。最著名的频率统计指标是TF-IDF(Term Frequency and Inverse Document Frequency),其词语的权值与在指定文档中出现的频数成正比,并与在其他文档中出现的频数成反比。Hasegawa[21]考虑共现实体的顺序提出了一种改进方法,能有效地检测关系的方向。事实上,常用关键词的IDF值更低,容易被TF-IDF方法忽略。为克服这一缺陷,Mesquita[13]引入实体对的类型信息,度量指定实体对类型的语境中词语的相对差异。另一方面,考虑本体的语义关系为特定领域提供了更丰富的关联信息,Shen等[10]利用TF-IDF指标和子概念投票机制建立了一个线性权值计算模型,提高了关键词提取精度。此外,Entropy也是一种流行的基于频率的关键词提取方法,假设“如果某个词语的存在降低了数据集的可分性,则该词语对数据集分类无用”,度量删除指定词语后的文本可分性。因此,词语的重要性与Entropy值成正比。Chen[15]首次将Entropy方法用于关键词提取。考虑度量所有词语的重要性会引入过多的无关信息,Yan等[9]只计算了动词和名词的Entropy值。之后,张苇如等[11]成功将Entropy方法应用于中文关系模式挖掘。然而,频率统计方法假设关键词会在大规模语料中频繁出现,并不适用于分布稀疏的地理实体关系抽取。

3 关键词提取

本文仅关注句子内部的地理实体对,目标是将网络文本转换为描述地理实体关系的关键词实例,其中的关键词与空间关系或语义关系紧密相关。关键词提取过程如图1所示。
Fig. 1 The flow chart of keyword extraction applied to recognize geo-entity relations

图1 地理实体关系的关键词提取流程

首先,从指定网站持续爬取文本,使用自然语言处理工具GATE(https://gate.ac.uk/)进行预处理(包括句子分割、中文分词、词性标注和地理命名实体识别),创建地理实体对的原始语境。然后,使用细粒度的类型映射表和同义词词典进行语境增强,以降低原始语境中词语的稀疏性。接着,基于增强的语境自动创建一个大规模语料,选择特征并统计其权值。最后,使用词法特征对增强语境中的词语进行评估,生成地理实体关系的关键词实例。当前文本处理完毕后,输入新的一组文本,重复执行上述步骤,持续地为每对地理实体提取关键词。

3.1 问题描述

输入:从指定网站爬取文本,预处理后的网络文本示例如表1所示。文本按照分词后的结果存储,格式为“词语/词性”。“GNE”表示地理命名实体;“v”表示动词;“w”表示标点符号;“c”表示连词,“d”表示副词;“u”表示助词;“p”表示介词。
输出:地理实体关系的关键词实例。
以上述文本为例,本文使用的概念定义如下:
地理实体对(e1, e2):同一个句子中2个相关的地理实体。其构建方式为:句中出现的第一个地理实体分别与同句中的其他地理实体配对。例如,示例中第一个句子包含的地理实体对为(中关村,海淀区)、(中关村,北京大学)和(中关村,清华大学)。
Tab. 1 A case of web text after data-processing

表1 预处理后的网络文本示例

中关村/GNE 位于/v 海淀区/GNE ,/w 邻近/v
北京大学/GNE 和/c 清华大学/GNE 。/w
此外/d ,/w 中关村/GNE 是/v 中国/GNE
的/u 科技中心/N ,/w 被/p 誉为/v
“/w 中国的硅谷/GNE ”/w 。/w
地理实体关系r:地理实体之间的连通状态,可分为空间关系和语义关系。空间关系包括拓扑关系、方位关系和距离关系,如“相邻”、“南”、“10千米”等;语义关系例如“上义词”、“下义词”、“相等”等;二者均可表示为(e1, r, e2)的事实集合。例如,示例中第一个句子包含的关系事实有(中关村,被包含,海淀区)、(中关村,相邻,北京大学)和(中关村,相邻,清华大学)。
词语t:句中存在语义信息的短语或字符(排除地理实体),由GATE中文分词工具自动生成。例如,示例中第一个句子包含的词语有“位于”、“,”、“邻近”、“和”、“。”。
语境c:句中存在于一对地理实体之前、之中和之后的所有词语,不包括同句中的地理实体且过滤掉停用词(http://www.datatang.com/data/43894)(“了”、“的”、“啊”等)和标点符号,语境中的词语是候选关键词。例如,地理实体对(中关村,海淀区)、(中关村,北京大学)和(中关村,清华大学)的语境相同,都包含词语“位于”、“邻近”。
关键词k:从语境中挑选出的词语,作为关系表达的依据。例如,关键词“位于”揭示了(中关村,海淀区)存在拓扑关系“被包含”。
关键词实例(e1, e2,<k1, k2,…>):地理实体对与其关键词组成的三元组。一对地理实体可拥有多个关键词,它们为地理实体关系表达提供准确丰富的语义信息。
通常,方位关系与距离关系的用词有限且表达形式固定。例如,常用的方位词语包括“东”、“西”、“南”、“北”等,距离关系的固有表达形式为“数字+距离单位”。因此,从文本中提取的方位词和距离词可直接表达对应的空间关系。然而,拓扑关系和语义关系与自然语言用语存在很大差异。例如,描述拓扑关系“被包含”的自然语言词汇有“位于”、“坐落”、“在”、“境内”等,描述语义关系“名称”的自然语言词汇有“叫做”、“名为”、“誉为”、“古称”等。因此,从文本中提取的拓扑关系和语义关系的关键词还需要进行语义泛化,形成抽象概念之后才能准确刻画地理实体间的关系。表2展示了上述示例中每对地理实体的关键词。可见,即使关键词不能准确地定义地理实体间的关系,但它们是抽取未知关系的重要依据。
Tab. 2 Examples of geo-entity pairs andcorresponding keywords

表2 地理实体对和关键词

地理实体对 关键词
(中关村,海淀区) (位于)
(中关村,北京大学) (邻近)
(中关村,清华大学) (邻近)
(中关村,中国) (科技中心)
(中关村,中国的硅谷) (誉为)
使用预处理后的文本构建地理实体对PGNE和语境C,pGNEPGNE表示一对地理实体,cC表示一对地理实体的语境。通过稀疏性降低、语料构建、特征选择和词语评估4个步骤,提取地理实体关系的关键词k

3.2 稀疏性降低

通常,一对地理实体语境中词语的分布很稀疏。合并同类型地理实体对的语境有助于降低稀疏性,该过程需要预先确定地理实体的类型。本文基于在线的中文百科全书“百度百科(http://baike.baidu.com)”构建地理实体与其类型的映射表。百度百科为每个词条分配了多个类型标签,并按照重要程度降序排列(例如,词条“北京”有“直辖市”、“古都”、“中国”和“一线城市”4个类型标签)。
稀疏性降低的步骤如图2所示。首先,在百度百科中逐个搜索地理实体,获取每个地理实体对应的类型标签集合。然后,针对每个地理实体,使用标签排序和频数度量每个类型标签的重要性,挑选出权值最大的作为该地理实体的唯一类型。为所有地理实体分配类型后,地理实体对的类型也被确定,(ex, ey)的类型记作Txy=(Tex, Tey)。最后,合并同类型地理实体对的语境,以增加语境中词语的数量。同时,使用同义词词典“词林(http://www.datatang.com/data/42306/)
Fig. 2 Sparseness reduction for terms in contexts

图2 降低语境中词语的稀疏性

3.3 语料构建

关键词提取需要从大规模语料中选择有效的特征。本文分别使用DF和Entropy频率统计方法从增强的语境中提取关键词,各自输出一个关键词实例集合,其交集作为特征选择的语料。
DF是TF-IDF的改进算法,它针对给定类型的地理实体对,度量语境中词语的全局差异性,定义如式(1)所示。
D F t = f t , T i j = 1 N f t , T j (1)
式中: f t , Ti 表示类型为Ti的地理实体对的语境中词语t出现的次数。TiTS,TS表示所有地理实体对的类型集合,大小为N
Entropy常用于文本分类任务,定义如式(2)、(3)所示。对于给定的词语t,移除所有语境中的t,使用式(3)计算Entropy值。
S i , j = exp ( ln 0.5 D ̅ × D i , j ) (2)
Entrop y t = - i = 1 N j = 1 N ( S i , j log S i , j + ( 1 - S i , j ) log ( 1 - S i , j ) ) , 0 < S i , j < 1 0 , 其它 (3)
式中:Si,j表示语境pipj的相似度; D ̅ 表示所有语境间的平均欧氏距离;Di,j表示语境pipj的欧氏距离。

3.4 特征选择

特征选择是关键词提取必不可少的步骤。优秀的特征有助于提高文本分类精度[22],且能从多个角度全面地揭示关键词的本质。词语的词性、长度和位置已作为有效特征用于自动文档摘要[23]。类似地,选择这3个特征用于提取地理实体关系的关键词,描述如(1)-(3)所示。同时,常用于监督学习模型的局部语境(实体周围的词语)有助于实体关系抽取[24]。将一对地理实体周围的词语也作为特征,描述如(4)-(7)所示。此外,一对地理实体间的距离是判断关系是否存在的常用指标[25]。同样地,引入距离特征,描述如(8)-(11)所示。实践中,特征随文本动态变化,通过统计分析自动从当前文本中选择显著度高的特征用于关键词提取。本文仅研究了语境相关的特征,以表1文本为例,特征定义如下:
(1)词语的词性(名词,动词,介词等),例如,“邻近”的词性为动词。
(2)词语的长度,以“字”为单位。例如,“邻近”的长度为2个字。
(3)词语的位置(e1左边,e1e2之间,e2右边),例如,“邻近”位于地理实体对(e1=“中关村”,e2=“清华大学”)之间。
(4)e1的前一个词语。例如,e1=“中关村”的前一个词语为空。
(5)e1的后一个词语。例如,e1=“中关村”的后一个词语为“位于”。
(6)e2的前一个词语。例如,e2=“清华大学”的前一个词语为“和”。
(7)e2的后一个词语。例如,e2=“清华大学”的后一个词语为“。”。
(8)词语到e1的距离。注意,特征(8)-(11)的距离基于中文分词结果计算,以“词语”为单位。例如,“邻近”到e1=“中关村”的距离为3个词语。
(9)词语到e2的距离。例如,“邻近”到e2=“清华大学”的距离为2个词语。
(10)词语到句首的距离。例如,“邻近”到句首的距离为4个词语。
(11)词语到句尾的距离。例如,“邻近”到句尾的距离为4个词语。

3.5 词语评估

基于词语的长度、词性、位置和距离等特征评估语境中词语的重要性,如式(4)-(8)所示。这些词法特征由语料统计决定,并随输入文本实时变化。
wg t ( t ) = θ LEN × ( θ POS + θ LOC + θ DIS ) (4)
θ LEN = 1 , min < length ( t pos ) < max 0 , o th ers (5)
θ POS = p ( t POS ) (6)
θ LOC = p ( t loc | tp ( e 1 ) ) p ( t loc | tn ( e 1 ) ) p ( t loc | tp ( e 2 ) ) p ( t loc | tn ( e 2 ) ) (7)
θ DIS = p ( dis ( e 1 ) | t loc ) p ( dis ( e 2 ) | t loc ) p ( dis ( head ) | t loc ) p ( dis ( tail ) | t loc ) (8)
式(4)中,wgt(t)表示给定地理实体对的词语t的权值。其中,t的长度、词性、位置和距离对wgt(t)的影响程度分别表示为θLEN、θPOS、θLOC和θDIS。使用 式(4)评估语境中所有词语,根据权值降序排列。最后,每对实体对应一个局部排序词表,排名靠前的词语作为地理实体关系的关键词。式(5)反映了词性tpos对词语长度的影响。每种词性均对应一个词语长度范围,当词性为tpos的词语长度超出有效范围,wgt(t) 为0。式(6)表示不同词性的t作为关键词的概率。式(7)表示在地理实体前后词语的影响下,不同位置的t作为关键词的概率。其中,tloc表示t的位置。tp(e1)表示e1的前一个词语,tn(e1)表示e1的后一个词语。例如,p(tloc=between|tn(e1)=“是”)表示当e1的后一个词语为“是”,位于e1e2之间的t是关键词的概率。式(8)表示在词语位置的影响下,不同距离的t作为关键词的概率。其中,dis(e1)表示te1的距离,dis(e2)表示te2的距离,dis(head)表示t到句首的距离,dis(tail)表示t到句尾的距离。例如,p(dis(e1)=1|tloc=between)表示当t位于e1e2之间,t距离e1为1是关键词的概率。
通常,地理实体关系“被包含”、“包含”和“名称”会随时间或空间发生变化。例如,“19世纪以前、蒙古是中国的一部分”、“中国包含天山东部”、“湄公河的上游在中国境内称为‘澜沧江’”。如果识别的关键词为“部分”、“包含”、“称为”或是它们的同义词,则根据词性提取时间和空间信息,为地理实体关系表达提供更精确的依据。

4 实验设计与结果分析

4.1 实验数据

从“中国大百科全书”网站爬取中国地理实体的网页,共计230万字,描述了地名的空间位置、历史沿革、特色文化等内容,为地理实体关系抽取提供了丰富的资源。使用GATE工具进行预处理,生成31 065对地理实体,顺次分成3组以检验本文方法的鲁棒性。

4.2 基准算法

使用DF和Entropy作为基准算法。DF方法在TF-IDF中引入实体对类型,提高了关键词识别能力。Entropy方法将语境转为词语的向量,基于信息熵评估词语的分类能力,为关键词提取提供有用的启发式信息。由于方法设计的局限性,Entropy方法使用的是原始语境,DF方法使用的是合并后的语境,但是2种方法均未进行语义融合。

4.3 评价指标

关键词提取方法的质量取决于提取的正例和负例关键词的数量。由于整个实验数据中正确关键词实例的数量未知,本文仅评价算法的精度,定义如式(9)所示。
Precision = Cnt ( right set ) Cnt ( result set ) (9)
式中:Cnt(right set)表示结果中正确提取的关键词实例数量,Cnt(result set) 表示结果中提取的关键词实例总数。
对实验结果随机采样,两人分别判断提取的每个关键词实例是否正确,再使用kappa系数κ检验两人结果的一致性,如式(10)所示。
κ = P 0 - P e 1 - P e (10)
式中:P0表示两人判断结果相同的实际概率,Pe 表示两人判断结果相同的期望概率。如果κ> 0.8,则将两人结果的平均值作为算法的精度。否则,重新评价结果。

4.4 结果分析

由于关键词提取时进行了语义融合,实验结果中的关键词类型对应着关键词实例中的多个词汇。例如关键词“东”、“北面”、“西部”、“南边”属于“方位词”类,“河流”、“支流”、“湖泊”、“界湖”等属于“水系”类。语义融合后的关键词类型(“方位词”、“水系”等)仅用于结果的统计分析,地理实体关系表达仍依据关键词实例中的词汇(“东”、“北面”等)。
4.4.1 语料统计
3组实验的语料统计结果如表2所示。#(PGNE)corpus表示每组语料中地理实体对的数量;#(Tkw)corpus表示每组语料中关键词的种数;#(Ptop5(kw))corpus表示每种关键词对应的地理实体对数量。表3展示了排名前5的关键词。例如,第1组语料中包含4720对地理实体和115种关键词。其中,前5种关键词分别为“方位词”、“包含”、“水系”、“被包含”和“行政区划”。此外,“方位词”数量最多,共有1083对地理实体的关键词属于方位词。
4.4.2 提取的关键词
以第一组数据为例,提取的关键词实例如图3所示。语境中词语按权值降序排列,权值最大的词语作为地理实体关系的关键词。当存在多个权值最大的词语时,一对地理实体拥有多个关键词。例如,地理实体对(浙江省,千岛湖)的关键词为“水库”和“人工湖”。
Fig. 3 Examples of extracted keywords for the first group of data

图3 第1组数据提取的关键词示例

4.4.3 新增的关键词
与标注语料相比,每组实验数据中提取的新增地理实体对和关键词如图4所示。图4(a)显示第1组实验数据中,本文方法提取的新增关键词类型占31.3%(未在语料中出现过的关键词类型),且提取的“方位词”类型的关键词实例中,47.5%是新增的。
针对各组实验数据,3种方法提取的新增地理实体对的比例相当。DF方法挖掘的新增关键词种类最多(提取结果中,平均56.6%的关键词类型在语料中未出现过),而本文方法在提取“方位词”、“水系”和“名称”类型的关键词时表现突出。此外,本文方法对排名前5的关键词均检测到新的关键词实例,而Entropy方法却丢失了部分类型的关键词,如关键词类型“被包含”和“名称”均没有识别到新的实例。
Tab. 3 Geo-entity pairs and involved keywords for each corpus

表3 语料中的地理实体对及其关键词

编号 #(PGNE)corpus #(Tkw)corpus #(Ptop5(kw))corpus
1 4720 115 方位词 包含 水系 被包含 行政区划
1083 582 269 113 112
2 4444 113 方位词 包含 名称 水系 行政区划
1092 457 224 212 165
3 4300 114 方位词 管辖 包含 名称 行政区划
1016 373 268 241 192
4.4.5 算法精度
两人分别评价提取的关键词实例的准确性,计算kappa系数κ。为了评估关键词提取算法对未在语料中出现过的关键词实例的识别能力,本文仅对实验结果中新增实例计算精度。首先,针对每组语料中排名前5的关键词类型,在实验结果中随机采样100个新增实例(地理实体对未在语料中出现过),加入评价集。如果指定关键词类型的新增实例数量小于100,则全部加入评价集。同时,针对实验结果中新出现的关键词类型,同样随机采样100个新增实例,加入评价集。然后,两人同时检查评价集中每对地理实体提取的关键词是否正确。实验结果显示,κ值为0.83,表明2次检查结果一致性很高,证明评价结果有效。
Tab. 4 Precisions of three methods for all additional extracted keywords (%)

表4 3种抽取关键词方法的精度(%)

关键词种类 本文方法 DF Entropy
行政区划 100 0 15
被包含 100 56 Null
管辖 100 100 81
包含 100 18.7 93
水系 94 50 53
名称 66 13 Null
方位词 63.7 83.3 27.7
new(kw) 60.3 31.7 26.7
均值 85.5 44.1 49.4
Fig. 4 Additional geo-entity pairs and keywordsextracted from the experimental data

图4 实验数据提取的新增地理实体对和关键词

表4显示了语料中新增关键词实例的提取精度,数值为3组实验结果的均值,new(kw) 表示新增的关键词种类。实验结果显示,针对地理实体关系的关键词识别,本文方法的平均精度为85.5%,比DF和Entropy方法分别提高41%和36%。此外,本文方法对新增关键词类型的提取精度达到60.3%,分别较DF和Entropy方法提高28%和33%。尽管图4显示DF方法挖掘的新增关键词种类最多,但是其精度只有31.7%。同时,Entropy方法不仅丢失了大量新增关键词类型,而且关键词提取精度最低。
更重要的是,本文方法对“行政区划”、“被包含”、“管辖”和“包含”4类关键词提取的新增实例完全正确。同时,本文方法对“水系”类型的关键词也有较高的识别能力。虽然,本文方法对“名称”类型的关键词识别精度较低(仅处理了时空约束,没有考虑语义约束),但仍高于DF方法(忽略了时空和语义约束),且Entropy方法无法提取出“名称”类型的新增关键词实例。
DF方法对“管辖”和“方位词”2类关键词提取的新增实例数量很少,一定程度上降低了出错概率,因此DF方法对这2类关键词的识别精度较高。然而,针对“被包含”、“包含”和“名称”这3类关键词,DF方法未考虑到时空和语义约束,其识别精度显著地低于本文方法。同时,DF方法对“水系”类型的关键词识别能力很弱,原因是DF方法无法区分词频无显著差异的词语。此外,DF方法对“行政区划”类提取的新增实例全部错误,因为它忽略了低频的关键词。
尽管Entropy方法同样未处理时空和语义约束,但对“包含”类型的关键词仍具有很高的提取精度。原因是Entropy方法偏爱提取“方位词”(3种方法中,Entropy提取“方位词”的新增实例数量最多),使得空间约束的“包含”类型的关键词被划分到“方位词”一类,余下的“包含”类型的关键词描述形式相对简单,极大地降低了该类关键词的提取难度;关键词类型“管辖”亦是如此。然而,由于Entropy方法无法区分词频无显著差异的词语,它对其他类型的关键词的提取精度依然很低。

5 讨论

基于频率统计的关系抽取方法源于TF-IDF和Entropy,TF-IDF方法基于假设“实体关系频繁地出现在海量文本中”,Entropy方法基于假设“用于描述实体关系的关键词比一般词语出现的更为频繁”。2种方法均采用频率统计度量语境中词语的重要程度。不同于一般实体关系抽取,由于地理实体关系分布稀疏,用于描述地理实体关系的关键词与其他词语在频次上并无显著差异,导致使用频率统计方法难以为地理实体关系提取出关键词。因此,TF-IDF和Entropy方法不适用于稀疏地理实体关系的关键词提取,尤其是新增类型的关键词。
相比而言,本文提取关键词不仅使用了词语的频数,还结合了词语的多种词法特征,并随着文本的变化动态调整。例如,第1组语料中11个特征仅使用到7个。原因是特征(4)、(8)、(9)和(10)不是统计显著的,在词语评估中未被使用。同时,通过引入实体对类型、融合语义、挖掘词法特征、考虑时空约束等多种手段的结合,本文从地理实体关系分布稀疏的网络文本中提取了大量高质的关键词实例,保证了关键词提取方法对可靠性和覆盖率的平衡。当文本中关键词描述形式相对单一时,本文方法的优势更为突出。更重要的是,本文方法能识别语料中未出现的新增关键词类型,可弥补监督学习方法仅能抽取预定义关系类型的缺陷。
Tab. 5 Comparison between different methods with respect to residual errors

表5 关键词实例提取中常见错误分析

描述 样例 错误率/(%)
本文方法 DF Entropy
A 关键词很少出现在文本中 “云台山除锦屏山外,其余均为海中岛屿,古称郁洲山或苍梧山。”提取的关键词实例为(云台山,苍梧山,<岛屿>),正确的关键词为“古称”,它在实验数据中出现的频次比“岛屿”更低 6.3 14.3 18.4
B 语境中词语在特征表现上
无显著差异
“大夏河是甘肃省中部较大的河流,属黄河水系。”提取的关键词实例为(大夏河,黄河,<中部,属>),正确的关键词为“属”,但“中部”和“属”的权值均为最大值 2.5 5.4 3.1
C 同句中存在多个不同地理
实体时,关键词无法区分
“北镇主要河流有绕阳和及其支流东沙河。”提取的关键词实例为(绕阳河,东沙河,<河流>) 0.7 1.2 4.8
D 时间约束的关键词 “宝山县南宋属嘉定县。”提取的关键词实例为(宝山县,嘉定县,<属>) 0.3 2.9 1.6
E 空间约束的关键词 “汉江以北属秦岭山区。”提取的关键词实例为(汉江,秦岭,<属>) 0.5 2.1 1.4
本文还分析了3种方法对关键词提取中常见错误的处理能力,如表5所示。结果显示:① 在语境增强和特征选择的帮助下,本文方法对低频关键词(A类)具有更强的识别能力。② DF方法不适用于提取词频无差的关键词,而本文方法通过引入实时特征能有效区分。③ 当同一个句子中存在多个地理实体时,语境中词语的频数对分类同句中多对地理实体无效,此时Entropy方法的关键词识别效果最差。④ 当提取时空约束的关键词时,本文方法精度更高。
然而,本文方法无法处理如下2种关键词:①语义约束的关键词。有时地理实体关系受时间、空间或语义的限制,为了保证关系表达的真实性,需要对提取的关键词加上约束条件。通过词法特征可容易地识别出时间和空间约束词;但是语义约束没有显著的词频和词法特征,增大了识别难度。例如句子“艾比湖蒙古语称为‘艾比淖尔’,而在《西域图志》中叫做‘布勒哈齐淖尔’”描述了2个关系事实(艾比湖,艾比淖尔,蒙古语名称)、(艾比湖,布勒哈齐淖尔,《西域图志》名称)。本文方法能提取出关键词“称为”和“叫做”,以表达实体关系“名称”;但不能识别出语义约束词。表层词法特征已不能满足关键词的语义约束检测,需要借助深层特征(例如句法结构、语义知识等)[26]。② 隐式关键词。有时句义表达了一对地理实体的某种关系,但句中并未显式给出描述关系的关键词。例如,句子“闽江水力资源1332万千瓦时,占四川省的18.85%”描述了一个拓扑关系事实(岷江,被包含,四川省),但是句中不存在表示“被包含”关系的关键词。针对这种情况,本文方法提取的关键词为“水力资源”和“占”,与拓扑关系“被包含”毫不相关。实际中,志愿者地理信息数据集OSM已存储了地理实体“岷江”和“四川省”的精确几何形态,可使用空间分析工具容易地计算出两者间的拓扑关系。因此,引入地理数据集有助于提升隐式关键词的挖掘能力。此外,一些隐式关键词具有固定的句法结构。例如“彭城(今江苏省徐州市)”,圆括号暗指“彭城”与“徐州市”存在“相等”关系,行政区划单位“省”和“市”的层级关系则暗示“江苏省”与“徐州市”存在“包含”关系。因此,模式挖掘和语义规则也有助于隐式关键词提取[27]
未来工作中,将尝试通过句法依赖解析分析复杂语言现象的语义,以提高关键词提取的准确性。同时,还将采用集成推理模型降低文本预处理阶段的级联错误。此外,本文提取的关键词仍存在大量同义词,还需要更深层的语义融合技术。例如在领域知识和网络资源的帮助下,通过语义聚类技术将关键词转为泛化的关系名称。

6 结论

针对网络文本蕴含的稀疏地理实体关系抽取问题,本文提出了一种语境增强的关键词提取方法。采用了2种稀疏性降低策略:① 使用细粒度的类型映射表进行语境合并,以增加语境中词语的数量;② 使用同义词词典进行词语融合,以增大语境中词语的频数。此外,结合词频和词法特征,提高了经典基于词频的关键词提取方法的精度。实验结果表明,本文方法能有效地增强稀疏地理实体关系的关键词识别能力,且能生成大量新类型的关键词,有助于实现地理实体关系抽取的无监督学习方法。

The authors have declared that no competing interests exist.

[1]
Jones C B. and Purves R S.Geographical information retrieval[J]. International Journal of Geographical Information Science, 2008,22(3):219-228.DefinitionDefinitionThe provision of facilities to retrieve and relevance rank documents or other resources from an unstructured or partially structured collection on the basis of queries specifying b

DOI

[2]
Vasardani M, Winter S,Richter K F.Locating place names from place descriptions[J]. International Journal of Geographical Information Science, 2013,27(12):2509-2532.In this paper, we review the current literature on geographic information retrieval based on place names. We focus on the positional uncertainties and the extent of vagueness frequently associated with place names in linguistic place descriptions and on the differences between common users鈥 perception and the way the geographic information services interpret place names. We argue that, despite some notable efforts from the scientific community, geographic information services still cannot unambiguously recognize and sufficiently perform spatial reasoning with place names used in linguistic expressions. We focus on three interrelated research areas: (1) the use of place names in gazetteers, (2) the use of formal models to reason with spatial relations and with the spatial extent of place names in linguistic place descriptions, and (3) Web-harvesting and crowd-sourcing techniques for identifying place names and their spatial extension from public and volunteer sources, such as social networks and photo-sharing sites. We identify some opportunities for synthesizing existing approaches that would expedite the process of intelligent communication about place names between services and users. We discuss the shortcomings of the current state of affairs in locating place names from place descriptions and identify new areas of importance for future research.

DOI

[3]
Derungs C, Purves R S.From text to landscape: locating, identifying and mapping the use of landscape features in a Swiss Alpine corpus[J]. International Journal of Geographical Information Science, 2014,28(6):1272-1293.In this paper, we demonstrate how a large corpus, consisting of about 10聽000 articles describing Swiss alpine landscapes and activities and dating back to 1864, can be used to explore the use of language in space. In a first step, we link landscape descriptions to geospatial footprints, which requires new methods to disambiguating toponyms referring to natural features. Secondly, we identify natural features used to describe landscapes, which are compared and discussed in the light of previous work based on controlled participant experiments in laboratory settings and more exploratory ethnographic studies. Finally, we use natural features in combination with geospatial footprints to investigate variations in landscape descriptions across space.Our contributions are threefold. Firstly, we show how a corpus composed of detailed descriptions of natural landscapes can be georeferenced and mapped using density surfaces and an adaptive grid linking footprints to articles. Secondly, 95 natural features are identified in the corpus, forming a vocabulary of terms reflecting known basic levels and their relationships to other more specific landscape features. Thirdly, we can explore the use of natural features in broader spatial and temporal contexts than is possible in typical ethnographic work, by exploring when and where particular terms are used within Switzerland with respect to our corpus. On the one hand, this enables us to characterize individual regions and, on the other hand, to measure similarity between regions, on the basis of associated natural features.Our methods could be adapted to different types of corpus, for instance, referring to fine granularity entities in urban landscapes. Our results are potential building blocks for attaching place-related descriptions to automatically generated sensor data such as photographs or satellite images.

DOI

[4]
Purves R S, Clough P, Jones C B.The design and implementation of SPIRIT: a spatially aware search engine for information retrieval on the Internet[J]. International Journal of Geographical Information Science, 2007,21(7):717-745.Much of the information stored on the web contains geographical context, but current search engines treat such context in the same way as all other content. In this paper we describe the design, implementation and evaluation of a spatially aware search engine which is capable of handling queries in the form of the triplet of 〈theme〉〈spatial relationship〉〈location〉. The process of identifying geographic references in documents and assigning appropriate footprints to documents, to be stored together with document terms in an appropriate indexing structure allowing real-time search, is described. Methods allowing users to query and explore results which have been relevance-ranked in terms of both thematic and spatial relevance have been implanted and a usability study indicates that users are happy with the range of spatial relationships available and intuitively understand how to use such a search engine. Normalised precision for 38 queries, containing four types of spatial relationships, is significantly higher (p<0.001) for searches exploiting spatial information than pure text search.

DOI

[5]
袁烨城,刘海江,裴韬,等.基于语义知识的空间关系识别研究[J].地球信息科学学报,2014,16(5):681-690.从自然语言文本(新闻报道、博客、论坛、社交网络等)中识别空间关系是大数据时代获取空间信息的重要手段之一。针对现有方法只考虑字词特征,识别过程容易产生匹配歧义的局限,本文提出了一种新的融入词法、句法等语义知识的空间关系识别方法。本方法设计了一个树形结构的抽取模式:树结点代表空间词汇类型,结点之间的关系代表词汇间的依存关系。其中,抽取模式可从标注语料中自主学习得到。模式匹配过程以空间词汇类型和句法依存关系作为硬性约束条件、以词汇语义相似度作为软性约束条件,将模式从树形结构转换成依存序列后,根据有限自动机原理实现匹配。实验结果表明,本方法的识别精度和召回率分别为86.67%和63.11%,与现有其他基于规则的方法相比,有2个优点:(1)模式学习过程无需人工干预;(2)融入了句法依存关系,可消除匹配歧义,提高了识别准确率。

DOI

[ Yuan Y C, Liu H J, Pei T, et al. Spatial Relation extraction from chinese characterized documents based on Semantic knowledge[J]. Journal of Geo-information Science, 2014,16(5):681-690. ]

[6]
余丽,陆锋,张恒才.网络文本蕴含地理信息抽取:研究进展与展望[J].地球信息科学学报,2015,17(2):127-134.互联网的普及产生了大量蕴含着丰富地理语义的文本,为地理信息的深度挖掘和知识发现带来了巨大机遇。同时,蕴含地理语义文本的异构性和动态性,使得地理实体的属性数量和种类激增、地理语义关系复杂,对地理信息检索、空间分析和推理、智能化位置服务等提出了严峻的挑战。本文阐述了网络文本蕴含地理信息抽取的技术流程,从地理实体识别、地理实体定位、地理实体属性抽取、地理实体关系构建、地理事件抽取5个方面总结了网络文本蕴含地理信息抽取的进展和关键技术瓶颈,分析了可用于网络文本蕴含地理信息抽取的开放资源,并展望了未来的发展方向。

DOI

[ Yu L, Lu F, Zhang H C.Extracting geographic information from web texts: status and development[J]. Journal of Geo-information Science, 2015,17(2):127-134. ]

[7]
Li W W, Goodchild M F, Raskin R.Towards geospatial semantic search: exploiting latent semantic relations in geospatial data[J]. International Journal of Digital Earth, 2014,7(1):17-37.Not Available

DOI

[8]
杨博,蔡东风,杨华.开放式信息抽取研究进展[J].中文信息学报,2014,28(4):1-11,36.从大规模非结构化文本中自动地抽取有用信息是自然语言处理和人工 智能的一个重要目标.开放式信息抽取在高效挖掘网络文本信息方面已成为必然趋势,按关系参数可分为二元、多元实体关系抽取,该文按此路线对典型方法的现状 和存在问题进行分析与总结.目前多数开放式实体关系抽取仍是浅层语义处理,对隐含关系抽取很少涉及.采用马尔科夫逻辑、本体结构推理等联合推理方法可综合 多种特征,有效推断细微完整信息,为深入理解文本打开新局面.

DOI

[ Yang B, Cai D F, Yang H.Progress in open information extraction[J]. Journal of Chinese Information Processing, 2014,28(4):1-11,36. ]

[9]
Yan Y L, Okazaki N, Matsuo Y, et al.Unsupervised relation extraction by mining Wikipedia texts using information from the web[C]. In: Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP, 2-7 August Singapore. Suntec: ACM, 2009:1021-1029.

[10]
Shen M M, Liu D R, Huang Y S.Extracting semantic relations to enrich domain ontologies[J]. Journal of Intelligent Information Systems, 2012,39(3):749-761.Domain ontologies facilitate the organization, sharing and reuse of domain knowledge, and enable various vertical domain applications to operate successfully. Most methods for automatically constructing ontologies focus on taxonomic relations, such as is-kind-of and is-part-of relations. However, much of the domain-specific semantics is ignored. This work proposes a semi-unsupervised approach for extracting semantic relations from domain-specific text documents. The approach effectively utilizes text mining and existing taxonomic relations in domain ontologies to discover candidate keywords that can represent semantic relations. A preliminary experiment on the natural science domain (Taiwan K9 education) indicates that the proposed method yields valuable recommendations. This work enriches domain ontologies by adding distilled semantics.

DOI

[11]
张苇如,孙乐,韩先培.基于维基百科和模式聚类的实体关系抽取方法[J].中文信息学报,2012,26(2):75-81,127.该文提出了一种基于维基百科和模式聚类的方法,旨在从开放文本中抽取高准确率的中文关系实体对.首次使用从人工标注知识体系知网到维基百科实体映射的方式获取关系实例,并且充分利用了维基百科的结构化特性,该方法很好地解决了实体识别的问题,生成了准确而显著的句子实例;进一步,提出了显著性假设和关键词假设,在此基础上构建基于关键词的分类及层次聚类算法,显著提升了模式的可信度.实验结果表明该方法有效提升了句子实例及模式的质量,获得了良好的抽取性能.

DOI

[ Zhang W R, Sun L, Han X P.A entity relation extraction method based on wikipedia and pattern clustering[J]. Journal of Intelligent Information Systems, 2012,26(2):75-81,127. ]

[12]
余丽,陆锋,刘希亮.开放式地理实体关系抽取的Bootstrapping方法[J].测绘学报,2016,45(5):616-622.从网络文本中抽取地理实体间空间关系和语义关系要求高时效性和强鲁棒性。本文提出一种开放式地理实体关系的自动抽取方法,通过bootstrapping技术统计词语的词性、位置和距离特征来计算语境中词语权值,据此确定描述地理实体关系的关键词,最终组织成结构化实例,并使用百度百科和Stanford CoreNLP开展了试验。研究结果表明,本文方法能自动挖掘自然语言的部分词法特征,无须领域专家知识和大规模标注语料,适用于未知关系类型的信息抽取任务;较之经典的Frequency、TFIDF和PPMI频率统计方法,精度和召回率分别提升约5%和23%。

[ Yu L, Lu F, Liu X L.A bootstrapping based approach for open Geo-entity relation extraction[J]. Acta Geodaetica et Cartographica Sinica, 2016,45(5):616-622. ]

[13]
Mesquita F.Clustering techniques for open relation extraction. In: Proceedings of SIGMOD/PODS 2012 PhD Symposium, 20 May USA. New York: ACM, 2012:27-32.ABSTRACT This work investigates clustering techniques for Relation Extraction (RE). Relation Extraction is the task of extracting relationships among named entities (e.g., people, organizations and geo-political entities) from natural language text. We are particularly interested in the open RE scenario, where the number of target relations is too large or even unknown. Our contributions are in two aspects of the clustering process: (1) extraction and weighting of features and (2) scalability. In order to evaluate our techniques in large scale, we propose an automatic evaluation method based on pointwise mutual information. Our preliminary results show that our clustering techniques as well as our evaluation method are promising.

DOI

[14]
秦兵,刘安安,刘挺.无指导的中文开放式实体关系抽取[J].计算机研究与发展,2015,52(5):1029-1035.传统的实体关系抽取需要预先定义关系类型体系,然而定义一个全面的实体关系类型体系是很困难的.开放式实体关系抽取技术解决了预先定义关系类型体系的问题,但是在中文上的研究还比较少.提出面向大规模网络文本的无指导开放式中文实体关系抽取方法,首先使用实体之间的距离限制和关系指示词的位置限制获取候选关系三元组;然后采用全局排序和类型排序的方法来挖掘关系指示词;最后使用关系指示词和句式规则对关系三元组进行过滤.在获取大量关系三元组的同时,还保证了80%以上的微观平均准确率.

DOI

[ Qin B, Liu A A, Liu T.Unsupervised Chinese open entity relation extraction[J]. Journal of Computer Research and Development, 2015,52(5):1029-1035. ]

[15]
Chen J X, Ji D H, Tan C L, et al.Unsupervised feature selection for relation extraction[C]. In: Proceedings of the 2nd International Joint Conference on Natural Language Processing, 11-13 October Korea. Jeju Island: LNCS, 2005:262-267.

[16]
张雪英,张春菊,杜超利.空间关系词汇与地理实体要素类型的语义约束关系构建方法[J].武汉大学学报·信息科学版,2012,37(11):1266-1270.为克服依赖常识人工归纳总结的局限性,采用定性和定量相结合的方式,自动构建空间关系词汇与地理要素类型的语义约束关系。首先,以《中国大百科全书(地理版)》空间关系标注语料库为基础数据,采用Overlap语义相关度计量方法,挖掘空间关系词汇与地理要素类型约束关系的先验知识;然后以地理要素分类体系提供的概念语义相关性对先验知识进行扩展;最后采用本体工具Protégé建立相关知识库。

[ Zhang X Y, Zhang C J, Du C L.Semantic relation between spatial relation terms and feature types of geographical entities[J]. Geomatics and Information Science of Wuhan University, 2012,37(11):1266-1270. ]

[17]
Schockaert S, Smart P D, Abdelmoty A I, et al.Mining topological relations from the web[C]. In: Proceedings of the 19th International Conference on Database and Expert Systems Applications, 1-5 September Italy. Turin: IEEE, 2008:652-656.

[18]
Smole D, Ceh M, Podobnikar T.Evaluation of inductive logic programming for information extraction from natural language texts to support spatial data recommendation services. International Journal of Geographical Information Science, 2011,25(11):1809-1827.In this article we analyze a well-known and extensively researched problem: how to find all datasets, on the one hand, and on the other hand only those that are of value to the user when dealing with a specific spatially oriented task. In analogy with existing approaches to a similar problem from other fields of human endeavor, we call this software solution 鈥榓 spatial data recommendation service.鈥 In its final version, this service should be capable of matching requests created in the user's mind with the content of the existing datasets, while taking into account the user's preferences obtained from the user's previous use of the service. As a result, the service should recommend a list of datasets best suited to the user's needs. In this regard, we consider metadata, particularly natural language definitions of spatial entities, a crucial piece of the solution. To be able to use this information in the process of matching the user's request with the dataset content, this information must be semantically preprocessed. To automate this task we have applied a machine learning approach. With inductive logic programming (ILP) our system learns rules that identify and extract values for the five most frequent relations/properties found in Slovene natural language definitions of spatial entities. The initially established quality criterion for identifying and extracting information was met in three out of five examples. Therefore we conclude that ILP offers a promising approach to developing an information extraction component of a spatial data recommendation service.

DOI

[19]
Elia A, Guglielmo D, Maisto A, et al.A linguistic-based method for automatically extracting spatial relations from large non-structured data[C]. In: Proceedings of the 13th International Conference on Algorithms and Architectures for Parallel Processing, 18-20 December Italy. Vietri sul Mare: Lecture Notes in Computer Science, 2013:193-200.

[20]
Cao C G, Wang S Jiang L. A practical approach to extracting names of geographical entities and their relations from the web[C]. In: The 7th International Conference on Knowledge Science, Engineering and Management,16-18October Romania. Sibiu: Lecture Notes in Computer Science, 2014:200-221.

[21]
Hasegawa T, Sekine S,Grishman R.Discovering relations among named entities from large corpora[C]. In: Proceedings of the 42nd Meeting of the Association for Computational Linguistics, 21-26 July Spain. Barcelona: ACM, 2004:415-422.

[22]
Naughton M, Stokes N and Carthy J Sentence-level event classification in unstructured texts[J]. Information Retrieval, 2010,13(2):132-156.The ability to correctly classify sentences that describe events is an important task for many natural language applications such as Question Answering (QA) and Text Summarisation. In this paper, we treat event detection as a sentence level text classification problem. Overall, we compare the performance of discriminative versus generative approaches to this task: namely, a Support Vector Machine (SVM) classifier versus a Language Modeling (LM) approach. We also investigate a rule-based method that uses handcrafted lists of ‘trigger’ terms derived from WordNet. Two datasets are used in our experiments to test each approach on six different event types, i.e., Die , Attack , Injure , Meet , Transport and Charge-Indict . Our experimental results show that the trained SVM classifier significantly outperforms the simple rule-based system and language modeling approach on both datasets: ACE (F1 66% vs. 45% and 38%, respectively) and IBC (F1 92% vs. 88% and 74%, respectively). A detailed error analysis framework for the task is also provided which separates errors into different types: semantic , inference , continuous and trigger-less .

DOI

[23]
Zhang P, Li W J, Hou Y X, et al. Developing position structure-based framework for Chinese entity relation extraction[J]. ACM Transactions on Asian Language Information Processing, 2011,10(3):14.Relation extraction is the task of finding semantic relations between two entities in text, and is often cast as a classification problem. In contrast to the significant achievements on English language, research progress in Chinese relation extraction is relatively limited. In this article, we present a novel Chinese relation extraction framework, which is mainly based on a 9-position structure. The design of this proposed structure is motivated by the fact that there are some obvious connections between relation types/subtypes and position structures of two entities. The 9-position structure can be captured with less effort than applying deep natural language processing, and is effective to relieve the class imbalance problem which often hurts the classification performance. In our framework, all involved features do not require Chinese word segmentation, which has long been limiting the performance of Chinese language processing. We also utilize some correction and inference mechanisms to further improve the classified results. Experiments on the ACE 2005 Chinese data set show that the 9-position structure feature can provide strong support for Chinese relation extraction. As well as this, other strategies are also effective to further improve the performance.

DOI

[24]
Pershina M, Min B, Xu W, et al.Infusion of labeled data into distant supervision for relation extraction[C]. In: Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, 22-27 June Maryland. Baltimore: ACM, 2014:732-738.

[25]
Kordjamshidi P, Otterlo M V and Moens M F. Spatial role labeling: towards extraction of spatial relations from natural language[J]. ACM Transactions on Speech and Language Processing, 2011,8(3):1-39.This article reports on the novel task of spatial role labeling in natural language text. It proposes machine learning methods to extract spatial roles and their relations. This work experiments with both a step-wise approach, where spatial prepositions are found and the related trajectors and landmarks are then extracted, and a joint learning approach, where a spatial relation and its composing indicator, trajector and landmark are classified collectively. Context-dependent learning techniques, such as a skip-chain conditional random field, yield good results on the GUM evaluation data (Maptask) data and the CLEF-IAPR TC-12 Image Benchmark. An extensive error analysis, including feature assessment, and a cross-domain evaluation pinpoint the main bottlenecks and avenues for future research.

DOI

[26]
甘丽新,万常选,刘德喜,等.基于句法语义特征的中文实体关系抽取[J].计算机研究与发展,2016,53(2):284-302.作为语义网络和本体的基础,实体关系抽取已被广泛应用于信息检索、机器翻译和自动问答系统中.实体关系抽取的核心问题在于实体关系特征的选择和提取.中文长句的句式较复杂,经常包含多个实体的特点以及数据稀疏问题,给中文关系探测和关系抽取任务带了挑战.为了解决上述问题,提出了一种基于句法语义特征的实体关系抽取方法.通过将2个实体各自的依存句法关系进行组合,获取依存句法关系组合特征,利用依存句法分析和词性标注选择最近句法依赖动词特征.将这2个新特征加入到基于特征的关系探测和关系抽取中,使用支持向量机(support vector machine,SVM)方法,以真实旅游领域文本作为语料进行实验.实验表明,从句法和语义上提取的2个特征能够有效地提高实体关系探测和关系抽取的性能,其准确率、召回率和F1值均优于已有方法.此外,最近句法依赖动词特征非常有效,尤其对数据稀疏的关系类型贡献最大,在关系探测和关系抽取上的性能均优于当前经典的基于动词特征方法.

DOI

[ Gan L X, Wan C X, Liu D X, et al. Chinese named entity relation extraction based on syntactic and semantic features[J]. Journal of Computer Research and Development, 2016,53(2):284-302. ]

[27]
Quan C Q, Wang M and Ren F J. An unsupervised text mining method for relation extraction from biomedical literature[J]. PLoS ONE, 2014,9(7):1-8.

PMID

文章导航

/