Orginal Article

Extracting Geographic Information from Web Texts: Status and Development

  • YU Li , 1, 2 ,
  • LU Feng , 1, * ,
  • ZHANG Hengcai 1
Expand
  • 1. State Key Lab of Resources and Environmental Information System, IGSNRR, CAS, Beijing 100101, China
  • 2. University of Chinese Academy of Sciences, Beijing 100101, China
*Corresponding author: LU Feng, E-mail:

Received date: 2014-08-28

  Request revised date: 2014-10-29

  Online published: 2015-02-10

Copyright

《地球信息科学学报》编辑部 所有

Abstract

Internet generates a plenty of texts which contain abundant geographic semantic information, and bring massive opportunities for deep mining and knowledge discovery. Meanwhile, heterogeneous and dynamic web texts make a surge in the number and type of geographic entity's attributes and the complexity of geographic semantic relations, which present a unprecedented challenge to geographic information retrieval, spatial analysis and reasoning, and intelligent location based services. Firstly, we describe the process of extracting geopgraphic informantion from web texts, summarize the research status and major issues which include geographic entity recognition, locating, attribute extraction, relation construction and event extraction. Secondly, we introduce some popular open sources used for geographic information extraction. Lastly, we discuss and look ahead to the development trends of this domain in future.

Cite this article

YU Li , LU Feng , ZHANG Hengcai . Extracting Geographic Information from Web Texts: Status and Development[J]. Journal of Geo-information Science, 2015 , 17(2) : 127 -134 . DOI: 10.3724/SP.J.1047.2015.00127

1 引言

互联网作为现代社会最重要的信息发布、传播和交流的渠道,蕴含着丰富的地理空间信息[1]。从网络文本中获取地理信息,已成为传统地理信息采集方式的有效补充。与一般电子文本不同,网络文本具有来源多样化、内容动态化、存储碎片化的特点,计算机很难直接处理。故如何从非结构化的网络文本中自动化识别和提取,反映自然环境和社会环境的地理空间信息,并确保信息真实可靠,具有重要的现实意义。
网络文本蕴含地理信息抽取,是从自然语言描述的互联网文本中识别表达空间位置的命名实体;建立地理实体之间的语义和空间关联,发现和填充与地理实体相关的空间位置、属性信息和事件,是信息抽取[2]的特例。根据对文本的领域、语义单元的类型、任务组成元素的约束,信息抽取分为封闭式和开放式两类[3-4]。主流的封闭信息抽取系统有KNOWITALL[5]、YAGO[6]、KyLin[7]等,只能抽取有限数量的、预定义类型的实体、关系和事件。而开放信息抽取系统(如TEXTRUNNER[8]、ReVerb[9]、WOE[10]、KrakeN[11]等)能从不规范的网页中自动化地抽取有用的信息,具有领域独立性和类型多样化的特点,适用于处理海量、异构、噪声的网络文本。
自然语言处理(Natural Language Processing,NLP)领域不断取得的突破性进展,为网络文本蕴含地理信息抽取[12]提供了强有力的技术支撑。目前,地理信息抽取技术已成功应用于商业软件,正服务于人们的工作和生活[13-14]。然而,面对文本数据海量增长的态势、网络环境日新月异的变化、信息个性化定制的需求,网络文本蕴含地理信息抽取技术的发展仍面临着严峻的挑战:(1)网络文本质量良莠不齐,冗余、错误乃至虚假信息大量存在,降低地理信息抽取结果的可信度;(2)大量涌现的非结构化和半结构化数据,已超出计算机的正常处理能力,无法通过现有的软件工具在合理的时间内进行数据的获取、管理和分析;(3)由于网络文本蕴含的地理信息时空粒度不断细化、异构特征显著,有效识别、提取和融合地理空间语义极为困难。
针对网络文本蕴含地理信息抽取的技术流程,本文从地理实体识别、地理实体定位、地理实体属性抽取、地理实体关系构建、地理事件抽取5个方面分析网络文本蕴含地理信息抽取的进展和技术瓶颈,评述可用于网络文本蕴含地理信息抽取的开放资源,并展望未来的发展方向。

2 地理信息抽取流程

根据信息抽取的任务划分方式[15],可将网络文本蕴含地理信息抽取过程定义为5项任务:地理实体的识别、定位、属性抽取、关系抽取和地理事件抽取,流程如图1所示。
Fig. 1 Framework of geographic information extraction from web texts

图1 网络文本蕴涵地理信息抽取流程

3 核心任务

3.1 地理实体识别

地理实体识别是从网络文本中提取具有空间位置信息的要素,如行政区划、组织机构、门楼地址等。对于地理实体的识别,基于模式匹配的方法[16-17]因其召回率低、构建模式的成本过高,逐渐被监督的机器学习方法[18-19]取代。2006年CoNLL会议组织的信息抽取系统测评中,针对新闻专线的文章,最先进的命名实体检测和分类系统抽取地名和机构名的F值(算法的正确率和召回率的加权平均数)分别为91.15%和84.67%。命名实体识别被认为是一个已解决的问题[20]
然而,目前各种信息抽取系统测评使用的语料通常是形式化良好的新闻报道,对于噪声更大的网络文本没有进行过专业测评。此外,由于地理实体名称的复杂性和网络文本的涌现性,未登录词识别一直是难题。同时,现有系统可识别的地理实体类型极其有限,大多集中在行政区划名[21-23]和特定领域的机构名[24-26],对于高动态更新的商业类地理实体类型的识别能力不足,且不同体裁文本的识别效果差异很大。例如,相对于新闻,具有领先水平的Stanford NER对于Twitter文本的命名实体识别的F值由90.8%下降为45.8%[27]

3.2 地理实体定位

为了满足具体应用需求,需将识别出的网络文本中地理实体与现实世界中的空间位置关联。然而,人类认知的逐层抽象和表达方式的多样化,导致地理实体定位存在很多歧义,需要解决地理实体名称消歧和模糊区域建模问题。
(1)地理实体名称消歧。地理实体的名称歧义表现为同名异址和一址多名。一般由语言学家编写消歧规则[28-29],但由于规则的覆盖范围有限、词典的描述信息过短、同义词典的分类粒度太细等缺陷,该方法的地名消歧效果不甚理想。利用领域标签[30]可建立词汇之间的语义关联,有效进行实体分类,但领域知识库尚不完备,消歧能力有限。随着百科知识库的日益壮大和完善,使之成为丰富的歧义消解知识源;而互联网作为一种无词义标注的海量语料库,提供了表达丰富、更新快速、覆盖广泛的背景知识。利用多源知识提取实体的分布特征[31]并集成多种方法[32],已成为地名消歧的新趋势;同时,还需考虑多源知识的融合与噪声处理、消歧方法的计算复杂度等问题。
(2)模糊区域建模。现有的解决方案分为3类:①认知实验法[33],实现简单,但不支持大规模的推广应用;②空间关系转换法[34-35],可靠性高,但目前空间关系抽取的精度还无法满足实际应用的需求;③共现地名密度法[36],对共现地名的数量有要求,且“共现地名具有空间相关性”这一法则并不适用于所有的情况,当相关性表现为文化、环境、人口等方面时,建模结果会出现较大偏差。

3.3 地理实体属性抽取

网络文本蕴含地理实体属性抽取包括属性类别定义、属性值提取和属性值标准化。
(1)属性类别定义。分为类驱动型和实例驱动型,类驱动型[37]是利用文本处理工具从权威的文档中提取指定概念的属性类型。该方法实现容易,但可获取属性的事物种类有限。实例驱动型[38]是以少量的实例为种子,利用Bootstrapping技术自动扩充某类事物的属性。该方法适用于任意类的属性定义,且能发现新的属性类型,但还需进行属性类型的聚类与筛选[39],以获取某类实体的显著特征。(2)属性值提取。根据数据来源可将属性值提取方法分为3类:① 查询结果的网页[40]:语境知识丰富,可挖掘个性化的属性,但依赖于网页的质量,且处理非结构化的文本成本更高;② 百科信息框[41]:可直接提供结构化的属性,同时可回标正文来获取训练语料,但提取的属性类型有限;③ 查询日志[42]:它是用户信息需求的真实体现,直观地描述了指定实体的显著特征,但数据源的获取相对困难。(3)属性值标准化。其需解决2个问题:① 表达方式的规范性。例如,地理坐标采用的参考系不一致、电话号码或日期的书写格式迥异等,通常可根据行业内的指导性标准或者使用惯例,转换成统一的表达形式。② 描述内容的一致性。通过相似性度量来融合同一属性的相似描述,常用的方法有知识库法[43]、语料库法[44]和网页共现频数法[45]
目前,属性抽取的研究大多集中在人物、药物、电子产品、学术文献等类型,关于地理实体属性抽取工作鲜见报道,而地理实体的属性通常具有很强的时效性和空间移动性,潜藏着巨大的研究和应用价值。

3.4 地理实体关系抽取

地理实体关系抽取不仅需要识别地理实体之间的语义关系(隶属、合作、竞争关系等),还需要提取地理实体之间的空间关系(拓扑、度量和顺序关系)。
语义关系抽取的流程与属性抽取相同,实现方法分为2类[46]:,规则匹配和机器学习的方法。由于规则集过于庞大和复杂,增加了维护难度和匹配时间,机器学习的方法逐步占据统治地位。但受限于训练语料的规模和种类,机器学习的方法很难适应网络文本快速增长和变化的需求。目前,研究重点是:(1)如何获取强代表性、高区分度和易计算的显著特征;(2)设计弱依赖或不依赖于训练语料的新方法。此外,从百科信息框[47]或者用户日志[48]中挖掘关系模式并自动构建标注语料,是解决语料稀缺问题的一种有效途径。
空间关系抽取的方法以模式匹配[49]为主,通过构建空间关系词典[50]和表达空间语义的句法模式库[51]来认知自然语言表达的空间语义。现有的研究成果仍以人工归纳为主,监督的机器学习方法为辅,需要领域专家的支持和大量的手动标注,开发成本高。如何将语义关系抽取中弱监督的机器学习方法引入到空间关系抽取中,提高识别的智能化程度,是未来努力的方向。
目前,对于开放的网络文本,语义关系抽取系统的F值还不到50%[3],地理实体关系抽取仍存在很多亟待解决的难题,例如,倒装、隐喻等复杂关系的识别,关系的推理、冲突消解和动态更新,自然语言描述的空间关系与GIS计算模型的语义映射等。

3.5 地理事件抽取

地理事件抽取有别于广义事件抽取,不仅探测事件的类型,识别组成事件的基本元素(时间、地点、角色、行为),更加关注事件从发生到消亡的时空演变过程。地理事件抽取包括事件类型识别、事件元素识别和时空变化跟踪。
事件类别可由触发词来判断,故事件类型识别可转换为触发词识别问题,一般有2种方法:(1)词频统计或借助触发词典[52]来判断句中每个词是否为触发词;(2)使用句法解析[53]直接过滤掉非事件的句子,再通过多元分类器标注事件类型。在已知事件模板的情况下,识别事件元素通常采用模式匹配方法识别事件元素[54]。该方法借助领域知识,识别精度高;但构建知识库相对困难,且模式的定义和维护成本太高。当事件模板未知时,识别事件元素通常采用统计的方法[52]。该方法需要大规模的语料,但识别的元素类型不受约束,适用于探测未知的事件元素。此外,一些学者将上述2种方法结合,采用统计的方法构建种子模式,服务于模式匹配的方法[55];或者借助专家知识约束统计的方法,以提高算法的精度[56]。如何设计科学的结合方式,有效地发挥两种算法的优势,是混合算法的难点。时空变化跟踪是指检测同一主题的事件,并融合多个事件的信息,再根据事件的时间延续或空间转移构建时空序列时间图谱。现有的研究仅限于时空序列的可视化[57]或地理事件的融合[58],尚未进行细粒度的地理事件的时空演化研究。
地理事件抽取是地理信息抽取的最高级任务。由于地理信息抽取的底层技术尚不成熟,目前地理事件抽取的研究尚处于初始阶段。尽管涉足的领域广泛,但尚不能还原出地理事件的时空演化过程,未能体现地理事件的高动态特性,无法实现地理事件时空序列的可视化。地理事件的聚类和融合是其技术瓶颈所在。

4 开放资源

网络文本蕴含地理信息抽取技术的实现,离不开自然语言处理的基础工作,例如分词、词性标注、句法分析等。表1列举了可用于中文地理信息抽取的开源NLP工具,其中,LingPipe具有在线训练能力;NLTK提供了80个资源,包括语料库、词典、评测数据和训练模型;GATE是最常用的一种语料标注工具。
Tab. 1 Open source NLP tools for Chinese

表1 支持中文的开源NLP工具

名称 下载网址 功能 开发者 开发语言
UIMA http://uima.apache.org/ NLP工具集 Apache软件基金会 Java、C++
OpenNLP http://opennlp.apache.org/ Apache软件基金会 Java
LingPipe http://alias-i.com/lingpipe/index.html Alias公司 Java
NLTK http://nltk.org/ 团队 Python
GATE http://gate.ac.uk/ 伊利诺斯大学 Java
Mallet http://mallet.cs.umass.edu/ 马萨诸塞大学 Java
StanfordNLP http://nlp.stanford.edu/ 斯坦福大学 Java
GATE http://gate.ac.uk/ 语料标注工具 伊利诺斯大学 Java
Unitex http://www-igm.univ-mlv.fr/~unitex/index.php?page=0 马恩-拉瓦莱大学 Java、C++
Ellogon http://www.ellogon.org/ Georgios Petasis C++、Java、Python
LTP http://www.ltp-cloud.com/ 中文的NLP工具集 哈尔滨工业大学 C#、C++、Java、Ruby、Python
FundanNLP http://jkx.fudan.edu.cn/nlp/ 复旦大学 Java
NLPIR http://ictclas.nlpir.org/ 张华平 C、C++、C#、Java
词典在命名实体识别、歧义消解、类型检测中发挥着重要的作用。目前,用于地理信息抽取的开放词典有地名词典、同义词词典和专题词典,如表2所示。其中,DIVA-GIS、GeoNames、OpenStreetMap和Flickr包含了全球范围内的地名数据。TGN、WordNet、E-HowNet和同义词词林建立了各类别之间的关联,具有丰富的语义信息。OWTRAD是用于商业运输的主题地名词典,CH-GIS收录了自1820年以来的中国历朝县城名称。
Tab. 2 Open gazetteers

表2 开放的地名词典

类型 名称 下载网址 规模 内容
地名数据库 DIVA-GIS Gazetteer http://www.diva-gis.org/gdata 超过58亿个地名 名称、坐标、地名的层级关系
OpenStreetMap http://www.openstreetmap.org 超过20亿个点,2亿个线或面 18大类,地理实体的属性和空间信息
GeoNames http://www.geonames.org/ 超过1千万个地点 9大类,多语言的地名、坐标、海拔、人口、行政区划、邮编
Flickr http://www.flickr.com/ 超过140万个地理标签 带有空间位置信息的影像视频数据库
同义词典 TGN http://www.getty.edu/research/tools/vocabularies/tgn/index.html 超过90万个地点 行政区划和自然地理实体的历史名称、人口、文化、建筑等
WordNet http://wordnet.princeton.edu/ 超过14万个名词 英文同义词集
E-HowNet http://ehownet.iis.sinica.edu.tw/ 可在线查询8万个词汇 添加繁体知识中英文同义词集
同义词词林 http://www.datatang.com/data/42306 超过7万个词汇 中文同义词集,12大类
专题词典 OWTRAD http://www.ciolek.com/OWTRAD/caravanserais-catalogue-00.html 1051个地名 欧亚非大陆旧贸易路线的客店和驿站的名称、坐标、编码等
CH-GIS http://www.fas.harvard.edu/~chgis/ 2513个县名 地点的坐标、层级关系、历史名称、繁体书写、名称来历等
地理信息抽取的各个环节都使用了统计模型,而统计模型的训练需要高质量大规模的标注语料。表3、4、5列举了国内外主流的标注语料库。
Tab. 3 Segmentation corpora

表3 分词语料库

用途 名称 下载网址 规模 语料来源 单位
分词和词性标注 Brown http://www.hit.uib.no/icame/brown/ 超过100万词语 美式英语书面语 布朗大学
LOB http://www.hit.uib.no/icame/lobman/lob-cont.html 超过100万词语 英式英语书面语、Brown语料 兰卡斯特大学、奥斯陆大学、挪威计算中心
BNC http://www.natcorp.ox.ac.uk/ 超过1亿词语 英式英语的书面语和口语 英国牛津出版社等
现代汉语语料库 http://202.114.40.175:8080/cqs/ 在线检索的语料约2千万字 教材、报纸、刊物、图书等 国家语言文字工作委员会
现代汉语平衡语料库 http://db1x.sinica.edu.tw/cgi-bin/kiwi/mkiwi/kiwi.sh 在线检索限制2000句内 报纸、杂志、BBS、番薯藤网 中国台湾中央研究院
人民日报切分标注语料库 http://162.105.203.93/icl_groups/corpustagging.asp 已发布语料约200万字 1998年人民日报 北京大学计算语言学研究所
中文互联网5-gram语料库 http://www.chineseldc.org/doc/CLDC-LAC-2008-001/label.htm 超过8千亿词语 公开访问的网页 Google研究院
Tab.4 Disambiguation corpora

表4 消歧语料库

用途 名称 下载网址 规模 语料来源 单位
词义消歧 SemCor http://moin.delph-in.net/SemCor 超过20万词次 WordNet1.6、Brown语料库 普林斯顿大学
DSO https://catalog.ldc.upenn.edu/LDC97T12 191个名词和动词,约19万词次 WordNet1.5、Brown语料库、华尔街时报 新加坡国立大学
SENSEVAL-3[60] 57个实词,约1.2万词次 WordNet1.7、WordSmyth、BNC 苏塞克斯大学
STC http://www.icl.pku.edu.cn/member/wuyf/LanRes.html 约4.6万个动词、2万个名词 现代汉语语义词典、人民日报标注语料库 北京大学
Tab. 5 Treebank

表5 树库

用途 名称 下载网址 规模 语料来源 单位
句法分析 Penn English Treebank http://www.cis.upenn.edu/~treebank/ 约2500个文档 华尔街日报、网页新闻、Brown语料库 宾夕法尼亚大学
Lancaster-Leeds http://clwww.esses.ac.uk/w3c/corpus_ling/content/corpora/list/private/LOB/lob.html 约4.5万词语 LOB语料库 兰卡斯特大学
Penn Chinese Treebank http://www.cis.upenn.edu/~chinese/ctb.html 超过160万个词语 网页新闻、政府文档、杂志、广播、博客 宾夕法尼亚大学
汉语依存树库 http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm 1万句 Penn Chinese Treebank 哈尔滨工业大学
中文句结构树库 http://rocling.iis.sinica.edu.tw/CKIP/treebank.htm 超过6万句,可下载1000句 报纸、杂志、BBS、番薯藤网站 中国台湾中央研究院
Tsinghua Chinese Treebank http://cslt.riit.tsinghua.edu.cn/~qzhou/eng/Resources.htm 超过100万个词语 文学、学术、新闻、应用的平衡语料文本 清华大学
适用于英文分词和词性标注的语料有Brown、LOB、BNC,但语料侧重于规范的书面语。其中,BNC是目前网络可直接使用的最大的语料库。适用于中文分词和词性标注的语料库分为2类:(1)专业生成内容,包括国家语委现代汉语语料库、台北中研院现代汉语平衡语料库和人民日报切分标注语料库;(2)用户生成内容的中文互联网5-gram语料库,数据来自于2008年3月之前可公开访问的网页。
适用于英文词义消歧的语料有SemCor、DSO、SENSEVAL-3。其中,SemCor是目前最大的英语词义标注语料库,仅适用于专业生成内容。中文词义消歧的语料仅有北京大学提供,且语料较为陈旧[59]
英文句法分析语料库的代表是Penn English Treebank,由于其体裁多样、规模宏大、持续更新的优势,故被广为使用。随着英文句法树库的不断完善,中文句法树库[61]呈现出百花齐放的局面。宾夕法尼亚大学、台湾中研院、哈尔滨工业大学和清华大学纷纷推出了各自的中文句法分析语料库。其中,Tsinghua Chinese Treebank是国内第一个大规模的汉语树库。
地理信息抽取为构建语义地理网提供了基础数据。目前,业界已构建了多个大规模的开放式语义地理网,例如,GeoName Semantic Web,OSM Semantic Network,GeoWordNet,LinkedGeoData等[62]

5 研究进展与展望

在新地理信息时代,网络文本成为获取地理信息的重要技术手段,但网络文本的复杂性、模糊性和动态性使得网络文本蕴含地理信息抽取技术仍面临着诸多挑战。
(1)可用性。网络文本的海量多源特性增强了地理信息抽取结果的多样性和完备性,但也易使人们迷失在海量的信息空间中,无法准确定位地理信息抽取的目标,缺乏对已识别的属性、语义和空间关系的科学度量和合理解释。同时,抽取的结果难以体现地理实体的个性化特征,而这些特有的信息通常又是稀有的和高价值的。因此,需要同时兼顾地理信息的丰富性和可用性,结合用户的使用需求,利用地理语境知识在类型定义、值域提取、结果排序和筛选的各个环节上严格控制地理信息抽取的质量,增强信息的可解释性和易用性。此外,为了提高GIS与自然语言的交互能力,需要设计高效智能的方法将自然语言描述的无限空间关系映射到GIS模型中有限的空间关系。
(2)高效率。网络文本的高动态、高密度和高复杂性,对系统的计算和分析能力提出了苛刻的要求,现有的NLP工具难以适用于大规模分布式的实时数据分析,地理信息抽取系统执行效率还无法实时响应用户的需求。因此,首要解决的难题是如何降低时空维度的计算复杂度,包括设计高效的句法解码器、缩短统计模型的训练时间、限制规则的搜索空间等。其次,需要设计合理的数据存储、索引和更新的方式,实现各处理模块的无缝集成,提高信息检索的效率。最后,需要借助大规模数据集的并行处理技术和并行计算环境,以提升地理信息抽取方法的运行效率。
(3)精准度。网络信息不断涌现导致信息的类型急剧膨胀、内容快速变化,使得新出现的地理信息的感知、理解和表达异常困难。手动更新和维护知识库的方式已不能适应地理信息的增长速度,标注语料的匮乏和不可移植导致系统的召回率严重下降。因此,需要寻找自动化的方法快速地实现地名词典的动态更新与维护,并设计不依赖于训练语料的新方法。同时,地理信息内在的复杂特征增加了不确定性,为地理信息抽取的多个环节带来了歧义,导致误差的累积与传递,降低了地理信息抽取的质量。目前,人们对自然语言的复杂现象还缺乏深刻地认识,对地理语义和空间知识的利用尚且不足,极大地制约了歧义消解的能力。所以,如何提高复杂句法结构和隐式语义的理解能力,成为地理信息抽取技术的关键问题。

The authors have declared that no competing interests exist.

[1]
Sanderson M, Kohler J.Analyzing geographic queries[C]. SIGIR Workshop on Geographic Information Retrieval, 2004.

[2]
Piskorski J, Yangarber R.Information extraction: Past, present and future[C]. Multi-source, Multilingual Information Extraction and Summarization. Berlin Heidelberg: Springer-Verlag, 2013:23-49.

[3]
赵军,刘康,周光有,等.开放式文本信息抽取[J].中文信息学报,2011,25(6):98-110.

[4]
刘振, 张智雄.开放信息抽取技术的现状分析[J].情报杂志,2013,32(11):145-149.

[5]
Oren E, Michael C, Doug D, et al.Unsupervised named-entity extraction from the Web: An experimental study[J]. Artificial Intelligence, 2005,165(1):91-134.

[6]
Joanna B, Erdal K, Fabian M S.Inside YAGO2s: A transparent information extraction architecture[C]. Proceedings of the 22nd International Conference on World Wide Web Companion, 2013:325-328.

[7]
Daniel S W, Raphael H, Fei Wu.Using Wikipedia to bootstrap open information extraction[C]. ACM SIGMOD Record, 2008,37(4):62-68.

[8]
Michele B, Michael J C, Stephen S, et al.Open information extraction from the Web[C]. Proceedings of the 20th International Joint Conference on Artificial Intelligence, 2007:2670-2676.

[9]
Oren E, Anthony F, Janara C, et al.Open information extraction: The second generation[C]. Proceedings of the 22nd International Joint Conference on Artificial Intelligence, 2011:3-10.

[10]
Fei Wu, Daniel S W.Open information extraction using Wikipedia[C]. Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, 2010:118-127.

[11]
Alan A, Alexander L.KrakeN: N-ary facts in open information extraction[C]. Proceedings of the Joint Workshop on Automatic Knowledge Base Construction and Web-scale Knowledge Extraction, 2012:52-56.

[12]
Shi G, Barker K.Extraction of geospatial information on the Web for GIS applications[C]. Proceedings of the 10th IEEE International Conference on Congitive Informatics and Cognitive Computing, 2011:18-20.

[13]
Jones C B, Purves R S.Geographical information retrieval[J]. International Journal of Geographical Information Science, 2008,22(3):219-228.

[14]
Hess B, Gasimov A, Sutanto J.A universal approach that makes legacy online content location-based[C]. Proceedings of the 10th International Conference on Mobile and Ubiquitous Multimedia, 2011:127-133.

[15]
Sundheim B M.Overview of results of the MUC-6 evaluation[C]. Proceedings of the 6th Conference on Message Understanding, 1995:13-31.

[16]
黄德根,岳广玲,杨元生.基于统计的中文地名识别[J].中文信息学报,2002,17(2):36-41.

[17]
Florian A T, Philip D S, Christopher B J.Mining the Web to detect place names[C]. Proceedings of the 2nd International Workshop on Geographic Information Retrieval, 2008:43-44.

[18]
唐旭日,陈小荷,许超,等.基于篇章的中文地名识别研究[J].中文信息学报,2010,24(2):24-32.

[19]
Clare D.Reading geography between the lines: Extracting local place knowledge from text[J]. Spatial Information Theory, 2013,8116:320-337.

[20]
Mónica M, Julián U, Sonia S C, et al.Named entity recognition: Fallacies, challenges and opportunities[J]. Computer Standards & Interfaces, 2013,35(5): 482-489.

[21]
张雪英,闾国年,李伯秋,等.基于规则的中文地址要素解析方法[J].地球信息科学学报,2010,12(1):9-16.

[22]
乐小虬,杨崇俊,刘冬林.空间命名实体的识别[J].计算机工程,2005,31(20):49-53.

[23]
唐旭日,陈小荷,张雪英.中文文本的地名解析方法研究[J].武汉大学学报(信息科学版),2010,35(8): 930-935.

[24]
周俊生,戴新宇,尹存燕,等.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809.

[25]
胡万亭,杨燕,尹红风,等.一种基于词频统计的组织机构名识别方法[J].计算机应用研究,2013,30(7):2014-2016.

[26]
李玉森,张雪英,袁正午.面向GIS的地理命名实体识别研究[J].重庆邮电大学学报(自然科学版),2008,20(6):719-724.

[27]
Liu X H, Wei F R, Zhang S D, et al.Named entity recogintion for Tweets[C]. ACM Transactions on Intelligent Systems and Technology, 2013:1-15.

[28]
朱少楠,张雪英,李明,等.基于行政隶属关系树状图的地名消歧方法[J].地理与地理信息科学,2013,29(3):39-42.

[29]
Buscaldi D, Rosso P.A conceptual density-based approach for the disambiguation of toponyms[J]. International Journal of Geographical Information Science, 2008,22(3):301-313.

[30]
Lee L H, Yu Y T, Huang C R.Chinese WordNet domains: Bootstrapping Chinese WordNet with semantic domain labels[C]. Proceedings of PACLIC, 2009:288-296.

[31]
Lieberman M D, Samet H.Multifaceted toponym recognition for streaming news[C]. Proceedings of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval, 2011:843-852.

[32]
王瑞琴,孔繁胜.无监督词义消歧研究[J].软件学报,2009,20(8):2138-2152.

[33]
刘瑜,袁一泓,张毅.基于认知的模糊地理要素建模——以中关村为例[J].遥感学报,2008,12(2): 370-377.

[34]
Vögele T, Schlieder C, Visser U.Intuitive modelling of place name regions for spatial information retrieval[C]. Spatial Information Theory: Foundations of Geographic Information Science, Berlin Heidelberg: Springer-Verlag, 2003:239-252.

[35]
Steven S, Philip D S, Alia I A, et al.Mining topological relations from the Web[C]. Proceedings of the 19th International Workshop on Database and Expert Systems Application, 2008:652-656.

[36]
Jones C B, Purves R S, Clough P D, et al.Modelling vague places with knowledge from the Web[J]. International Journal of Geographical Information Science, 2008,22(10):1045-1065.

[37]
Durme B V, Qian Ting, Schubert L.Class-driven attribute extraction[C]. Proceedings of the 22nd International Conference on Computational Linguistics, 2008:921-928.

[38]
Putthividhya D P, Hu J L.Bootstrapped named entity recognition for product attribute extraction[C]. Proceedings of the Conference on Empirical Methods in Natural Language Processing, 2011:1557-1567.

[39]
Raju S, Pingali P, Varma V.An unsupervised approach to product attribute extraction[C]. 31st European Conference on IR Research, 2009:6-9.

[40]
Wong T L, Lam W, Wong T S.An unsupervised framework for extracting and normalizing product attributes from multiple Web sites[C]. Proceedings of the 31st Annual International ACM SIGIR Conferenc on Research and Development in Information Retrieval, 2008:35-42.

[41]
贾真,杨宇飞,何大可,等.面向中文网络百科的属性和属性值抽取[J].北京大学学报(自然科学版),2014,50(01):41-47.

[42]
Paşca M, Durme B V, Garera N.The role of documents vs. queries in extracting class attributes from text[C]. Proceedings of the Sixteenth ACM Conference on Information and Knowledge Management, 2007:485-494.

[43]
Ballatore A, Wilson D C, Bertolotto M.Computing the semantic similarity of geographic terms using volunteered lexical definitions[J]. International Journal of Geographical Information Science, 2013,27(10):2099-2118.

[44]
Li W W, Raskin R, Goodchild M F.Semantic similarity measurement based on knowledge mining: An artificial neural net approach[J]. International Journal of Geographical Information Science, 2012,26(8):1415-1435.

[45]
Matsuo Y, Sakaki T, Uchiyama K, et al.Graph-based word clustering using a Web search engine[C]. Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing, 2006:542-550.

[46]
Abreu S C, Bonamigo T L, Vieira R.A review on relation extraction with an eye on Portuguese[J]. Journal of the Brazilian Computer Society, 2013,19(4):553-571.

[47]
张苇如,孙乐,韩先培.基于维基百科和模式聚类的实体关系抽取方法[J].中文信息学报,2012,26(2):75-81.

[48]
Paşca M.Organizing and searching the World Wide Web of facts-step two: Harnessing the wisdom of the crowds[C]. Proceedings of the 16th International Conference on World Wide Web, 2007:101-110.

[49]
张雪英,闾国年.自然语言空间关系及其在GIS中的应用研究[J].地球信息科学,2007,9(6): 77-81.

[50]
乐小虬,杨崇俊,于文洋.基于空间语义角色的自然语言空间概念提取[J].武汉大学学报(信息科学版),2005,30(12):1100-1103.

[51]
朱少楠,张雪英,张春菊.地理空间关系描述的句法模式识别[C].Proceedings of 2010 International Conference on Broadcast Technology and Multimedia Communication,2010:354-357.

[52]
赵妍妍,秦兵,车万翔,等.中文事件抽取技术研究[J].中文信息学报,2008,22(1):3-8.

[53]
许红磊,陈锦秀,周昌乐,等.自动识别事件类别的中文事件抽取技术研究[J].心智与计算,2010,4(1):33-44.

[54]
Shi G, Barker K.Extraction of geospatial information on the Web for GIS applications[C]. 2011 10th IEEE International Conference on Cognitive Informatics & Cognitive Computing, 2011:41-48.

[55]
姜吉发. 一种事件信息抽取模式获取方法[J].计算机工程,2005,31(15):96-98.

[56]
吴家皋,周凡坤,张雪英.HMM模型和句法分析相结合的事件属性信息抽取[J].南京师大学报(自然科学版),2014,37(1):30-34.

[57]
Jannik S, Michael G, Pavel P.Extraction and exploration of spatio-temporal information[C]. Proceedings of the 6th Workshop on Geographic Information Retrieval, 2010.

[58]
Qiu P Y, Lu F, Zhang H C.Extracting traffic information from Web texts with a D-S evidence theory based approach[C]. 2013 21st International Conference on Geoinformatics, 2013:1-5.

[59]
金澎,吴云芳,俞士汶.词义标注语料库建设综述[J].中文信息学报,2008,22(3):16-23.

[60]
Mihalcea R. The SENSEVAL 3 english lexical sample task[C]. Proceedings of ACL-SIGLEX SENSEVAL 3 worshop, 2004:25-28.

[61]
王跃龙,姬东鸿.汉语树库综述[J].当代语言学,2009,11(1):47-55.

[62]
Ballatore A, Wilson D C, Bertolotto M.A survey of volunteered open geo-knowledge bases in the semantic Web[J]. Quality Issues in the Management of Web Information Intelligent Systems Reference Library, 2013:93-120.

Outlines

/