地球信息科学学报 ›› 2015, Vol. 17 ›› Issue (2): 127-134.doi: 10.3724/SP.J.1047.2015.00127
• • 下一篇
收稿日期:
2014-08-28
修回日期:
2014-10-29
出版日期:
2015-02-10
发布日期:
2015-02-10
作者简介:
作者简介:余丽(1986-),博士生,研究方向为互联网空间信息搜索。E-mail:
基金资助:
YU Li1,2(), LU Feng1,*(
), ZHANG Hengcai1
Received:
2014-08-28
Revised:
2014-10-29
Online:
2015-02-10
Published:
2015-02-10
Contact:
LU Feng
About author:
*The author: CHEN Nan, E-mail:
摘要:
互联网的普及产生了大量蕴含着丰富地理语义的文本,为地理信息的深度挖掘和知识发现带来了巨大机遇。同时,蕴含地理语义文本的异构性和动态性,使得地理实体的属性数量和种类激增、地理语义关系复杂,对地理信息检索、空间分析和推理、智能化位置服务等提出了严峻的挑战。本文阐述了网络文本蕴含地理信息抽取的技术流程,从地理实体识别、地理实体定位、地理实体属性抽取、地理实体关系构建、地理事件抽取5个方面总结了网络文本蕴含地理信息抽取的进展和关键技术瓶颈,分析了可用于网络文本蕴含地理信息抽取的开放资源,并展望了未来的发展方向。
余丽, 陆锋, 张恒才. 网络文本蕴涵地理信息抽取:研究进展与展望[J]. 地球信息科学学报, 2015, 17(2): 127-134.DOI:10.3724/SP.J.1047.2015.00127
YU Li,LU Feng,ZHANG Hengcai. Extracting Geographic Information from Web Texts: Status and Development[J]. Journal of Geo-information Science, 2015, 17(2): 127-134.DOI:10.3724/SP.J.1047.2015.00127
表1
支持中文的开源NLP工具
名称 | 下载网址 | 功能 | 开发者 | 开发语言 |
---|---|---|---|---|
UIMA | http://uima.apache.org/ | NLP工具集 | Apache软件基金会 | Java、C++ |
OpenNLP | http://opennlp.apache.org/ | Apache软件基金会 | Java | |
LingPipe | http://alias-i.com/lingpipe/index.html | Alias公司 | Java | |
NLTK | http://nltk.org/ | 团队 | Python | |
GATE | http://gate.ac.uk/ | 伊利诺斯大学 | Java | |
Mallet | http://mallet.cs.umass.edu/ | 马萨诸塞大学 | Java | |
StanfordNLP | http://nlp.stanford.edu/ | 斯坦福大学 | Java | |
GATE | http://gate.ac.uk/ | 语料标注工具 | 伊利诺斯大学 | Java |
Unitex | http://www-igm.univ-mlv.fr/~unitex/index.php?page=0 | 马恩-拉瓦莱大学 | Java、C++ | |
Ellogon | http://www.ellogon.org/ | Georgios Petasis | C++、Java、Python | |
LTP | http://www.ltp-cloud.com/ | 中文的NLP工具集 | 哈尔滨工业大学 | C#、C++、Java、Ruby、Python |
FundanNLP | http://jkx.fudan.edu.cn/nlp/ | 复旦大学 | Java | |
NLPIR | http://ictclas.nlpir.org/ | 张华平 | C、C++、C#、Java |
表2
开放的地名词典
类型 | 名称 | 下载网址 | 规模 | 内容 |
---|---|---|---|---|
地名数据库 | DIVA-GIS Gazetteer | http://www.diva-gis.org/gdata | 超过58亿个地名 | 名称、坐标、地名的层级关系 |
OpenStreetMap | http://www.openstreetmap.org | 超过20亿个点,2亿个线或面 | 18大类,地理实体的属性和空间信息 | |
GeoNames | http://www.geonames.org/ | 超过1千万个地点 | 9大类,多语言的地名、坐标、海拔、人口、行政区划、邮编 | |
Flickr | http://www.flickr.com/ | 超过140万个地理标签 | 带有空间位置信息的影像视频数据库 | |
同义词典 | TGN | http://www.getty.edu/research/tools/vocabularies/tgn/index.html | 超过90万个地点 | 行政区划和自然地理实体的历史名称、人口、文化、建筑等 |
WordNet | http://wordnet.princeton.edu/ | 超过14万个名词 | 英文同义词集 | |
E-HowNet | http://ehownet.iis.sinica.edu.tw/ | 可在线查询8万个词汇 | 添加繁体知识中英文同义词集 | |
同义词词林 | http://www.datatang.com/data/42306 | 超过7万个词汇 | 中文同义词集,12大类 | |
专题词典 | OWTRAD | http://www.ciolek.com/OWTRAD/caravanserais-catalogue-00.html | 1051个地名 | 欧亚非大陆旧贸易路线的客店和驿站的名称、坐标、编码等 |
CH-GIS | http://www.fas.harvard.edu/~chgis/ | 2513个县名 | 地点的坐标、层级关系、历史名称、繁体书写、名称来历等 |
表3
分词语料库
用途 | 名称 | 下载网址 | 规模 | 语料来源 | 单位 |
---|---|---|---|---|---|
分词和词性标注 | Brown | http://www.hit.uib.no/icame/brown/ | 超过100万词语 | 美式英语书面语 | 布朗大学 |
LOB | http://www.hit.uib.no/icame/lobman/lob-cont.html | 超过100万词语 | 英式英语书面语、Brown语料 | 兰卡斯特大学、奥斯陆大学、挪威计算中心 | |
BNC | http://www.natcorp.ox.ac.uk/ | 超过1亿词语 | 英式英语的书面语和口语 | 英国牛津出版社等 | |
现代汉语语料库 | http://202.114.40.175:8080/cqs/ | 在线检索的语料约2千万字 | 教材、报纸、刊物、图书等 | 国家语言文字工作委员会 | |
现代汉语平衡语料库 | http://db1x.sinica.edu.tw/cgi-bin/kiwi/mkiwi/kiwi.sh | 在线检索限制2000句内 | 报纸、杂志、BBS、番薯藤网 | 中国台湾中央研究院 | |
人民日报切分标注语料库 | http://162.105.203.93/icl_groups/corpustagging.asp | 已发布语料约200万字 | 1998年人民日报 | 北京大学计算语言学研究所 | |
中文互联网5-gram语料库 | http://www.chineseldc.org/doc/CLDC-LAC-2008-001/label.htm | 超过8千亿词语 | 公开访问的网页 | Google研究院 |
表4
消歧语料库
用途 | 名称 | 下载网址 | 规模 | 语料来源 | 单位 |
---|---|---|---|---|---|
词义消歧 | SemCor | http://moin.delph-in.net/SemCor | 超过20万词次 | WordNet1.6、Brown语料库 | 普林斯顿大学 |
DSO | https://catalog.ldc.upenn.edu/LDC97T12 | 191个名词和动词,约19万词次 | WordNet1.5、Brown语料库、华尔街时报 | 新加坡国立大学 | |
SENSEVAL-3[ | 57个实词,约1.2万词次 | WordNet1.7、WordSmyth、BNC | 苏塞克斯大学 | ||
STC | http://www.icl.pku.edu.cn/member/wuyf/LanRes.html | 约4.6万个动词、2万个名词 | 现代汉语语义词典、人民日报标注语料库 | 北京大学 |
表5
树库
用途 | 名称 | 下载网址 | 规模 | 语料来源 | 单位 |
---|---|---|---|---|---|
句法分析 | Penn English Treebank | http://www.cis.upenn.edu/~treebank/ | 约2500个文档 | 华尔街日报、网页新闻、Brown语料库 | 宾夕法尼亚大学 |
Lancaster-Leeds | http://clwww.esses.ac.uk/w3c/corpus_ling/content/corpora/list/private/LOB/lob.html | 约4.5万词语 | LOB语料库 | 兰卡斯特大学 | |
Penn Chinese Treebank | http://www.cis.upenn.edu/~chinese/ctb.html | 超过160万个词语 | 网页新闻、政府文档、杂志、广播、博客 | 宾夕法尼亚大学 | |
汉语依存树库 | http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm | 1万句 | Penn Chinese Treebank | 哈尔滨工业大学 | |
中文句结构树库 | http://rocling.iis.sinica.edu.tw/CKIP/treebank.htm | 超过6万句,可下载1000句 | 报纸、杂志、BBS、番薯藤网站 | 中国台湾中央研究院 | |
Tsinghua Chinese Treebank | http://cslt.riit.tsinghua.edu.cn/~qzhou/eng/Resources.htm | 超过100万个词语 | 文学、学术、新闻、应用的平衡语料文本 | 清华大学 |
[56] | 吴家皋,周凡坤,张雪英.HMM模型和句法分析相结合的事件属性信息抽取[J].南京师大学报(自然科学版),2014,37(1):30-34. |
[57] | Jannik S, Michael G, Pavel P.Extraction and exploration of spatio-temporal information[C]. Proceedings of the 6th Workshop on Geographic Information Retrieval, 2010. |
[58] | Qiu P Y, Lu F, Zhang H C.Extracting traffic information from Web texts with a D-S evidence theory based approach[C]. 2013 21st International Conference on Geoinformatics, 2013:1-5. |
[59] | 金澎,吴云芳,俞士汶.词义标注语料库建设综述[J].中文信息学报,2008,22(3):16-23. |
[60] | Mihalcea R. The SENSEVAL 3 english lexical sample task[C]. Proceedings of ACL-SIGLEX SENSEVAL 3 worshop, 2004:25-28. |
[61] | 王跃龙,姬东鸿.汉语树库综述[J].当代语言学,2009,11(1):47-55. |
[1] | Sanderson M, Kohler J.Analyzing geographic queries[C]. SIGIR Workshop on Geographic Information Retrieval, 2004. |
[2] | Piskorski J, Yangarber R.Information extraction: Past, present and future[C]. Multi-source, Multilingual Information Extraction and Summarization. Berlin Heidelberg: Springer-Verlag, 2013:23-49. |
[3] | 赵军,刘康,周光有,等.开放式文本信息抽取[J].中文信息学报,2011,25(6):98-110. |
[4] | 刘振, 张智雄.开放信息抽取技术的现状分析[J].情报杂志,2013,32(11):145-149. |
[5] | Oren E, Michael C, Doug D, et al.Unsupervised named-entity extraction from the Web: An experimental study[J]. Artificial Intelligence, 2005,165(1):91-134. |
[6] | Joanna B, Erdal K, Fabian M S.Inside YAGO2s: A transparent information extraction architecture[C]. Proceedings of the 22nd International Conference on World Wide Web Companion, 2013:325-328. |
[7] | Daniel S W, Raphael H, Fei Wu.Using Wikipedia to bootstrap open information extraction[C]. ACM SIGMOD Record, 2008,37(4):62-68. |
[8] | Michele B, Michael J C, Stephen S, et al.Open information extraction from the Web[C]. Proceedings of the 20th International Joint Conference on Artificial Intelligence, 2007:2670-2676. |
[9] | Oren E, Anthony F, Janara C, et al.Open information extraction: The second generation[C]. Proceedings of the 22nd International Joint Conference on Artificial Intelligence, 2011:3-10. |
[10] | Fei Wu, Daniel S W.Open information extraction using Wikipedia[C]. Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, 2010:118-127. |
[11] | Alan A, Alexander L.KrakeN: N-ary facts in open information extraction[C]. Proceedings of the Joint Workshop on Automatic Knowledge Base Construction and Web-scale Knowledge Extraction, 2012:52-56. |
[12] | Shi G, Barker K.Extraction of geospatial information on the Web for GIS applications[C]. Proceedings of the 10th IEEE International Conference on Congitive Informatics and Cognitive Computing, 2011:18-20. |
[13] | Jones C B, Purves R S.Geographical information retrieval[J]. International Journal of Geographical Information Science, 2008,22(3):219-228. |
[14] | Hess B, Gasimov A, Sutanto J.A universal approach that makes legacy online content location-based[C]. Proceedings of the 10th International Conference on Mobile and Ubiquitous Multimedia, 2011:127-133. |
[15] | Sundheim B M.Overview of results of the MUC-6 evaluation[C]. Proceedings of the 6th Conference on Message Understanding, 1995:13-31. |
[16] | 黄德根,岳广玲,杨元生.基于统计的中文地名识别[J].中文信息学报,2002,17(2):36-41. |
[17] | Florian A T, Philip D S, Christopher B J.Mining the Web to detect place names[C]. Proceedings of the 2nd International Workshop on Geographic Information Retrieval, 2008:43-44. |
[18] | 唐旭日,陈小荷,许超,等.基于篇章的中文地名识别研究[J].中文信息学报,2010,24(2):24-32. |
[19] | Clare D.Reading geography between the lines: Extracting local place knowledge from text[J]. Spatial Information Theory, 2013,8116:320-337. |
[20] | Mónica M, Julián U, Sonia S C, et al.Named entity recognition: Fallacies, challenges and opportunities[J]. Computer Standards & Interfaces, 2013,35(5): 482-489. |
[21] | 张雪英,闾国年,李伯秋,等.基于规则的中文地址要素解析方法[J].地球信息科学学报,2010,12(1):9-16. |
[22] | 乐小虬,杨崇俊,刘冬林.空间命名实体的识别[J].计算机工程,2005,31(20):49-53. |
[23] | 唐旭日,陈小荷,张雪英.中文文本的地名解析方法研究[J].武汉大学学报(信息科学版),2010,35(8): 930-935. |
[24] | 周俊生,戴新宇,尹存燕,等.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,34(5):804-809. |
[25] | 胡万亭,杨燕,尹红风,等.一种基于词频统计的组织机构名识别方法[J].计算机应用研究,2013,30(7):2014-2016. |
[26] | 李玉森,张雪英,袁正午.面向GIS的地理命名实体识别研究[J].重庆邮电大学学报(自然科学版),2008,20(6):719-724. |
[27] | Liu X H, Wei F R, Zhang S D, et al.Named entity recogintion for Tweets[C]. ACM Transactions on Intelligent Systems and Technology, 2013:1-15. |
[28] | 朱少楠,张雪英,李明,等.基于行政隶属关系树状图的地名消歧方法[J].地理与地理信息科学,2013,29(3):39-42. |
[29] | Buscaldi D, Rosso P.A conceptual density-based approach for the disambiguation of toponyms[J]. International Journal of Geographical Information Science, 2008,22(3):301-313. |
[30] | Lee L H, Yu Y T, Huang C R.Chinese WordNet domains: Bootstrapping Chinese WordNet with semantic domain labels[C]. Proceedings of PACLIC, 2009:288-296. |
[31] | Lieberman M D, Samet H.Multifaceted toponym recognition for streaming news[C]. Proceedings of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval, 2011:843-852. |
[32] | 王瑞琴,孔繁胜.无监督词义消歧研究[J].软件学报,2009,20(8):2138-2152. |
[33] | 刘瑜,袁一泓,张毅.基于认知的模糊地理要素建模——以中关村为例[J].遥感学报,2008,12(2): 370-377. |
[34] | Vögele T, Schlieder C, Visser U.Intuitive modelling of place name regions for spatial information retrieval[C]. Spatial Information Theory: Foundations of Geographic Information Science, Berlin Heidelberg: Springer-Verlag, 2003:239-252. |
[35] | Steven S, Philip D S, Alia I A, et al.Mining topological relations from the Web[C]. Proceedings of the 19th International Workshop on Database and Expert Systems Application, 2008:652-656. |
[36] | Jones C B, Purves R S, Clough P D, et al.Modelling vague places with knowledge from the Web[J]. International Journal of Geographical Information Science, 2008,22(10):1045-1065. |
[37] | Durme B V, Qian Ting, Schubert L.Class-driven attribute extraction[C]. Proceedings of the 22nd International Conference on Computational Linguistics, 2008:921-928. |
[38] | Putthividhya D P, Hu J L.Bootstrapped named entity recognition for product attribute extraction[C]. Proceedings of the Conference on Empirical Methods in Natural Language Processing, 2011:1557-1567. |
[39] | Raju S, Pingali P, Varma V.An unsupervised approach to product attribute extraction[C]. 31st European Conference on IR Research, 2009:6-9. |
[40] | Wong T L, Lam W, Wong T S.An unsupervised framework for extracting and normalizing product attributes from multiple Web sites[C]. Proceedings of the 31st Annual International ACM SIGIR Conferenc on Research and Development in Information Retrieval, 2008:35-42. |
[41] | 贾真,杨宇飞,何大可,等.面向中文网络百科的属性和属性值抽取[J].北京大学学报(自然科学版),2014,50(01):41-47. |
[42] | Paşca M, Durme B V, Garera N.The role of documents vs. queries in extracting class attributes from text[C]. Proceedings of the Sixteenth ACM Conference on Information and Knowledge Management, 2007:485-494. |
[43] | Ballatore A, Wilson D C, Bertolotto M.Computing the semantic similarity of geographic terms using volunteered lexical definitions[J]. International Journal of Geographical Information Science, 2013,27(10):2099-2118. |
[44] | Li W W, Raskin R, Goodchild M F.Semantic similarity measurement based on knowledge mining: An artificial neural net approach[J]. International Journal of Geographical Information Science, 2012,26(8):1415-1435. |
[45] | Matsuo Y, Sakaki T, Uchiyama K, et al.Graph-based word clustering using a Web search engine[C]. Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing, 2006:542-550. |
[46] | Abreu S C, Bonamigo T L, Vieira R.A review on relation extraction with an eye on Portuguese[J]. Journal of the Brazilian Computer Society, 2013,19(4):553-571. |
[47] | 张苇如,孙乐,韩先培.基于维基百科和模式聚类的实体关系抽取方法[J].中文信息学报,2012,26(2):75-81. |
[48] | Paşca M.Organizing and searching the World Wide Web of facts-step two: Harnessing the wisdom of the crowds[C]. Proceedings of the 16th International Conference on World Wide Web, 2007:101-110. |
[49] | 张雪英,闾国年.自然语言空间关系及其在GIS中的应用研究[J].地球信息科学,2007,9(6): 77-81. |
[50] | 乐小虬,杨崇俊,于文洋.基于空间语义角色的自然语言空间概念提取[J].武汉大学学报(信息科学版),2005,30(12):1100-1103. |
[51] | 朱少楠,张雪英,张春菊.地理空间关系描述的句法模式识别[C].Proceedings of 2010 International Conference on Broadcast Technology and Multimedia Communication,2010:354-357. |
[52] | 赵妍妍,秦兵,车万翔,等.中文事件抽取技术研究[J].中文信息学报,2008,22(1):3-8. |
[53] | 许红磊,陈锦秀,周昌乐,等.自动识别事件类别的中文事件抽取技术研究[J].心智与计算,2010,4(1):33-44. |
[54] | Shi G, Barker K.Extraction of geospatial information on the Web for GIS applications[C]. 2011 10th IEEE International Conference on Cognitive Informatics & Cognitive Computing, 2011:41-48. |
[62] | Ballatore A, Wilson D C, Bertolotto M.A survey of volunteered open geo-knowledge bases in the semantic Web[J]. Quality Issues in the Management of Web Information Intelligent Systems Reference Library, 2013:93-120. |
[55] | 姜吉发. 一种事件信息抽取模式获取方法[J].计算机工程,2005,31(15):96-98. |
[1] | 李发东, 王海起, 孔浩然, 刘峰, 王志海, 王琼, 徐建波, 单宇飞, 周啸宇, 闫峰. 联合词汇增强的中文细粒度地理命名实体识别模型研究[J]. 地球信息科学学报, 2023, 25(6): 1106-1120. |
[2] | 黄宗财, 陆锋, 仇培元, 彭澎. 网络文本蕴含地理信息质量评估框架[J]. 地球信息科学学报, 2023, 25(6): 1121-1134. |
[3] | 桂志鹏, 胡晓辉, 刘欣婕, 凌志鹏, 姜屿涵, 吴华意. 顾及地理语义的地图检索意图形式化表达与识别[J]. 地球信息科学学报, 2023, 25(6): 1186-1201. |
[4] | 陆锋, 诸云强, 张雪英. 时空知识图谱研究进展与展望[J]. 地球信息科学学报, 2023, 25(6): 1091-1105. |
[5] | 胡校飞, 周杨, 蓝朝桢, 黄高爽, 赵璐颖. 结构语义辅助约束的数字孪生场景虚实配准方法[J]. 地球信息科学学报, 2023, 25(5): 883-895. |
[6] | 华一新, 赵鑫科, 张江水. 地理信息系统研究新范式[J]. 地球信息科学学报, 2023, 25(1): 15-24. |
[7] | 张新宇, 郭文强, 王婧贇, 杨炳栋. 基于多源海事数据的大型船舶精细化分段乘潮研究[J]. 地球信息科学学报, 2022, 24(9): 1688-1700. |
[8] | 尹文萍, 高宸, 樊辉, 谢菲, 张鑫. 一种融合文本中地理位置和土地利用/覆被信息的野生动物活动细粒度定位方法[J]. 地球信息科学学报, 2022, 24(7): 1363-1374. |
[9] | 张晗, 邬群勇. 基于LDA和优化蚁群的OD流向时空语义聚类算法[J]. 地球信息科学学报, 2022, 24(5): 837-850. |
[10] | 谢花林, 温家明, 陈倩茹, 何亚芬. 地球信息科学技术在国土空间规划中的应用研究进展[J]. 地球信息科学学报, 2022, 24(2): 202-219. |
[11] | 赵桐, 李泽峰, 宋柳依, 熊美成, 廖一兰, 裴韬. 基于微博大数据的北京市流动人口情绪与职住分布的关系研究[J]. 地球信息科学学报, 2022, 24(10): 1898-1910. |
[12] | 俞肇元, 袁林旺, 吴明光, 周良辰, 罗文, 张雪英, 闾国年. 地理学视角下地理信息的分类与描述[J]. 地球信息科学学报, 2022, 24(1): 17-24. |
[13] | 王行风, 刘俊生. 面向室内导航的分层认知路网优化方法[J]. 地球信息科学学报, 2021, 23(9): 1586-1597. |
[14] | 陈晓玲, 唐丽玉, 胡颖, 江锋, 彭巍, 冯先超. 基于ALBERT模型的园林植物知识实体与关系抽取方法[J]. 地球信息科学学报, 2021, 23(7): 1208-1220. |
[15] | 李海萍, 梁子豪. 城市社区养老设施配置空间均衡研究[J]. 地球信息科学学报, 2021, 23(3): 467-478. |
|