地球信息科学学报 ›› 2014, Vol. 16 ›› Issue (5): 681-690.doi: 10.3724/SP.J.1047.2014.00681
袁烨城1(), 刘海江2,,A;*(
), 裴韬1, 高锡章1
收稿日期:
2014-01-16
修回日期:
2014-05-14
出版日期:
2014-09-10
发布日期:
2014-09-04
通讯作者:
刘海江
E-mail:yuanyc@lreis.ac.cn;Liuhj@cnemc.cn;liuhj@cnemc.cn
作者简介:
作者简介:袁烨城(1983-),男,浙江嵊州人,博士,主要从事GIS和网络空间数据挖掘的研究。E-mail:
基金资助:
YUAN Yecheng1(), LIU Haijiang2,*(
), PEI Tao1, GAO Xizhang1
Received:
2014-01-16
Revised:
2014-05-14
Online:
2014-09-10
Published:
2014-09-04
Contact:
LIU Haijiang
E-mail:yuanyc@lreis.ac.cn;Liuhj@cnemc.cn;liuhj@cnemc.cn
About author:
*The author: CHEN Nan, E-mail:
摘要:
从自然语言文本(新闻报道、博客、论坛、社交网络等)中识别空间关系是大数据时代获取空间信息的重要手段之一。针对现有方法只考虑字词特征,识别过程容易产生匹配歧义的局限,本文提出了一种新的融入词法、句法等语义知识的空间关系识别方法。本方法设计了一个树形结构的抽取模式:树结点代表空间词汇类型,结点之间的关系代表词汇间的依存关系。其中,抽取模式可从标注语料中自主学习得到。模式匹配过程以空间词汇类型和句法依存关系作为硬性约束条件、以词汇语义相似度作为软性约束条件,将模式从树形结构转换成依存序列后,根据有限自动机原理实现匹配。实验结果表明,本方法的识别精度和召回率分别为86.67%和63.11%,与现有其他基于规则的方法相比,有2个优点:(1)模式学习过程无需人工干预;(2)融入了句法依存关系,可消除匹配歧义,提高了识别准确率。
袁烨城, 刘海江, 裴韬, 高锡章. 基于语义知识的空间关系识别研究[J]. 地球信息科学学报, 2014, 16(5): 681-690.DOI:10.3724/SP.J.1047.2014.00681
YUAN Yecheng,LIU Haijiang,PEI Tao,GAO Xizhang. Spatial Relation Extraction from Chinese Characterized Documents Based on Semantic Knowledge[J]. Journal of Geo-information Science, 2014, 16(5): 681-690.DOI:10.3724/SP.J.1047.2014.00681
表1
空间词汇类型"
序号 | 名称 | 含 义 | 实 例 |
---|---|---|---|
1 | PNE | 地理命名实体 | “鞍山南郊有形似马鞍的西鞍山”中的“鞍山”、 “西鞍山” |
2 | PREP | 介词 | “安宁温泉位于安宁县境内”中的“于” |
3 | DIRE | 方位词 | “鞍山南郊有形似马鞍的西鞍山”中的“南郊” |
4 | SIGNAL | 空间谓词 | “鞍山南郊有形似马鞍的西鞍山”中的“有” |
5 | MPSIGNAL | 隐喻性空间名词,暗含了地理空间关系的名词,往往是一些约定俗成的词 | “下游”、“分水岭”、“出山口”、“界山”等 |
6 | ASIS | 辅助词,用于将地理命名实体、介词、方位词、空间谓词等串联成完整子句的词汇 | “白城市是吉林省西部城市”中的“城市”,如果没有“城市”一词,“白城市是吉林省西部”就够不成完整的语句 |
表3
学习得到的频次大于5的方位关系抽取模式"
模式序号 | 模 式 | 出现次数 | 百分比(%) | 举 例 |
---|---|---|---|---|
1 | nn(DIRE ,SourcePNE), nsubj(SIGNAL , DIRE), dobj(SIGNAL,TargetPNE) | 25 | 9.23 | 阿城市 西北 濒临 松花江 |
21 | nsubj(SIGNAL ,TargetPNE), prep(SIGNAL,PREPO), nn(DIRE ,SourcePNE), pobj(PREPO,DIRE) | 23 | 8.49 | 阿尔山 位 于 内蒙古自治区 境内 大兴安岭 中段 西麓 |
49 | nn(DIRE ,SourcePNE), top(SIGNAL,DIRE), dobj(SIGNAL ,TargetPNE) | 9 | 3.32 | 阿里山站 北 有 大塔山 |
15 | nn(DIRE ,SourcePNE), nsubj(SIGNAL, DIRE), nn(ASIS ,TargetPNE), dobj(SIGNAL ,ASIS) | 8 | 2.95 | 阿尔金山自然保护区 西 至 且末县 东南角 |
29 | nn(DIRE ,SourcePNE), top(SIGNAL ,DIRE), attr(SIGNAL ,TargetPNE) | 8 | 2.95 | 阿里地区 东北部 为 藏北 羌塘高原 |
31 | nn(DIRE ,SourcePNE), assmod(TargetPNE ,DIRE) | 6 | 2.21 | 地表水 除 阿拉善高原 东缘 的 黄河,几 全 属 内陆流域 |
68 | top(SIGNAL ,TargetPNE), nn(ASIS ,SourcePNE), nn(ASIS ,DIRE), attr(SIGNAL ,ASIS) | 6 | 2.21 | 白城市 是 吉林省 西部 轻工业 城市 |
表4
训练语料中学习得到的空间谓词、介词、方位词集"
词汇类型 | 词汇集 | |
---|---|---|
空间谓词 | 位,濒临,至,设,界,邻,犹存,背负,紧靠,通,达,接,起,与,及,临,倚,连,到,抵,迄,有,距,是,分界,为,为,延伸,分布,会合,介于,地处,属,止,开始,流,辟,兴建,坐落,源出,汇入,延到 | |
介词 | 于,依,为,以,沿,向,在,由,从,至 | |
方位词 | 东 | 以东,东,东部,东缘,东端,东段,东岸,东侧,东麓 |
东南 | 东南,东南缘,东南部,东南坡 | |
南 | 以南,南,南部,南支,南岸,南面,南郊,南侧,城南,镇南 | |
西南 | 西南,镇西南,西南缘,西南岸,西南端,西南部,西南坡 | |
西 | 西郊,西,西部,西端,西岸,以西,镇西 | |
西北 | 西北,西北部 | |
北 | 北,北边,北支,北坡,城北,北部,北麓,北岸,北端,北屯,北郊,以北,北方,北侧 | |
东北 | 东北缘,东北部,东北,东北岸,东北坡 | |
中 | 内,中,境内 | |
其他 | 南西,中西部 | |
前 | - | |
后 | - | |
左 | - | |
右 | - | |
上 | 上 | |
下 | - | |
之间 | 之间,间,地间 |
[1] | 李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].中国科学院院刊,2012,27(6):647-657. |
[2] | 马林兵,龚健雅.空间信息自然语言查询接口的研究与应用[J].武汉大学学报(信息科学版),2003,28(3):301-305 |
[3] | 乐小虬,杨崇俊.非受限文本中深层空间语义的识别方法[J].计算机工程,2006,32(4):36-38. |
[4] | 乐小虬,杨崇俊,于文洋.基于空间语义角色的自然语言空间概念提取[J].武汉大学学报(信息科学版),2005,30(12):1011-3011. |
[5] | 蒋文明. 面向中文文本的空间方位关系抽取方法研究[D].南京:南京师范大学,2010. |
[6] | 顾雪峰. 基于动态粒度思想的实体关系识别方法研究[D].太原:山西大学,2006. |
[7] | 李晗静. 基于自然语言处理的空间概念建模研究[D].哈尔滨:哈尔滨工业大学,2007. |
[8] | Wang T, Li Y Y, Bontcheva K, et al.Automatic extraction of hierarchical relations from text[C]. Proceedings of the 3rd European Semantic Web Conference (ESWC), Budva, Montenegro, 2006,215-229. |
[9] | Jiang J, Zhai C X.A systematic exploration of the feature space for relation extraction[C]. Proceedings of NAACL HLT 2007, Rochester, NY, 2007:113-120. |
[10] | Bunescu R, Mooney R J.Subsequence kernels for relation extraction [C]. Proceedings of Advances in neural information processing systems 18,Vancouver, 2005:171-179. |
[11] | Zhou G D. Zhang M.Extracting relation information from text documents by exploring various types of knowledge[J]. Information Processing & Management. 2007,43(4):969-982. |
[12] | Zhou G D, Zhang M, Ji D H, et al.Tree kernel-based relation extraction with context-sensitive structured parse tree information[C]. Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, Prague, 2007:728-736. |
[13] | Kambhatla N.Combining lexical, syntactic, and semantic features with maximum entropy models for extracting relations[C]. Proceedings of the ACL 2004 on Interactive poster and demonstration sessions. Barcelona, 2004:178-181. |
[14] | 董静,孙乐,冯元勇,等.中文实体关系抽取中的特征选择研究[J].中文信息学报,2007,21(4):80-85,91. |
[15] | Taylor A, Marcus M, Santorini B.The Penn Treebank: An Overview[C]. Abeillé A(Ed.). Treebanks. Netherlands: Springer, 2003, 20:5-22. |
[16] | 刘田,姜晖,王捍贫.自动机理论、语言和计算导论[M].北京:机械工业出版社,2004. |
[17] | 刘群,张华平,俞鸿魁,等.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. |
[18] | Levy R, Manning C.Is it harder to parse Chinese, or the Chinese Treebank?[C]. Association for Computational Linguistics 2003, Budapest, 2003:439-446. |
[19] | 刘群,李素建.基于知网的词汇语义相似度的计算[C].第三届汉语词汇语义学研讨会,台北,2002:59-76. |
[20] | 李峰,李芳.中文词语语义相似度计算——基于《知网》2000[J].中文信息学报,2007,21(3):99-105. |
[21] | 夏天. 汉语词语语义相似度计算研究[J].计算机工程. 2007,33(6):191-194. |
[22] | 江敏,肖诗斌,王弘蔚,等.一种改进的基于《知网》的词语语义相似度计算[J].中文信息学报,2008,22(5):84-89 |
[23] | Klein D, Manning C.Accurate unlexicalized parsing[C]. Proceedings of the 41st Meeting of the Association for Computational Linguistics, Stroudsburg, PA, 2003:423-430. |
[1] | 单渌铱, 王海军, 张彬, 潘鹏. 顾及土地生态安全的环鄱阳湖城市群土地利用情景模拟[J]. 地球信息科学学报, 2020, 22(3): 543-556. |
[2] | 王家丰, 王蓉, 冯永玖, 雷振坤, 高忱, 陈书睿, 金雁敏, 翟淑婷. 顾及轨道交通影响的浙中城市群土地利用多情景模拟与分析[J]. 地球信息科学学报, 2020, 22(3): 605-615. |
[3] | 胡最, 王慧. 多因素约束的城市空间扩张元胞自动机构建及其应用研究[J]. 地球信息科学学报, 2020, 22(3): 616-627. |
[4] | 赵林峰, 刘小平, 刘鹏华, 陈广照, 何家律. 基于地理分区与FLUS模型的城市扩张模拟与预警[J]. 地球信息科学学报, 2020, 22(3): 517-530. |
[5] | 段非,王钧,蔡爱玲,李贵才. 重庆两江新区空间结构演变驱动机制分析与过程模拟[J]. 地球信息科学学报, 2019, 21(8): 1254-1264. |
[6] | 吴欣昕, 刘小平, 梁迅, 陈广亮. FLUS-UGB多情景模拟的珠江三角洲城市增长边界划定[J]. 地球信息科学学报, 2018, 20(4): 532-542. |
[7] | 于明明, 曾永年. 顾及地类转换差异的城市空间扩展元胞自动机模型及应用研究[J]. 地球信息科学学报, 2018, 20(1): 48-56. |
[8] | 张文富, 林广发, 张明锋, 李清远. 基于元胞自动机模型的河道汇流过程模拟[J]. 地球信息科学学报, 2017, 19(7): 880-885. |
[9] | 马世发, 裴新生, 姚凯, 胡国华. 基于生态空间胁迫的大都市区增长情景模拟[J]. 地球信息科学学报, 2017, 19(1): 20-27. |
[10] | 林浩嘉, 赵耀龙. 城市快速扩张驱动下的耕地演化模拟与预测——以广东省东莞市为例[J]. 地球信息科学学报, 2016, 18(4): 493-505. |
[11] | 陈建华, 涂文洋. 网络化地理空间的元胞自动机群体时空格局仿真模型研究[J]. 地球信息科学学报, 2016, 18(2): 167-174. |
[12] | 裴凤松, 黎夏, 刘小平, 夏庚瑞. 城市扩张驱动下植被净第一性生产力动态模拟研究——以广东省为例[J]. 地球信息科学学报, 2015, 17(4): 469-477. |
[13] | 马世发, 艾彬, 赵克飞. 一种考虑空间增长潜力的城市扩张灰度CA模型与应用[J]. 地球信息科学学报, 2014, 16(5): 727-734. |
[14] | 张美美, 张荣群, 郝晋珉, 艾东. 基于ANN-CA的银川平原湿地景观演化驱动力情景模拟分析[J]. 地球信息科学学报, 2014, 16(3): 418-425. |
[15] | 柯新利, 邓祥征. 内嵌空间聚类算法的分区地理元胞自动机建模与应用[J]. 地球信息科学学报, 2010, 12(3): 365-371. |
|