地球信息科学学报 ›› 2021, Vol. 23 ›› Issue (8): 1372-1381.doi: 10.12082/dqxxkx.2021.200566
徐召华1(), 诸云强2,3,*(
), 宋佳2,3, 孙凯2,4, 王曙2
收稿日期:
2020-09-29
修回日期:
2020-12-23
出版日期:
2021-08-25
发布日期:
2021-10-25
通讯作者:
诸云强
作者简介:
徐召华(1995— ),女,山东聊城人,硕士生,研究方向为地理知识融合和地学数据共享。E-mail: xuzhaohua2020@163.com
基金资助:
XU Zhaohua1(), ZHU Yunqiang2,3,*(
), SONG Jia2,3, SUN Kai2,4, WANG Shu2
Received:
2020-09-29
Revised:
2020-12-23
Online:
2021-08-25
Published:
2021-10-25
Contact:
ZHU Yunqiang
Supported by:
摘要:
地理知识库是地理实体及其相互间关系的集合,对于智能搜索、问答、推荐等知识服务有重要的支撑作用。然而,已有的地理知识库由于来源、形式、构建者等的不同,在实体地名、空间位置、类别等方面存在“同义异形”和“同形异义”的语义异构现象,影响了地理知识库间的知识融合与共享。语义对齐是解决语义异构的一种有效方法,其中实体类别对齐是语义对齐的基础,对于提高实体地名和空间位置的对齐精度具有重要作用。现有的实体类别对齐方法主要采用传统的字符相似度和结构相似度等来度量类别的相似度,无法捕捉实体类别深层次的语义相关性,从而影响了类别对齐的精确性。因此,本文提出了一种基于词嵌入的地理实体类别对齐方法,采用词嵌入模型从语料中学习实体类别的语义信息,并通过词向量来表达,以此弥补现有方法存在的缺失,进而提升实体对齐精度。进一步地,通过通用语料与地理信息语料的融合,本文实现了词嵌入模型所用语料在地理语义方面的增强,从而更精准地度量地理实体类别间的相关性。不同地理知识库实体类别对齐的实验表明,本文提出的方法能够有效捕捉地理实体类别的深层次语义信息,其实体类别对齐的调和平均值(Fl)可达0.9568,有效提高了实体类别的对齐精度。
徐召华, 诸云强, 宋佳, 孙凯, 王曙. 基于词嵌入的地理知识库实体类别对齐方法研究[J]. 地球信息科学学报, 2021, 23(8): 1372-1381.DOI:10.12082/dqxxkx.2021.200566
XU Zhaohua, ZHU Yunqiang, SONG Jia, SUN Kai, WANG Shu. Word Embedding-based Method for Entity Category Alignment of Geographic Knowledge Base[J]. Journal of Geo-information Science, 2021, 23(8): 1372-1381.DOI:10.12082/dqxxkx.2021.200566
表4
基于通用语料获取的地理实体类别词向量(100维)
实体类别 | 词向量 |
---|---|
oasis | -0.580 40, 0.148 84, -0.454 19, -0.300 85, -0.554 18, -0.018 43, 0.351 84, 0.408 83, -0.404 40… |
park | -1.095 60, -0.155 51, -0.972 22, -1.818 40, -0.598 84, 0.344 45, -0.099 34, 1.859 00, 0.853 13… |
administrative | 0.066 86, -0.268 48, -3.086 20, 0.268 34, 0.436 32, -0.222 43, 3.822 60, 0.232 78, 0.286 44… |
coalfield | -0.165 19, -0.702 90, -0.065 52, 0.517 61, 0.911 22, -1.699 70, -0.621 05, 0.115 77, 0.970 76… |
sea | 0.430 72, 0.001 32 0.017 85, -0.515 49, -0.544 66, -0.251 15, -0.376 32, 0.409 69, 0.070 36… |
port | 3.260 20, 0.402 33, -0.378 02, 0.746 37, -0.283 72, -3.044 60, -0.688 62, 0.387 26, 0.226 82 … |
zone | -0.342 23, -0.023 63, 0.070 36, 0.640 23, -0.023 48, -3.332 00, -0.204 02, -0.236 04, 0.423 27… |
gasfield | 0.557 30, -0.371 48, 0.221 42, -0.185 06, -0.058 73, -0.036 90, -0.585 59, 0.514 58, -0.128 90… |
stream | 0.062 51, 0.973 83, 1.863 10, -0.659 92, 0.014 52, -0.326 38, -0.071 11, -0.182 26, -0.431 97… |
表6
基于通用语料库与地理信息语义增强语料库的实体类别对齐结果(200维)
序号 | 基于通用语料库计算的相似度 | 序号 | 基于地理信息语义增强语料库的相似度 | ||||
---|---|---|---|---|---|---|---|
| | s | | | s | ||
1 | wells | blowhole | 0.6355 | 1 | wells | spring | 0.9127 |
2 | caldera | peak | 0.6187 | 2 | caldera | volcano | 0.9187 |
3 | islet | island | 0.9345 | 3 | islet | island | 0.9864 |
4 | channel | bay | 0.6561 | 4 | channel | strait | 0.8548 |
5 | oilfield | farmland | 0.2718 | 5 | oilfield | fuel | 0.6744 |
6 | field(s) | greenfield | 0.4481 | 6 | field(s) | meadow | 0.9133 |
7 | promenade | path | 0.7213 | 7 | promenade | corridor | 0.8691 |
8 | swamp | wetland | 0.9376 | 8 | swamp | moor | 0.9835 |
9 | sill | ridge | 0.6755 | 9 | sill | stone | 0.7591 |
10 | portage | transport | 0.8366 | 10 | portage | transport | 0.9185 |
11 | gulf | coastline | 0.5738 | 11 | gulf | bay | 0.9313 |
12 | area | range | 0.8746 | 12 | area | district | 0.9218 |
13 | harbor(s) | bay | 0.7312 | 13 | harbor(s) | port | 0.9865 |
14 | watercourse | waterway | 0.8067 | 14 | watercourse | waterway | 0.9822 |
15 | desert | dune | 0.8367 | 15 | desert | sand | 0.9763 |
… | … | … | … | … | … | … | … |
[1] | 诸云强, 孙九林, 廖顺宝, 等. 地球系统科学数据共享研究与实践[J]. 地球信息科学学报, 2010, 12(1):1-8. |
[Zhu Y Q, Sun J L, Liao S B, et al. Earth system scientific data sharing research and practice[J]. Journal of Geo-information Science, 2010, 12(1):1-8. ] | |
[2] | 闾国年, 俞肇元, 周良辰, 等. 地理实体分类与编码体系的构建[J]. 现代测绘, 2019, 42(1):1-6. |
[Lü G N, Yu Z Y, Zhou L C, et al. Construction of geographical entity classification and coding system[J]. Modern Surveying and Mapping, 2019, 42(1):1-6. ] | |
[3] | 罗斌. 关于维基百科中的实体类别推断方法的研究[D]. 南京:东南大学, 2017. |
[Luo B. Reaserch on the approach of entity type inference in wikipedia[D]. Nanjing: Southeast University, 2017. ] | |
[4] |
Sun K, Zhu Y, Song J. Progress and challenges on entity alignment of geographic knowledge bases[J]. ISPRS International Journal of Geo-information, 2019, 8(2):77.
doi: 10.3390/ijgi8020077 |
[5] | 王汀, 高迎, 刘经纬. 一种面向中文本体模式的本体对齐框架[J]. 数据分析与知识发现, 2017, 1(2):47-57. |
[Wang T, Gao Y, Liu J W. An ontology alignment framework for Chinese ontology pattern[J]. Data Analysis and Knowledge Discovery, 2017, 1(2):47-57. ] | |
[6] | 俞婷婷, 徐彭娜, 江育娥, 等. 基于改进的Jaccard系数文档相似度计算方法[J]. 计算机系统应用, 2017, 26(12):137-142. |
[Yu T T, Xu P N, Jiang Y E, et al. Text similarity method based on the improved Jaccard coefficient[J]. Computer Systems & Applications, 2017, 26(12):137-142. ] | |
[7] | 尹康银, 宋自林, 乔可春, 等. 基于树结构RDF闭包生成算法研究[J]. 系统仿真学报, 2008, 20(4):1072-1075,1079. |
[Yin K Y, Song Z L, Qiao K C, et al. Generating closure of RDF source based on tree structure[J]. Journal of System Simulation, 2008, 20(4):1072-1075,1079. ] | |
[8] | 姜华, 韩安琪, 王美佳, 等. 基于改进编辑距离的字符串相似度求解算法[J]. 计算机工程, 2014, 40(1):222-227. |
[Jiang H, Han A Q, Wang M J, et al. Solution algorithm of string similarity based on improved levenshtein distance[J]. Computer Engineering, 2014, 40(1):222-227. ] | |
[9] | 于永彦. 基于Jaccard距离与概念聚类的多模型估计[J]. 计算机工程, 2012, 38(10):22-26. |
[Yu Y Y. Multi-model estimation based on Jaccard distance and concept clustering[J]. Computer Engineering, 2012, 38(10):22-26. ] | |
[10] | 徐爽, 张谦, 李琰, 等. 基于距离类别的多源兴趣点融合算法[J]. 计算机应用, 2018, 38(5):118-122. |
[Xu S, Zhang Q, Li Y, et al. Multi-source point of interest fusion algorithm based on distance and category[J]. Journal of Computer Applications, 2018, 38(5):118-122. ] | |
[11] | 江铭虎. 自然语言处理[M]. 北京: 高等教育出版社, 2007. |
[Jiang M H. Natural language processing[M]. Beijing: Higher Education Press, 2007. ] | |
[12] | Rummelhart D E, Hinton G E, Williams R J. Learning internal representations by error propagation[J]. Readings in Cognitive Science, 1988, 323(2):399-421. |
[13] | 邓晓衡, 杨子荣, 关培源. 一种基于词义和词频的向量空间模型改进方法[J]. 计算机应用研究, 2019, 36(5):1390-1395. |
[Deng X H, Yang Z R, Guan P Y, et al. Method based on word meaning and word frequency to improve vector space model[J]. Application Research of Computers, 2019, 36(5):1390-1395. ] | |
[14] |
Santos R, Murrieta-Flores P, Calado P, et al. Toponym matching through deep neural networks[J]. International Journal of Geographical Information Science, 2017, 32(2):324-348.
doi: 10.1080/13658816.2017.1390119 |
[15] | By X U, Boran Z. Corpus-based contrastive studies on the causal conjunctions in EnglishChinese classics[J]. Foreign Language Teaching and Research, 2006, 38(4):292-296. |
[16] | 赵飞, 周涛, 张良, 等. 维基百科研究综述[J]. 电子科技大学学报, 2010, 39(3):321-334. |
[Zhao F, Zhou T, Zhang L, et al. Research progress on Wikipedia[J]. Journal of University of Electronic Science and Technology of China, 2010, 39(3):321-334. ] | |
[17] | Weld D S, Hoffmann R, Wu F. Using Wikipedia to bootstrap open information extraction[J]. Acm Sigmod Record, 2009, 37(4):62-68. |
[18] | Wikipedia Cprpus[DB/OL]. https://dumps.wikimedia.org/enwiki/, 2019- 6- 7 |
[19] | Corpus of Contemporary American English[DB/OL]. https://www.english-corpora.org/coca/, 2019- 8- 16 |
[20] | Alexandria Digital Library[EB/OL]. http://legacy.alexandria.ucsb.edu/, 2019- 10- 11 |
[21] | GeoNames[EB/OL]. http://www.geonames.org/export/codes.html, 2019- 11- 14 |
[22] | OpenStreetMap[EB/OL]. https://wiki.openstreetmap.org/wiki/Map_Features, 2019- 12- 21 |
[23] | Feng S, Liu R, Wang Q, et al. Word distributed representation based text clustering[C]. 2014 IEEE International Conference on Cloud Computing and Intelligence Systems, 2014:389-983. |
[24] | Bai X, Cao H, Zhao T. Improving vector space word representations via kernel canonical correlation analysis[J]. Acm Transactions on Asian Language Information Processing, 2018, 17(4):1-16. |
[25] | 徐帆. Word Embedding方法的研究及应用[D]. 沈阳:沈阳航空航天大学, 2018. |
[Xu F. Research and application of the word embedding method[D]. Shenyang: Shenyang Aerospace University, 2018. ] | |
[26] | Sutskever I, Vinyals O, Le Q V. Sequence to sequence learning with neural networks[J]. Advances in Neural Information Processing Systems, 2014, 27:3104-3112. |
[27] | Levy O, Goldberg Y. Neural word embedding as implicit matrix factorization[J]. Advances in Neural Information Processing Systems, 2014, 3:2177-2185. |
[28] | Pennington J, Socher R, Manning C. Glove: Global vectors for word representation[C]. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, 2014:1532-1543. |
[29] | Saidani A, Kacem A, Belaid A. Co-occurrence matrix of oriented gradients for word script and nature identification[C]. International Conference on Document Analysis and Recognition, 2015:16-20. |
[30] | Couso, Inés, Sánchez L. Machine learning models, epistemic set-valued data and generalized loss functions: An encompassing approach[J]. Information Sciences, 2016, 358:129-150. |
[31] | Duchi J C, Hazan E, Singer Y. Adaptive subgradient methods adaptive subgradient methods for online learning and stochastic optimization[J]. Journal of Machine Learning Research, 2011, 12(7):2121-2159. |
[32] | 刘瑞元. 加权欧氏距离及其应用[J]. 数理统计与管理, 2002, 21(5):17-19. |
[Liu R Y. Euclid distance with weight and its applications[J]. Journal of Applied Statistics and Management, 2002, 21(5):17-19. ] | |
[33] | 张振亚, 王进, 程红梅, 等. 基于余弦相似度的文本空间索引方法研究[J]. 计算机科学, 2005, 32(9):160-163. |
[Zhang Z Y, Wang J, Cheng H M, et al. An approach for spatial index of text information based on cosine similarity[J]. Computer Science, 2005, 32(9):160-163. ] | |
[34] | 苏佳林, 王元卓, 靳小龙, 等. 融合语义和结构信息的知识图谱实体对齐[J]. 山西大学学报(自然科学版), 2019, 42(1):23-30. |
[Su J L, Wang Y Z, Jin X L, et al. Knowledge graph entity alignment with semantic and structural information[J]. Journal of Shanxi University (Natural Science Edition), 2019, 42(1):23-30. ] | |
[35] |
Shvaiko P, Euzenat, Jérôme. Ontology matching: State of the art and future challenges[J]. IEEE Transactions on Knowledge and Data Engineering, 2013, 25(1):158-176.
doi: 10.1109/TKDE.2011.253 |
[1] | 陈晓玲, 唐丽玉, 胡颖, 江锋, 彭巍, 冯先超. 基于ALBERT模型的园林植物知识实体与关系抽取方法[J]. 地球信息科学学报, 2021, 23(7): 1208-1220. |
[2] | 江岭, 高辰, 韩枭, 孙亚婕, 赵明伟, 杨灿灿. 面向多分辨率DEM的河网相似性测度与分析[J]. 地球信息科学学报, 2021, 23(4): 576-583. |
[3] | 李锐, 石佳豪, 董广胜, 刘朝辉. 多粒度时空对象组成结构表达研究[J]. 地球信息科学学报, 2021, 23(1): 113-123. |
[4] | 刘俊楠, 刘海砚, 陈晓慧, 郭漩, 郭文月, 朱新铭, 赵清波. 面向多源地理空间数据的知识图谱构建[J]. 地球信息科学学报, 2020, 22(7): 1476-1486. |
[5] | 高嘉良,余丽,仇培元,陆锋. 基于通用知识库的地理实体开放关系过滤方法[J]. 地球信息科学学报, 2019, 21(9): 1392-1401. |
[6] | 郭文月, 刘海砚, 孙群, 余岸竹, 陈焕新. 面向区域增量更新的等高线群混合相似性度量模型[J]. 地球信息科学学报, 2019, 21(2): 147-156. |
[7] | 洪必文, 曹青, 张翎, 龙毅, 寇萱. 基于自然语言形态描述的地理实体模拟表达方法[J]. 地球信息科学学报, 2019, 21(10): 1491-1501. |
[8] | 王姬卜, 陆锋, 吴升, 余丽. 基于自动回标的地理实体关系语料库构建方法[J]. 地球信息科学学报, 2018, 20(7): 871-879. |
[9] | 叶鹏, 张雪英, 杜咪. 顾及字符特征的中文地名词典查询方法[J]. 地球信息科学学报, 2018, 20(7): 880-886. |
[10] | 朱菁玮, 方志祥, 杨喜平, 尹凌. 城市邻近基站间人群流动时空变化同步性分析[J]. 地球信息科学学报, 2018, 20(6): 844-853. |
[11] | 曹青, 洪必文, 张翎, 阮陵, 龙毅. 基于自然语言空间关系描述的地图近似表达方法[J]. 地球信息科学学报, 2018, 20(11): 1541-1549. |
[12] | 陈祖刚, 杨雅萍. 耦合尺度的地理实体空间相关度算法的建立与应用[J]. 地球信息科学学报, 2018, 20(1): 37-47. |
[13] | 于天星, 李锐, 吴华意. 面向对象的地理实体时空位置多粒度表达[J]. 地球信息科学学报, 2017, 19(9): 1208-1216. |
[14] | 孙凯, 诸云强, 潘鹏, 罗侃, 王东旭, 侯志伟. 形态本体及其在地理空间数据发现中的应用研究[J]. 地球信息科学学报, 2016, 18(8): 1011-1021. |
[15] | 仇培元, 陆锋, 张恒才, 余丽. 蕴含地理事件微博客消息的自动识别方法[J]. 地球信息科学学报, 2016, 18(7): 886-893. |
|