地理空间分析综合应用

一种融合文本中地理位置和土地利用/覆被信息的野生动物活动细粒度定位方法

  • 尹文萍 , 1, 2 ,
  • 高宸 3 ,
  • 樊辉 , 1, 2, * ,
  • 谢菲 1, 2 ,
  • 张鑫 1, 2
展开
  • 1.云南大学国际河流与生态安全研究院,昆明 650091
  • 2.云南省国际河流与跨境生态安全重点实验室,昆明 650091
  • 3.云南大学信息学院,昆明 650091
* 樊 辉(1972—),男,江西修水人,博士,研究员,主要从事高原山地资源环境遥感、地理大数据与智慧流域、土 地变化及其生态效应等方面研究。E-mail:

尹文萍(1997—),女,山东莱阳人,硕士生,主要从事地理文本挖掘研究。E-mail:

收稿日期: 2021-10-18

  修回日期: 2021-11-17

  网络出版日期: 2022-09-25

基金资助

国家自然科学基金项目(41971239)

第二次青藏高原综合科学考察研究(2019QZKK0402)

A Novel Method for Fine-Grained Geolocation of Wildlife Activities by Integrating Geographical Information and Land Use/Cover in Texts

  • YIN Wenping , 1, 2 ,
  • GAO Chen 3 ,
  • FAN Hui , 1, 2, * ,
  • XIE Fei 1, 2 ,
  • ZHANG Xin 1, 2
Expand
  • 1. Institute of International Rivers and Eco-Security, Yunnan University, Kunming 650091, China
  • 2. Yunnan Key Laboratory of International Rivers and Transboundary Eco-security, Yunnan University, Kunming 650091, China
  • 3. School of Information Science and Engineering, Yunnan University, Kunming 650091, China
* FAN Hui, E-mail:

Received date: 2021-10-18

  Revised date: 2021-11-17

  Online published: 2022-09-25

Supported by

National Natural Science Foundation of China(41971239)

Second Tibetan Plateau Scientific Expedition and Research Program(2019QZKK0402)

摘要

文本蕴含大量地理位置描述信息,有效融合地理关联信息以实现文本的精细定位是地理信息服务的难点。本文提出一种融合土地利用/覆被信息的描述地理位置的细粒度定位方法:在文本描述地理关联信息(地理位置实体、土地利用/覆被实体与空间关系)抽取、土地利用/覆被精细分类与地理位置粗粒度匹配定位的基础上,使用自然语言空间关系近似转换模型,确定地理位置的细粒度定位范围;基于土地利用/覆被实体及其周边精细分类信息,在该范围内检索匹配,确定地理位置的细粒度定位坐标。本文以野生亚洲象活动/肇事监测文本为例开展实验,并用匹配率与位置精度评价定位质量,结果表明:本文方法显著提升了地理位置的细粒度定位质量,实验精确匹配率(81.51%)、位置误差距离的均值(65.97 m)及其≤50 m的比例(70.50%)均优于国内主流在线地理编码与地名检索服务结合空间关系或其单独使用结果。该方法有助于完善地理位置定位方法体系、提升地理信息空间化质量,并可服务于野生动物活动/肇事监测预警等精细定位任务。

本文引用格式

尹文萍 , 高宸 , 樊辉 , 谢菲 , 张鑫 . 一种融合文本中地理位置和土地利用/覆被信息的野生动物活动细粒度定位方法[J]. 地球信息科学学报, 2022 , 24(7) : 1363 -1374 . DOI: 10.12082/dqxxkx.2022.210641

Abstract

Text data contain rich geographic information. How to mine and spatialize the geographic information embedded in text data through linking the geographic location text with its spatial location in the real world is fundamental for utilizing geographic information. However, as the semantic granularity of geographic location in texts is too raw to be directly used in most cases. It becomes a major challenge for geographic knowledge services to achieve fine-grained geolocation of texts by effectively integrating geographical information with other related features such as land use/cover. The existing geolocation methods, including geocoding, place name retrieval, and fuzzy area modeling, have been widely used to decode non-urban geographic location texts without considering land use/cover information. These methods usually failed to precisely extract geolocation in texts on wildlife activities. In this study, we proposed a fine-grained geolocation method through the inclusion of land use/cover information in texts on wildlife activities. This method employed a natural language spatial relationship approximation conversion model to determine a fine-grained geolocation domain by integrating geographically relevant information (including geographic location entities, land use/cover entities, and spatial relationships), fine classification of land use/cover, and coarse-grained matching geolocation. The coordinates of fine-grained geolocation were determined by iteratively searching and matching within the fine-grained geolocation domain by combining the natural language form of land use/cover entities and fine land use/cover classification map. Our experiments were conducted using texts information of the wild Asian elephants' activities/accidents occurred in southern Yunnan Province of China. The quality of geolocation in the experiments was evaluated using matching level and location accuracy. The results show that the method proposed here can soundly mine fine-grained geolocation of texts on wild Asian elephants' activities/accidents. By mining and analyzing the texts on Asian elephants' activities/accidents in an area with frequent human-elephant conflict in 2020, fine-grained geolocation of the examined Asian elephants' activities/accidents was accurately extracted. Compared with the domestic mainstream online geocoding and place name retrieval services with or without considering spatial relationships, the proposed method greatly improved the quality of fine-grained geolocation. The exact matching ratio of experimental location points reached to 81.51%, and the mean value of the location error distance between location points and real points was 65.97 m, with a proportion of the location error distance below 50 m of 70.50%. The significant outperformance of this method in mining and spatializing geographic information of texts on Asian elephants' activities/accidents sheds new light on wildlife monitoring and early warning, and human-wildlife conflict emergency management based on the fine-grained geolocation derived from multi-media texts on wildlife activities.

1 引言

地理信息的持续泛化使得知识服务成为地理信息系统(Geographic Information System,GIS)的终极目标,实现此目标依赖于精细语义粒度的地理信息[1-2]。来源于人工监测、新闻媒体与社交媒体等渠道的文本数据内蕴含精细粒度的地理语义,已成为地理信息获取与更新的重要数据源和用户发布、传递与接收地理信息的重要方式[3]。但因异构文本中地理位置的模糊性、异质性与语义粒度差异,深度挖掘文本数据中的地理位置信息,并实现空间定位成为地理知识服务的难点与重点[1,3]
相关学者围绕文本中地理位置的空间定位开展了大量研究,发展出地理编码[4-6]、地名检索[6-7]与模糊区域建模定位[3,8-15](细分为认知实验法、共现地名密度法与空间关系转换法)等方法。其中,地理编码与地名检索服务在城市区定位效果较好,但在地名地址词典与数据库不够完备的地区定位效果不佳,且高德、腾讯、百度等地图平台提供的地理编码与地名检索服务质量各异,难以基于此快速获取最优定位结果[5-6]。在大数据时代下,认知实验定位在内的社会感知方法由依赖主观性强、样本量小的访谈数据,发展为使用OSM(OpenStreetMap)路网、兴趣点与社交媒体等众源地理数据[8-9],类似地,共现地名密度法如今也多基于众源地理数据,并借助共现地名之间的空间相关性实现定位[10-11],但受制于众源地理数据冗余而不完整、区域分布不均等,它们在非城市区定位效果均不佳[3,10-11]。空间关系转换法基于文本空间关系与地理位置的模拟表达实现定位,其定位效果取决于空间关系抽取模型的精度[12-14],但受制于中文文本关系抽取的固有难度[16],仅基于地理位置与空间关系信息而不考虑其他地理关联信息,难以满足特定任务的精细定位需求[3]。可见,现有方法主要针对城市区未涉及土地利用/覆被信息的一般性地理位置,且仅使用位置文本本身或结合空间关系实现定位。而诸如野生动物活动/肇事报道或通告往往涉及词典与数据库不存在的土地利用/覆被信息,且因野生动物通常活动在众源地理数据稀缺的非城市区,导致现有方法在此类应用场景的定位质量较差。融合土地利用/覆被信息能否提升此类文本中地理位置的定位质量,目前尚缺乏量化研究。
人与野生动物之间的冲突即“人兽冲突”(Human-Wildlife Conflict, HWC)已成为世界野生动物保护中最严峻的挑战[17-19]。据统计,2011年以来,西双版纳州共发生野生亚洲象肇事6147起,受损 60 431户,造成人员伤亡68起[20];三江源地区人兽冲突导致户均损失高达2.8万元[19]。为应对人兽冲突,许多监测预警系统被研发,如云南省“西双版纳亚洲象预警平台”和“江城野象预警系统”、黑龙江省和吉林省“野生动物人工智能大数据实时监测平台”,以动态、实时了解野生动物与人类定居点的相对位置,避免人兽冲突发生[20]。目前,掌握野生动物行踪最有效的措施多为无人机辅助人工监测,并发布文本形式预警信息,从中获取精确的定位信息对提升监测预警效果和应急管理效益至关重要。因此,本文以野生亚洲象活动/肇事监测文本为例,研发出顾及文本中土地利用/覆被信息的地理位置细粒度定位方法,实现野生动物活动/肇事等文本中地理位置的精细定位。

2 研究方法

融合文本中地理位置和土地利用/覆被信息的亚洲象活动/肇事细粒度定位方法(图1)包括:① 获取野生亚洲象活动/肇事精细地理位置文本并清洗;② 采用命名实体识别模型与关系抽取模型,抽取文本所蕴含的地理位置实体(LOC)、土地利用/覆被实体(LUC)与空间关系(方向关系、距离关系与拓扑关系);③ 基于高空间分辨率遥感影像,精确识别实验区内土地利用/覆被类型;④ 结合自建实验区地名词典匹配完成地理位置实体的粗粒度(村委会/寨组级)定位;⑤ 利用自然语言空间关系近似转换模型,结合步骤②和④所得的空间关系和粗粒度定位结果,确定地理位置实体的细粒度定位范围,再基于步骤②和③的结果进行土地利用/覆被信息检索匹配,确定地理位置实体的细粒度定位坐标。
图1 融合文本中地理位置和土地利用/覆被信息的细粒度定位流程

Fig. 1 Flow chart for fine-grained geolocation by integrating geographical information and land use/cover in texts

2.1 地理关联信息抽取

2.1.1 地理关联实体提取

基于小规模数据集,选用条件随机场(Conditional Random Field, CRF)结合自然语言空间关系描述的句法模式[21-22],抽取出文本中自然语言形式的地理位置实体、土地利用/覆被实体与空间关系。条件随机场是在最大熵模型(Maximum Entropy Model, MEM)和隐马尔可夫模型(Hidden Markov Model, HMM)的基础上产生的[21-25],其解决了隐马尔可夫链在重叠和非独立特征上的困难[23-25],已被用于分词[22,25]、命名实体识别[21,24,26]和关系抽取[21,27-30]等任务。
因分词质量直接影响实体及关系抽取效果[16,22,25,31],在HanLP(Han Language Processing)内置词典的基础上,本文结合实验文本、实验区地名与土地利用/覆被类型先验知识及相关网络资料爬取,建立适合实验区的自定义词典,完成规范化后的实验文本的分词及词性标注;并将文本分词语料转为条件随机场提取实体所需的{B, M, E, S}标注语料,其中,B表示实体首字,M表示实体中字,E表示实体尾字,S表示单字。基于词特征、词性特征以及外部词典特征,构建并训练条件随机场[26],用于识别测试集中的乡镇、村寨组等地理位置实体与林地、道路等土地利用/覆被实体,并评价模型精度。对全部实体识别结果进行人工检查与修正,整理为地理实体名称词典,应用于空间关系抽取。

2.1.2 空间关系信息抽取

使用开源自然语言处理平台GATE(General Architecture for Text Engineering)对分词语料库进行空间关系信息标注,进而构建方向关系词典、距离关系词典和拓扑关系词典[22]。根据实验文本中空间关系的表达特点,总结自然语言空间关系描述的句法模式,即用于匹配句子中语言结构的语法规则[22],例如,{方向关系句法模式:[地理位置实体]+方向关系词+[土地利用/覆被实体]+[后缀]}、{距离关系句法模式:[地理位置实体]+[前缀]+约数+长度单位+[后缀]+[土地利用/覆被实体]}、{拓扑关系句法模式:[前缀词]+[地理位置实体]+拓扑关系词+[土地利用/覆被实体]+[后缀]}。将空间关系信息标注语料映射为综合空间关系句法模式以及实体类型、词性特征、词典特征的集合[22,27];据此构建并训练条件随机场,用于识别测试集中的空间关系,并评价模型精度。

2.1.3 土地利用/覆被精细分类信息获取

实地调查了解到,实验区土地利用/覆被类型主要包括林地、茶园、水体、建筑用地、道路、甘蔗地与香蕉地,故选用高分二号(GF-2)卫星遥感影像目视解译分类结果作为土地利用/覆被精细分类的数据来源。具体为:结合实验区土地利用/覆被实地调查与《土地利用现状分类标准(GB/T 21010-2017)》[32],建立土地利用/覆被分类系统;进行高分二号影像全色与多光谱数据的辐射定标、大气校正、图像融合以及融合后的几何精校正等预处理后,参考Google EarthTM高空间分辨率影像,目视解译获取实验区土地利用/覆被精细分类图。

2.1.4 精度评价

使用精确率(Precision, P)、召回率(Recall, R)与调和平均数F1值(F1-Score, F1)评估训练后实体及关系抽取模型的性能[16]。借助2020年实验区实地调查与Google EarthTM高空间分辨率影像判读样本,采用基于混淆矩阵计算出的总体精度(Overall Accuracy, OA)、用户精度(User's Accuracy, UA)与制图精度(Producer's Accuracy, PA),以及Kappa系数(Kappa Coefficient)评价土地利用/覆被精细分类精度[32]

2.2 地理位置细粒度定位

2.2.1 地理位置粗粒度与细粒度定位

基于自建的实验区村委会/寨组级地名词典,借助坐标转换工具或程序[5,33],匹配完成地理位置实体名称标准化,以及WGS-84(World Geodetic System 1984)坐标系下规范的地理位置实体粗粒度定位。基于地理位置实体的粗粒度定位结果,结合抽取出的自然语言形式的空间关系信息,使用对应的自然语言空间关系近似转换模型[12-14],确定地理位置细粒度定位范围;继而,基于抽取出的自然语言形式的土地利用/覆被实体及其周边土地利用/覆被精细分类信息,在地理位置细粒度定位范围内进行检索匹配,确定地理位置细粒度定位坐标,具体步骤 (图2)为:① 读入抽取出的地理位置实体序列G G = G 1 , G 2 , , G N以及与之关联的土地利用/覆被实体序列L L = L 1 , L 2 , , L N、空间关系序列R R = R 12 , , R i j,默认G中实体的初始角色为目标物;② 读取当前目标实体 G m,判断LR集合中,是否具有与之关联的土地利用/覆被信息 L m与空间关系信息 R m,若是,则跳转下一步;若否,则直接输出其定位坐标;③ 分别从LR集合中读取当前目标实体 G m关联的土地利用/覆被实体 L m与空间关系记录 R m;④ 判断空间关系集合R中与 G m关联的空间关系记录数量,若仅有1条关联空间关系记录 R m,则基于地理位置实体 G m的粗粒度定位结果,使用 R m对应的自然语言空间关系近似转换模型,计算 G m位置范围,再结合步骤①所得 G m涉及的土地利用/覆被实体 L m及其周边的土地利用/覆被精细分类信息,进行检索与匹配,实现由 G m R m L m确定的这条地理位置细粒度定位;若 G m有多条关联空间关系记录 R m R n R l,则根据它们各自对应的自然语言空间关系近似转换模型,分别计算 G m位置范围,取其交集作为 G m最终定位范围,再结合步骤①所得 G m涉及的土地利用/覆被实体 L m及其周边的土地利用/覆被精细分类信息,进行检索与匹配,实现由 G m R m R n R l L m确定的这条地理位置细粒度定位。⑤ 整个流程使用Python语言编程匹配实现,最终输出各条地理位置文本在WGS-84坐标系下的细粒度定位坐标。
图2 融合文本中地理位置和土地利用/覆被信息的细粒度定位具体方法

Fig. 2 Detailed methods for fine-grained geolocation by integrating geographical information and land use/cover in texts

2.2.2 精度评价与异常定位点剔除

从定位匹配率与位置精度两方面评价地理位置细粒度定位质量,前者即地名地址匹配率,用于衡量原始地理位置经过检索匹配所得定位结果与其真实位置的契合程度[34],后者由位置误差距离即定位坐标与真实坐标之间的欧氏距离反映[6,34]。根据地理位置细粒度定位点的位置误差距离统计直方图,判断数据分布是否对称,若不对称,则可基于切比雪夫不等式,使用三倍标准差方法剔除异常定位点,即位置误差距离分布在μ±3σ范围内的定位点为正常点,超出则为异常点,予以剔除[34]
在同一亚洲象活动/肇事监测文本集,对比本文方法与已有定位方法:高德、腾讯、百度、多源地理编码与地名检索服务聚合[6](高德_G、腾讯_ G、百度_ G、多源_G)、及其结合空间关系[12-14](高德_S、腾讯_S、百度_S、多源_S)所得定位结果;采用Friedman秩和检验,对比WGS-84统一坐标系下的不同定位方式的匹配率与位置精度差异程度[33]

3 实验与分析

3.1 数据来源

选取的实验区为云南省普洱市澜沧县与西双版纳州勐海县的人象冲突典型区域(100°13'54"E—100°25'06"E, 22°13'14" N—22°24'14" N)。使用的数据包括实验区2020年亚洲象活动/肇事监测文本1650篇(约50万字),由亚洲象监测员提供,其中1000篇(约30万字)作为地理关联信息抽取的实验数据集;2020年8月27日与2020年9月16日的两景少云高分二号影像[35];实地调查的乡镇、村寨组等位置点、亚洲象频繁活动/肇事位置点、地理标记图片与土地利用/覆被样本;此外,还参考了Google EarthTM高空间分辨率影像。

3.2 地理关联信息抽取结果与精度

3.2.1 地理关联实体与空间关系信息

表1可知,经训练后,地理关联实体抽取模型的精确率、召回率与F1值均在82.4%以上。因实验文本涉及的方向关系(由基本的八方向指示词描述)、距离关系(由具体长度单位的定量描述,不涉及时间单位或“远”、“近”等概略描述)与拓扑关系(相邻、相离、相交与包含/包含于)的指示性描述相对固定且明晰,故空间关系抽取模型的精确率、召回率与F1值也相对较高,均在70.2%以上。
表1 实体及关系抽取精度

Tab. 1 Accuracies of extracted spatial entities and spatial relationships

抽取任务 精确率 召回率 F1值
地理关联实体 0.824 0.841 0.832
空间关系信息 0.702 0.717 0.709

3.2.2 土地利用/覆被精细分类信息

经目视解译,实验区共有2146个土地利用/覆被斑块(图3)。其中,林地350个、茶园269个、水体135个、建筑用地138个、道路274个、甘蔗地449个、香蕉地17个以及其他类型514个。
图3 实验区2020年土地利用/覆被精细分类

Fig. 3 Fine classification of land use/cover in the experimental area in 2020

表2表明,土地利用/覆被遥感分类的总体精度为98.36%,Kappa系数为97.73%。因实验区村间、田间道路不易分辨,导致道路类型的制图精度与用户精度较低,分别为82.62%与75.72%;其余地类的制图精度与用户精度均高于94%。
表2 实验区2020年土地利用/覆被精细分类精度

Tab. 2 Accuracy of land use/cover classification in the experimental area in 2020 (%)

土地利用/覆被类型 制图精度 用户精度
林地 99.03 99.16
茶园 98.47 99.33
水体 95.26 94.07
建筑用地 97.44 97.68
道路 82.62 75.72
甘蔗地 98.48 98.63
香蕉地 98.83 96.57
其他 98.50 98.83
总体精度 98.36
Kappa系数 97.73

3.3 地理位置细粒度定位结果与精度

3.3.1 定位结果

通过文本中地理位置的精细定位实验,确定360个不重复的亚洲象活动/肇事细粒度定位点(图4)。
图4 实验区2020年亚洲象活动/肇事细粒度定位

Fig. 4 Fine-grained geolocation of Asian elephants activities/accidents in the experimental area in 2020

实验文本中的地理位置示例 “黑山村小回进北面茶园”,其细粒度定位坐标为(100.287°, 22.380°);“黑山村小回进120米水塘”定位坐标为(100.345°, 22.248°);“亮山新寨与亮山老寨中间水塘”定位坐标为(100.297°, 22.370°)。文本中实体关系抽取及地理位置细粒度定位结果的简化示例如图5
图5 实体关系抽取及地理位置细粒度定位结果示例

Fig. 5 Example of entity relationship extraction and fine-grained geolocation

现有的亚洲象监测预警系统如西双版纳亚洲象预警APP(图6(a))只发布地理位置文本描述,缺少精细定位功能,鉴于此,封装本文定位方法,开发了包括亚洲象活动/肇事地理位置文本细粒度定位、查看亚洲象与自己所在位置的距离等功能的微信小程序(图6(b))。
图6 西双版纳亚洲象预警APP与微信小程序页面对比

Fig. 6 Window interface comparison of Xishuangbanna Asian elephant warning APP and WeChat Miniprogram

3.3.2 匹配率与位置精度

根据匹配程度,将定位结果分为精确匹配、模糊匹配与未匹配[34],此处精确匹配指匹配层级达到土地利用/覆被类型的定位结果,模糊匹配指匹配层级达到粗粒度(村委会/寨组级)的定位结果,其余归为未匹配。定位匹配率结果如图7(a)所示,本文方法与高德_S、腾讯_S、百度_S、多源_S能够实现部分实验文本的定位精确匹配,其精确匹配率分别为81.51%、38.29%、32.67%、30.54%、45.90%;而高德_G、腾讯_ G、百度_ G、多源_G无法实现实验文本的精确匹配。其中,地理编码与地名检索服务结合空间关系所得精确匹配定位结果,均基于蕴含距离关系、拓扑关系或多种关系的组合文本,简化示例如“有一头独象在距离黑山村平掌地北100米处活动”与“有一头独象在黑山村波陆老寨中间位置甘蔗地”,因空间关系在此类文本定位中具有重要指示性;而对于仅蕴含方向关系的文本如“象群在勐乃新寨正北甘蔗地肇事,致一人死亡”,仅考虑空间关系而不考虑土地利用/覆被信息,无法实现其精确匹配而只能实现粗匹配,即定位至村委会/寨组级地理位置。
图7 定位匹配率与位置精度区间分布对比

Fig. 7 Comparison of positioning match rate and position accuracy interval distribution among different methods

将计算出的位置误差距离划分为[0,50 m]、(50 m, 200 m]、(200 m, 500 m]、(500 m, 1000 m]和(1000 m, ∞)五级精度区间。只要地理位置细粒度定位点与真实点落在同一土地利用/覆被类型斑块,即将其定位精度归为[0, 50 m][6,34]。如图7(b)所示,剔除位置误差距离分布在μ±3σ范围外,即[-330.21 m, 518.53 m]范围外异常定位点后,本文方法得到定位点的位置误差距离均值为65.97 m,位置误差距离在[0, 50 m]范围内的比例为70.50%;高德_S、腾讯_S、百度_S、多源_S、高德_G、腾讯_ G、百度_ G、多源_G所得定位点的位置误差距离均值分别为271.0、296.7、317.7、205.6、440、452.5、470.3、389.5 m,所得定位点的位置误差距离在[0, 50 m]范围内的比例为40.84%、34.49%、30.24%、51.90%、19.63%、17.22%、15.00%、26.40%。
采用Friedman秩和检验计算各实验方式对同一亚洲象活动/肇事监测文本集的定位匹配率与位置精度差异程度(表3)。结果表明,本文方法与对比实验所得定位匹配率与位置精度均有显著性差异(p-value<<0.05),且本文方法所得秩均值均最小,说明定位匹配率最高,位置误差距离最小,即位置精度 最高[34]。因此,相较于已有的国内主流在线地理编码与地名检索服务结合空间关系转换法或其单独使用,本文方法明显提升了定位匹配率与位置精度。
表3 匹配率与位置精度的秩均值对比

Tab. 3 Rank-average comparison of matching rate and position accuracy among different methods

秩均值 本文方法 高德_S 腾讯_S 百度_S 多源_S 高德_G 腾讯_ G 百度_ G 多源_G
匹配率秩均值 3.67 5.00 5.33 5.67 4.33 5.50 5.83 5.17 4.50
位置精度秩均值 3.80 5.40 5.20 5.00 4.80 6.20 5.60 4.80 4.20

4 讨论

本文创新性地将野生动物活动/肇事等精细位置文本描述中涉及的土地利用/覆被信息应用于地理位置定位,即结合文本语义(地理位置实体、土地利用/覆被实体与空间关系)与土地利用/覆被精细分类图实现地理位置细粒度定位,相比于单独使用高德、腾讯、百度等国内主流在线地理编码与地名检索服务[5-6,34]或结合空间关系的定位结果[12-14],该方法能够有效消除异常匹配、提高精确匹配率与位置精度。未来若能从物理层、特征层或决策层[36],融合图片、视频和音频等更多模态语义特征[37-39],可进一步提升地理定位质量。
发展的新方法定位质量很大程度上依赖于土地利用/覆被分类数据的精度、空间分辨率及时效性。本文通过目视解译高空间分辨率影像获取高精度土地利用/覆被数据,较为费时费力且难以动态更新。近年来,全球土地利用/覆被产品时空分辨率不断提升,如FROM-GLC10[40]与ESA-WorldCover10[41]等,其空间分辨率可达10 m、时间分辨率可达逐年。但就亚洲象活动/肇事精细定位而言,要求土地利用/覆被分类数据达到甘蔗地、香蕉地等作物种类水平,这尚无法直接从目前的全球化产品中获取[42-43],但可结合高时间分辨率时序遥感数据将现有产品中的农地/耕地类型细分至作物种类,满足本文方法的快速推广与应用。此外,基于无人机和机载激光雷达等影像,使用面向对象及深度学习的分类方法已在精细农业中取得进展,也为土地利用/覆被精细分类提供了较好的数据源[44-45]。而对于东北虎豹、亚洲黑熊等其他野生动物活动定位,可能只需精细到植被种类水平的土地利用/覆被数据,目前已有的中国多时期土地利用土地覆被遥感监测数据集(CNLUCC)等高精度分类产品即可满足应用需求[46]。随着高时空分辨率遥感数据的指数级增长和智慧遥感制图技术的迅猛发展[47-48],未来综合利用国内外多源遥感数据、定量遥感产品、地形、气候等环境数据和社交媒体等非传统遥感数据,结合大数据驱动和大规模应用人工智能的多算法集成与样本时空迁移技术,高空间分辨率土地利用/覆被产品的时间频率或将达到每月甚至逐日水平,分类级别将精细到作物或植被种类,并具备按照新应用需求动态更新数据的能力[47-48],能够自适应用户对不同分类体系的需求[42-43],将为本文定位方法提供更好的数据支撑,促使方法具有更优的可推广性和普及性。

5 结论

现有定位方法主要适用于未涉及土地利用/覆被信息的非城市区地理位置文本,难以满足野生动物活动/肇事等文本中地理位置的精细定位需求。本文通过实体及关系抽取、地理位置实体粗粒度匹配定位、自然语言空间关系近似转换与检索匹配等方法,结合文本语义与土地利用/覆被精细分类信息,实现文本中地理位置的细粒度定位。以亚洲象活动/肇事监测文本为例开展定位实验,得出以下主要结论:
(1)本文提出的方法能够提升野生动物活动/肇事等精细文本的地理位置定位质量,实验定位精确匹配率与位置精度明显优于国内主流在线地理编码与地名检索服务结合空间关系或其单独使用所得定位结果,证明了融合地理位置和土地利用/覆被等多源互补信息对于提升细粒度定位质量的有效性,有助于完善地理定位方法体系。
(2)通过对2020年人象冲突典型区内亚洲象活动/肇事文本数据的挖掘分析,精准确定了涉及林地、茶园、水体、建筑用地、道路、甘蔗地或香蕉地土地利用/覆被类型的360个不重复的亚洲象活动/肇事细粒度定位点,所提方法可推广应用到野生动物活动/肇事监测预警等精细定位任务。
随着多模态深度学习和智慧遥感制图相关技术的发展,未来可探索更精细且多样化的模态特征表示,使用高精度、高时空分辨率的多源遥感数据实现精细化制图,将其应用于地理定位任务,从而进一步提升本文方法的定位质量与效率。
[1]
陆锋, 余丽, 仇培元. 论地理知识图谱[J]. 地球信息科学学报, 2017, 19(6):723-734.

DOI

[ Lu F, Yu L, Qiu P Y. On geographic knowledge graph[J]. Journal of Geo-information Science, 2017, 19(6):723-734. ] DOI: 10.3724/SP.J.1047.2017.00723

DOI

[2]
刘凯, 龙毅, 秦耀辰. 论地理信息的空间粒度[J]. 地理与地理信息科学, 2014, 30(1):8-12,17.

[ Liu K, Long Y, Qin Y C. On the spatial granularity of geographical information[J]. Geography and Geographical Information Science, 2014, 30(1):8-12,17. ] DOI: 10.7702/dlydlxxkx20140102

DOI

[3]
余丽, 陆锋, 张恒才. 网络文本蕴涵地理信息抽取:研究进展与展望[J]. 地球信息科学学报, 2015, 17(2):127-134.

DOI

[ Yu L, Lu F, Zhang H C. Extracting geographic information from web texts: Status and development[J]. Journal of Geo-information Science, 2015, 17(2):127-134. ] DOI: 10.3724/SP.J.1047.2015.00127

DOI

[4]
Melo F, Martins B. Automated geocoding of textual documents: A survey of current approaches[J]. Transactions in GIS, 2017, 21(1):3-38. DOI: 10.1111/tgis.12212

DOI

[5]
廖薇薇, 柳林, 周素红, 等. 多源在线地理编码服务分类优化模型[J]. 热带地理, 2018, 38(2):255-263.

DOI

[ Liao W W, Liu L, Zhou S H, et al. A model for optimizing Chinese addresses’ geocoding results from multiple map APIs based on clustering and classifying[J]. Tropical Geography, 2018, 38(2):255-263. ] DOI: 10.13284/j.cnki.rddl.003007

DOI

[6]
张弘弢, 肖炼, 周尧, 等. 多源在线地理编码与地名检索服务聚合方法[J]. 地理与地理信息科学, 2020, 36(4):1-7.

[ Zhang H T, Xiao L, Zhou Y, et al. Method for aggregating geocoding and toponymic POI search services from multiple map APIs[J]. Geography and Geo-Information Science, 2020, 36(4):1-7. ] DOI: 10.3969/j.issn.1672-0504.2020.04.001

DOI

[7]
De Rassenfosse G, Kozak J, Seliger F. Geocoding of worldwide patent data[J]. Scientific Data, 2019, 6(1):1-15. DOI: 10.1038/s41597-019-0264-6

DOI

[8]
王圣音, 高勇, 陆锋, 等. 场所模型及大数据支持下的场所感知[J]. 武汉大学学报·信息科学版, 2020, 45(12):1930-1941.

[ Gao Y, Lu F, et al. Place model and big geo-data supported place sensing[J]. Geomatics and Information Science of Wuhan University, 2020, 45(12):1930-1941. ] DOI: 10.13203/j.whugis20200491

DOI

[9]
刘瑜. 社会感知视角下的若干人文地理学基本问题再思考[J]. 地理学报, 2016, 71(4):564-575.

DOI

[ Revisiting several basic geographical concepts:A social sensing perspective[J]. Acta Geographica Sinica, 2016, 71(4):564-575. ] DOI: 10.11821/dlxb201604003

DOI

[10]
Gao S, Janowicz K, Montello D R, et al. A data-synthesis-driven method for detecting and extracting vague cognitive regions[J]. International Journal of Geographical Information Science, 2017, 31(6):1245-1271. DOI: 10.1080/13658816.2016.1273357

DOI

[11]
Chong W H, Lim E P. Fine-grained geolocation of tweets in temporal proximity[J]. ACM Transactions on Information Systems, 2019, 37(2):1-33. DOI: 10.1145/3291059

DOI

[12]
唐天琪, 曹青, 张翎, 等. 点线目标自然语言空间关系描述模拟表达方法研究[J]. 地球信息科学学报, 2018, 20(2):139-146.

DOI

[ Tang T Q, Cao Q, Zhang L, et al. Simulated expression method of spatial relationship of natural language of point, line and object[J]. Journal of Geo-information Science, 2018, 20(2):139-146. ] DOI: 10.12082/dqxxkx.2018.170296

DOI

[13]
曹青, 洪必文, 张翎, 等. 基于自然语言空间关系描述的地图近似表达方法[J]. 地球信息科学学报, 2018, 20(11):1541-1549.

DOI

[ Cao Q, Hong B W, Zhang L, et al. Map approximate expression method based on spatial relationship description in natural language[J]. Journal of Geo-information Science, 2018, 20(11):1541-1549. ] DOI: 10.12082/dqxxkx.2018.180288

DOI

[14]
洪必文, 曹青, 张翎, 等. 基于自然语言形态描述的地理实体模拟表达方法[J]. 地球信息科学学报, 2019, 21(10):1491-1501.

DOI

[ Hong B W, Cao Q, Zhang L, et al. Simulated expression of geographical entities based on morphology description by natural language[J]. Journal of Geo-information Science, 2019, 21(10):1491-1501. ] DOI: 10.12 082/dqxxkx.2019.190083

DOI

[15]
Kumar A, Singh J P. Location reference identification from tweets during emergencies: A deep learning approach[J]. International Journal of Disaster Risk Reduction, 2019, 33:365-375. DOI: 10.1016/j.ijdrr.2018.10.021

DOI

[16]
李冬梅, 张扬, 李东远, 等. 实体关系抽取方法研究综述[J]. 计算机研究与发展, 2020, 57(7):1424-1448.

[ Li D M, Zhang Y, Li D Y, et al. Review of entity relation extraction methods[J]. Journal of Computer Research and Development, 2020, 57(7):1424-1448. ] DOI: 10.7544/issn1000-1239.2020.20190358

DOI

[17]
Gross E, Jayasinghe N, Brooks A, et al. A future for all: The need for human-wildlife coexistence[R]. Switzerland:WWF, 2021.

[18]
Yin D, Yuan Z J, Li J, et al. Mitigate human-wildlife conflict in China[J]. Science, 2021, 373(6554):500-501. DOI: 10.1126/science.abj8766

DOI

[19]
Dai Y C, Hacker C E, Cao Y, et al. Implementing a comprehensive approach to study the causes of human-bear (Ursus arctos pruinosus) conflicts in the Sanjiangyuan region, China[J]. Science of the Total Environment, 2021, 772:145012. DOI: 10.1016/j.scitotenv.2021.145012

DOI

[20]
西双版纳发布. 防护并举和谐共生西双版纳有效化解人象冲突矛盾[EB/OL]. https://www.thepaper.cn/newsDetail_forward_10268743, 2020-12-04

[ Xishuangbanna released. Protection and harmony in Xishuangbanna: effective resolution of human-elephant conflicts[EB/OL]. https://www.thepaper.cn/newsDetail_forward_10268743, 2020-12-04. ]

[21]
阚琪. 基于条件随机场的命名实体识别及实体关系识别的研究与应用[D]. 北京: 北京交通大学, 2015.

[ Kan Q. Research and application of CRF named entity and entity relationships based on recognition[D]. Beijing: Beijing Jiaotong University, 2015. ]

[22]
郭丹. 自然语言空间信息标注及识别[D]. 武汉: 武汉大学, 2017.

[ Guo D. Marking and recognition of spatial information in natural language[D]. Wuhan: Wuhan University, 2017. ]

[23]
Lafferty J, McCallum A, Pereira F C N. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C]. Proceedings of the Eighteenth International Conference on Machine Learning. San Francisco: Morgan Kaufmann Publishers Inc, 2001:282-289. DOI: 10.1109/ICIP.2012.6466940

DOI

[24]
邬伦, 刘磊, 李浩然, 等. 基于条件随机场的中文地名识别方法[J]. 武汉大学学报·信息科学版, 2017, 42(2):150-156.

[ Liu L, Li H R, et al. A Chinese toponym recognition method based on conditional random field[J]. Geomatics and Information Science of Wuhan University, 2017, 42(2):150-156. ] DOI: 10.13203/j.whugis20141009

DOI

[25]
余本功, 范招娣. 面向自然语言处理的条件随机场模型研究综述[J]. 信息资源管理学报, 2020, 10(5):96-111.

[ Fan Z D. A review of conditional random field models for natural language processing[J]. Journal of Information Resources Management, 2020, 10(5):96-111. ] DOI: 10.13365/j.jirm.2020.05.096

DOI

[26]
Herwando R, Jiwanggi M A, Adriani M. Medical entity recognition using conditional random field (CRF)[C]. International Workshop on Big Data and Information Security. Jakarta: IEEE, 2017:57-62. DOI: 10.1109/IWBIS.2017.8275103

DOI

[27]
高俊平, 张晖, 赵旭剑, 等. 面向维基百科的领域知识演化关系抽取[J]. 计算机学报, 2016, 39(10):2088-2101.

[ Gao J P, Zhang H, Zhao X J, et al. Evolutionary relation extraction for domain knowledge in wikipedia[J]. Chinese Journal of Computers, 2016, 39(10):2088-2101. ] DOI: 10.11897/SP.J.1016.2016.02088

DOI

[28]
王明印. 开放式中文实体关系抽取研究[D]. 北京: 北京邮电大学, 2015.

[ Wang M Y. Research on Chinese open entity relation extraction[D]. Beijing: Beijing University of Posts and Telecommunications, 2015. ]

[29]
Liu C G, Yu Y L, Li X X, et al. Application of entity relation extraction method under CRF and syntax analysis tree in the construction of military equipment knowledge graph[J]. IEEE Access, 2020, 8:200581-200588. DOI: 10.1109/ACCESS.2020.3034894

DOI

[30]
Qiu J N, Xu L W, Zhai J, et al. Extracting causal relations from emergency cases based on conditional random fields[J]. Procedia Computer Science, 2017, 112:1623-1632.DOI: 10.1016/j.procs.2017.08.252

DOI

[31]
Yadav V, Bethard S. A survey on recent advances in named entity recognition from deep learning models[J]. arXiv preprint arXiv: 1910. 11470, 2019.

[32]
林丽, 樊辉, 金缘. 山区县域土地利用/覆被变化多尺度多模型模拟对比——以云南省勐腊县为例[J]. 山地学报, 2020, 38(4):630-642.

[ Lin L, Fan H, Jin Y. Multi-scale and multi-model simulation of land use/land cover change in the mountainous county: A case study of Mengla County in Yunnan Province, China[J]. Mountain Research, 2020, 38(4):630-642. ] DOI: 10.16089/j.cnki.1008-2786.000540

DOI

[33]
Wandergis. CoordTransform_py[DB/OL]. https://github.com/wandergis/coordTransform_py, 2020-05-13.

[34]
田沁, 巩玥, 亢孟军, 等. 国内主流在线地理编码服务质量评价[J]. 武汉大学学报·信息科学版, 2016, 41(10):1351-1358.

[ Tian Q, Gong Y, Kang M J, et al. A comparative evaluation of online geocoding services in China[J]. Geomatics and Information Science of Wuhan University, 2016, 41(10):1351-1358. ] DOI: 10.13203/j.whugis20140979

DOI

[35]
中国资源卫星应用中心. 高分二号[EB/OL]. http://www.cresda.com/CN/Satellite/3128.shtml, 2014-10-15.

[ ChinaCentre For Resources Satellite Data and Application. GF-2[EB/OL]. http://www.cresda.com/CN/Satellite/3128.shtml, 2014-10-15. ]

[36]
Gao J, Li P, Chen Z K, et al. A survey on deep learning for multimodal data fusion[J]. Neural Computation, 2020, 32(5):829-864. DOI: 10.1162/neco_a_01273

DOI

[37]
张广运, 张荣庭, 戴琼海, 等. 测绘地理信息与人工智能2.0融合发展的方向[J]. 测绘学报, 2021, 50(8):1096-1108.

[ Zhang G Y, Zhang R T, Dai Q H, et al. The direction of integration surveying and mapping geographic information and artificial intelligence 2.0[J]. Acta Geodaetica et Cartographica Sinica, 2021, 50(8):1096-1108. ] DOI: 10.11947/j.AGCS.2021.20210200

DOI

[38]
沈少青, 宫鹏, 程晓, 等. 陆生动物声音遥感:定位与误差分析[J]. 遥感学报, 2011, 15(6):1255-1275.

[ Shen S Q, Gong P, Cheng X, et al. Sound-based remote sensing of terrestrial animals: localization and error analysis[J]. Journal of Remote Sensing, 2011, 15(6):1255-1275. ] DOI: 10.3724/SP.J.1146.2010.00112

DOI

[39]
宫鹏. 对遥感科学应用的一点看法[J]. 遥感学报, 2019, 23(4):567-569.

[ Gong P. Towards more extensive and deeper application of remote sensing[J]. Journal of Remote Sensing, 2019, 23(4):567-569. ] DOI: 10.11834/jrs.20199223

DOI

[40]
Gong P, Liu H, Zhang M N, et al. Stable classification with limited sample: transferring a 30 m resolution sample set collected in 2015 to mapping 10 m resolution global land cover in 2017[J]. Science Bulletin, 2019, 64(6):370-373. DOI: 10.1016/j.scib.2019.03.002

DOI

[41]
Zanaga D, Van De Kerchove R, De Keersmaecker W, et al. ESA WorldCover 10 m 2020 v100[DB/OL]. DOI: 10.5281/zenodo.5571936, 2021-10-20.

DOI

[42]
Yu L, Wang J, Clinton N, et al. FROM-GC: 30 m global cropland extent derived through multisource data integration[J]. International Journal of Digital Earth, 2013, 6(6):521-533. DOI: 10.1080/17538947.2013.822574

DOI

[43]
宫鹏, 张伟, 俞乐, 等. 全球地表覆盖制图研究新范式[J]. 遥感学报, 2016, 20(5):1002-1016.

[ Zhang W, Yu L, et al. New research paradigm for global land cover mapping[J]. Journal of Remote Sensing, 2016, 20(5):1002-1016. ] DOI: 10.11834/jrs.20166138

DOI

[44]
Anderson J, Chamberlin J, Gonzalez L, et al. Alliance for a Data Revolution[R]. Colombia:CIAT, 2017.

[45]
Wei L F, Wang K, Lu Q K, et al. Crops fine classification in airborne hyperspectral imagery based on multi-feature fusion and deep learning[J]. Remote Sensing. 2021, 13(15):2917-2934. DOI: 10.3390/rs13152917

DOI

[46]
刘纪远, 宁佳, 匡文慧, 等. 2010-2015年中国土地利用变化的时空格局与新特征[J]. 地理学报, 2018, 73(5):789-802.

DOI

[ Liu J Y, Ning J, Kuang W H, et al. Spatio-temporal patterns and characteristics of land-use change in China during 2010-2015[J]. Acta Geographica Sinica, 2018, 73(5):789-802. ]DOI: 10.11821/dlxb201805001

DOI

[47]
刘涵, 宫鹏. 21世纪逐日无缝数据立方体构建方法及逐年逐季节土地覆盖和土地利用动态制图——中国智慧遥感制图iMap(China)1.0[J]. 遥感学报, 2021, 25(1):126-147.

[ Liu H. Gong P. 21st century daily seamless data cube reconstruction and seasonal to annual land cover and land use dynamics mapping-iMap (China) 1.0[J]. National Remote Sensing Bulletin, 2021, 25(1):126-147. ] DOI: 10.11834/jrs.20210580

DOI

[48]
宫鹏. 智慧遥感制图(iMap)[J]. 遥感学报, 2021, 25(2):527-529.

[ Gong P. Intelligent mapping with remote sensing, iMap[J]. National Remote Sensing Bulletin, 2021, 25(2):527-529. ] DOI: 10.11834/jrs.20211010

DOI

文章导航

/