Progress in Information Acquisition of Disaster Events from Web Texts

  • HAN Xuehua , 1, 2 ,
  • WANG Juanle , 1, 5, * ,
  • BU Kun 3 ,
  • WANG Yujie 1, 4
Expand
  • 1. State Key Laboratory of Resources and Environmental Information System, Institute of Geographic Sciences and Natural Resources Research, Chinese Academy of Sciences, Beijing 100101, China
  • 2. University of Chinese Academy of Sciences, Beijing 100049, China
  • 3. Northeast Institute of Geography and Agroecology, Chinese Academy of Sciences, Changchun 130102, China
  • 4.Shandong University of Technology, Zibo 255049, China
  • 5. Jiangsu Center for Collaborative Innovation in Geographical Information Resource Development and Application, Nanjing 210023, China
*Corresponding author: WANG Juanle, E-mail:

Received date: 2018-02-25

  Request revised date: 2018-03-31

  Online published: 2018-08-24

Supported by

China Academy of Engineering Disaster Risk Reduction Knowledge Service System, No.CKCEST-2018-2-8

Chinese Academy of Sciences Strategic Pilot Science and Technology Project, No.XDA19040501

Specific Informatization Scientific Research Science Program of the Chinese Academy of Sciences, No.XXH13503-07.

Copyright

《地球信息科学学报》编辑部 所有

Abstract

In this era of big data transfer and use, the extraction of disaster event information from huge quantities of network data is important to facilitate research on disaster prevention and reduction. In comparison with traditional disaster information, disaster information based on Web text is dynamic, heterogeneous, and massive, has space-time aspects, and accesses multiple sources. How to extract and visualize the spatio temporal and attribute information of disaster events from Web text, and track dynamic change patterns and trends of such events over space and time, is a growing area of research in geographic and disaster information systems. This study reviews the progress of relevant researchs including network data mining technology frameworks, disaster theme web page crawling, the extraction of disaster event information, the visualization and spatial distribution characteristics analysis of disaster events and the application system for disaster prevention and reduction. By examining the trend of disaster information acquisition for disaster prevention and reduction from the internet, this study analyzed and summarized the appropriate technologies of information extraction from Web text and discussed the development trends in the following three aspects: (1) Focusing on global disaster information acquisition and analysis. The fundamental trend is to realize the automatic acquisition, analysis, and visualization of global disaster event information to ensure disaster prevention and reduction. (2) To realize the United Nations' 2030 Agenda for Sustainable Development and China's "the Belt and Road" strategy, strengthening of the disaster event information analysis research and its application to typical regions is one of the research hotspots in the field of Web disaster information acquisition and application. (3) Establishing a new disaster prevention and reduction knowledge service system supported by big data mining and analysis technologies according to the application level of data, information, and knowledge will be one of the future research trends.

Cite this article

HAN Xuehua , WANG Juanle , BU Kun , WANG Yujie . Progress in Information Acquisition of Disaster Events from Web Texts[J]. Journal of Geo-information Science, 2018 , 20(8) : 1037 -1046 . DOI: 10.12082/dqxxkx.2018.180094

1 引言

防灾减灾是全人类共同面临的挑战,随着全球灾害损失不断增大这一挑战更加严峻。联合国减灾署(UNISDR)在2016年10月13日(国际减灾日)发布的报告显示,过去20年中全球约有135万人在发生的7000多次灾害中死亡,灾害每年对世界造成的经济损失高达3000亿美元。面对日益增长的灾害威胁,广泛地获取及时有效的灾害信息、研究各类灾害事件发生发展规律,对研究灾害防治、降低灾害风险具有重要意义[1]。近年来互联网已成为社会信息发布和传播的主要媒介之一,Web文本中蕴含着丰富的以自然语言描述的非结构化的灾害事件信息,将多源网络大数据引入灾害领域,自动挖掘提取解析Web文本中的灾害信息,已成为灾害信息领域的热点研究[2]。国际防灾减灾机构也认识到了这一点。第三届世界减灾大会通过的 2015 年后全球减灾领域新的行动框架《2015-2030年仙台减轻灾害风险框架》指出,要充分利用传统技术和现代手段,借助大数据、社交媒体、移动互联网等方法,促进业务系统和服务平台建设,提高灾害监测、风险评估和服务能力[3,4]
信息技术的发展,使得多源动态异构的网络大数据正在成为重要的信息来源,网络数据挖掘与地理学信息分析的结合正成为GIS领域的研究热 点[5]。但与传统数据源不同,Web文本具有来源多样化、内容动态化、存储碎片化、非结构化等特点,其蕴含的各种事件信息具有快捷性、时序性、空间性以及网络信息量大等特征,计算机很难直接处 理[6,7]。故如何从海量异构的Web文本中自动化识别和提取灾害时空与属性信息,具有重要的现实意义。本文针对Web文本中灾害信息的挖掘与提取,从Web灾害信息特征、技术架构、灾害主题页面抓取、灾害事件信息解析抽取、灾害事件信息空间展示分析、防灾减灾应用系统等方面总结了相关进展,并对未来研究与应用趋势进行了展望。

2 Web灾害事件信息特征分析与技术架构

2.1 Web灾害事件信息特征分析

基于Web文本的灾害事件信息能够获取除官方媒体以外的多种网络信息,相较于传统的官方统计灾害信息,其具有以下特点:① 时效性。各种新闻网站、社交网络、微博、微信等即时信息发布网络媒介为灾害信息的发布与传播提供了便捷的网络通道。例如,2013年4月20日8时2分四川省雅安市发生7.0级地震,第一条相关微博于8时 4分发出“雅安震感强烈”,十几分钟后,雅安地震被各大新闻网站置顶于发布栏;截止21日24时各种相关新闻、微博、博客、论坛信息达1400多万条,其中最主要的关注内容为相关救援信息和灾情信 息[7]。② 时空动态性。随着灾害事件的发生发展,Web灾害信息能够快速随时间的变化进行更新推进,以反映当前灾情及救援工作的进展等情况,如台风的移动、受害者的活动、救灾物资的分布、救援队伍的位置等。③ 网络信息量大。当灾害发生时或发生后,大量即时Web灾害信息会在灾中、灾后迅速集聚和蔓延,在信息量、扩散速度、内容形式及应用价值方面日趋呈现大数据特征。例如,“7.21”北京暴雨事件发生后一周内,通过百度搜索关键词“7.21北京暴雨”可得到相关网页410 万个[8];四川九寨沟地震后48 h内,网络中涌现相关新闻报道8.5万篇,APP新闻4万篇,微信7万余篇,微博179万余条,相关话题新闻共计200多万篇[9]。④ 多样性。例如,地震灾害发生突然、破坏力巨大,受灾时需迅速获取震中位置、震中距主要城市距离,以及灾区的基础设施分布、救援通道等精细空间尺度的信息和以小时为单元的救援信息,而干旱等较长周期的灾害则需要更大范围和时空尺度的信息。

2.2 Web灾害事件信息获取技术架构

Web文本中灾害事件信息获取是将地理信息分析技术与网络数据挖掘结合应用于灾害领域,在网络主题爬虫技术、自然语言处理技术、机器学习等技术的支持下,实现网络文本中灾害事件空间位置、时间、属性及空间语义信息的提取,并进行可视化重构。从全流程技术环节来看,其技术架构可分为灾害信息数据源汇聚、灾害主题页面抓取、灾害事件信息解析抽取、灾害事件信息空间展示分析 4个模块,如图1所示。
Fig. 1 Structure of information acquisition technology of disaster events from Web texts

图1 基于Web文本的灾害事件信息获取技术架构

(1)灾害信息数据源汇聚:面向互联网平台,选择新闻报道、官方灾害机构网站、微博、论坛等Web页面作为获取灾害事件信息的数据源。
(2)灾害主题页面获取:针对某一灾害事件或某类灾种,采用主题爬虫技术,从互联网海量文本中提取包含灾害事件信息的灾情报告、新闻网页、微博、博客等原始页面数据。
(3)灾害事件信息解析抽取:借助信息抽取中的命名实体识别技术,解析提取灾害主题页面中灾害事件的时间信息、空间信息和属性信息。
(4)灾害事件信息空间展示分析:借助地址匹配(地理编码)技术,对灾害事件的空间位置、灾害救援地点、灾害损失、灾害舆情等信息进行可视化展示,形成时空特征分布图。下文重点对灾害主题页面获取、灾害事件信息解析抽取、灾害事件信息空间展示分析3部分内容进行介绍与分析。

3 Web灾害事件信息获取进展综述

3.1 Web灾害事件信息获取关键技术

3.1.1 灾害主题页面抓取
主题网络爬虫技术可分为3类:传统主题爬虫、语义主题爬虫、机器学习主题爬虫[10]。灾害领域现有多数研究采用传统主题爬虫技术,构建灾害领域关键词词典,借助搜索引擎或者社交媒体API,结合关键词匹配技术实现灾害主题信息页面的获取汇集,该方法对灾害文本语义特征的利用率不高[11,12,13,14,15,16,17]。部分研究也将语义主题爬虫和机器学习主题爬虫应用于灾害领域,马雷雷等[18]将本体语义引入灾害主题网页文本信息提取,改进本体语义相似度计算方法,提出本体语义支持的灾害主题爬虫框架,该方法稳定且准确度较高,但在主题词选取、计算因子设定方面仍需借助人工手段。杜立超等[19]分析灾害事件网页文本特征,构建时间、位置、主题为要素的事件表达模板,提出基于事件表达模板的主题网络爬虫,该方法获取网页精度较高,但爬取速度不高。 Imran M[20]、Téllez Valero[21]采用支持向量机(SVM)、朴素贝叶斯(Naïve Bayes,NB)、C4.5决策树等机器学习方法实现灾害主题页面信息的获取,精确度较高但算法复杂,需要大量训练样本。相比传统主题爬虫技术,机器学习和语义主题爬虫在准确度和稳定性方面有所提升,但实现方法复杂成本较高。
3.1.2 灾害事件信息解析抽取
(1)命名实体识别技术
命名实体识别即识别文本中的人名、地名、机构名、时间、日期等专有名词或有意义的短语[22]。早期命名实体识别主要基于规则和词典,因其规则覆盖度难以达到要求、系统移植性差、成本高等不足,近年来基于大规模语料库的统计机器学习方法或二者混合的方法逐渐成为主流,如采用隐马尔可夫模型(HMM)、最大熵(ME)、支持向量机(SVM)、条件随机场( CRF)等[23,24,25]。英文命名实体识别被认为是已经解决的问题,根据权威的信息抽取系统评测,英文新闻文本中,命名实体识别测试的准确率、召回率、F1值大部分可达到90%左右[26,27]。由于汉语的特殊性,中文命名实体识别难度大于英文,在语料库构建、命名歧义、实体相互交叉混杂、缺少命名规范等方面仍存在问题[27],国内外目前已存在很多成熟的命名实体识别框架,如宾夕法尼亚大学的NLTK工具包、斯坦福大学的Stanford NER程序、开源自然语言处理框架GATE、中科院的ICTCLAS软件、哈工大的LTP语言技术平台等。
(2)灾害事件时间信息提取
时间信息识别主要涉及文本时间表达式标注和时间信息识别技术。Web文本中的灾害时间信息具有以下特征:① 时间信息类型多样,涉及灾害信息发布时间、灾害发生时间、灾害持续时间段等多种类型[28];② 表达方式多样,存在相对时间、绝对时间等多种表达方式[29]。相对时间指描述性时间名词,如“明后天,灾后5 h后”;绝对时间为规范的日期表达,如“2010年1月1日”。针对以上特点,在灾害事件时间识别过程中需结合其文本语义特征进行准确识别。
现有技术进展方面,由于语言表达方式的不同,中文与英文时间信息提取进展存在明显差异。英文时间解析研究方法体系已基本成型,进行时间表达式标注的相关标准规范已趋于成熟,代表性规范TimeML被纳入ISO标准,并已创建相应的英文时间语料库TimeBank;在研究方法上以语料库与机器学习相结合为主,且重点关注事件与时间关系的识别[30,31,32]。中文时间信息的识别研究多数仍集中在利用时间表达式实现单个时间要素的识别提取方面,以基于规则和基于机器学习2种方法为主,缺少成熟的时间表达式标注规范和语料库[33,34,35,36]
(3)灾害空间信息的提取
从文本中识别提取与灾害事件有关的地理位置主要涉及地理分析(Geo-parsing)技术[37]。而Web文本中的灾害事件地理位置信息表达方式与空间尺度多样,而不同类型的灾害也有不同的空间尺度需求,通常具有以下几种类型:① 经纬度,多见于地震、滑坡等地质灾害,具有明显的空间点数据特征,动态性较弱。部分官方灾害机构发布的文档信息中,带有明确的灾害发生地经纬度坐标信息,如地震局官方报道“XX地(北纬36.5°、东经70.9°)发生XX级地震”。此类地理信息可选择基于规则的方法进行识别,准确度高且速度快。② 地名地址。以明确的地名地址描述灾害空间位置,如“黑龙江肇东市发生洪涝风雹灾害”,可通过地名词典(库)匹配技术、基于规则的方法实现地名识别[11-12,16,38]。但该方法存在地名词典覆盖度不够、维护更新困难的缺点。③ 地名地址与空间关系。以地名地址与空间关系名词描述灾害事件发生地,如“墨西哥洛雷托东北方向69 km处”,“内蒙古东南部遭受洪涝灾害”,可选择基于大规模语料库的统计机器学习方法[20-21,39],通过统计语料库中地名特征和上下文特征,训练统计模型实现地名识别。④ 多种类型混合。可采用多种模型方法混合的方式,如规则模型与统计模型结合[40]、本体理论与规则方法结合[41,42,43]、关系模型与机器学习结合[44]、时空概率模型与机器学习[14]等。以地名地址、地名地址加空间关系、以及多种类型混合的空间信息表达多见于风雹、雨雪、洪涝、台风等灾害,影响面积大,具有时空动态性,伴随多种次生灾害事件,适合以区域或流域作为提取空间尺度,关注其事件时空动态变化特征。
现有地名识别技术可以较好地完成新闻文本中的地名提取,但面对多种来源的异构网络文本,其准确度还无法保证[6]。地名歧义、空间信息粒度大小不一、边界模糊、地名词典更新困难等仍是地名识别所面临的问题[45,46]。国外已存在许多商业化或开源的地名识别软件,如美国的MetaCarta软件、Yahoo 的 Placemaker服务、英国爱丁堡大学的Edinburgh Geoparser系统等,可自动识别提取文本中的地理位置信息[46,47]
(4)灾害属性信息的提取
灾害属性信息包括人员伤亡、房屋损失、道路损失、经济损失、致灾原因等信息。Web文本中的灾害属性信息包含属性关键词、量化特征词等特征,例如,伤亡情况关键词包括“死亡、遇难、受伤”等,量化特征词包括“人、间、公顷、元”等[11]。现有灾害属性信息抽取方法有以下4种:① 基于本体语义的方法。构建灾害本体模型、灾害领域词典和灾害语义知识库,通过模式匹配方法实现灾害事件属性信息的抽取[41,43]。② 基于机器学习的方法。利用正则表达式、统计模型确定目标文本段落,通过支持向量机(SVM)、朴素贝叶斯(Naïve Bayes,NB)、 概率时空模型等分类器构建灾害属性信息提取算法[14,20-21,39]。③ 基于规则的方法。分析灾害属性文本描述特征,构建灾害事件属性信息提取规则与模板,结合正则表达式、字符串匹配、模式匹配等方法实现灾害事件属性信息的提取[11-12,16,38,42,48]。④ 多种方法混合。张春菊等[40]提出规则模型与统计模型相结合的地震灾害属性抽取方法;Panem等[44]应用关系依赖模型、维基百科信息框模板等技术实现Twitter中灾害事件属性抽取。
3.1.3 灾害事件信息空间展示分析
(1)地址匹配与空间展示
地址匹配(地理编码)技术,分为地名标准化、地名匹配等步骤。西方国家对地址匹配研究较早,已存在成熟商业化的地理编码标准和软件工具,如ArcGIS的Geocoding,实现了基本的地理编码框架和匹配引擎。由于中文自身的特点,中国现有的地名地址体系复杂,缺乏统一的地址地理编码规范,尚未建立标准的地理编码数据库,中文的地址匹配技术还需要进一步研究。在灾害事件空间展示方面:① 针对空间大尺度地名、规则地名地址,多数学者采用ArcGIS的Geocoding、Yahoo's geocoding API、Google Geocoder服务、百度地图Geocoding API等成熟地理编码软件,结合GIS技术实现灾害事件信息的空间展布[11,39,41]。但这些方法对不规则地址、变更的历史地名、详细城市内部地址等地名类型无法准确匹配。② 针对不规则地名和详细地名,部分学者通过构建专有地名数据库、地名简名词典、网络地名提取数据库,并结合现有地理编码软件实现空间位置的地理匹配[40,49]。③ 针对变更地名,杨志海[42]结合厦门市行政区划历史数据链表,根据地名分类编码构建不同层级地名的匹配规则,实现厦门市台风灾害历史信息地址地名匹配。
(2)时空分布特征分析
在灾害事件空间匹配和可视化的结果上,采用时空聚类分析、时空核密度分析等方法,分析某一区域历史灾害事件或某一灾害热点事件时空分布特征和变化趋势。例如,Wang等[41]采用核密度分析法对新闻网页中的台风相关事件的时空分布特征进行分析,并与权威的台风影响因子空间分布图进行对比,发现其具有相同的分布趋势;Stewart等[43]利用空间动态模型分析Web文本中灾害事件的时空动态演变特征;张春菊等[40]选用时空统计分析、核密度聚类等方法分析2012年全国地震事件和2008年汶川地震事件的时空分布特征。

3.2 Web灾害事件信息获取与分析应用

在突发灾害事件检测预警方面,美国MITRE公司的SARS监测系统MiTAP,以Web文本为数据源,检测、监视和分析传染病暴发的潜在指标并及时发出预警[50]。加拿大全球公共卫生情报网络 (Global Public Health Intelligence Network, GPHIN)通过监测全球互联网等媒体,对突发公共卫生事件进行网络监测分析、自动预警[51]。澳大利亚科学院的灾害事件预警系统(Emergency Situation Awareness,ESA)检测澳大利亚及新西兰地区的实时推文(Tweets),有效识别突发事件并抽取相关灾害信 息[52]。国内相关应用侧重于灾害网络舆情的检测,如民政部门的灾害舆情监控系统、百度舆情API、中国舆情在线、乐思网络舆情监测系统等,利用关键词匹配技术对灾害相关新闻进行定时采集与分析,监测灾后网络舆情状况[7]
在灾后救援与防灾减灾方面,美国国土安全部(DHS)联邦应急管理署(FEMA)管理的Disaster Assistance网站(https://www.disasterassistance.gov/)以政府各部门灾害信息报道为数据源,通过文本挖掘分析为受灾者以及各类机构和团体提供灾情状况、救援物资空间位置、避难所位置等信息,辅助政府各部门应急救灾[2]。英国伦敦联合应急服务控制中心(JESCC)的Armadillo e-Response系统在灾害事件发生后,采用灾害信息挖掘工具快速进行灾害区域定位、区域网络灾害资源搜索、灾害信息提取等操作,以形成内容广泛的灾害事件知识库[53]。美国国家科学基金会资助的RESCUE计划侧重于灾情评估,从灾害相关的各种数据源中快速获取伤亡人数、救灾物资、经济损失等信息,及时对灾害损失情况进行评估[54]。日本的Disaster Reduction Hyperbase(DRH,http://drh.edm.bosai.go.jp/)平台致力于为决策者、研究人员、机构领导者提供防灾减灾知识与技术,以制定切实可行的灾害管理计划[55]。IBM公司的SAHANA赈灾管理系统提供灾害文本解析、灾害信息获取、灾害地理信息可视化等服务,可有效提高灾害救援效率,辅助紧急响应决策[56]
随着互联网的快速发展,微博、Twitter等社会化媒体的影响力逐渐扩大,众源地理知识(Crowdsourcing)和自愿地理信息(Volunteered Geographic Information,VGI)等数据采集与传播模式的出现,使得公众在灾害应急响应、灾情信息传播等方面参与度越来越高[57,58],自媒体在自然灾害中的应用研究也开始得到重视。在传统手段无法获取受灾地区灾情信息的情况下,由灾区民众获取的灾区VIG信息可以有效地为灾害应急与指挥决策提供信息支持[59]。部分学者研究了自媒体救灾在地震、洪水、风暴、野火等方面的应用,Vieweg 等[15]以美国2009年红河洪水和俄克拉荷马州草地火灾事件为例,结合网络爬取、信息提取、关键词识别等技术,从灾害事件发生期间的推文(Tweets)中提取识别相关信息,辅助提升突发事件情况下的公正事态感知能力。Crooks等[60]将Twitter作为一个传感器系统,提取分析地震事件相关Twitter中的时间与空间信息,快速识别和定位灾害事件的影响区域,对传统数据进行补充并提高对灾害的态势感知能力。白华等[61]面向微博平台开发灾害事件即时检测系统,利用自然语言处理及文本挖掘技术,对中文灾害微博文本信息进行过滤分类处理,实现地震及风暴灾害的暴发检测。Li等[62]以2015年南卡罗来纳州洪水灾害为例,提出了一种利用相关Twitter数据实时绘制洪水地理空间分布的新方法,提高对洪水灾害的态势感知能力以支持决策制定。

4 Web灾害信息获取未来研究与应用趋势

4.1 Web灾害信息获取技术

遵循图1反映的基于Web文本的灾害事件信息获取技术流程,本文对以下4个环节进行了分析。
(1)灾害信息获取数据源方面
现有研究多针对某一种网络平台,如面向社交媒体获取实时灾害信息、对突发灾害事件进行检测与预警,面向新闻报道及权威网站进行灾中灾后信息收集、历史灾害信息积累、灾害事件动态变化追踪。未来可将社交媒体、新闻报道、权威灾害发布机构等多源网络数据集成融合,对来源不同的灾害事件信息进行融合互补,降低信息的不一致性和冗余性,提高灾害事件信息的完整性、准确性和丰富性,实现多源网络数据中灾害事件的信息融合和关联分析。
(2)灾害主题页面获取方面
传统主题爬虫技术,从关键词匹配角度进行主题页面过滤获取,对灾害文本语义特征的利用不充分,仅采用关键词信息不能很好的描述页面主题,主题页面获取准确性和效率有待提高。大数据与机器学习技术的快速发展为主题爬虫提供了新型高效的技术方法,因此,结合灾害文本语义特点,采用基于语义的、基于机器学习或二者相结合的主题爬虫已成为灾害主题页面获取的技术趋势。
(3)灾害事件信息解析抽取方面
Web文本中的各类灾害事件信息存在特有的语义特征,且表达具有多样性、混杂性等特点。在解析抽取过程中,需根据Web文本中灾害事件信息的描述特点,基于命名实体识别框架,选择适合的提取方法。面向小规模且规则的灾害文本,如国家地震局的日常业务化地震报道、小规模灾害新闻报道,其文本描述规范,以基于规则的提取方法为主便可以快速准确地完成提取。面对大规模多源的网络灾害数据,如微博等社交媒体中的博文信息、来源不一的大规模新闻报道,其数据量大且文本描述混乱,难以构建满足多种文本特征的规则,因此需借助统计模型、机器学习等方法。此外,未来研究可面向多源数据,融合规则模型、统计模型、机器学习、本体理论等方法,结合网络大数据特点研究灾害领域通用的提取算法。
(4)灾害事件信息空间展示与分析方面
通用地理编码软件对大尺度规则地名有很好的匹配效果,但对歧义模糊地名效果不佳。未来地理匹配方面的研究可借助互联网大数据技术、机器学习技术,针对地名消歧、构建专有地名数据库、地名数据库自动更新等方面展开研究。在时空特征分析方面,可借助现有的时空统计分析技术,集成统计数据、矢量栅格数据、Web文本数据等多源灾害数据,为防灾减灾决策支持提供更为全面准确的数据支持。

4.2 Web灾害信息获取应用

(1)全球灾害信息全景式获取应用
现有灾害网络信息获取研究多面向某一国家或地区,而灾害的发生与影响不受国界的限制,面向全球开展全球灾害信息的抓取和集成,形成全景式的灾害信息时空分布图是全球防灾减灾的需求之一。因此,未来可面向全球领域,选取多种自然灾害与综合灾害,对全球网络灾害事件信息进行获取分析及可视化,产出全球灾害分布时空分布图,并与相关图集或灾害风险全球制图成果的对比研究,如《世界自然灾害风险地图集》[63]
(2)灾害信息获取典型热点区域应用
城市灾害短时间内的危害巨大、社会关注度高。联合国可持续发展目标(Sustainable Development Goals, SDG)第11条指出要“建设包容、安全、有抵御灾害能力和可持续的城市和人类住区”[64]。未来研究可结合互联网时代网络大数据的特点,重点关注城市灾害事件信息的获取与分析,构建城市灾害网络信息自动化获取分析应用,为城市灾害管理、防灾减灾提供决策支持。这既是城市灾害管理的应急需求和大数据资源基础,也是SDGs在城市灾害管理领域的典型应用之一。
一带一路区域地理环境复杂脆弱、生态系统多样、自然灾害频发,全球约有85%的重大地震、海啸、台风、洪水、干旱和热浪灾害都发生在丝路区域[65]。开展一带一路灾害网络信息获取分析应用研究对于其区域内各国防灾减灾工作具有重要意义。未来可基于国内外成熟开放的Web文本信息提取软件和大数据云计算平台,从突发事件检测预警和灾后救援与防灾减灾2个方面入手,建立面向一带一路区域的Web灾害信息监测、挖掘、分析应用。
(3)由信息到知识的防灾减灾服务应用
多源异构的网络大数据为防灾减灾信息共享与知识服务提供了覆盖广泛、更新迅速的资料库,因此建立以大数据挖掘和分析技术支撑的新型防灾减灾知识服务系统是未来研究趋势之一。其主要研究包含以下5个方面:① Web文本中灾害事件信息的识别、提取和重构,为官方灾害救助信息管理及救助决策支持提供必要的灾情或救助需求信息补充。② 历史网络灾害事件时空分析,为长期灾害管理的决策提供方法和成果支撑。③ 网络灾害知识库构建。面向海量互联网文本数据,依托相关平台(如中国工程院“防灾减灾知识服务系统”,http://drr.ikcest.org/)构建网络灾害信息知识库。 ④ 灾害领域垂直搜索引擎开发。面向特定灾害领域网站,开发基于灾害主题的、更新速度快、数据全面深入的灾害垂直搜索引擎,对灾害事件信息进行准确及时获取。⑤ 基于位置的灾害网络信息挖掘应用研究。将网络灾害信息挖掘与基于位置的服务(LBS)相结合,开发移动端灾害信息挖掘APP应用。

5 结论

本文针对Web灾害信息在防灾减灾及灾害管理工作中发挥的重要支持作用,首先分析了基于Web文本的灾害信息特征及其获取技术架构,重点总结了现阶段关键技术进展及国内外应用情况,最后从Web灾害信息获取技术与应用两方面展望了未来研究趋势。随着计算机网络技术的提升、各类智能终端的飞速发展、网络大数据相关技术的成熟,集成包括新闻报道、自媒体、政府官方报告等在内的多源网络数据,结合大数术机器学习等技术,对网络灾害信息进行高效和准确的解析、提取与分析是防灾减灾领域的必然应用趋势。与官方发布的结构化信息相比,虽然网络灾害信息其本身存在一定的不确定性(如信息真实性、数据冗余、数据精准度等),但网络灾害信息作为一种兼具时效性、时空动态性、多样性与网络信息量大等特点的综合灾害信息,可以为官方数据提供必要的灾情信息补充,在未来的长期防灾减灾与短期应急灾害管理工作中必将发挥越来越突出的决策支持作用。

The authors have declared that no competing interests exist.

[1]
Alexander D.World disasters report 2005: Focus on information in disasters[J]. Disasters, 2006,30(3):377-379.Book reviewed in this article: World Disasters Report 2005: Focus on information in disasters , International Federation of Red Cross and Red Crescent Societies

DOI

[2]
李卫江,温家洪.基于Web文本的灾害信息挖掘研究进展[J].灾害学,2010,25(2):119-123.Web文本中蕴含着丰富的以自然语言描述的非结构灾害信息和知识。基于Web文本自动提取和构造结构化、综合性灾害信息,是灾害信息领域研究的前沿问题。目前国内外利用Web文本挖掘技术在灾时与灾后的应急响应与救援,灾害的早期预警和风险分析方面进行示范应用;同时在文本灾害信息的语义理解与抽取、文本灾害信息的时空匹配、以及文本灾害信息的不确定性和可靠性评价等关键技术领域迅速展开研究。我国应加强以Web文本为信息源的中文灾害信息挖掘关键技术、软件,以及管理体系的研究,以有效弥补灾害研究与管理过程中灾害数据共享困难,以及可利用的动态实时、综合性灾害数据缺乏的薄弱环节,提升灾害信息服务水平。

DOI

[ Li W J, Wen J H.Development in disaster information extraction from web pages[J]. Journal of Catastrophology, 2010,25(2):119-123. ]

[3]
United Nations (UN). Sendai framework for disaster risk reduction 2015-2030[EO/OL]. , 2015-03-18.

[4]
范一大. 我国灾害风险管理的未来挑战——解读《2015-2030年仙台减轻灾害风险框架》[J].中国减灾,2015(7):18-21.

[ Fan Y D. The future challenge of disaster risk management in China: Interpretation “Sendai Framework for Disaster Risk Reduction 2015-2030”[J]. Disaster Reduction in China, 2015(7):18-21. ]

[5]
陆锋,余丽,仇培元.论地理知识图谱[J].地球信息科学学报,2017,19(6):723-734.

[ Lu F, Yu L, Qiu P Y.On Geographic knowledge graph[J]. Journal of Geo-information Science, 2017,19(6):723-734. ]

[6]
余丽,陆锋,张恒才.网络文本蕴涵地理信息抽取:研究进展与展望[J].地球信息科学学报,2015,17(2):127-134.

[ Yu L, Lu F, Zhang H C.Extracting geographic information from web texts: Status and development[J]. Journal of Geo-information Science, 2015,17(2):127-134. ]

[7]
吕雪锋,陈思宇.自然灾害网络舆情信息分析与管理技术综述[J].地理与地理信息科学,2016,32(4):49-56.

[ Lv X F, Chen S Y.Review of natural disaster network public opinion information analysis and management[J]. Geography and Geo-information Science, 2016,32(4):49-56. ]

[8]
郑智斌,王诗雨,陈冲.重大突发事件的网络舆情及其沟通——以“7.21"北京暴雨事件为例[J].湖南大众传媒职业技术学院学报,2013,13(1):5-8.7·21”北京暴雨发生后,通过实证分析一周内网络舆情的重点、特点及其变化,可以发现“两个舆论场”在议题上的显著分化与矛盾.基于此,当重大突发事件发生后,政府和媒体必须做好区别于物质善后的“社会性善后”,树立善后问题前置的新意识,并制定善后沟通的基本策略,从而建立融多元主体于一体的重大突发事件的社会性沟通体系.

DOI

[ Zheng Z B, Wang S Y, Chen C.Internet public sentiment and communication of major emergencies: An example of the "7. 21" rainstorm in Beijing[J]. Journal of Hunan Mass Media Vocational Technical College, 2013,13(1):5-8. ]

[9]
人民网.大数据解析九寨沟地震72小时舆论场 [EB/OL]. .2018-03-16.

[ People's network. The Big Data Analysis of the Public Opinion 72 Hours after the Jiuzhaigou Earthquake[EB/OL]. .2018-03-16. ]

[10]
徐宁. 主题爬虫搜索策略及关键技术研究[D].重庆:重庆大学,2015.

[ Xu N.Research on search strategy and key techniques of focused crawler[D]. Chongqing: Chongqing University, 2015. ]

[11]
刘思源. 面向Web文本的滑坡灾害信息提取技术研究[D].成都:西南交通大学,2015.

[ Liu S Y.Extracting landslide disaster information from web pages[D]. Chengdu: Southwest Jiaotong University, 2015. ]

[12]
帅向华,胡素平,刘钦,等.地震灾情网络媒体获取与处理模型[J].自然灾害学报,2013,22(3):178-184.

[ Shuai X H, Hu S P, Liu Q, et al.Internet media-based acquisition and processing model of earthquake disaster situation[J]. Journal of Natural Disasters, 2013,22(3):178-184. ]

[13]
宋建功,王之欣,李勤勇,等.面向地震应急响应的互联网信息处理[J].北京航空航天大学学报,2017,43(6):1155-1164.近年来国内外地震灾害给人类的生命财产造成了巨大损失。海量的互联网地震灾情信息可为应急响应和及时救援提供决策支持的依据,因此互联网灾情信息高效快速处理需求迫切。针对地震互联网灾情信息处理的研究,定义了地震事件模型、网页对象模型等,用极限方法定义Web信息收敛性,刻画了互联网灾情信息传播特点。根据灾情信息时效性特点,提出了一种支持动态收敛性的Web信息抽取算法,完成互联网灾情信息提取。提出一种针对灾害信息随时间的变化进行时序统计的方法,形成信息统计报告,为制定救援决策提供依据。设计并实现了面向地震应急响应的互联网信息智能处理系统,并进行了工程实践验证。

DOI

[ Song J G, Wang Z X, Li Q Y, et al.Internet information process oriented to the earthquake response[J]. Journal of Beijing University of Aeronautics and Astronautics, 2017,43(6):1155-1164. ]

[14]
Sakaki T, Okazaki M, Matsuo Y.Earthquake shakes Twitter users: Real-time event detection by social sensors[C]. International Conference on World Wide Web. ACM, 2010:851-860.

[15]
Vieweg S, Hughes A L, Starbird K, et al.Microblogging during two natural hazards events: what twitter may contribute to situational awareness[C]. Sigchi Conference on Human Factors in Computing Systems. ACM, 2010:1079-1088.

[16]
李汉巨,梁浩波.基于关联规则的自然灾害预测系统[J].计算机系统应用,2017,26(7):50-55.

[ Li H J, Liang H B.Natural disaster forecasting system based association rules[J]. Computer Systems & Applications, 2017,26(7):50-55. ]

[17]
葛高飞. 突发事件微博新话题检测与跟踪系统的设计与实现[D].北京:北京邮电大学,2014.

[ Ge G F.Design and implementation of new topic detection and tracking of microblog based on emergency[D]. Beijing: Beijing University of Posts and Telecommunications, 2014. ]

[18]
马雷雷,李宏伟,连世伟,等.一种基于本体语义的灾害主题爬虫策略[J].计算机工程,2016,42(11):50-56.为高效精确地提取存在于互联网中的灾害主题网页文本信息,引入本体语义,提出一种新的灾害主题爬虫策略。给出本体语义支持的灾害主题爬虫框架和流程,改进本体概念语义相似度计算方法,利用语义相似度计算主题语义向量,通过HTML位置加权获取网页文本特征向量,并进行主题相关度计算。设计URL锚文本主题相关度计算方法,分析URL链接优先度,优化爬行队列。选取地震灾害和气象灾害2个主题进行测试与分析,实验结果表明,该策略能有效提高稳定性和爬准率。

DOI

[ Ma L L, Li H W, Li S W, et al.A strategy of disaster focused crawler based on ontology semantics[J]. Computer Engineering, 2016,42(11):50-56. ]

[19]
杜超利. 时空要素驱动的事件网页信息检索方法研究[D].南京:南京师范大学,2013.

[ Du C L.Retrieval method of events in web pages based on spatio-temporal elements[D]. Nanjing: Nanjing Normal University, 2013. ]

[20]
Imran M, Elbassuoni S, Castillo C, et al.Extracting information nuggets from disaster: Related messages in social media[C]. The International Conference on Information Systems for Crisis Response and Management, 2013.

[21]
Téllez Valero, AlbertoMontes y Gómez, ManuelVillase?or Pineda, et al. Using Machine Learning for Extracting Information from Natural Disaster News Reports[J]. Computación Y Sistemas, 2009,13(1):33-44.

[22]
Chinchor N.MUC7 Named Entity Task Definition[C].Message Understanding Conference, 1997.

[23]
李丽双,党延忠,廖文平,等. CRF与规则相结合的中文地名识别[J].大连理工大学学报,2012(2):285-289.采用递增式学习策略优化条件随机域(conditional random fields,CRF)的特征模板以提高中文地名的识别效果,结合语言学相关知识构建规则库,以弥补机器学习模型获取知识不够全面导致召回率偏低的不足,最终实现了CRF与规则相结合的中文地名识别系统.实验结果表明,采用CRF与规则相结合的方法识别中文文本中的地名是有效的,对Bakeoff2007NER任务的MSRA语料进行开放测试,召回率、精确率和F值分别为94.67%、92.35%和93.50%.

DOI

[ Li L S, Dang Y Z, Liao W P, et al.Recognition of Chinese location names based on CRF and rules[J]. Journal of Dalian University of Technology, 2012,52(2):285-289. ]

[24]
钱晶,张杰,张涛.基于最大熵的汉语人名地名识别方法研究[J].小型微型计算机系统,2006,27(9):1761-1765.构建了一个基于最大熵原理的汉语人名地名自动识别混合模型.该模型分为训练和识别两个模块.先从训练语料中抽取特征,利用最大熵方法对特征进行训练.然后使用经过训练的特征,并结合动态词表和少量规则,对测试文本中的汉语人名地名进行识别.达到了比较满意的识别效果.最后对实验结果进行了分析.

DOI

[ Qian J, Zhang Y J, Zhang T.Research on chinese person name and location name recognition based on maximum entropy model[J]. Journal of Chinese Computer Systems, 2006,27(9):1761-1765. ]

[25]
邬伦,刘磊,李浩然,等.基于条件随机场的中文地名识别方法[J].武汉大学学报·信息科学版,2017,42(2):150-156.在互联网迅速发展的现代化信息社会,大量地理信息都以非结构化的文本形式存在,而地名识别是挖掘这些地理信息的重要基础。目前已有的地名识别方法主要是从自然语言处理的角度来实现,并没有充分考虑到地名的构成和使用习惯等特征,造成识别率偏低或过拟合等问题。本文引入语言学相关知识,分析中文地名用字特征,在传统的地名专名+通名的结构上,更细致地划分地名的词素类型,总结归纳各词素类型的特征,将这些特征融入条件随机场的方法中,使地名识别问题转化为序列标注问题。并根据中文地名的特征,制定形式化规则,设计基于字的标注规范。在此基础上,设计中文地名特征模板,通过条件随机场模型训练和预测,识别自然语言文本中的中文地名。采用170万字的人民日报标注语料进行实验验证,结果表明本文方法对中文地名识别的召回率、准确率和F值分别达到92.69%、96.73%和94.67%,优于已有研究成果,能为地理信息科学领域的研究和应用提供更有效的地名服务。

DOI

[ Wu L, Lei L, Li H R, et al.A chinese toponym recognition method based on conditional random field[J]. Geomatics & Information Science of Wuhan University, 2017,42(2):150-156. ]

[26]
Mónica M, Julián U, Sonia S C, et al.Named entity recognition: Fallacies, challenges and opportunities[J]. Computer Standards & Interfaces, 2013,35(5):482-489.78 It is generally accepted that Named Entity Recognition (NER) is a solved task. 78 We analyze the evolution of the area from theoretical and practical points of view. 78 We show that NER is not solved and periodic evaluation forums are still necessary. 78 These forums should vary the NE types and use measures agreed by the community. 78 The techniques applied could gradually lead to the flexibility needed in the area.

DOI

[27]
孙镇,王惠临.命名实体识别研究进展综述[J].现代图书情报技术,2010,26(6):42-47.

[ Sun Z, Wang H L.Overview on the advance of the research on named entity recognition[J]. New Technology of Library & Information Service, 2010,26(6):42-47. ]

[28]
蔡华利,刘鲁,刘志明,等.突发事件Web新闻中时间信息分析及抽取[J].计算机工程与应用,2010,46(34):107-110.为了更深入地挖掘突发事件Web新闻并应用于应急管理,提出了突发事件Web新闻时间抽取方法。首先引入中文的时间关系理论;然后从突发事件Web新闻的时间构成、时间位置特征以及时间常用词三个方面分析了突发事件Web新闻的表达特征;基于此,提出突发事件Web新闻的时间抽取方法,通过统计学习,正确率较理想;最后,基于已抽取到的事件发生时间信息,程序实现了突发事件Web新闻排序。 <BR>

DOI

[ Cai H L, Liu L, Liu Z M.Analysis and extraction on temporal information of web news under emergencies[J]. Computer Engineering & Applications, 2010,46(34):107-110. ]

[29]
Allen J F.Maintaining knowledge about temporal intervals[J]. Readings in Qualitative Reasoning About Physical Systems, 1990,26(11):361-372.We have described a system for reasoning about temporal intervals that is both expressive and computationally effective. The representation captures the temporal hierarchy implicit in many domains by using a hierarchy of reference intervals, which precisely control the amount of deduction performed automatically by the system. This approach is partially partially useful in domains where temporal information is imprecise and relative, and techniques such as dating are not possible.

DOI

[30]
Saurii R, Littmann J, Gaizauskas R, et al. TimeML Annotation Guidelines[J/OL].[2018-01-18]. .

[31]
Pustejovsky J, Hanks P, Sauri R, et al.The timebank corpus[C]. Corpus Linguistics, 2003.

[32]
Boguraev B, Pustejovsky J, Ando R, et al.TimeBank evolution as a community resource for TimeML Parsing[J]. Language Resources & Evaluation, 2007,41(1):91-115.TimeBank is the only reference corpus for TimeML, an expressive language for annotating complex temporal information. It is a rich resource for a broad range of research into various aspects of the expression of time and temporally related events. This paper traces the development of TimeBank from its initial-and somewhat noisy-version (1.1) to a substantially revised release (1.2), now available via the Linguistic Data Consortium. The development path is motivated by the encouraging empirical results of TimeML-compliant annotators developed on the basis of TimeBank 1.1, and is informed by a detailed study of the characteristics of that initial release, which guides a clean-up process turning TimeBank 1.2 into a consistent and robust community resource.

DOI

[33]
张春菊,张雪英,李明,等.中文文本中时间信息解析方法[J].地理与地理信息科学,2014,30(6):1-6.

[ Zhang C J, Zhang X Y, Ming L I, et al.Interpretation of temporal information in chinese text[J]. Geography and Geo-information Science, 2014,30(6):1-6. ]

[34]
朱莎莎,刘宗田,付剑锋,等.基于条件随机场的中文时间短语识别[J]. 计算机工程,2011,37(15):164-167.传统时间短语识别方法存在中文文本时间短语边界定位不准确和长距离依赖的问题。为此,提出一种基于条件随机场(CRFs)的时间短语识别方法。采用基于机器学习的方法识别时间短语,分析中文文本中时间短语的词法、句法和上下文信息等语言学特征,将时间短语分为日期型和事件型2种类型,并半自动构建3个常用词表作为外部特征。在此基础上,引入能整合不同层面特征的CRFs方法,将识别问题转化为序列标注问题。实验结果表明,该方法在日期型时间短语和事件型时间短语识别上分别取得95.70%和85.75%的F1值,识别效果较好。

DOI

[ Zhu S S, Liu Z T, J Fu J F, et al. Chinese temporal phrase recognition based on conditional random fields[J]. Computer Engineering, 2011,37(15):164-167. ]

[35]
徐永东,徐志明,王晓龙,等.中文文本时间信息获取及语义计算[J].哈尔滨工业大学学报,2007,39(3):438-442.为了解决中文文本中时间信息的形式表达、抽取及时间语义计算等一系列问题,提出了一种可以适用于多种自然语言处理任务的时间信息处理系统,通过对汉语句子时间要素的分析以及时间词语构成形式的研究,采用一种时间表达式的概念,将承载时间信息的短语按照功能的不同分解成若干容易识别,语义单一的“小”的成分,并在此基础上给出基于规则的时间信息抽取、理解及时间语义的计算方法.

DOI

[ Xu Y D, Xu Z M, Wang X L, et al.Extraction and semantic computing of Chinese textual time information[J]. Journal of Harbin Institute of Technology, 2007,39(3):438-442. ]

[36]
温艳霞,谭红叶,郑家恒.基于规则的时间规范化研究[C].国际信息技术与应用论坛论文集(下),2009.

[ Wen Y X, Tan H Y, Zheng J H.Research on time standardization based on rules[C]. International Forum on Information Technology and Applications, 2009. ]

[37]
Ray R, Larson. ArcView 2.0 d for windows: The geographic information system for everyone by environmental systems research institute[J]. The Library Quarterly Information Community Policy, 1996,66(3):313-315.

DOI

[38]
霍娜,吕国英.基于规则匹配的灾难性追踪事件信息抽取的研究[J].电脑开发与应用,2012,25(6):7-9.

[ Huo N, Lv G Y.Research on sudden event information extraction of tracking reports based on rules[J]. Computer Development & Applications, 2012,25(6):7-9. ]

[39]
Chasin R, Woodward D, Witmer J, et al.Extracting and displaying temporal and geospatial entities from articles on historical events[J]. Computer Journal, 2014,57(3):403-426.This paper discusses a system that extracts and displays temporal and geospatial entities in text. The first task involves identification of all events in a document followed by identification of important events using a classifier. The second task involves identifying named entities associated with the document. In particular, we extract geospatial named entities. We disambiguate the set of geospatial named entities and geocode them to determine the correct coordinates for each place name, often called grounding. We resolve ambiguity based on sentence and article context. Finally, we present a user with the key events and their associated people, places and organizations within a document in terms of a timeline and a map. For purposes of testing, we use Wikipedia articles about historical events, such as those describing wars, battles and invasions. We focus on extracting major events from the articles, although our ideas and tools can be easily used with articles from other sources such as news articles. We use several existing tools such as Evita, Google Maps, publicly available implementations of Support Vector Machines, Hidden Markov Model and Conditional Random Field, and the MIT SIMILE Timeline.

DOI

[40]
张春菊. 中文文本中事件时空与属性信息解析方法研究[D].南京:南京师范大学,2013.

[ Zhang C J.Interpretation of event spatio-temporal and attribute information in chinese text[D]. Nanjing: Nanjing Normal University, 2013. ]

[41]
Wang W, Stewart K.Spatiotemporal and semantic information extraction from web news reports about natural hazards[J]. Computers Environment & Urban Systems, 2015,50:30-40.In the field of geographic information science, modeling geographic dynamics based on spatiotemporal information extracted from the Web, especially unconstructed data such as online news reports, is a growing area of research. Extracting spatiotemporal and semantic information from a set of Web documents enables us to build a rich representation of geographic knowledge described in text, capturing where, when, or what events have occurred. This work investigates the role ontologies play as a key component in the process of semantic information extraction. We show how ontologies can be used in conjunction with natural language gazetteers in order to process semantic information about hazard events and augment spatiotemporal extraction with semantics. We are interested in capturing the spatiotemporal patterns of hazard-related events from online news reports to track the occurrences and evolution of natural hazards, such as severe storms. A hazard ontology has been created to assist the spatiotemporal information extraction process, especially with the automatic detection of different kinds of events at multiple granularities from unstructured texts revealing relationships between the events over space ime. The extraction and retrieval of semantic information about event dynamics provides information about the progression of events using both natural and human perspectives.

DOI

[42]
杨志海. 台风灾害信息抽取及动态可视化研究[D].福州:福建师范大学,2012.

[ Yang Z H. Typhoon disaster information extraction and dynamic visualization[D]. Fuzhou: Fujian Normal University, 2012. ]

[43]
Stewart K, Wang W.Representing dynamic phenomena based on spatiotemporal information extracted from web documents[C]. International Conference on Geographic Information Science, 2010.

[44]
Panem S, Gupta M, Varma V.Structured information extraction from natural disaster events on twitter[C]. International Workshop on Web-Scale Knowledge Representation Retrieval & Reasoning. ACM, 2014:1-8.

[45]
Christopher B. Jones, Ross S.Purves. Geographical information retrieval[J]. International Journal of Geographical Information Science, 2008,22(3):219-228.

DOI

[46]
Judith G, Nikolai M.Geo-parsing messages from microtext[J]. Transactions in GIS, 2011,15(6):753-773.Widespread use of social media during crises has become commonplace, as shown by the volume of messages during the Haiti earthquake of 2010 and Japan tsunami of 2011. Location mentions are particularly important in disaster messages as they can show emergency responders where problems have occurred. This article explores the sorts of locations that occur in disaster-related social messages, how well off-the-shelf software identifies those locations, and what is needed to improve automated location identification, called geo-parsing. To do this, we have sampled Twitter messages from the February 2011 earthquake in Christchurch, Canterbury, New Zealand. We annotated locations in messages manually to make a gold standard by which to measure locations identified by a Named Entity Recognition software. The Stanford NER software found some locations that were proper nouns, but did not identify locations that were not capitalized, local streets and buildings, or non-standard place abbreviations and mis-spellings that are plentiful in microtext. We review how these problems might be solved in software research, and model a readable crisis map that shows crisis location clusters via enlarged place labels.

DOI

[47]
Gelernter J, Cao D, Carley K M.Extraction of spatio-temporal data for social networks[M]. The Influence of Technology on Social Network Analysis and Mining. Springer, Vienna, 2013:351-372.

[48]
胡素平,帅向华.网络地震灾情信息智能处理模型与地震烈度判定方法研究[J].震灾防御技术 2012,7(4):420-430.

[ Hu S P, Shuai X H.Study on intelligent processing model of internet earthquake hazard information and sismic intensity estimation method[J]. Technology for Earthquake Disaster Prevention, 2012,7(4):420-430. ]

[49]
帅向华,刘钦,甄盟,等.基于天地图的互联网地震灾情快速获取与处理系统设计与实现[J].震灾防御技术,2014,9(3):479-486.互联网是信息的最大和最广泛应用的载体,互联网已经成为地震灾情快速获取的一个重要渠道.本文介绍了基于天地图的互联网地震灾情获取与处理系统的总体结构、技术流程和功能设计与实现.该系统采用的GIS开发平台是ArcEngine,数据库是SQLServer,互联网数据服务平台采用开源的天地图.

DOI

[ Shuai X H, Liu Q, Zhen M, et al.Design and implementation of fast acquisition and procession system of earthquake disaster situation from internet media based on map world[J]. Technology for Earthquake Disaster Prevention, 2014,9(3):479-486. ]

[50]
Damianos L E, Bayer S, Chisholm M A, et al.MiTAP for SARS detection[C]. Demonstration Papers at Hlt-Naacl. Association for Computational Linguistics, 2006:13-16.

[51]
李克莉,冯子健.突发公共卫生事件及其监测系统[J].疾病监测,2007,22(4):282-284.

[ Li K L, Feng Z J.Public health emergency and its monitoring system[J]. Disaster Surveillance, 2007,22(4):282-284. ]

[52]
Yin J, Lampert A, Cameron M, et al.Using social media to enhance emergency situation awareness[J]. IEEE Intelligent Systems, 2012,27(6):52-59.The described system uses natural language processing and data mining techniques to extract situation awareness information from Twitter messages generated during various disasters and crises.

DOI

[53]
Chapman S, Ciravegna E.Focused data mining for decision support in emergency response scenarios[C]. Proceedings of ISWC, Athens, GA, USA, November5-9, 2006.

[54]
Ma Y, Kalashnikov D V, Hariharan R, et al.On-demand information portals for disaster situations[C]. Intelligence and Security Informatics. IEEE, 2007:133-136.

[55]
Hiroyuki Kameda.Networking disaster risk reduction technology and knowledge through disaster reduction hyperbase (DRH)[C]. Proceedings of the Disaster Reduction Hyperbase (DRH) Contents Meeting (DRH Contents Meeting), Kobe, 12-13 March 2007.

[56]
Careem M, Silva C D, Silva R D, et al.Sahana: Overview of a disaster management system[C]. International Conference on Information and Automation. IEEE, 2006:361-366.

[57]
Michael F, Goodchild J, Alan Glennon.Crowdsourcing geographic information for disaster response: A research frontier[J]. International Journal of Digital Earth, 2010,3(3):231-241.Geographic data and tools are essential in all aspects of emergency management: preparedness, response, recovery, and mitigation. Geographic information created by amateur citizens, often known as volunteered geographic information, has recently provided an interesting alternative to traditional authoritative information from mapping agencies and corporations, and several recent papers have provided the beginnings of a literature on the more fundamental issues raised by this new source. Data quality is a major concern, since volunteered information is asserted and carries none of the assurances that lead to trust in officially created data. During emergencies time is the essence, and the risks associated with volunteered information are often outweighed by the benefits of its use. An example is discussed using the four wildfires that impacted the Santa Barbara area in 2007 2009, and lessons are drawn.

DOI

[58]
史秀保,马磊,李滨,等.兼容VGI与众包的灾害信息管理系统研究[J].测绘科学,2017,42(3):191-195.

[ Shi X B, Ma L, Li B, et al.Study on disaster information management system compatible with VGI and crowdsourcing[J]. Science of Surveying and Mapping, 2017,42(3):191-195. ]

[59]
Goodchild M F.Citizens as sensors: The world of volunteered geography[J]. Geojournal, 2007,69(4):211-221.In recent months there has been an explosion of interest in using the Web to create, assemble, and disseminate geographic information provided voluntarily by individuals. Sites such as Wikimapia and OpenStreetMap are empowering citizens to create a global patchwork of geographic information, while Google Earth and other virtual globes are encouraging volunteers to develop interesting applications using their own data. I review this phenomenon, and examine associated issues: what drives people to do this, how accurate are the results, will they threaten individual privacy, and how can they augment more conventional sources? I compare this new phenomenon to more traditional citizen science and the role of the amateur in geographic observation.

DOI

[60]
Crooks A, Croitoru A, Stefanidis A, et al.Earthquake: Twitter as a Distributed Sensor System[J]. Transactions in GIS, 2013,17(1):124-147.

DOI

[61]
白华,林勋国.基于中文短文本分类的社交媒体灾害事件检测系统研究[J].灾害学,2016,31(2):19-23.随着移动互联业务的蓬勃发展,在灾害信息传播的过程中,不同类型的社交媒体在一个个突发性灾害事件中显示出了强大的力量。以微博为代表的在线社交媒体因在信息传播速度、传播内容、传播形式及传播效果等方面的优势,确立了其在灾害应急管理中特殊的传播价值。鉴于此,利用成熟的文本挖掘技术,面向中文新浪微博平台,开发了高效的灾害事件即时检测系统,从而能充分利用近于实时的灾害博文数据,使其更好地为灾害应急管理过程服务,有效提高灾害的应急管理能力。

DOI

[ Bai H, Lin X, Management S O.Sina weibo disaster information detection based on chinese short text classification[J]. Journal of Catastrophology, 2016,31(2):19-23. ]

[62]
Li Z, Wang C, Emrich C T, et al.A novel approach to leveraging social media for rapid flood mapping: A case study of the 2015 South Carolina floods[J]. Cartography & Geographic Information Science, 2017:1-14.

[63]
史培军. 世界自然灾害风险地图集[M].北京:北京师范大学出版社,2014.

[ Shi P J.World atlas of natural disaster risk[M]. Beijing: Springer Berlin Heidelberg, 2014.]

[64]
UNGA.Transforming our world: The 2030 agenda for sustainable development[R]. 2015

[65]
Guo H D.Steps to the digital Silk Road[J]. Nature, 2018, 554(7690):25-27.Sharing big data from satellite imagery and other Earth observations across Asia, the Middle East and east Africa is key to sustainability, urges Guo Huadong.

DOI

Outlines

/