“第五届空间数据智能学术会议SpatialDI 2024”优秀论文

融合风险特征和空间特征的城市暴雨级联事件风险评估模型构建

  • 刘昭阁 , 1, * ,
  • 李向阳 2 ,
  • 朱晓寒 3
展开
  • 1.厦门大学 公共事务学院,厦门 361005
  • 2.哈尔滨工业大学 经济与管理学院,哈尔滨 150001
  • 3.武汉东湖新技术开发区管委会,武汉 430075

刘昭阁(1992— ),男,山东烟台人,博士,硕士生导师,助理教授,研究方向为应急管理大数据分析与社会治理智能化方法。E-mail:

Copy editor: 蒋树芳 , 黄光玉

收稿日期: 2024-05-14

  修回日期: 2024-07-17

  网络出版日期: 2024-10-09

基金资助

国家自然科学基金青年项目(72404232)

国家自然科学基金重大研究计划项目(91746207)

国家自然科学基金面上项目(71774043)

福建省自然科学基金项目(2023J05011)

Construction of a Risk Assessment Model for Urban Rainstorm Cascading Events Integrating Risk and Spatial Features

  • LIU Zhaoge , 1, * ,
  • LI Xiangyang 2 ,
  • ZHU Xiaohan 3
Expand
  • 1. School of Public Affairs, Xiamen University, Xiamen 361005, China
  • 2. School of Management, Harbin Institute of Technology, Harbin 150001, China
  • 3. Administrative Committee of Wuhan East Lake High-tech Development Zone, Wuhan 430075, China
* LIU Zhaoge, E-mail:

Received date: 2024-05-14

  Revised date: 2024-07-17

  Online published: 2024-10-09

Supported by

Young Scientists Fund of the National Natural Science Foundation of China(72404232)

Major Research Plan of the National Natural Science Foundation of China named Big data Driven Management and Decision-making Research(91746207)

General Program of the National Natural Science Foundation of China(71774043)

Natural Science Foundation of Fujian Province(2023J05011)

摘要

相较于城市暴雨致灾事件(如内涝、洪水、泥石流等),现有研究对小粒度、多样化暴雨级联事件(如房屋损毁、地铁淹没等)风险的特征构成及其客观评估关注较少,难以适应城市精准化管理目标;同时,暴雨级联事件的风险评估模型构建面临样本数据风险特征不完备带来的模型效果约束。针对上述问题,考虑空间特征和风险特征的空间关联性,提出了融合风险特征和空间特征的城市暴雨级联事件风险评估模型构建方法。首先,面向不同暴雨级联事件的风险情景,从暴雨基层官员巡检、公民上报和社交媒体发帖数据中提炼级联事件风险特征;其次,以原始风险样本的空间定位为衔接,利用改进的边际Fisher方法从多源空间数据中挖掘空间特征,补充风险特征的缺失;最后,基于机器学习方法建立风险特征与风险类别的关联关系,构建多类别暴雨级联事件的风险评估模型。中国湖北省武汉市的实验结果表明:所提方法能够通过多源空间特征挖掘解决风险评估模型构建的特征不完备问题,实现多样化暴雨级联事件风险评估模型的有效构建,总体准确率、 F1得分以及AUC分别提升了23%、24%以及25%;同时,针对小粒度承灾体开展多样化级联事件风险评估,有助于更加精准的城市暴雨风险管理。

本文引用格式

刘昭阁 , 李向阳 , 朱晓寒 . 融合风险特征和空间特征的城市暴雨级联事件风险评估模型构建[J]. 地球信息科学学报, 2024 , 26(10) : 2394 -2406 . DOI: 10.12082/dqxxkx.2024.240270

Abstract

Compared with urban rainstorm hazardous events (such as waterlogging, flood, debris flow, etc.), existing studies pay less attention to the feature composition and objective assessment of risks associated with small-scale and diversified rainstorm cascading events (such as house damage, subway inundation, etc.), making is difficult to meet the goals of refined city management. At the same time, constructing risk assessment models for rainstorm cascading events faces constraints due to incomplete risk features in sample data. To address these issues, this paper proposes a risk assessment model for urban rainstorm cascading events that integrates risk features and spatial features, considering the spatial correlation between them. Firstly, for the risk scenarios of different rainstorm cascading events, the risk features are extracted from data sources such as grassroots officials' inspection, citizen reporting, and social media posts. Secondly, using the spatial localization of the original risk samples as a connection, an improved marginal Fisher method is employed to mine spatial features from multi-source spatial data to supplement the missing risk features. Finally, using a machine learning approach, the relationship between risk features and risk categories is established, leading to the construction of a risk assessment model for multi-category rainstorm cascading events. Experimental results from Wuhan, Hubei Province, China, show that the proposed method effectively addresses the problem of incomplete features in the construction of risk feature models through multi-source spatial feature mining, enabling the construction of diversified rainstorm cascading event risk assessment models. The overall accuracy, F1-score and AUC increased by 23%, 24%, and 25%, respectively. Additionally, the complexity and diversity of spatial features highlighted the risks of subjective and arbitrary feature fusion, which can negatively affect the performance of machine learning model construction by adding irrelevant features. The proposed method mitigates this issue with an adaptive feature selection approach. Furthermore, grassroots officials’ inspection records contributed the most to the construction of urban rainstorm cascading event risk assessment models, followed by citizen-reported texts, and finally, social media data. Compared to traditional disaster event risk assessment methods, urban rainstorm cascading event risks have smaller risk granularity and involve more complex and diverse risk types and features. Traditional comprehensive evaluation models face challenges of subjectivity in manual evaluation, while traditional disaster loss curve methods encounter high experimental costs and data scarcity. The method proposed in this paper utilizes objective data to generate multidimensional risk features and establishes relationships between diverse risk levels, resulting in a machine learning-based risk prediction model that is more suitable for small-scale risk assessment scenarios.

1 引言

相较于城市暴雨致灾事件(如内涝、洪水、泥石流等),暴雨级联事件(Urban Rainstorm Cascading Events, URCE)侧重于描述暴雨及其次生致灾事件造成的后果,如基础设施破坏、居民被困、交通拥堵和建筑损毁等[1]。由于城市环境的复杂性,URCE通常具有大范围(影响覆盖城市各类区域)、小粒度(不同点位的URCE发生可能性差异)、多类型、涌现性(城市环境日益复杂带来新的URCE)等区别于传统灾害事件的特点[2]。随着城市灾害应急管理不断向事前预防以及精细化管理转型,加强URCE的全面、系统、精准风险评估已成为城市暴雨灾害管理的重要内容,引发学界和管理部门共同关注[3-4]
现有灾害风险评估研究对URCE事前风险评估的讨论相对零散,主要是沿用传统致灾事件风险评估的路径,按可获得历史数据的情况可划分为灾损曲线方法和综合评价方法[5]。其中,灾损曲线方法[6-7]主要是在可获取充足历史数据情况下,通过曲线拟合生成情景概率与损失之间的关联;综合评价方法[8]则是在没有充足历史数据支持情况下,设置指标体系,通过专家打分的方式评估风险情况。然而,灾损曲线通常要求承灾体具有同质性(如建筑、道路等),小粒度多点位的URCE风险评估,灾损曲线所需数据通常十分庞大,难以获得;同时,综合评价方法在指标体系设置和专家打分方面具有一定主观性,尤其是面临多样化异类型URCE风险,难以确保评估的客观有效。
近年来,机器学习方法[9]带动发展了URCE风险评估路径,其以结果为导向,基于现实数据建立风险特征与风险等级之间的关系,具有良好的客观性与准确性;同时,机器学习不需要掌握各点位在各类情景下的历史数据,而仅是在已有数据基础上进行风险等级划分,在小粒度多点位情景下的适用性更强[10-12]。尤其是,基层官员巡检、公民上报、社交媒体等事件记录文本数据不断产生,这些数据虽然产生于事中和事后阶段,但通常涵盖事件定位、事件描述、事件分析等全面信息,可用于事前阶段的风险预测,为风险评估的机器学习构建提供强大的现实数据支持[13]。例如,根据事件定位数据,可以解析生成不同城市点位发生URCE事件的频率;根据事件描述数据,则可帮助分析相应事件的后果情景;根据事件分析,则可提取URCE风险发生的诱因[14-15]。总体而言,机器学习方法具有风险特征赋权客观性、复杂模型构建便利性、预测评估准确性等优势,已被越来越多地应用于小粒度灾害事件的风险预测[16]
然而,机器学习方法在应用于URCE风险评估时通常存在显著的特征不完备性[17-19],即原始样本提供的风险特征难以支持有效的风险评估。URCE风险评估的现实数据主要是基层官员巡检、公民上报、社交媒体等获得的事件记录文本,这些文本缺乏规范格式,包含的风险特征较少。因此,如何克服特征不完备成为约束机器学习应用的重要瓶颈问题。
针对特征不完备,已有研究通常通过深度学习方式强化对已有样本特征的应用[20],也有少部分研究开始结合知识图谱提高对风险特征关系的识别和应用[21]。然而,这些方法仍然对风险特征基数有较高要求,难以适应特征不完备现状。从逆向工程理论看[22],克服特征不完备应寻找新的信息增量。本文发现URCE原始样本通常包含空间定位数据,若能挖掘和嵌入关键空间特征,预期可以为机器学习提供更多风险特征知识。
在空间特征挖掘中,最大的挑战是空间特征和原始事件文本数据提供风险特征的融合问题。其中,风险特征是指危险性、脆弱性、暴露性和应灾能力等反映风险诱因的风险评估指标[5],其可直接作为风险评估模型构建的分析依据;空间特征主要是描述原始样本附近的事物特征,其由多源空间数据提炼得到,虽然种类多样,但不一定能够作为风险特征。以“内涝→交通瘫痪”事件为例,路段的经纬度、周围山体情况虽然也是空间特征,但难以反映风险诱因,故不能作为风险特征。由于空间特征的复杂多样,主观、武断融合可能因加入无关特征而负向影响机器学习模型构建效果。因此,本文提出一种改进的边际Fisher分析方法,以增强机器学习模型效果为目标、自适应地从可获取的空间特征中选取有用风险特征;同时,本文将公民上报数据、社交媒体数据等多源相关数据引入原始特征提取,进一步提升机器学习的风险知识增量。本文预期在理论上为URCE风险评估提供一种融合多源数据的智能分析方法,同时贡献文本和空间数据相结合的机器学习建模研究。

2 URCE风险评估模型构建方法

针对单一事件文本在URCE风险评估模型构建时的风险特征不完备问题,本文融合多源空间数据,提出一种融合风险特征和空间特征的URCE风险评估模型构建方法,其核心是以原始事件的空间定位为衔接,提取所关注点位(如路段、建筑等)附近的空间特征(如山体、排水管等),再通过改进的边际Fisher方法自适应地选择与嵌入空间特征,由此增强风险特征完备性,进而实现风险评估模型的可靠构建,这一流程如图1所示。
图1 基于空间特征挖掘和机器学习的URCE风险评估模型构建方法流程

Fig. 1 Process of URCE risk assessment model construction method based on spatial feature mining and machine learning

2.1 风险特征提取与风险样本生成

根据基层官员巡查、公民上报和社交媒体所得现实事件记录,可完成风险样本数据准备,以及相关风险特征的提取,典型示例如图2所示。 ① 根据事件定位,明确对应的风险对象,建立风险样本;风险对象即URCE的影响对象,如路段、电网设施、地理网格、建筑、山体等; ② 根据事件内容,可明确情景要素状态,从而帮助界定风险等级; ③ 从事件应对总结中提炼风险特征,其指危险性、脆弱性、暴露性和应灾能力等反映风险诱因的风险评估指标[23],分别对应致灾因子特征、承灾体特征、周边环境特征以及应急准备和响应特征。由图2中示例可知,各类原始事件文本中通常包含的风险特征较少,影响机器学习模型构建。根据对本文研究区域原始数据(详见3.1节)中风险特征数量的统计发现,1段事件文本平均仅包含3.6个风险特征,显著低于模型构建需求。
图2 基于URCE事件记录的风险样本生成示例

Fig. 2 Example of risk sample generation based on URCE event records

在各风险样本的风险等级处理上,主要是结合事件发生频率和预期后果情景确定。首先,将各类URCE后果情景根据历史数据聚类为高、中、低3个等级,这里由于已设定风险等级数,故采用K-means聚类法[24];其次,设定发生过1次及以上高等级情景的点位记为高风险点位,对发生过1次及以上中等级情景的点位记为中风险点位,其余记为低风险点位。值得注意的是,此处将发生频次标准定义为 1次以上,主要是由于URCE风险对象的小粒度性,以及基层官员巡查、公民上报和社交媒体记录的随机性,灾害事件记录通常难以覆盖所有风险对象,频次标准过高易造成风险样本缺失。通过数值实验发现,将频次标准设定为1次,可以最大程度避免高风险样本的缺失、同时保证不同等级样本分布的均衡性。

2.2 空间特征准备

本文结合可获取的多源空间数据,共提炼了八类空间特征,并通过聚类转化为文本特征。如表1所示,这些特征分别是: ① 地形特征,主要是关注点位所处的地面高程情况,根据样本数据聚类为3类,分别转化为“高程低”、“高程中”以及“高程高”;② 地质特征,包含“是否存在临近山体”以及“临近山体的属性特征(如土质和坡度)”; ③ 排水能力特征,主要是关注风险点位所处区域的管网排水能力; ④ 水系特征,主要包含“是否存在临近水库或湖泊”以及“临近水系的属性特征(如水库容量)”两方面; ⑤ 道路特征,主要是各路段的车流量以及与最近消防站之间的距离,分别用于分析潜在的交通拥堵情况; ⑥ 电网特征,包含各电力设施类型、设施节点重要性、输送电力等; ⑦ 建筑特征,包含建筑类型、建筑年龄、建筑安全等级3方面特征;⑧ 人口热力特征,主要是基于电信数据生成点位区域的人口热力,分析潜在居民受困情况。
表1 空间特征示例

Tab. 1 Examples of the spatial features

空间特征类别 空间特征 主要数据来源 主要聚类结果
地形特征 地面高程/m 谷歌地图等开放数据 “高程低”、“高程中”、“高程高”
地质特征 是否存在临近山体 城市规划部门 “是”、“否”
排水能力特征 排水管排水能力/(mm/s) 城市水务部门 “排水能力-强”、“排水能力-较差”、“排水能力-差”
水系特征 是否存在临近水库 城市水务部门 “是”、“否”
道路特征 车流量/(辆/h) 城市交通部门 “车流量-很大”、“车流量-较大”、“车流量-很小”
与最近消防站间距离 城市交通部门 “救援能力-不足”、“救援能力-较为不足”、“救援能力-充足”
电网特征 电力设施类型 城市电力公司 “变电站”、”输电线”、”发电站”等
建筑特征 建筑年龄/年 国土资源部门 “建筑年龄-老旧”、“建筑年龄-较旧”、“建筑年龄-较新”
人口热力特征 区域人口热力/(人/km2) 城市电信部门 “人口热力-很高”、“人口热力-较高”、“人口热力-较低”
在空间特征的聚类方面,对地面高程、车流量等数值型变量,聚类的临界值可通过对研究区域内数据的层次聚类[25]获得,采用层次聚类是因为其不需要预先指定聚类个数,能够根据历史数据分布自动生成最优聚类数量;对“电力设施类型”、“建筑类型”等分类变量,则通常可直接获得分类结果,不需要进行聚类操作。图3展示了空间数据转化为空间特征的示例。以车流量为例,在特征转化时,根据风险样本的空间定位确认所在路段,若该路段的“小时车流量”高于聚类所获得的阈值4 300辆/h,则将特征“车流量很大”提取至风险样本中;若该路段的“小时车流量”小于2 800辆/h,则将特征“车流量很小”提取至样本中。
图3 多源空间数据的转化示例

Fig. 3 Examples of converting multi-source spatial data

2.3 风险特征和空间特征融合

空间特征主要是描述原始样本附近的事物特征,其由多源空间数据提炼得到。如2.2节所述,虽然空间特征种类多样,但不一定能够作为风险特征。本文采用改进的边际Fisher方法从前述空间特征中自适应地选择高价值风险特征,以提高风险特征完备性。边际Fisher方法(Marginal Fisher Analysis, MFA)[26]是基于图嵌入的框架,设计出描述类内紧凑性的本征图和类间区分性的惩罚图。本文对传统MFA进行改进,改进后MFA方法的距离度量方式是内积,而不是传统的欧几里得距离。这是为了优化算法的求解过程,同时与后面的机器学习算法中的距离度量方式保持一致,以保证算法求解的一致性。
改进MFA的目标函数是找到最优空间特征组合,以最小化类内差异性和最大化类间分离性,提高不同种类样本的区分性。令M代表前述各空间特征的权重向量,则目标函数可表达如下。
M = a r g m i n M S c S p
式中:Sc为类内差异性;Sp为类间分离性。该目标函数在本文特征融合中的含义是:为多个空间特征赋权重,通过自适应调整空间特征权重,使得不同种类样本的区分性最优,从而帮助提高URCE风险评估的分类器效果。
在本征图Gc中,同类点的邻近关系由每一个样本与k个与其同类且邻近的样本点的距离值之和表示,因此类内差异性Sc可以表示如下。
S c = i   i N k ( j )   o r     j N k ( i ) M T x i T M T x j
式中:M代表特征变换矩阵;Nk(i)表示k个与样本xi同类且最邻近的样本点的索引集。在惩罚图Gp中,类间边界点的邻近关系由边界奇异点与m个与其异类且邻近的样本点的距离之和表示,因此类间分离性Sp可以表示如下。
S p = i   ( i ,   j ) P m ( c i )   o r   ( i ,   j ) P m ( c j ) M T x i T M T x j
式中:Pm(ci)表示{ ( i ,   j )| i π c i ,   j π c i}中m个最邻近的边界样本对的索引集。

2.4 风险评估模型的机器学习构建

在获取完备的风险特征之后,需考虑风险评估模型构建的机器学习问题,主要涉及机器学习样本选择以及模型构建工作。
(1)机器学习样本选择。相对于低风险样本,风险样本(包括高风险和中风险)通常为小样本, 全样本输入亦造成数据不平衡问题,影响风险分类。针对该问题,采取随机欠采样(Random under Sampling, RUS)[27]方法,从低风险样本(不包括无标签样本)中选择与风险样本量相平衡的样本,用于风险评估模型构建。除此之外,为提高风险样本与低风险样本的对比性,优先选择与风险样本空间距离较近的低风险样本。
(2)机器学习模型的分类器训练。由于URCE风险评估同时涵盖多个风险等级,故可将其模型构建视为一项有监督的多分类问题,风险样本对应的风险等级标签和风险特征均为已知。为便于说明融合空间特征和风险特征的模型构建优势,本文统一采用支持向量机(Support Vector Machine, SVM)这一基准机器学习算法进行分类训练。SVM是一类典型的机器学习算法,具有高准确率、泛化能力强、能够处理高维特征数据等优点,相比于深度学习算法具有更快的处理速度和更低的运行成本[28]

3 实验设计及结果分析

3.1 实验设计

3.1.1 实验区概况

武汉东湖新技术开发区(又名:中国光谷)位于武汉市东南,占地518 km2,是我国国家级高新区和国家光电子产业基地。建成区占全区土地面积的20%,却聚集了高新区超过80%的建筑和人口,同时隶属武汉中心城区,是高新区的核心地带;同时,建成区地貌特征十分复杂,既有湖泊、水库等构成的复杂水系统,又有绿地、山体等构成的地质系统。武汉高新区建成区常年雨量充沛,易发生暴雨及其引发的多类事件风险,如图4所示。本文将以该区域的6类URCE风险评估为例,检验本文所提方法的合理性与有效性。
图4 研究区域位置

Fig. 4 Location of the research area

3.1.2 事件文本数据来源

本文研究区域为武汉市东湖新技术开发区(以下简称武汉东湖)的建成区,事件记录数据来源包括3部分,均为文本类型数据:
(1)基层官员巡检数据。以2017—2021年为时间区间,收集了武汉东湖的暴雨巡检记录文本事件数据,共计4 370条,数据来源是武汉新技术开发区管委会办公室和防汛抗旱指挥部办公室。
(2)公民上报数据。以2017—2021年为时间区间,从武汉东湖防汛办获取了时间区间内的线下公民上报数据;同时,从政务平台(武汉微邻里)获取网络事件上报数据,2部分共计3 877条。
(3)社交媒体数据。以2017—2021年为时间 区间,从新浪微博中爬取历史暴雨期间的公民发 帖数据,运用隐含狄利克雷分布模型(Latent Dirichlet Allocation,LDA)[29]解析各发帖主题,从中筛选URCE事件数据,此部分数据共计5 101条。
在风险等级的处理上,结合事件发生频率和预期后果情景确定,详见2.1节。最终,将风险样本划分为高、中、低3级,风险样本分布如表2所示。
表2 风险样本分布

Tab. 2 URCE risk sample distribution

URCE风险 符号 风险等级 样本数/个
内涝→交通瘫痪 #a 高风险 965
中风险 1 953
低风险 999
内涝→电网损毁 #b 高风险 614
中风险 1 627
低风险 1 049
内涝→居民受困 #c 高风险 556
中风险 1 304
低风险 746
泥石流→建筑损毁 #d 高风险 162
中风险 350
低风险 161
泥石流→交通拥堵 #e 高风险 177
中风险 465
低风险 204
洪水→建筑损毁 #f 高风险 438
中风险 1 006
低风险 572

3.1.3 空间数据来源

本文以武汉东湖建成区为研究对象,纳入多源空间数据进行URCE风险评估,研究区域的位置如图4所示,具体空间数据来源如下:
(1)地形数据。取自谷歌地图的30 m数字高程模型(Digital Elevation Model, DEM)。
(2)地质数据。取自武汉规划设计院提供的山体地质图(分辨率为8 m)。
(3)排水管网数据。包括排水管网分布和管径数据表,用于分析暴雨情景下的排水能力。
(4)从遥感图像(分辨率为8 m)中提取湖泊和水库等水系数据。
(5)道路系统数据。包括道路分布、交通流量(分辨率为8 m)以及与消防站间距离数据。
(6)电力系统。数据主要用于提高对电网损毁事件的风险评估。
(7)建筑数据(如住宅、酒店和办公楼)。从该区域的建设局获得的(分辨率为8 m)。
(8)电信数据。分析人口密度分布情况。
实验部分使用数据的数据类型、数据量、数据来源等具体信息见表3
表3 多源空间数据集

Tab. 3 Muti-surce spatial datasets

数据名称 数据描述 数据类型 数据量 数据来源
地形数据 30 m数字高程模型(DEM) 数值 904条 谷歌地图
地质数据 山体边界 矢量 297条 武汉市规划设计研究院
山体面积、土质等地质属性 矢量 297条 武汉市规划设计研究院
排水管网数据 排水管网分布与管径 栅格 518 km2 LocaSpaceViewer (LSV)
遥感数据 湖泊分布与深度 栅格 518 km2 武汉东湖水务局
水库分布与深度 栅格 518 km2 武汉东湖水务局
道路数据 道路交通流量以及与消防站间距离 矢量 652条 武汉东湖交通大队
电力数据 电力设施分布 矢量 348条 武汉东湖管委会
建筑数据 建筑分布和类型 矢量 482条 武汉东湖管委会
电信数据 人口密度分布 矢量 275条 武汉东湖管委会

注:表中数据的年份为2017—2021年,与风险样本保持一致。

3.1.4 评价标准

机器学习模型的性能通常根据准确率[30]进行评估。除此之外,本文还考虑了F1分数来衡量精确程度、以及接受者操作特性曲线(Receiver Operating Characteristic Curve, ROC)的曲线下面积(The Area under the ROC Curve, AUC)[31]来检验犯错误概率。典型指标的具体计算方式如下[32]
        A c c u r a c y = T P + T N T P + T N + F P + F N F 1 = 2 × P r e c i s i o n × R e c a l l P r e c i s i o n + R e c a l l P r e c i s i o n = T P T P + F P R e c a l l = T P T P + F N
式中:Accuracy代表准确率;TP为实际为正样本(本文中为高风险与中风险样本)且被分类器判定为正样本的样本数;TN为实际为负样本(本文中为低风险样本)且被分类器判定为负样本的样本数;FP为实际为负样本但被分类器判定为正样本的样本数;FN为实际为正样本但被分类器判定为负样本的样本数;F1代表F1分数;Precision为精确率;Recall为召回率。

3.2 总体URCE风险评估模型效果

利用SVM进行机器学习模型构建,生成表1中6类典型URCE的风险评估模型,再利用测试数据集对模型效果进行测试。为提高效果分析的可靠性,上述数值实验共进行10次,取10次模型效果的平均值作为最终模型效果,图5中分别展示了准确率、F1得分以及AUC共3类指标的模型效果;同时,将模型效果与未融合多源空间特征(仅采用原始事件记录文本提供的风险特征)时的效果进行比较;在融合空间特征时,还比较了有筛选和无筛选融合两种方式。其中,无筛选的融合是将所有可获得的空间特征均作为风险特征嵌入至原始样本;有筛选的融合是考虑空间特征在风险评估中的适用性差异,利用改进边际Fisher方法选择高适用性的空间特征。
图5 总体URCE风险评估效果及其与未融合多源空间特征时的效果对比

Fig. 5 The overall URCE risk assessment performance and its comparison with the performance without integrating multi-source spatial features

可以发现,在融合多源空间特征后,各类URCE风险评估的模型效果得到大幅度提升,总体准确率、F1得分以及AUC分别提升了23%、24%以及25%,部分类别(如#c和#d)的准确率提升了30%以上,说明了多源空间特征在辅助风险特征模型构建中的重要作用以及本文所提空间特征挖掘与融合方法在克服特征不完备问题中的有效性。同时,对比有筛选融合和无筛选融合时的模型效果可以发现,并非所有空间特征均适用于URCE风险评估,主观、武断融合可能因加入无关特征而负向影响机器学习模型构建效果,故整体风险评估效果提升有限,总体的准确率、F1得分、AUC均仅提升6%;在利用本文方法进行有筛选的空间特征融合后(详见2.3节),URCE风险评估的模型效果得以显著增强,效果提升达到20%以上。
除基准方法(SVM)外,选取4类代表性的机器学习和深度学习方法,比较不同方法的URCE风险评估模型构建效果,阐释本文所提方法的有效性;这些方法包括合成少数类过采样技术(Synthetic Minority Oversampling Technique, SMOTE)、拉普拉斯支持向量机(Laplacian Support Vector Machine, L-SVM)、快速文本分类算法(FastText)、以及使用信息实体增强的语言表示模型(Enhanced Language Representation with Informative Entities, ERNIE)。其中,SMOTE是一类基于过采样的机器学习模型构建方法,其设定特征不完备问题源于风险样本量不足,在不改变总体数据分布的情况下,通过构建增加风险样本,减少特征不完备对机器学习模型构建的影响;FastText是一类代表性的深度学习算法,主要适用于文本类数据的特征挖掘与模型构建,同时具有易操作和样本训练速度快的优势;L-SVM是一种半监督机器学习方法,可充分利用已标注数据和未标注数据,提高SVM的模型泛化性能;FastText是一类代表性的深度学习算法,主要适用于文本类数据的特征挖掘与模型构建,同时具有易操作和样本训练速度快的优势;ERNIE是一类基于预训练模型的深度学习方法,可迁移网络公开知识,具有场景适应性强的优势。
图6展示了不同方法应用下的URCE风险评估效果,可以发现:本文所提方法在模型效果上优于其他方法;在未融合风险特征和空间特征时,深度学习方法(FastText和ERNIE)的效果优于SMOTE和L-SVM等机器学习方法,这分别得益于对样本特征关联的深度挖掘、以及网络公开大量知识的迁移作用,FastText和ERNIE分别提升了13%和15%的准确率;在利用本文方法融合空间特征后,风险评估效果显著增加,准确率提升了23%,体现了URCE风险评估的特征不完备影响、以及融合空间特征在克服特征不完备时的有效性。其他指标(F1得分和AUC)结果类似,篇幅所限,仅展示准确率指标结果。
图6 不同方法应用下的URCE风险评估效果

Fig. 6 URCE risk assessment performance under different types of methods

3.3 原始特征贡献分析

本文还对比了巡检记录、公民上报和社交媒体等不同种类原始特征的贡献,结果如图7所示。由于篇幅所限,图中仅展示准确率指标结果,其它指标结果类似。可以发现,巡检记录对风险评估模型构建的特征贡献最大,其次是公民上报文本,最后是社交媒体,追根溯源,是基层官员相对公民而言具有更多的工作经验和风险知识,提供的风险特征更为可靠;这提示了管理部门应强化对事件内容的规范化管理。另一方面,单一任何一类样本均难以实现综合样本效果,说明公民上报和社交媒体在暴雨灾害管理中正发挥着越来越重要的作用,管理部门应加强对相关主体的风险沟通与信息贡献的激励,提高多主体信息在暴雨灾害管理中的有效性。
图7 不同种类原始特征下的URCE风险评估效果

Fig. 7 URCE risk assessment performance under different types of original features

3.4 URCE风险评估模型应用

利用构建的URCE风险评估模型,可以生成各类URCE的风险评估结果,藉此服务于URCE的事前预防与管理,实现风险管控。图7展示了3类典型URCE的风险评估结果,以及各类风险的空间分布。从图8可发现,不同类型风险的空间分布具有显著差异,体现出URCE风险的复杂性,需要结合具体风险对象及其风险特征,开展相对应的风险模型构建与应用。以事件#a(内涝→交通瘫痪)为例,其风险分布主要集中在光谷广场、民族大道、珞喻路、以及珞瑜东路沿线,不同路段的具体风险等级有差异,交通部门可参照风险分布开展精准风险管控。在模型耗时方面,本文所提模型构建方法利用SVM做分类器,具有计算效率高、计算成本低的优势;就本文实验中的6类事件的风险评估而言,模型的总运行时间(包括模型训练和风险评估结果生成)平均仅需7.2 s,最长运行时间(对应风险类#b的模型构建)为10.3 s。
图8 部分URCE类型的风险评估结果

Fig. 8 Partial URCE risk assessment results

4 结论

聚焦复杂URCE事前预防,基层官员巡检、公民上报、社交媒体等多渠道提供了大量事件记录数据,利用这些数据可以帮助大范围、小粒度的URCE风险预测,却面临样本数据风险特征不完备带来的模型效果约束。针对这一问题,本研究提出一种融合风险特征和空间特征的URCE风险评估模型构建方法,尝试通过融合多源空间特征,突破因原始风险样本特征不完备带来的URCE风险评估模型效果约束。在该过程中,提出了一套集成文本分析、改进边际Fisher分析以及机器学习的方法框架,分别用于原始样本特征分析、空间特征挖掘融合、以及风险评估模型构建。基于武汉东湖建成区典型级联事件风险评估的数值实验表明,所提方法在特征不完备环境下具有显著优势,总体准确率、F1得分以及AUC分别提升了23%、24%以及25%;同时,所提方法效果显著优于代表性机器学习和深度学习方法,体现了本文融合空间特征路径的有效性;此外,厘清了基层官员巡检、公民上报、社交媒体数据发布等不同形式的样本在风险评估模型构建中的特征贡献,为管理部门优化URCE数据管理提供参考。本文方法在小粒度、多点位场景中优势明显,适应城市灾害风险管理的精准化和客观性目标。
本文方法的主要优势为: ① 相对于传统机器学习方法,本文提供了一类基于小样本和多源空间大数据集成的机器学习模型构建路径,相较于传统基于单一小样本的分析可靠性更强,亦符合现实场景的数据分布;与已有基于空间特征的机器学习方法相比[33-34],本文方法增加了多源空间特征的筛选机制,以增强风险预测效果为目标、自适应地从多源空间特征中筛选风险特征,避免因加入无关特征而负向影响机器学习模型构建效果;② 相对于传统灾害事件风险评估方法,URCE风险粒度小、风险类型及其特征构成复杂多样,传统综合评价模型面临人工评价的主观性问题、传统灾损曲线方法面临实验成本巨大、数据匮乏的问题,本文所提方法利用客观数据生成多维风险特征和多样风险等级之间的关系,建立一种机器学习思路的风险预测模型,更加适应小粒度风险评估场景。
进一步研究将关注3个方面的问题。① 受制于暴雨级联事件记录文本和多源空间数据的可获得性,本文重点关注了武汉这一代表性的受暴雨影响城市,所提方法在其他区域和其它类型事件风险评估中的有效性需要更多验证。在未来研究中,应拓展所提方法的应用场景,在其他自然灾害、事故灾难、公共卫生等多灾种场景和城市、乡村、海域等多区域场景中探索方法适用性与局限性, 对方法进行改进完善。② 探索除多源空间大数据外的其他类型大数据,如网络知识图谱、大模型问答数据等在灾害风险预测及评估中的作用,尝试突破数据可获得性的约束。③ 研究灾害风险评估背后的数据治理问题,为更多大数据方案的产生提供机会。
[1]
Qie Z J, Rong L L. A scenario modelling method for regional cascading disaster risk to support emergency decision making[J]. International Journal of Disaster Risk Reduction, 2022,77:103102. DOI:10.1016/j.ijdrr.2022.103102

[2]
刘海洋, 王录仓, 常跟应. 郑州“7·20” 特大暴雨灾害对中国铁路运网的冲击过程和机制[J]. 地理学报, 2024, 79(3):617-634.

DOI

[Liu H Y, Wang L C, Chang G Y. The impact process and mechanism of the superheavy rainfall event in Zhengzhou on July 20, 2021 on the China’s railway transport network[J]. Acta Geographica Sinica, 2024, 79(3):617-634.] DOI:10.11821/dlxb202403005

[3]
卢小丽, 于海峰. 基于知识元的突发事件风险分析[J]. 中国管理科学, 2014, 22(8):108-114.

[Lu X L, Yu H F. Emergency risk analysis based on knowledge element[J]. Chinese Journal of Management Science, 2014, 22(8):108-114.] DOI:10.16381/j.cnki.issn1003-207x.2014.08.014

[4]
李锋, 王慧敏. 基于知识元的非常规突发洪水事件演化风险研究[J]. 系统工程理论与实践, 2016, 36(12):3255-3264.

DOI

[Li F, Wang H M. Research on unconventional flood emergency evolution risk analysis based on knowledge element[J]. Systems Engineering-Theory & Practice, 2016, 36(12):3255-3264.] DOI:10.12011/1000-6788(2016)12-3255-10

[5]
王楠, 程维明, 张一驰, 等. 全国山洪灾害防治县房屋损毁风险评估及原因探究[J]. 地球信息科学学报, 2017, 19(12):1575-1583.

DOI

[Wang N, Cheng W M, Zhang Y C, et al. Reasons and risk assessment of housing damage in the national mountain torrent disaster prevention county[J]. Journal of Geo-information Science, 2017, 19(12):1575-1583.] DOI:10.3724/SP.J.1047.2017.01575

[6]
郭君, 赵思健, 黄崇福. 自然灾害概率风险的系统误差及校正研究[J]. 系统工程理论与实践, 2017, 37(2):523-534.

DOI

[Guo J, Zhao S J, Huang C F. A study on the systematic error and correction of the probabilistic risk of natural disaster[J]. Systems Engineering-Theory & Practice, 2017, 37(2):523-534.] DOI:10.12011/1000-6788(2017)02-052 3-12

[7]
尹占娥, 许世远, 殷杰, 等. 基于小尺度的城市暴雨内涝灾害情景模拟与风险评估[J]. 地理学报, 2010, 65(5):553-562.

[Yin Z E, Xu S Y, Yin J, et al. Small-scale based scenario modeling and disaster risk assessment of urban rainstorm water-logging[J]. Acta Geographica Sinica, 2010, 65(5):553-562.] DOI:10.11821/xb201005005

[8]
谢捷, 刘玮, 徐月顺, 等. 基于AHP-熵权法的西宁地区汛期暴雨灾害风险评估[J]. 自然灾害学报, 2022, 31(3):60-74.

[Xie J, Liu W, Xu Y S, et al. Rainstorm disaster risk assessment in Xining Area in rainy season based on the AHP weight method and entropy weight method[J]. Journal of Natural Disasters, 2022, 31(3):60-74.] DOI:10.13577/j.jnd.2022.0306

[9]
Hou H, Yu S W, Wang H B, et al. Risk assessment and its visualization of power tower under typhoon disaster based on machine learning algorithms[J]. Energies, 2019, 12(2):1-23. DOI:10.3390/en12020205

[10]
苏凯, 程昌秀, Nikita Murzintcev, 等. 主题模型在基于社交媒体的灾害分类中的应用及比较[J]. 地球信息科学学报, 2019, 21(8):1152-1160.

DOI

[Su K, Cheng C X, Murzintcev N, et al. Application and comparison of topic model in identifying latent topics from disaster-related tweets[J]. Journal of Geo-information Science, 2019, 21(8):1152-1160.] DOI:10.12082/dqxxkx.2019.190046

[11]
Li H X, Han Y H, Wang X, et al. Risk perception and resilience assessment of flood disasters based on social media big data[J]. International Journal of Disaster Risk Reduction, 2024,101:104249. DOI:10.1016/j.ijdrr.2024.104249

[12]
Li Y B, Peng L, Sang Y, et al. The characteristics and functionalities of citizen-led disaster response through social media: A case study of the #HenanFloodsRelief on Sina Weibo[J]. International Journal of Disaster Risk Reduction, 2024,106:104419. DOI:10.1016/j.ijdrr.2024.104419

[13]
梁春阳, 林广发, 张明锋, 等. 社交媒体数据对反映台风灾害时空分布的有效性研究[J]. 地球信息科学学报, 2018, 20(6):807-816.

DOI

[Liang C Y, Lin G F, Zhang M F, et al. Assessing the effectiveness of social media data in mapping the distribution of typhoon disasters[J]. Journal of Geo-information Science, 2018, 20(6):807-816.] DOI:10.12082/dqxxkx.2018.180022

[14]
周超, 方秀琴, 吴小君, 等. 基于三种机器学习算法的山洪灾害风险评价[J]. 地球信息科学学报, 2019, 21(11):1679-1688.

DOI

[Zhou C, Fang X Q, Wu X J, et al. Risk assessment of mountain torrents based on three machine learning algorithms[J]. Journal of Geo-Information Science, 2019, 21(11):1679-1688.] DOI:10.12082/dqxxkx.2019.190185

[15]
程昌秀, 裴韬, 刘瑜, 等. 新时代自然灾害态势感知的实践与方法探索[J]. 地理学报, 2023, 78(3):548-557.

DOI

[Cheng C X, Pei T, Liu Y, et al. The practice and method of natural disasters situational awareness in the new era[J]. Acta Geographica Sinica, 2023, 78(3):548-557.] DOI:10.11821/dlxb202303003

[16]
刘奕, 钱静, 范维澄. 走向精准:突发事件风险分析方法发展综述[J]. 中国安全科学学报, 2022, 32(9):1-10.

DOI

[Liu Y, Qian J, Fan W C. Rise of precision: A review of emergency risk analysis methodology[J]. China Safety Science Journal, 2022, 32(9):1-10.] DOI:10.16265/j.cnki.issn1003-3033.2022.09.2742

[17]
Huang G Z, Wu G N, Guo Y J, et al. Risk assessment models of power transmission lines undergoing heavy ice at mountain zones based on numerical model and machine learning[J]. Journal of Cleaner Production, 2023,415:137623. DOI:10.1016/j.jclepro.2023.137623

[18]
Ngamassi L, Ramakrishnan T, Rahman S. Use of social media for disaster management[J]. Journal of Organizational and End User Computing, 2016, 28(3):122-140. DOI:10.4018/joeuc.2016070108

[19]
Lin L, Tang C Q, Liang Q H, et al. Rapid urban flood risk mapping for data-scarce environments using social sensing and region-stable deep neural network[J]. Journal of Hydrology, 2023,617:128758. DOI:10.1016/j.jhydrol.20 22.128758

[20]
Johnson J M, Khoshgoftaar T M. Survey on deep learning with class imbalance[J]. Journal of Big Data, 2019, 6(1):27. DOI:10.1186/s40537-019-0192-5

[21]
Song L Y, Li H D, Tan Y C, et al. Enhancing enterprise credit risk assessment with cascaded multi-level graph representation learning[J]. Neural Networks, 2024, 169:475-484. DOI:10.1016/j.neunet.2023.10.050

[22]
李长升, 汪诗烨, 李延铭, 等. 人工智能的逆向工程——反向智能研究综述[J]. 软件学报, 2023, 34(2):712-732.

[Li C S, Wang S Y, Li Y M, et al. Survey on reverse-engineering artificial intelligence[J]. Journal of Software, 2023, 34(2):712-732.] DOI:10.13328/j.cnki.jos.006699

[23]
包云, 高歌, 李亚群, 等. 基于监测数据挖掘的高铁气象灾害风险评估方法研究[J]. 灾害学, 2022, 37(2):44-48,53.

[Bao Y, Gao G, Li Y Q, et al. Research on high-speed railway meteorological disaster risk analysis method based on monitoring data mining[J]. Journal of Catastrophology, 2022, 37(2):44-48,53.] DOI:10.3969/j.issn.1000-811X.2022.02.008

[24]
王启盛, 熊俊楠, 程维明, 等. 耦合统计方法、机器学习模型和聚类算法的滑坡易发性评价方法[J]. 地球信息科学学报, 2024, 26(3):620-637.

DOI

[Wang Q S, Xiong J N, Cheng W M, et al. Landslide susceptibility mapping methods coupling with statistical methods, machine learning models and clustering algorithms[J]. Journal of Geo-Information Science, 2024, 26(3):620-637.] DOI:10.12082/dqxxkx.2024.230427

[25]
陈希, 张怡斐, 孙亚亚, 等. 面向突发事件的应急献血者聚类与分配方法研究[J]. 中国管理科学, 2022, 30(12):77-85.

[Chen X, Zhang Y F, Sun Y Y, et al. Research on clustering and assignment of emergency blood donors for emergency[J]. Chinese Journal of Management Science, 2022, 30(12):77-85.] DOI:10.16381/j.cnki.issn1003-207x.2019.1743

[26]
Liu B, Zhou Y, Xia Z G, et al. Spectral regression based marginal Fisher analysis dimensionality reduction algorithm[J]. Ne- urocomputing, 2018, 277:101-107. DOI:10.1016/j.neucom.2017.05.097

[27]
Mostafaei S, Ahmadi A, Shahrabi J. USWAVG-BS: Under-Sampled Weighted AVeraGed BorderlineSMOTE to handle data intrinsic difficulties[J]. Expert Systems with Applications, 2023,227:120379. DOI:10.1016/j.eswa.2023.120379

[28]
邱凤婷, 过志峰, 张宗科, 等. 基于改进SVM分类法的SAR图像水体面积提取研究[J]. 地球信息科学学报, 2022, 24(5):940-948.

DOI

[Qiu F T, Guo Z F, Zhang Z K, et al. Water body area extraction from SAR image based on improved SVM classification method[J]. Journal of Geo-Information Science, 2022, 24(5):940-948.] DOI:10.12082/dqxxkx.2022.210095

[29]
Madzík P, Falát L, Zimon D. Supply chain research overview from the early eighties to Covid era-Big data approach based on Latent Dirichlet Allocation[J]. Computers & Industrial Engineering, 2023,183:109520. DOI:10.1016/j.cie.2023.109520

[30]
Sun Z G, Wang G T, Li P F, et al. An improved random forest based on the classification accuracy and correlation measurement of decision trees[J]. Expert Systems with Applications, 2024,237:121549. DOI:10.1016/j.eswa.2023.121549

[31]
姚潇, 李可, 余乐安. 非平衡样本下基于生成对抗网络过抽样技术的公司债券违约风险预测研究[J]. 系统工程理论与实践, 2022, 42(10):2617-2634.

DOI

[Yao X, Li K, Yu L A. Imbalanced corporate bond default modeling using generative adversarial networks oversampling techniques[J]. Systems Engineering-Theory & Practice, 2022, 42(10):2617-2634.] DOI:10.12011/SETP2021-2328

[32]
Liu Z G, Li X Y, Zhu X H, et al. Towards rainstorm event identification: A transfer learning framework using citizen-report texts and multi-source spatial data[J]. International Journal of Disaster Risk Reduction, 2022,83:103427. DOI:10.1016/j.ijdrr.2022.103427

[33]
Yang L Y, Ji X, Li M, et al. A comprehensive framework for assessing the spatial drivers of flood disasters using an optimal Parameter-based geographical Detector-machine learning coupled model[J]. Geoscience Frontiers, 2024, 15(6):101889. DOI:10.1016/j.gsf.2024.101889

[34]
Quiliche R, Santiago B, Baião F A, et al. A predictive assessment of households' risk against disasters caused by cold waves using machine learning[J]. International Journal of Disaster Risk Reduction, 2023,98:104109. DOI:10.1016/j.ijdrr.2023.104109

文章导航

/