遥感科学与应用技术

融合VGI和遥感等多源数据的洪涝范围提取与模拟方法

  • 邢子瑶 , 1, 2 ,
  • 董芯蕊 1, 2 ,
  • 昝糈莉 3 ,
  • 杨帅 1, 2 ,
  • 黄梓焓 1, 2 ,
  • 刘哲 1, 2 ,
  • 张晓东 , 1, 2, *
展开
  • 1.中国农业大学土地科学与技术学院,北京 100083
  • 2.中国农业大学农业农村部农业灾害遥感重点实验室,北京 100083
  • 3.北京市水科学技术研究院,北京 100048
* 张晓东(1966— ),女,北京人,教授,博士,博士生导师,主要从事空间信息技术与应用、灾害监测预警技术及种业信息化的研究。E-mail:

邢子瑶(1994— ),女,河北石家庄人,博士生,主要从事灾害信息挖掘与分析。E-mail:

收稿日期: 2022-12-11

  修回日期: 2023-03-20

  网络出版日期: 2023-09-05

基金资助

国家重点研发计划项目(2018YFC1508901-3)

Flood Inundation Mapping and Estimation using VGI, Remote Sensing Images and Other Multi-source Data

  • XING Ziyao , 1, 2 ,
  • DONG Xinrui 1, 2 ,
  • ZAN Xuli 3 ,
  • YANG Shuai 1, 2 ,
  • HUANG Zihan 1, 2 ,
  • LIU Zhe 1, 2 ,
  • ZHANG Xiaodong , 1, 2, *
Expand
  • 1. College of Land Science and Technology, China Agriculture University, Beijing 100083, China
  • 2. Key Laboratory of Remote Sensing for Agri-Hazards, Ministry of Agriculture and Rural Affairs, Beijing 100083, China
  • 3. Beijing Water Science and Technology Institute, Beijing 100048, China
* ZHANG Xiaodong, E-mail:

Received date: 2022-12-11

  Revised date: 2023-03-20

  Online published: 2023-09-05

Supported by

National Key R&D Program of China(2018YFC1508901-3)

摘要

及时准确的洪涝范围提取可以提高应急管理部门对于洪涝灾害的响应能力,减轻灾害影响。SAR遥感不受云雨影响,是洪涝灾害监测的有效工具。然而,由于卫星重返周期的限制,基于SAR的洪涝连续观测较难实现。在应急背景下,如何快速、实时进行洪涝范围提取是急需解决的问题。本文提出了一种结合遥感、VGI等多源数据的洪涝范围提取与模拟方法: ① 构建Albert+CNN的文本分类模型提取社交媒体洪涝信息;② 基于异常值剔除方法利用社交媒体和OSM等VGI数据代替人工采样对Sentinel-1 SAR数据进行分类,提取洪涝范围;③ 结合社交媒体、水位数据等多源数据基于SNIC分割和成本距离等方法模拟无可用SAR数据时的洪涝淹没情况,提高洪涝的淹没范围提取频次。研究表明,本文基于Albert+CNN与异常值剔除的样本自动生成方法,可以有效辅助SAR数据的洪涝分类;利用VGI数据结合水情、DEM等多源数据进行了洪涝范围的模拟可以增加洪涝监测的时间分辨率。本研究有助于提高洪涝信息提取能力,为VGI支持洪涝灾害的应急管理提供参考。

本文引用格式

邢子瑶 , 董芯蕊 , 昝糈莉 , 杨帅 , 黄梓焓 , 刘哲 , 张晓东 . 融合VGI和遥感等多源数据的洪涝范围提取与模拟方法[J]. 地球信息科学学报, 2023 , 25(9) : 1869 -1881 . DOI: 10.12082/dqxxkx.2023.220966

Abstract

Timely and accurate flood extraction can improve the ability of emergency management departments to respond to flood disasters and thus reduce the impact of disasters. Synthetic Aperture Radar (SAR) remote sensing is not affected by cloud and rain and acts as an effective tool for flood disaster monitoring. However, rapid and automated sample acquisition for accurately obtaining flood information still poses challenges in the post-disaster emergency stage. In addition, due to the satellite’s limited revisit period, flood extent extraction based on remote sensing images has a certain time gap. Therefore, how to delineate flood extent in real time is an urgent problem to be solved. In this paper, combining SAR images, Volunteered Geographic Information (VGI), and other multi-source data, an automated flood inundation mapping and estimation method is proposed to identify the flood in a nearly real-time way. Firstly, the Albert+CNN text classification model is constructed to extract flood information from social media. Secondly, based on the outlier elimination method, the Sentinel-1 SAR data are classified using VGI data such as social media and OSM instead of manual sampling, and the flood extent is extracted. Thirdly, in combination with social media, water level data, and other multi-source data, the flood inundation without SAR data is simulated based on SNIC segmentation and cost distance methods. The results show that the text classification model based on Albert+CNN model constructed in this paper can accurately classify the flood information of social media, with the classification accuracy up to 83.6%. The automatic sample generation method based on outlier elimination can effectively assist flood classification from SAR data. The accuracy of flood classification using the generated samples and random forest is 92.7%, which is more than 10% higher than that of the OSTU-based methods. Using VGI data and multi-source data such as water situation and DEM to simulate the flood extent can further increase the temporal resolution of flood monitoring. In this study area, two periods of flood simulation results are provided during the flood process, improving the flood disaster information. This study is helpful to improve the efficiency of flood information extraction and provide reference for VGI to support the emergency management of flood disasters. In the future, the picture information in VGI data can be comprehensively used to extract flood depth and hydrological models could also be used to further improve the flood situation awareness and prediction ability.

1 引言

洪涝是全球最常见的、反复发生的自然灾害之一[1],可能造成大量农作物损失、基础设施破坏及人员伤亡。及时地了解洪涝的空间范围可以降低灾害的影响,为应急响应提供依据。遥感具有范围广、成本低廉等优点,适应于洪涝灾害的宏观和快速监测[2]。洪涝发生时往往多为云雨天气,被动光学传感器经常受到云层的影响,而合成孔径雷达(SAR)传感器可穿透云、雨、雾、沙尘暴等,具备全天候工作能力,是洪涝灾害监测必不可少的数据来源[3]。社交媒体等数据也提供了大量、全面的洪涝信息,可以有助于提高灾害的态势感知能力[4]。如何结合多源数据,寻找自动化、快速的洪涝监测方法十分重要。
常见的基于SAR数据的洪涝提取方法有基于阈值[5-6]、监督分类[7-8]、干涉相干分析[9]、变化检测[10-11]等多种方法。其中基于阈值的洪涝提取方法较为快速,应用较为广泛,例如段伟芳[10]等基于对数变换确定最佳阈值提取灾后水体。然而,大多数方法依赖于单一阈值来分割水体和其他地物,没有考虑到图像中不同地表类型的复杂性和可变性[2],并且同一种阈值提取方法在大尺度范围推广时可能并不适用。而其他的方法均需要选择合适的洪涝样本,人工采样的方法将降低洪涝提取的速度,探索样本生成方法至关重要。Benoudjit等[8]使用Sentinel-2光学图像基于NDWI提取的洪涝范围训练监督分类器,识别SAR图像上的淹没,以代替人工划分样本。Nemni等[12]使用阈值的方法提取样本,并利用人工目视解译进行判断。此类方法在阈值的选择上可能存在一定的不准确性而影响了分类的精度,如何自动化确定样本位置需要进一步研究。
此外,洪涝灾情随时间变化较快,受卫星重返周期的限制,基于遥感的洪涝范围提取实时性较差,如何利用多源数据获取及时的灾情信息是目前洪涝监测的难点之一。使用社交媒体等VGI数据可以提高灾情获取的时间分辨率[13]。社交媒体数据获取便捷、更新快,含有大量人对于灾害的感知。然而,社交媒体数据通常是呈现为点,许多研究通过生成热力图[13]或进行核密度分析[14]以获得较大空间范围上的洪涝情况 。该类方法默认社交媒体数据聚集即灾情严重,但是社交媒体数据空间异质性高,受人口分布、区域经济情况等多种因素影响,仅以社交媒体的数量作为灾情评估标准容易造成灾情的误判。由于洪涝的形成与地形地貌、不透水程度等多种因素相互关联[15],为将社交媒体中的洪涝信息由点及面,可以融合遥感、DEM、水位等多源数据,提高洪涝范围提取的准确性。
本文提出了一种基于遥感影像、VGI、水情等多源数据的洪涝范围提取与模拟的方法,旨在使用低成本、易获取的数据,提高洪涝灾情判断的速度。具体目标有以下2点:① 解决洪涝范围提取中样本处理困难、无法自动获取的问题;② 融合VGI等多源数据进行洪涝范围模拟,利用实时性更强的社交媒体、水位数据等弥补遥感影像重返周期的限制,提高洪涝范围提取的频次。在本研究中,我们构建了基于Albert+CNN的社交媒体数据分类模型,基于异常值剔除方法使用VGI数据(OSM和社交媒体数据)自动化生成洪涝样本,并在Google Earth Engine平台上基于Sentinel-1的SAR数据进行洪涝范围提取。另外在SAR影像获得较难时使用Sentinel-2遥感影像、社交媒体数据、水情等多源数据模拟的洪涝范围,实现将点(VGI、水情)面(遥感影像)数据结合。本研究提出的方法可以及时有效的判断洪涝淹没情况,辅助洪涝灾害的应急管理。

2 研究区概况和数据来源

2.1 研究区概况

本文研究区为中国安徽省合肥市(图1),安徽省地处中国东部腹地,属暖温带向亚热带的过渡型气候,降水年内和年际差异较大,又因局地地形和西南季风共同影响,长期以来暴雨洪涝是安徽省的主要自然灾害之一。2020年入汛以来安徽省合肥市先后遭遇九轮强降雨,据气象部门统计,6月10日至30日,全市平均降水量376 mm,超过历年平均梅雨量一半以上,使得合肥自6月初以来积水不断。2020年7月中旬起洪涝灾害进一步加剧,2020年7月17日20时至18日14时,合肥市区累计降雨量239.5 mm,突破了合肥市区有气象记录以来的日降雨量极值。对合肥市产生了较大范围的影响,据报道,截至7月30日18时,本次洪涝灾害共造成合肥市805 136人受灾(因雷击死亡1人,因救援群众牺牲1人、失踪1人),紧急转移安置224 672人,倒损房屋16 940间,农作物受灾面积15.7万hm2,其中绝收4.3万hm2
图1 研究区安徽合肥市示意

Fig.1 Map of research area in Hefei, Anhui Province

2.2 数据来源

本文主要使用的数据有来源于OSM及社交媒体的VGI数据、Sentinel-1及2的遥感影像数据、水情数据和DEM。其中VGI数据作为样本用于Sentinel-1 SAR影像的洪涝范围提取;Sentinel-2、水情数据和DEM用于模拟建成区的洪涝范围,而VGI数据提取的洪涝信息用于模拟非建成区的洪涝范围。各数据的基本情况如下。
(1)VGI数据
开放地图(OSM) (https://www.openstreetmap.org)是一个主要吸引公众参与的地图合作项目,由志愿者用户自发编辑勾画,其在城市地区的高定位精度已得到确认[16],并具有数据更新速度快、道路信息丰富等特点[17]。OSM数据原始格式为.osm,本文使用在 https://download.bbbike.org/osm/网站下载的shapefile格式数据,包括点、线、面要素,类型包括:landuse、natural、water、traffic、transport、buildings、railways、roads。其中landuse表示人类根据自身目的利用的土地,代表性类别有:居民区、商业区、果园、公共用地等;natural表示地表自然覆盖的物理要素,例如森林、草地等;water包含自然水体和人工水体,如河流、湖泊、湿地等;traffic表示交通设施,如停车场、车站等;buildings为各类建筑物,部分与landuse重合,如居民楼、商业中心、学校等。
社交媒体数据来源于新浪微博,它是中国最流行的社交媒体平台之一,可支持发布文本、图片、视频等,并可带有地理位置标签。本文以“合肥淹”、“合肥洪涝”为关键词获取了2020年7月15—20日的社交媒体数据。由于部分文本长度较短,信息量少,为减少计算量,本文剔除了低于10个字符的文本,并删除了完全重复的文本。最终,得到社交媒体数据共7 734条,其中多集中于17—18日。
(2)遥感影像
本文主要使用了Sentinel-1和2的遥感影像数据,数据来源于Google Earth Engine(GEE)。其中,Sentinel-1雷达卫星为欧洲航天局(ESA)哥白尼计划中的地球观测卫星,包括2个卫星(Sentinel-1A和Sentinel-1B) ,单星重返周期为12 d。在陆地上Sentinel-1默认使用干涉宽幅(IW)模式,获取双极化的VV/VH极化数据,其距离向分辨率为5 m,方位向分辨率为20 m。本文使用Sentinel-1A GRD 数据,灾后可获取2020年7月3日、15日和27日的数据,经过正射校正等预处理后的像素大小为10 m。Sentinel-2是由两颗卫星组成的陆地监测星座,提供高分辨率光学图像,光学有效载荷称为多光谱仪器(MSI),由13个光谱波段组成,最高空间分辨率为10 m,本文使用数据经2018年7月及8月的多幅无云影像镶嵌得到。
(3)水情数据

3 研究方法

3.1 技术路线

图2所示,本研究分为3部分:① 社交媒体数据分类。构建Albert+CNN模型(图3),将爬取的社交媒体数据分为洪涝类和非洪涝两类;② 基于实时的SAR影像及VGI数据的洪涝范围提取。通过OSM提取的水体及非水体样本点,社交媒体提取的洪涝样本点,分别使用灾前和灾后影像,利用异常值剔除得到最终训练样本,使用随机森林模型得到洪涝范围;③ 综合多源数据的洪涝范围模拟。分别采用实时的社交媒体洪涝信息与DEM、降水量、坡度、不透水面指数、水位数据等进行洪涝范围的模拟推测。所有遥感影像的处理和分类均基于GEE平台,以保证计算速度和自动化。
图2 洪涝范围提取与模拟方法流程

Fig. 2 Method flow chart of flood inundation mapping and estimation

图3 Albert+CNN模型结构

Fig. 3 Albert+CNN model structure

3.2 社交媒体数据分类模型构建与位置信息提取

传统的Word2vec等方式获取文本的词向量表示,舍弃了大量词语的位置信息且不能表示出文本的完整语义。2018年谷歌提出Bert模型[18],有效解决了文本分类任务中长期依赖的问题,然而Bert模型较大,训练速度慢。针对此问题,因此我们构建了一种结合Albert+CNN的社交媒体分类模型。Albert 模型[19]是在Bert基础上构建的改进模型,它对嵌入参数化进行因式分解并使用跨层参数共享等技术降低参数量,相较于Bert训练速度大大提高。而且Albert模型通过对字向量编码构成句向量,极大程度较少了分词带来的误差,非常适用于社交媒体等短文本和样本量较小的文本分类任务。Albert的编码器包含两层,第一层是多头注意网络层,使用大量transformer编码块,提取字与字之间的关联特征;第二层是前馈网络层,用来融合字词的位置特征[20]
本文基于Google提供的中文文本预训练模型Albert_zh_tiny,将输入的文本数据转换为语义特征表示向量,再将向量输入到CNN模型中,该模型包括一层卷积层,一层池化层和一层全连接层,其中卷积核大小为7×7。由于SVM相较于softmax可以更好地在特征空间中分离类别信息[21],最后使用SVM代替softmax作为分类器得到文本分类结果。
位置信息的提取主要依靠研究区的地名库构建、jieba分词和文本的模糊匹配。首先,基于百度地图POI获取研究区的区/县、街道、小区等地名,构建地名库。根据地名库利用jieba分词工具对文本分词并标注词性,而后提取标注为/ns的词即为地点词。将其地点词提取出后借助爬虫工具,在百度地图坐标拾取器网站(http://api.map.baidu.com/lbsapi/getpoint/index.html)中进行输入并获取其最接近该地点此文本的经纬度坐标。该坐标使用百度坐标系,存在一定偏移,需将其转换为WGS84坐标系以得到实际的位置信息。而后,对于同一位置的社交媒体数据进行了去重处理。

3.3 基于实时SAR影像的洪涝范围提取

(1)基于异常值剔除的VGI训练样本生成
样本的选取对于分类结果的精度影响极大,本文尝试使用OSM数据集与社交媒体洪涝信息作为分类的样本。但是用户自发生成的地图数据准确性无法保证,存在空间数据不确定性和不完整性[22]。常见的问题有:① 超出地物实际边界,例如部分河流水域面积大于实际面积。② 绘制范围不准确,误将其他地物划分为水体。直接使用OSM数据集作为样本则存在地物类型混合、标签噪声等问题。因此我们首先使用GEE随机选择不同土地利用类型的OSM数据覆盖处的各个特征的值,绘制特征直方图,利用直方图提供的上下四分位数异常剔除方法,剔除数据中的特异值。选取的分类特征包括VV、VH、VHrVV、NDPI、VV+VH、NVVI、NVHI,计算方法如表1
表1 特征说明及其计算方法

Tab. 1 Characteristics description and its calculation method

名称 缩写 公式 编号
极化比指数(Polarization ratio index) VHrVV[23] VHrVV= V H V V (1)
归一化差极化指数(Normalized Difference Polarization Index) NDPI[24] N D P I = V H - V V V H + V V (2)
VV与VH波段之和 VV+VH 值= V V + V H (3)
归一化VV指数(Normalized VV Index) NVVI[23,25] N V V I = V V V V + V H (4)
归一化VH指数(Normalized VH Index) NVHI[23,25] N V H I = V H V V + V H (5)
针对各特征值,利用统计学中上下四分位数来识别并去除异常值。异常值被定义为小于 QL -1.5IQR 或大于 QU + 1. 5IQR的值。其中QL 称为下四分位数,表示每个分类特征的数据中有四分之一的数据取值比它小; QU 称为上四分位数,表示每个分类特征的数据中有四分之一的数据值比它大;QR是四分位间距,是上四分位数 QU 与下四分位数 QL 之差。四分位数具有一定的鲁棒性。公式如下:
t h r e s h o l d 1 = Q L - 1.5 × I Q R #
t h r e s h o l d 2 = Q U + 1.5 × I Q R #
分类结果为消除椒盐效应,使用GEE 中的函数ee.Image.connectedPixelCount (maxSize, eightConnected)剔除了连通像元个数小于20的较小面积的水体。
(2)永久性水体提取及洪涝范围提取
研究区内,存在大量的湖泊、河流等水体,并且由于某些建筑材料导致部分区域的雷达回波值很低,和水域类似,容易造成洪涝范围的误判。例如,合肥市区南部一机场以及合肥南站枢纽处雷达回波值与水体无法区分。因此首先利用灾前影像提取了永久性水体及与水体无法区分的区域,与基于灾后影像提取的洪涝范围进行叠加分析,以更清晰地了解洪涝发生后水体空间范围的变化情况。
本文使用2018年6月—2020年6月作为灾前影像在GEE平台上使用随机森林[26]进行分类。为尽可能保持与洪涝发生时期的地理环境相似性高且能提供足够的数据,剔除了春、秋、冬季,即每年10月至来年5月的数据,共使用影像28幅,并取相同位置像元的中位数以消除随机因素的影响。我们使用了上述样本生成方法,将所有影像进行分类,并逐像素计算其为水体的频率,若某像元被分类为水体的频率大于70%,即至少在20幅影像中该像元被分类为水体,则认为该像元为永久水。
灾后分别使用2020年7月3日、7月15日、7月27日3 d影像,分别进行随机森林分类,将分类后的图像与灾前永久水图像叠加分析,得到洪涝范围。该方法可以在一定程度上避免水体的季节性变化和相干斑噪声等因素影响,降低虚警率。

3.4 综合多源数据的洪涝范围模拟

针对缺少SAR卫星影像的时期,本文采用社交媒体、DEM、水位等数据进行洪涝范围的估算。由于社交媒体数据多集中于建成区内,对于住宅区、道路等区域的洪涝描述情况较多较全面,因此我们只使用社交媒体数据来评估建成区的淹没程度。在非建成区,从研究区的历史数据洪涝分类结果和社交媒体数据中分别选取洪涝和非洪涝位置作为样本点;分类特征则选取6个指标,分别是DEM、坡度、BSI(裸土指数)[5]、NDBI(归一化建筑指数)[27]、NDWI(归一化水指数)[28] (计算方法见式(8)—(10))和洪涝可达性图,其中洪涝可达性依据历史洪涝当日的水位数据计算(具体方法见下文(2)),其他指标基于Sentinel-2夏季无云影像计算;使用随机森林分类器对上述样本的特征数据训练,而后输入目标时期的各特征影像进行分类,最终得到目标时期的洪涝模拟情况。
B S I = B 11 + B 4 - B 5 + B 2 B 11 + B 4 + B 5 + B 2
N D B I = ( B 11 - B 8 ) / ( B 11 + B 8 )
N D W I = B 3 - B 8 B 3 + B 8
式中:数字代表Sentinel-2的波段顺序。B2为蓝光波段,B3为绿波段,B4红光波段,B5为红边波段,B8为近红外波段,B11为短波红外波段。
(1)洪涝可达性地图生成方法
河流湖泊的溢流、泛滥情况是导致洪涝的重要因素。许多河流湖泊由于暴雨的影响而超过警戒水位(指在江、河、湖泊水位上涨到河段内可能发生险情的水位)或者保证水位(堤防工程所能保证自身安全运行的水位),可能会导致河流附近的道路、农田淹没,若发生溃堤后果则更加严重。本文获取了合肥市主要湖泊、河流、水库的实时水位信息。认为到达或超过保证水位的水体容易造成附近区域的洪涝,因此本文使用DEM作为成本表面计算了各个像元与到达或超过保证水位的水体的成本距离,以得到洪涝可达性地图,作为洪涝范围模拟的依据之一。
成本距离[29]是各像元距最近源位置的最短加权距离,其输出结果即可达性地图,用于标识每个像元到源位置在成本表面上的最小累积成本距离。本研究中源位置为到达或超过保证水位的水体,成本表面为DEM,洪涝可达性地图表征了洪涝从水体出发到达各个像元的成本,成本距离越大,越不易发生洪涝。在计算之前首先需要剔除水体像元,即水体处成本距离为0。根据OSM水体样本和Sentinel-2影像,认为NDWI小于0.2的区域为水体。
成本距离计算方法如下:① 相邻两结点间的成本距离取决于这2个结点的空间方向。计算公式如式(11):
c o s t 1 - 2 = ( c o s t 1 + c o s t 2 ) / 2
其中:cost1为像元 1 的成本,cost2为像元 2 的成本, c o s t 1 - 2 为像元1-2连接线的总成本。
②呈对角线的像素之间计算方法如式(12)。
c o s t 1 - 2 = 2 ( c o s t 1 + c o s t 1 ) / 2
将上述成本计算公式循环迭代,将每个像元到源位置间的最小成本距离累加起来,即可得到可达性地图。
(2)建成区提取
在提取建成区之前,先使用了NDWI水体指数的阈值方法基于Sentinel-2去除了水体。然后使用NDBI, BSI 2种特征,基于Sentinel-2影像,将OSM中的traffic, transport, buildings, railways and roads作为建成区样本,natural作为非建成区样本训练了随机森林模型,将研究区分类建成区和非建成区。
(3)基于SNIC(Simple Non-Iterative Clustering)的社交媒体洪涝区域提取
本文使用了SNIC[30]对Sentinel-2影像进行了分割,所基于的函数是GEE中的ee.Algorithms.Image.Segmentation.SNIC ,该算法是由SLIC(Simple Linear Iterative Clustering)改进而来,与SLIC不同,该算法是非迭代的,消耗更少的内存,但速度更快。而后我们使用SNIC分割后的结果与被划分为洪涝类的社交媒体点数据进行叠加,仅保留与社交媒体数据重合的分割结果。该方法是为了在一定程度上扩大社交媒体洪涝数据的有效范围。由于相似的地理环境和相近的空间位置往往会导致洪涝淹没情况相似,例如同一条道路在一定空间范围内由于排水系统等因素可能会被完全淹没。而社交媒体信息是点数据,无法较好的覆盖面状地物,因此通过与分割结果的叠加,给出可能的洪涝区域。

4 结果及分析

4.1 社交媒体数据分类模型精度

本文选择的文本分类模型评价指标为精确率(Precision)、召回率(又称查全率 Recall)和 F1-score,TP、FN、FP 和 TN 分别代表正阳性、假阴性、假阳性和正阴性的分类数量,评估指标的表示如式(13)—式(15)。
P r e c i s i o n = T P T P + F P
R e c a l l = T P T P + F N
F 1 = 2 P R P + R
本文爬取了多次历史洪涝社交媒体信息,经过筛选后进行人工标注,共计4 028条。按照8:1:1的比例构建了训练集、验证集和测试集,共训练100代,batch size设置为32,在迭代次数为85左右时损失下降速度趋于稳定,验证集精度约为87%。经过10次交叉验证实验,计算测试集精度平均值得到最终的分类精度,如表2所示。本文对比了文本分类常用的Char-CNN、Word2evc,精确率分别为0.81和0.827,均低于本文构建的Albert+CNN模型。说明本模型具有较好的适用性。
表2 Albert+CNN分类精度

Tab. 2 model classification accuracy

类别 精确率 召回率 F1-score
非洪涝 0.812 0.810 0.810
洪涝 0.860 0.856 0.849
平均值 0.836 0.833 0.830

4.2 洪涝范围提取

本文使用的基于异常值剔除的VGI训练样本生成方法具有较好的效果。剔除异常值前后可以使得两类样本代表性、区分度更好。例如,水体VV值基本大于非水体,水体样本多集中于-20左右,非水体样本集中于-8左右,而在异常值剔除前,水体样本中存在大量数据该值大于-8,使得分类器无法很好区分两类特征。将生成的样本点按照7:3的比例划分训练集和测试集,测试结果表明,异常值剔除前后分类精度提升2.6%。在利用GEE剔除小连通区域以消除分类结果的椒盐效应之前,如图4所示,即可发现许多非水体被错分为水体。利用未剔除异常值的样本进行分类会引起较高的误警率,这主要是由于OSM样本中许多水体边界不正确,范围往往超出了实际的水体边界。
图4 原始Sentinel-1影像和异常值剔除前后分类效果对比

Fig. 4 Original Sentinel-1 images and classification effects before and after outlier rejection

本文将该方法与经典的OSTU阈值提取方法、改进的OSTU方法Bmax-OSTU[6]和Edge-OSTU[31]进行了对比,所用样本通过目视解译得到,结果如图5表3所示。 OSTU系列方法所得到的洪涝面积相较于本方法较大,多为对农田的误分。但是在巢湖等较大区域水体中常常存在漏分现象(图5(a)红框区域)。传统OSTU对于较小的淹没区域无法提取,Bmax-OSTU和Edge-OSTU则将许多非洪涝区域分为水体,导致分类结果过于破碎。
图5 分类结果对比

注:除本方法外,其他方法均会导致红框处出现漏分现象。

Fig. 5 Comparison of classification results

表3 基于SAR的洪涝范围提取精度对比

Tab. 3 classification accuracy comparison (%)

方法 类别 用户精度 生产者精度 总体精度
本方法 非洪涝 88.1 98.85 92.7
洪涝 98.6 86.6
OSTU 非洪涝 72.1 91.6 78.1
洪涝 88.5 64.6
Bmax-OSTU 非洪涝 96.2 68.3 78.5
洪涝 64.3 95.5
Edge-OSTU 非洪涝 96.2 72.2 81.8
洪涝 70.3 95.9
图6所示,本文将2020年7月3日,7月15日,7月27日3日的Sentinel-1影像进行了分类,在时效性方面,除社交媒体分类外所有处理均基于GEE平台进行,效率较高。由于Albert+CNN模型训练主要基于历史数据,可在灾害发生前完成,因此每期影像的社交媒体分类、异常值剔除和影像分类过程仅需要约2~3 min。分类结果可知,其中7月3日主要表现为河流、湖泊、水田范围比往年同期扩大,低洼地区存在积水。其中部分河流平日在SAR影像中由于宽度小、水量少等原因会存在漏分现象,而随着暴雨、积水的不断累积,针对这些河流的提取变得更加容易,反映了河流湖泊的水位上涨。7月15日许多水库水位较大程度上涨导致提取洪涝面积增大,例如众兴水库、袁河西水库等,结合安徽省雨水情数据可知,这些水库、河流存在超过警戒或汛限水位,其中众兴水库的死水位为39 m,汛限水位为45 m,当日水位为44.92 m,7月27日上升至45.49 m,与本方法分类结果相符。
图6 2020年7月3日、7月15日、7月27日洪涝分布范围

注:底图来源于天地图。

Fig. 6 Distribution of floods on July 3, 15 and 27, 2020

7月27日洪涝面积有较大幅度的提升,主要洪涝区域集中与巢湖周边,可明显看出巢湖范围有所扩大。由于7月18日20时,西河缺口水文站水位已达到12.49 m,超过保证水位0.59 m,达到2016年开闸蓄洪涝位。庐江县东大圩蓄洪区开始蓄洪,为西兆河减轻了防汛压,巢湖南部东大圩由于泄洪全部被淹没,附近农田、村落都受到了较大影响。另外同大镇连河村、肥东县兴隆村等地许多田地被淹。合肥全域内的水田等低洼地势地区都有不同程度的积水。为了进一步了解本方法对于洪涝的分类情况,我们通过实时的社交媒体、查阅文献资料和新闻网页,得到了7月27日部分区域洪涝分布的情况,可知安徽庐江县同大镇白石天河圩堤决口,导致同大镇连河村、鲍井新村被淹,另外肥东县包公镇、庐江县沙溪村王老村民组、白湖东大圩等处均发生洪涝,与提取结果相符。

4.3 洪涝范围模拟

本文选择了社交媒体洪涝信息较多的2020年7月17—18日及24—26日生成了两期洪涝范围模拟结果,分别代表18日及26日的洪涝情况,并依据27日的洪涝提取结果进行了26日洪涝模拟结果的精度检验。
根据图7(a)结果可知,18日洪涝范围多集中于巢湖周围,同大镇、中垾镇、东西大圩等地最易收到洪涝侵袭,主要由于地势较低,距离巢湖及其支流较近。与27日SAR影像提取结果对比可知,洪涝分布区域大体相同。其中同大镇汛情较重,多个村庄被洪涝淹没,积水最深处可达8 m。东西大圩以及中垾镇蓄洪区等区域均为合肥境内蓄洪区,地形平坦,地势低洼,距离湖、河较近,周围建造堤坝,把田围在中间,非洪涝时期种植水稻等作物,洪涝中进行分洪。该类区域洪涝与否除了受到河流、湖泊水位影响较大,还会受到人为因素较大的影响,例如实际上西大圩由于未开闸泄洪而在此次洪涝中未被淹没,而本方法仅考虑了水位和地势等因素。基于SNIC的分割中我们尽量使同一道路在一定空间范围内可被分为同一个对象,以保持洪涝预测区域的完整性。而对于住宅区、商业区等建筑物较多的区域,该分割方法可以将建筑物与路面、绿化区域等区分开来,未来可以结合更高空间分辨率的DEM影像提高预测能力。18日基于社交媒体数据的洪涝预测主要集中于合肥主城区部分,例如合肥南二环、合肥南站等地道路被淹没,以及部分小区、学校区域受灾,该结果与实际情况较为吻合。
图7 2020年7月18日及26日研究区洪涝范围模拟结果

注:底图来源于天地图。

Fig. 7 Simulation of the flooding extent in the study area on July 18 and 26,2020

图7(b)为26日洪涝模拟结果,由于该日社交媒体数据主要集中于非建成区,因此在非建成区的模拟中将社交媒体数据作为了主要样本来源,建成区仍使用基于社交媒体数据的SNIC方法。将模拟结果与图6(c)中27日Sentinel-1提取结果进行对比,发现分布范围大体相近,但是在靠近城区的部分本模拟结果洪涝范围更大,主要由于该区域地势较低。本模拟方法的漏分区域主要为较小区域的积水点,零散分布于研究区各处,导致洪涝类别的生产者精度较低(表4),但是模拟结果的总体精度可达86.7%。
表4 洪涝模拟结果精度验证

Tab.4 classification accuracy of flood inundation estimation (%)

类别 用户精度 生产者精度 总体精度
非洪涝 87.6 93.8 86.7
洪涝 84.4 71.4

5 讨论

由于洪涝发生时可用的无云光学影像是有限的,往往由光学传感器生成的洪涝提取结果会低估洪涝事件的受灾面积。SAR的全天候能力,提供了足够的信息以满足观测要求的采集数量,Sentinel-1提供快速的图像采集,产生较为密集的时间系列数据,有助于近实时进行洪涝制图和监测。本文使用VGI数据作为样本,使用GEE平台进行SAR影像的分类可以较为简单、高效、快速地绘制洪涝淹没范围,并利用社交媒体数据和历史数据推测无影像覆盖时期的洪涝范围,在一定程度上可以弥补遥感重访周期长、应急不及时的问题。

5.1 结合多源数据与遥感影像存在的问题

(1)数据不准确性。与人工选择样本相比,利用社交媒体、OSM等VGI数据进行样本生成成本更低、抽样收集更有效。但是在社交媒体数据进行分类中可能会存在错分现象,导致样本标签错误。同样OSM数据也会由于用户生产数据标准不一、绘制粗糙等问题存在地物边界混合不清等问题。因此需要对该训练样本集进行一定的处理。本文使用直方图异常值剔除的方法对样本集进行处理,简单快速且可以在一定程度上规避基于VGI数据生成样本时存在的问题。
(2)时间不一致性。洪涝等自然灾害的灾情随着时间变化较快,若使用时间差距过大的数据进行融合,会导致灾情判断错误。Rosser等[32]使用了社交媒体的照片、遥感影像和地形图进行洪涝数据融合,但是没有考虑时间因素,是该研究的局限性之一。本研究考虑到大量社交媒体发布时间与Sentinel-1数据过境时间不一致,提出综合利用社交媒体与水位数据、DEM等数据模拟洪涝范围,提高洪涝监测的时效性。与本文研究类似,Xu等[33] 也通过整合Landsat遥感影像和社交媒体数据进行了洪涝淹没概率制图,但是仅使用了灾前影像用于计算NDVI,而本研究考虑到了水情信息,该信息对于洪涝范围影响较大,可以生成更为精确的洪涝范围模拟图。

5.2 局限与展望

基于SAR影像的洪涝范围提取中没有考虑到在城市区域由于建筑物与水体的双弹跳特性。因为传感器的侧视性质,建筑物会破坏SAR图像的适用性,水具有微弱的回波信号,但建筑物与地面形成的拐角会产生双重反弹效应,将水面反射的大部分能量带回来,导致与建筑物相邻的洪涝道路的后向散射值比没有洪涝的道路更高[34]。另一方面,低回波信号的建筑物阴影也会被归为水,而实际情况难以判断。因此,如果在社交媒体数据有足够的数据量支持的条件下,我们应该将城市区域的社交媒体洪涝数据与SAR的遥感影像分类结果相叠加,以提高城市区域洪涝信息提取的精度。此外,在洪涝发生的初期,积水深度较浅,面积较小,容易受到混合像元的影响,甚至通过目视解译也很难区分。尤其是研究区内存在大量水田,如何在洪涝初期区分水田灌溉和洪涝积水还需要进一步研究。
另一方面,本文对于2020年7月18日的洪涝范围模拟由于缺乏验证样本,无法提供精度评价结果。根据社交媒体获取的数据判断,该方法在城市区域的洪涝范围模拟具有较高的准确性,但是非城市区域的结果较难评估。本方法主要通过地形地势、地面不透水程度、水位等因素使用机器学习方法对洪涝范围进行推测,往往认为该类方法对历史洪涝样本的依赖较大,相较于水文水动力模型的模拟结果缺乏水文循环的动力学理论支撑,但是更适合于水文数据缺乏的区域,且计算速度快、易于在大范围应用[35-36]。且本方法融合了实时的社交媒体洪涝信息,具有更强的现势力性。未来可以进一步搜集更多灾害资料,以增加历史洪涝样本,并融合水文水动力模型提高模拟精度。
进一步地,社交媒体等VGI数据还可以提供洪涝相关的图像,以揭示淹没区域的水深信息,弥补了光学遥感影像在洪涝水深提取中对于高精度DEM数据的需求。未来的研究将尝试综合使用VGI数据中的图片和语义双重信息,与遥感影像融合进行水深、水域面积的评估,得到定量化的洪涝灾害评估结果,提高洪涝的态势感知能力。

6 结论

本研究提出了一种综合遥感、VGI、水情等多源数据的洪涝监测方法。一方面,使用VGI数据代替人工自动生成训练样本,分类SAR影像进行洪涝制图;另一方面,充分利用社交媒体灾情数据时效性强的特点,结合多源数据进行了洪涝范围的模拟。利用VGI数据制作样本和生成基于水情数据的洪涝可达性地图,实现了点面数据的融合,在一定程度上提高了洪涝监测频率。通过对2020年7月安徽省合肥市发生的洪涝灾害事件进行实验验证,得出以下结论:
(1)本文构建的Albert+CNN模型的文本分类模型可以较为准确的分类社交媒体洪涝信息,分类精度可达83.6%
(2)结合文本分类和异常值剔除的VGI数据样本生成方法可以有效提高VGI样本集的准确性,分类精度为92.7%,相较于常用的OSTU系列方法提高了10%以上。
(3)VGI数据可以提供时效性较强的洪涝信息,同时利用河流警戒、溢流等水情信息及DEM数据的成本距离方法,可进行洪涝范围的模拟。在本研究区洪涝过程中提供了两期的洪涝范围模拟结果,与基于实时SAR影像的洪涝范围提取相结合,可以提高洪涝灾情信息获取能力。未来可以结合水文模型提高洪涝模拟的准确性。
本研究使用易于获得的多源数据来提高提取洪涝范围获取的速度,有助于辅助政府机构、政策制定者对进行灾害管理,减轻和预防洪涝对于居民生命财产安全、社会秩序等方面的影响。
[1]
Diakakis M, Boufidis N, Grau J M S, et al. A systematic assessment of the effects of extreme flash floods on transportation infrastructure and circulation: The example of the 2017 Mandra flood[J]. International Journal of Disaster Risk Reduction, 2020, 47:101542. DOI:10.1016/j.ijdrr.2020.101542

DOI

[2]
裴志远, 杨邦杰. 应用NOAA图像进行大范围洪涝灾害遥感监测的研究[J]. 农业工程学报, 1999, 15(4):203-206.

[Pei Z Y, Yang B J. Study on macroscopical flood hazard monitoring by remote sensing using NOAA Image[J]. Transactions of the Chinese Society of Agricultural Engineering, 1999, 15(4):203-206.] DOI:10.3321/j.issn:1002-6819.1999.04.041

DOI

[3]
Liang J, Liu D. A local thresholding approach to flood water delineation using Sentinel-1 SAR imagery[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2020, 159:53-62. DOI:10.1016/j.isprsjprs.2019.10.017

DOI

[4]
Feng Y, Brenner C, Sester M. Flood severity mapping from Volunteered Geographic Information by interpreting water level from images containing people: A case study of Hurricane Harvey[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2020, 169:301-319. DOI:10.1016/j.isprsjprs.2020.09.011

DOI

[5]
Uddin K, Matin M A, Meyer F J. Operational flood mapping using multi-temporal sentinel-1 SAR images: A case study from Bangladesh[J]. Remote Sensing, 2019, 11(13):1581. DOI:10.3390/rs11131581

DOI

[6]
Cao H, Zhang H, Wang C, et al. Operational flood detection using sentinel-1 SAR data over large areas[J]. Water, 2019, 11(4):786. DOI:10.3390/W11040786

DOI

[7]
郭玮, 袁宏永, 薛明, 等. SAR影像洪水淹没范围深度学习提取方法[J]. 中国安全科学学报, 2022, 32(4):177-184.

DOI

[Guo W, Yuan H Y, Xue M, et al. Flood inundation area extraction method of SAR images based on deep learning[J]. China Safety Science Journal, 2022, 32(4):177-184.] DOI:10.16265/j.cnki.issn1003-3033.2022.04.026

DOI

[8]
Benoudjit A, Guida R. A novel fully automated mapping of the flood extent on SAR images using a supervised classifier[J]. Remote Sensing, 2019, 11(7):779. DOI:10.3390/rs11070779

DOI

[9]
Chini M, Pelich R, Pulvirenti L, et al. Sentinel-1 InSAR coherence to detect floodwater in urban areas: Houston and hurricane Harvey as A test case[J]. Remote Sensing, 2019, 11(2):107. DOI:10.3390rs11020107

DOI

[10]
段伟芳, 温小乐, 徐涵秋, 等. 基于光学与雷达影像变化检测的2020年鄱阳湖洪灾评估与分析[J]. 地球信息科学学报, 2022, 24(12):2435-2447.

DOI

[Duan W F, Wen X L, Xu H Q, et al. Assessment and analysis of the 2020 Poyang Lake flood hazard based on optical and radar image assisted change detection[J]. Journal of Geo-Information Science, 2022, 24(12):2435-2447.] DOI:10.12082/dqxxkx.2022.220184

DOI

[11]
吕素娜, 薛思涵, 谢婷, 等. 哨兵一号SAR数据在鄱阳湖洪涝灾害监测中的应用[J]. 卫星应用, 2021(8):51-55.

[Lv S N, Xue S H, Xie T, et al. Application of Sentinel-1 SAR data in flood disaster monitoring in Poyang Lake[J]. Satellite Application, 2021(8):51-55.] DOI:10.3969/j.issn.1674-9030.2021.08.012

DOI

[12]
Nemni E, Bullock J, Belabbes S, et al. Fully convolutional neural network for rapid flood segmentation in synthetic aperture radar imagery[J]. Remote Sensing, 2020, 12(16):2532. DOI:10.3390/rs12162532

DOI

[13]
Panteras G, Cervone G. Enhancing the temporal resolution of satellite-based flood extent generation using crowdsourced data for disaster monitoring[J]. International Journal of Remote Sensing, 2018, 39(5):1459-1474. DOI:10.1080/01431161.2017.1400193

DOI

[14]
Cervone G, Sava E, Huang Q Y, et al. Using twitter for tasking remote-sensing data collection and damage assessment: 2013 Boulder flood case study[J]. International Journal of Remote Sensing, 2016, 37(1):100-124. DOI:10.1080/01431161.2015.1117684

DOI

[15]
周峰, 许有鹏, 石怡. 基于AHP-OWA方法的洪涝灾害风险区划研究——以秦淮河中下游地区为例[J]. 自然灾害学报, 2012, 21(6):83-90.

[Zhou F, Xu Y P, Shi Y. Risk zoning study of flood/waterlogging disaster based on AHP-OWA method: A case study on middle and lower reaches of Qinhuai River[J]. Journal of Natural Disasters, 2012, 21(6):83-90.] DOI:10.13577/j.jnd.2012.0612

DOI

[16]
Hong W Y, Guo R Z. Indicators for quantitative evaluation of the social services function of urban greenbelt systems: A case study of Shenzhen, China[J]. Ecological Indicators, 2017, 75:259-267. DOI:10.1016/j.ecolind.2016.12.044

DOI

[17]
Liu W, Zhang X D, He F, et al. Open-air grape classification and its application in parcel-level risk assessment of late frost in the eastern Helan Mountains[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2021, 174:132-150. DOI:10.1016/jisprsjprs.2021.02.004

DOI

[18]
Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding"[EB/OL]. 2018: arXiv: 1810.04805. DOI:10.48550/arXiv.1810.04805

DOI

[19]
Chi P H, Chung P H, Wu T H, et al. Audio albert: A lite bert for self-supervised learning of audio representation[C]// 2021 IEEE Spoken Language Technology Workshop (SLT).. IEEE, 2021:344-350. DOI:10.1109/SLT48900.2021.9383575.

[20]
郑承宇, 王新, 王婷, 等. 基于ALBERT-TextCNN模型的多标签医疗文本分类方法[J]. 山东大学学报(理学版), 2022, 57(4):21-29.

[Zheng C Y, Wang X, Wang T, et al. Multi-label classification for medical text based on ALBERT-TextCNN model[J]. Journal of Shandong University (Natural Science), 2022, 57(4):21-29.] DOI:10.6040/j.issn.1671-9352.7.2021.083

DOI

[21]
Huang F J, LeCun Y. Large-scale learning with SVM and convolutional for generic object categorization[C]// 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'06). IEEE, 2006:284-291. DOI:10.1109/CVPR.2006.164

DOI

[22]
Ali A L, Falomir Z, Schmid F, et al. Rule-guided human classification of Volunteered Geographic Information[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2017, 127:3-15. DOI:10.1016/J.isprsjprs.2016.06.003

DOI

[23]
Huang W L, DeVries B, Huang C Q, et al. Automated extraction of inland surface water extent from Sentinel-1 data[C]// 2017 IEEE International Geoscience and Remote Sensing Symposium (IGARSS). IEEE, 2017:2259-2262. DOI:10.1109/IGARSS.2017.8127439

DOI

[24]
Dastour H, Ghaderpour E, Hassan Q K. A combined approach for monitoring monthly surface water/ice dynamics of Lesser Slave Lake via Earth observation data[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2022, 15: 6402-6417. DOI:10.1109/jstars.2022.3196611

DOI

[25]
McNairn H, Brisco B. The application of C-band polarimetric SAR for agriculture: A review[J]. Canadian Journal of Remote Sensing, 2004, 30(3):525-542. DOI:10.5589/m03-069

DOI

[26]
Breiman L. Random forests[J]. Machine Learning, 2001, 45(1):5-32. DOI:10.1023/A:1010933404324

DOI

[27]
Li K N, Chen Y H. A genetic algorithm-based urban cluster automatic threshold method by combining VIIRS DNB, NDVI, and NDBI to monitor urbanization[J]. Remote Sensing, 2018, 10(2):277. DOI:10.3390/rs10020277

DOI

[28]
McFeeters S K. The use of the Normalized Difference Water Index (NDWI) in the delineation of open water features[J]. International Journal of Remote Sensing, 1996, 17(7):1425-1432. DOI:10.1080/01431169608948714

DOI

[29]
Douglas D H. Least-cost path in GIS using an accumulated cost surface and slopelines[J]. Cartographica: the International Journal for Geographic Information and Geovisualization, 1994, 31(3):37-51. DOI:10.3138/d327-0323-2jut-016m

DOI

[30]
Achanta R, Süsstrunk S. Superpixels and polygons using simple non-iterative clustering[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017 :4895-4904. DOI:10.1109/CVPR.2017.520

DOI

[31]
Donchyts G, Schellekens J, Winsemius H, et al. A 30 m resolution surface water mask including estimation of positional and thematic differences using landsat 8, SRTM and OpenStreetMap: A case study in the Murray-darling Basin, Australia[J]. Remote Sensing, 2016, 8(5):386. DOI:10.3390/rs8050386

DOI

[32]
Rosser J F, Leibovici D G, Jackson M J. Rapid flood inundation mapping using social media, remote sensing and topographic data[J]. Natural Hazards, 2017, 87(1):103-120. DOI:10.1007/s11069-017-2755-0

DOI

[33]
Xu L, Ma A. Coarse-to-fine waterlogging probability assessment based on remote sensing image and social media data[J]. Geo-spatial Information Science, 2021, 24(2): 279-301.DOI:10.1080/10095020.2020.1812445

DOI

[34]
Franceschetti G, Iodice A, Riccio D. A canonical problem in electromagnetic backscattering from buildings[J]. IEEE Transactions on Geoscience and Remote Sensing, 2002, 40(8):1787-1801. DOI:10.1109/TGRS.2002.802459.

DOI

[35]
Sampurno J, Vallaeys V, Ardianto R, et al. Integrated hydrodynamic and machine learning models for compound flooding prediction in a data-scarce estuarine delta[J]. Nonlinear Processes in Geophysics, 2022, 29(3):301-315. DOI:10.5194/npg-29-301-2022

DOI

[36]
Mosavi A, Ozturk P, Chau K W. Flood prediction using machine learning models: Literature review[J]. Water, 2018, 10(11):1536. DOI:10.3390/w10111536

DOI

文章导航

/