地球信息科学学报  2019 , 21 (2): 259-268 https://doi.org/10.12082/dqxxkx.2019.180519

遥感科学与应用技术

基于卷积神经网络与条件随机场方法提取乡镇非正规固体废弃物

刘懿兰12, 黄晓霞1*, 李红旮1, 柳泽3, 陈崇3, 王新歌3

1. 中国科学院遥感与数字地球研究所,北京 100101
2. 中国科学院大学,北京100049
3. 住房和城乡建设部城乡规划管理中心,北京 100835

Extraction of Irregular Solid Waste in Rural based on Convolutional Neural Network and Conditional Random Field Method

LIU Yilan12, HUANG Xiaoxia1*, LI Hongga1, LIU Ze3, CHENG Chong3, WANG Xin'ge3

1. Institute of Remote Sensing and Digital Earth, Chinese Academy of Sciences, Beijing 100101, China
2. University of Chinese Academy of Sciences, Beijing 100049, China
3. Ministry of Housing and Urban-Rural Development of the People's Republic of China, Beijing 100835, China

通讯作者:  *通讯作者:黄晓霞(1970-),女,广东梅县人,博士,研究员,研究方向为遥感图像处理,遥感地质等。E-mail: hxx@irsa.ac.cn

收稿日期: 2018-10-17

修回日期:  2018-12-3

网络出版日期:  2019-02-20

版权声明:  2019 《地球信息科学学报》编辑部 《地球信息科学学报》编辑部 所有

基金资助:  国家重点研发计划(2017YFB0503905)国土资源部城市土地资源监测与仿真重点实验室开放课题(KF-2016-02-012、KF-2018-03-032)

作者简介:

作者简介:刘懿兰(1994-),女,天津人,硕士,研究方向为深度学习,地理信息系统等。E-mail: 18649052480@163.com

展开

摘要

随着村镇经济建设发展,生活垃圾和工业固体废弃物造成的污染问题日益突出,已经成为制约新农村建设发展和生态文明建设的关键问题,而目前针对乡镇非正规固体废弃物的调查与统计主要依赖全国各乡镇相关部门逐级调查上报,工作量较大。本文基于高分辨率遥感影像,将深度学习模型和条件随机场模型相结合引入到乡镇固体废弃物的提取研究中,探索一种基于深度卷积神经网络的乡镇固体废弃物提取模型。由于固体废弃物在影像上表现为面积小,分布破碎等特点,为了提高工作效率,将模型特分为识别和提取2个部分:① 通过全连接卷积网络(CNN)对固体废弃物进行快速识别判断,筛选感兴趣区域影像块;② 在传统的全卷积神经网络(FCN)的基础上加入条件随机场模型(CRF)提取固体废弃物边界,提高整体分割精度。根据安徽、山西等地区相关部门上报固体废弃物堆放点以及住房与城乡建设部城乡规划管理中心进行野外检查的结果,实验最终识别精度达到86.87%以上;形状提取精度为89.84%,Kappa系数为0.7851,识别与提取精度均优于传统分类方法。同时,该方法已经逐步应用于住房和城乡建设部有关成都、兰州、河北等部分乡镇非正规固体废弃物的核查工作,取得了较为满意的结果。

关键词: 高分辨率遥感影像 ; 深度学习 ; 固体废弃物 ; 卷积神经网络 ; 条件随机场

Abstract

With the development of rural economic construction, the pollution problem caused by domestic waste and industrial solid waste has become increasingly prominent, which has become a key problem to restrict the construction of the new rural developing and ecological civilization. At present, the investigation and statistics of informal solid waste in rural areas mainly depend on the reports of departments of each township step by step, and the workload is large. So based on high-resolution remote sensing images, this paper combines Deep Learning model with Conditional Random Field model to the study of rural solid waste extracting, and explores a recognition and extraction model of rural solid waste based on Deep Convolution Neural Network. Due to the solid waste in images is characterized by small size, distribution ,fragmentation and so on, in order to improve the efficiency, the model is divided into two parts: Recognition and Extraction. In the first part, a Full-connected Convolution Network (CNN) is used to identify and judge solid wastes quickly, and the image blocks include the interesting regions are screened. In the second part, Conditional Random Field model (CRF) is added to the traditional Full Convolution Neural Network (FCN) to extract boundary of solid waste and improve the overall segmentation accuracy.According to the relevant reports about solid waste of some rural areas in Anhui and Shanxi province and the field inspection by the urban and rural planning and management center of the Ministry of Housing and Urban-Rural Construction, Compared with the test results of the model in this paper,the results show the recognition accuracy is 86.87%,the shape extraction accuracy is 89.84%,and the Kappa coefficient is 0.7851. So the recognition and extraction accuracy of the paper's method is proved to be superior to the traditional methods. At the same time, this method has been gradually applied to the investigation of informal solid waste in countryside in Chengdu, Lanzhou, Hebei and other provinces, and achieved satisfactory results.

Keywords: High-resolution remote sensing image ; deep Learning ; solid waste ; convolution neural network ; conditional random field

0

PDF (5985KB) 元数据 多维度评价 相关文章 收藏文章

本文引用格式 导出 EndNote Ris Bibtex

刘懿兰, 黄晓霞, 李红旮, 柳泽, 陈崇, 王新歌. 基于卷积神经网络与条件随机场方法提取乡镇非正规固体废弃物[J]. 地球信息科学学报, 2019, 21(2): 259-268 https://doi.org/10.12082/dqxxkx.2019.180519

LIU Yilan, HUANG Xiaoxia, LI Hongga, LIU Ze, CHENG Chong, WANG Xin'ge. Extraction of Irregular Solid Waste in Rural based on Convolutional Neural Network and Conditional Random Field Method[J]. Journal of Geo-information Science, 2019, 21(2): 259-268 https://doi.org/10.12082/dqxxkx.2019.180519

1 引言

随着中国社会经济的飞速发展,环境问题随之成为了一个不容忽视的重要问题。目前,我国环境主要面临着环境污染和环境破坏两大问题,主要表现为水土流失严重、沙漠化迅速发展、草原退化加剧、森林资源锐减,生态物种加速灭绝、水体、大气污染明显加重,同时环境污染问题开始从城市向乡镇级蔓延。乡镇污染问题又主要集中在固体废弃物方面,在城乡结合部和农村地区形成“垃圾山”、“垃圾围村”、“垃圾围坝”的现象,严重影响了城乡人居环境,水体和土壤环境,甚至威胁到了人们的身体健康,不利于社会经济的可持续发展。

随着经济发展国家部门也开始重视农村环境治理。2017年1月,国家住房和城乡建设部等相关部门为贯彻上级部署和落实会议精神,对乡镇非正规垃圾堆放点进行了规范,排查对象包括生活垃圾、建筑垃圾、工业固体废物、危险废物等。

乡镇固体废弃物主要以生活垃圾和建筑垃圾组成,在遥感影像中一般呈亮白色,内部纹理模糊无规则,边界不清晰等特点,与城市的固体废弃物相比,乡镇固体废弃物在影像上呈无规律的零散分布,同时农村背景景观较于城市背景景观更为复杂化。因此,乡镇固体废弃物作为一种地物弱信息,基于遥感影像的识别提取存在一定困难。而国内外关于固体废弃物的遥感提取研究仍处于探索阶段,研究区域也主要集中在城市地区,针对乡镇地区的固体废弃物研究更是少之甚少。目前,国内外针对于固体废弃物提取的研究主要分3个方面:

(1)基于遥感影像的人工解译。Bagheri等[1]根据1:12 000比例尺(空间分辨率大约0.5 m)的航空影像,目视判读出美国新泽西州伯灵顿市地区的固体废弃物堆,共识别出67处。

(2)基于遥感影像分类的提取方法。Silvestri等[2]根据1 m空间分辨率的IKONOS卫星影像数据进行监督分类的结果识别出分布在意大利的城市固废堆;刘庆生等[3]根据多时相19.5 m空间分辨率的中巴资源卫星数据,利用决策树分类技术对北京市一处覆盖面积约为20 ha的固体废弃物填埋场状况进行了变化监测;刘亚岚等[4]运用北京1号小卫星影像的4 m分辨率融合数据,结合人工目视解译和计算机自动分类,对北京市范围内露天堆放的固废进行了提取和变化监测;张方利等[5]利用QuickBird影像,采用决策树分类的方法,尝试了在北京地区提取城市固废,识别精度为75%。

(3)基于高空间和高光谱分辨率的影像多源数据的提取方法。雒立群等[6]利用高光谱与高分辨率影像相结合的方法,对遥感影像上的固体废弃物点进行提取,进一步提高提取精度,最终的识别准确率为74.81%。

随着深度学习被Hinton等[7]提出,深度模型的应用受到了广泛的关注。在Hubel和Wiesel对猫视觉皮层电生理研究启发下,LeCun等[8]继而提出了卷积神经网络的概念(CNN),并应用于手写数字识别,此后Krizhevsky等[9]提出了一个经典的CNN结构-AlexNet,在图像识别中取得了巨大的突破,随着研究越来越深入,越来越多的卷积网络结构被提出,在语音识别、人脸识别、通用物体识别、运动分析、自然语言处理甚至脑电波分析等方面均有突破[10,11,12],同时,将深度学习模型引入遥感影像目标识别,土地利用覆盖分类中也成为研究热点[13,14]

综上所述,目前国内外针对固体废弃物的提取主要基于传统的解译、分类等方法,在计算效率与提取精度方面有待提高。因此,本文基于高分辨率遥感影像数据的特点,将深度卷积神经网络模型引入到固体废弃物的提取模型中,参考住建部相关部门关于非正规垃圾堆放点的排查规范,对面积大于500 m2的固体废弃物堆放点进行识别提取,并结合随机场模型对卷积网络提取结果进行改善。一方面,遥感影像数据丰富性和实时性,覆盖区域多,面积大,成本相对较低等特点,为深度学习模型在遥感信息提取提供了数据支撑;另一方面,随着近年来深度卷积神经网络的提出以及人工智能技术的迅速发展,也为遥感影像的信息提取技术提供了一种新的思路。实现快速自动化的固体废弃物信息提取,有利于突破传统固体废弃物信息提取方法消耗大量人力物力,为实现大范围动态监测提供更高效的实验方法;同时,有利于为城乡规划、环境整治等相关工作提供辅助信息并推动深度学习模型在遥感中的应用。

2 研究方法

由于固体废弃物在整个影像上所占面积比例较小,结合高分辨率遥感影像与固体废弃物影像特点,为了提高效率,区别于传统分类方法,本研究首先利用CNN网络对包含固体废弃物的影像进行快速识别,筛选出感兴趣的区域,即被识别为固体废弃物的影像块,再利用FCN网络对感兴趣的影像块进行形状提取,从而节省整个网络的计算时间,提高网络工作效率。总体技术路线如图1所示,基于卷积神经网络与条件随机场的乡镇非正规固体废弃物堆的提取模型共分为4个:样本集的制作、固体废弃物的识别、固体废弃物的提取、基于条件随机场的结果优化。

图1   乡镇固体废弃物提取技术路线

Fig. 1   Technical routes for extracting the rubbish

2.1 固体废弃物识别算法

固体废弃物的识别算法是基于全连接神经网络来实现的。一般的卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。在卷积神经网络的卷积层中,一个神经元只与部分邻层神经元连接,采用局部连接和权值共享来减少需要训练的参数,全连接神经网络则是在卷积神经网络的基础上,在网络尾端添加全连接层,全连接层中的每一个结点与上一层的所有结点相连,起到综合特征的作用。

深度卷积网络(CNN)一般由输入层、输出层、卷积层、池化层、激活层和全连接层组成[15],网络通过卷积层对输入的数据集进行特征提取,再利用激活层的激活函数输出特征图,其计算公式为:

(1)

式中: l是层数; j是特征图的序号; Mj是输入图的集合; ω是卷积核的权重; a为输出的特征图;b是每个输出特征图的偏置量。

池化层是为了减少运算量和数据维度而设置的一种层,其计算公式为:

ajl=f(βjldownajl-1+bil)(2)

式中: down()是降采样函数,通过这个函数将激活层输出的特征图在各维度上都减小了; β是降采样层每个特征图自己的权重,b是每个特征图自己的偏置量,这2个参数可在训练中学习。

最后,通过全连接层和Softmax层对逐层提取的特征进行计算。全连接层是卷积核大小和原数据大小一致的卷积层,Softmax函数是一个分类函数,计算用于类别的概率。

本文的CNN网络结构是参考AlexNet网络结构来搭建,基于MatConvnet工具集,实现该网络结构,网络主要包括23层,其中有1层数据输入层、1层数据输出层、5层卷积层、6层激活层、3层池化层、3层数据归一化层、1层Dropout层、2层全连接层、最后通过1层SoftMax函数层输出类别。卷积层的主要结构如图2所示。通过对固体废弃物的尺寸及地物等影响因素的考虑,在反复试验下,将输入层的图片大小设定成128×128×3,包含每个图像块的光谱通道信息;第1层卷积层包括96个11×11大小的卷积核,步长为2,这一层产生96个27×27的特征图;第2层卷积层包括256个5×5大小的卷积核,步长为1,经过激活层和池化层处理产生256个13×13的特征图;第3层卷积层包括384个3×3大小的卷积核,步长为1,经过激活层和池化层处理产生384个13×13的特征图;第4层卷积包括384个3×3大小的卷积核,步长为1,经过激活层和池化层处理产生384个13×13的特征图;第5层卷积包括256个3×3大小的卷积核,步长为1,经过激活层和池化层处理产生256个6×6的特征图。最后,与全连接层相连,利用SoftMax函数输出类别。

图2   本文CNN网络的卷积结构

Fig. 2   The convolution structure of CNN in the paper

2.2 固体废弃物提取算法

固体废弃物提取算法是基于全卷积神经网络进行影像分割来获取固体废弃物位置形状。全卷积神经网络(Fully Convolutional Networks, FCN,)可以接受任意尺寸的输入图像,利用反卷积层对最后一个卷积层的特征图进行上采样,使其恢复到输入图像相同的尺寸,从而可以得到对每个像元的一个预测标签,同时还保留了原始图像中的空间信息,最后通过上采样得到的特征图,进行逐像元的分类[16]。FCN网络与CNN网络都是通过卷积层和池化层得到影像特征,它与全连接神经网络的唯一区别就在于它把全连接层换成卷积层,通过反卷积和反池化操作将特征集直接还原到原始影像大小。

与CNN的分类方法相比较,利用FCN方法实现图像信息提取是直接通过反卷积操作得到整幅影 像上每个像元的标签,节省了大量的存储空间;同时减少了相邻像元重叠区域的重复计算,提高了整个网络的计算效率;FCN网络直接从抽象的特征中恢复出逐个像元的标签,从CNN网络图像级别的分类发展到像元级别的分类,改善了CNN网络分类时设置的像块大小限制了感知区域的大小的缺点。

本文全卷积网络结构是基于VGG16卷积网络搭建的,将VGG 16网络的全连接层替换成全卷积层。由于固体废弃物作为地物弱信息在影像上的特征不明显,经过深层卷积后的特征过于平滑,不利于固体废弃物的分割,因此通过对每一层池化结果可视化(图3),最终利用浅层卷积特征,分别从pool2、pool3、pool4和pool5这4层中提取出特征信息,对特征密度图简单相加,构建了FCN4s网络模型进行训练。

图3   池化层可视化

Fig. 3   Visualization of pooling layers

同时,为了增加固体废弃物与背景景观的对比度,在网络结构中增加数据处理层,对样本集进入卷积网络前进行统一处理。最终固体废弃物提取网络共51层:① 第1层为数据处理层;② 第2-37层与VGG 16网络结构一致,包括16层卷积层,15层激活层以及5层池化层,用于提取训练集和测试集的特征;③ 第38-51层替代原始VGG 16网络的全连接层,包括4层反卷积层,作用为将正向卷积层提取的特征集恢复到原图像大小;3层反池化层,也被称为跳跃结构,作用是对不同的池化层进行上采样,从而对反卷积层得出的结果进行优化;4层Crop层,主要作用是裁切,裁剪掉卷积层增加padding;3层sum层,作用是整合反卷积和反池化层的结果(求和操作)进行输出。FCN网络模型的具体结构如图4所示。

图4   本文FCN模型结构

Fig. 4   The structure of FCN in the paper

2.3 固体废弃物提取算法优化

FCN网络在对影像进行分割时,虽然可以保留影像像元间的空间信息,但是利用反池化和反卷积的操作直接得出的分割结果过于平滑,一些细节信息会丢失。近年来,条件随机场模型[17](Conditional Random Fields, CRF)在图像分类等方面的研究,证明了条件随机场可以考虑影像的上下文信息,对FCN网络分割结果进一步改善[18,19]。因此,本文在传统FCN网络模型的基础上,引入CRF模型,将FCN结果作为CRF模型的一阶势函数输入,以进一步提高固体废弃物提取精度。

CRF模型的基本定义是对于一个无向图G=(V,E),VE分别为无向图的顶点和边,V则是N个像元的标注Y,记为I,用X表示影像的光谱向量,则IX关系符合Gibbs分布,定义为:

PX=x|I=1Z(I)exp(-E(X|I))(3)

式中:Z(I)为归一化函数;E(X)是X取某个值的能量。对于标签Y对应的Gibbs能量表示为:

EX|I=-lnPy|X-ln(Z(X))(4)

因此,在分类问题中,CRF模型的目标在于找到一个标签Y’,使得后验概率P(y|X)最大,Gibbs能量E( y|X)最小[8]

本实验定义CRF的势函数为二阶势,从而定义对应的Gibbs能量函数为:

(5)

式中: 表示FCN进行分割是;像元i的标签等于 的类成员概率; 是用来调试FCN分类结果对最终结果影响程度的权重参数; 为二阶势函数,表示相邻像元的标记一致性的程度; 为像元 的领域集合。

本文CRF模型的二阶势函数符合高斯核函数分布,形成全连接CRF模型,模型推断是基于平均场推断[20]的方法来完成。

3 固体废弃物提取实验

3.1 样本来源与训练

样本集是用来训练深度卷积网络的数据集,样本集的丰富度直接影响着卷积神经网络的训练精度和识别精度。

固体废弃物训练集与测试集来自于全国乡镇固体废弃物汇总数据,北方以山西省为代表,南方以安徽省为代表,研究区内所包含的固体废弃物堆放点经过住建部等部门进行实地核查验证。影像集采用空间分辨率为0.5 m worldview卫星影像进行识别提取。

本文将地物类型分为典型固体废弃物和背景地物两大类,其中背景地物包括10种地物,分别为多层建筑物(2层及以上)、低矮建筑物、农田、植被、道路、水体、裸(沙)地、停车场、农业大棚和其他特殊地物;乡镇固体废物包括生活垃圾和建筑垃圾。

依据分类标准在0.5 m空间分辨率的遥感影像中选取具有明显地物特征的影像块,作为样本集影像,其中固体废弃物样本选取参照事先实地调查点选取。针对固体废弃物样本难以采集样本少的问题,对现有样本影像做镜面、旋转、加噪声等操作,增加样本丰富度。分类样本集具体参数如表1所示。

表1   样本影像集示例

Tab. 1   Images set of samples

样本集土地利用类型数量示例
背景多层建筑物584
低矮建筑物700
农田500
植被500
道路500
水体500
裸(沙)地500
停车场190
农业大棚83
其他地物215
固体废弃物生活垃圾 建筑垃圾257

新窗口打开

3.2 固体废弃物识提取实验

固体废弃物提取实验包括3个部分,分别为固体废弃物的识别、提取和结果优化。

(1)基于全连接卷积网络实现固体废弃物堆的识别功能。通过卷积网络对每幅影像进行判断,识别出影像中感兴趣的固体废弃物影像块。识别固体废弃物的流程如图5所示。

图5   全连接深度卷积网络识别固体废弃物流程

Fig. 5   Identification of solid waste process by CNN

(2)基于全卷积神经网络实现固体废弃物的提取。利用FCN网络对CNN网络识别的包含固体废弃物的影像,进行位置形状提取。通过反卷积层对最后一个卷积层提取的特征集进行上采样,从而可以得到每个像元的一个预测值,再基于上采样后的特征图上进行逐个像元的分类,得到固体废弃物堆的概略提取形状。

(3)基于CRF模型对FCN网络提取结果进行优化。将FCN网络输出结果作为CRF模型一阶势函数输入,高斯核函数作为二阶势函数,通过增加像元间的上下文信息,对结果达到优化。本实验基于CRF对分割结果的优化具体流程如图6所示。

图6   本文CRF模型结果优化

Fig. 6   Optimized results by CRF in paper

4 实验结果与分析

4.1 深度学习参数设置

通过多次试验,综合考虑模型计算效率、结果精度以及硬件设3个方面。在全连接深度卷积网络的固体废弃物的快速识别算法中,参数设置如表2所示;在全卷积深度神经网络的固体废弃物的形状提取算法中,网络参数设置如表3所示;在条件随机场模型的提取优化算法中,通过交叉验证的方法调整参数值,具体设置如表4所示。

表2   全连接深度卷积网络的参数设置

Tab. 2   Parameter setting of CNN

参数数值
迭代次数100
批量大小100
学习率0.0005

新窗口打开

表3   全卷积深度神经网络的参数设置

Tab. 3   Parameter setting of FCN

参数数值
迭代次数300
批量大小10
学习率0.0005

新窗口打开

表4   条件随机场模型的参数设置

Tab. 4   Parameter setting of CRF

参数数值
迭代次数10
高斯核权重一阶势函数权重1
7
15
高斯核权重1
高斯核权重2
像素位置及
相似度调节参数
参数18
13
6
参数2
参数3

新窗口打开

4.2 固体废弃物识别精度

实验中随机选取样本集中80%的数据作为训练样本,20%的数据作为验证样本,网络训练迭代数为100。最后的训练的Loss(损失函数)曲线和训练的精度曲线如图7所示,Loss曲线呈下降趋势,最终Loss值稳定在0.1左右,精度曲线呈上升趋势,精度最终稳定在96%以上。

图7   本文CNN模型训练曲线

Fig. 7   Training curve of CNN

本文所提出的模型可以正确地识别出固体废弃物的影像,对固体废弃物识别的结果的精度利用正确识别率( Pr)来评定,定义为:

Pr=NrN(6)

式中: Nr代表正确识别出的固体废弃物影像数:N为待识别影像总数。

最终结果如表5所示。对于训练集中包含的影像数据,基于CNN的固体废弃物识别模型的识别精度达到96.64%;对于测试集的影像数据,识别精度为86.87%,其中共识别出108张影像为固体废弃物,识别正确的共77张,3处农田、3处停车场以及25处低矮建筑物被错分为固体废弃物。

表5   固体废弃物识别精度

Tab. 5   Accuracy of solid waste identification

测试样本
类型
总数量正确
识别数/个
错误
识别数/个
识别
精度/%
训练集3624350212296.64
测试集90578611986.87

新窗口打开

4.3 固体废弃物形状提取精度

实验中对固体废弃物影像进行提取,分割固体废弃物的轮廓信息。实验包括2个部分:① 利用FCN网络对影像集进行粗略提取,整个网络的训练Loss曲线如图8所示;② 引入CRF模型对FCN网络输出的粗提取结果进一步优化,同时为了适应固体废弃物这类地物弱信息提取,在FCN网络中添加数据处理层,增加固体废弃物与背景地物的对比度,提高整个网络的提取精度。

图8   本文FCN模型训练LOSS拟合曲线

Fig. 8   Fitting curve of LOSS of FCN

对提取结果的精度采用整体精度(PA),固体废弃物的类精度(MA)以及kappa系数(K)3个指标进行评定。3个指标分别表示为:

PA=NTN(7)

MA=popsS(8)

K=p0-pe1-pe(9)

式中: NT代表被正确分类的像元个数; N代表像元总数; po代表每一类中正确分类像元数; ps代表每一类的总像元数;S代表类别数。 pe则定义为:

pe=a1×b1+a2×b2+···N×N(10)

式中:a代表每一类的实际像元数;b代表每一类的预测像元数。

表6所示,模型提取的整体精度为89.84%,类精度为88.51%,Kappa系数为0.7851。与SVM方法比较,整体精度提高了8.29%,类精度提高了7.34%;与传统FCN方法比较,整体精度提高了5.03%,类精度提高了5.46%。

表6   固体废弃物形状提取精度

Tab. 6   Accuracy of solid waste shape extraction

平均精度PA/%MA/%Kappa系数
SVM81.5581.170.6184
FCN84.8183.050.6735
FCN+CRF89.8488.510.7851

新窗口打开

固体废弃物形状提取示例如表7所示。其中,SVM的分割结果易将影像中的固体废弃物与具有相似光谱特征的背景混淆,如示例1影像左侧边缘,示例3中把道路边沿分成固体废弃物,同时分类结果破碎;FCN分割结果相较于SVM结果,表面光滑,破碎较少;在FCN网络中引入CRF模型增加了上下文信息,利用像元之间的空间关系,过滤噪声的同时边缘细节信息增强,整体分类效果优于前2种方法。

表7   固体废弃物形状提取结果

Tab. 7   Results of solid waste extraction

序号SVM提取结果FCN提取结果FCN+CRF提取结果
示例1
示例2
示例3

新窗口打开

5 结论与建议

本文基于深度神经网络模型,提出一种适用于提取高分影像上提取固体废弃物的方法。为了快速分割固体废弃物,将模型特分为识别与提取2个部分:① 利用卷积神经网络CNN对原始影像进行分类,识别出包含固体废弃物的感兴趣的影像,缩小了目标识别的靶区域,提高了工作效率; ② 将条件随机场模型(CRF)引入FCN网络,将FCN网络的分割结果作为CRF模型的一阶势函数输入,二阶势函数采用高斯核分布函数,从而增加影像固体废弃物提取时的空间信息,得到最终提取结果,提高整体提取精度。从实验结果看,识别精度与提取精度均优于现有方法。

目前该方法已经应用于北京市住房和城乡建设部城乡规划管理中心在全国各省市农村非正规固体废弃物的排查与验证工作中,并且随着住建部等相关部门对非正规垃圾堆放点排查工作的不断深入,训练样本不断增加,模型的整体精度也提高,鲁棒性加强,但仍存在很大的优化空间,同时,本文模型也存在局限性,需要后续研究不断改善:① 卫星影像的空间分辨率对识别提取的精度有一定影响;② 各地区地理背景存在较大差异,模型在空间上的适应性有待提高。

The authors have declared that no competing interests exist.


参考文献

[1] Bagheri S, Hordon R M.

Hazardous waste site identification using aerial photography: A pilot study in Burlington County, New Jersey, USA

[J]. Environmental Management,1988,12(3):411-412.

https://doi.org/10.1007/BF01867383      URL      [本文引用: 1]      摘要

The objective of the project was to identify all hazardous waste sites in Burlington County, New Jersey that could be detected on existing, medium-scale aerial photographs of the county. The complete set of over 1000 black- and-white stereopairs at a scale of 1:12,000 was carefully examined for initial identification of possible sites. All suspicious sites were examined again on color transparencies of the county at the same 1:12,000 scale. Out of the 1094 black- and-white photos, 250 required further checking on color transparencies using a zoom stereoscope. This examination resulted in a final identification of 67 sites, the locations of which were delineated on 1:24,000 USGS maps. The use of air photo interpretation techniques provided an effective procedure for identifying waste sites quickly as well as providing a useful demonstration program for county and state officials.
[2] Biotto G, Silvestri S, Gobbo L, et al.

GIS, multi-criteria and multi-factor spatial analysis for the probability assessment of the existence of illegal landfills

[J]. International Journal of Geographical Information Science, 2009,23(10):1233-1244.

https://doi.org/10.1080/13658810802112128      URL      [本文引用: 1]      摘要

This work deals with the identification of potentially contaminated areas using remote sensing, geographic information systems (GIS) and multi‐criteria spatial analysis. The identification of unknown illegal landfills is a crucial environmental problem in all developed and developing countries, where a large number of illegal waste deposits exist as a result of fast, and relatively unregulated, industrial growth over the past century. The criteria used to perform the spatial analysis are here selected by considering the characteristics which are ‘desirable’ for an illegal waste disposal site, chiefly related to the existence of roads for easy access and to a low population density which facilitates unnoticed dumping of illegal waste materials. A large dataset describing known legal and illegal landfills and the context of their location (population, road network, etc.) was used to perform a spatial statistical analysis to select factors and criteria allowing for the identification of the known waste deposits. The final result is a map describing the likelihood of an illegal waste deposit to be located at any arbitrary location. Such a probability map is then used together with remote sensing techniques to narrow down the set of possibly contaminated sites (Silvestri and Omri, 2008), which are candidates for further analyses and field investigations. The importance of the integration of GIS and remote sensing is highlighted and represents a key instrument for environmental management and for the spatially‐distributed characterization of possible uncontrolled landfill sites.
[3] 刘庆生,刘高焕.

基于CBERS CCD图像的焦家坡垃圾填埋场动态变化监测

[J].环境卫生工程,2010,18(5):17-19.

https://doi.org/10.3969/j.issn.1005-8206.2010.05.007      URL      [本文引用: 1]      摘要

利用多时相国产CBERS CCD遥感图像数据,通过整合SAVI植被指数计算和决策树分类技术,对焦家坡垃圾填埋场动态变化进行监测,结果表明:焦家坡垃圾填埋场建成后,其覆盖面积逐年增加,裸露度逐年减小。多时相CBERS CCD遥感图像可以满足普查阶段城市垃圾填埋场动态变化监测的需要。

[ Liu Q S, Liu G H.

Using CBERS CCD images to monitor dynamic change of Jiaojiapo waste landfill site

[J]. Environmental Sanitation Engineering, 2010,18(5):17-19. ]

https://doi.org/10.3969/j.issn.1005-8206.2010.05.007      URL      [本文引用: 1]      摘要

利用多时相国产CBERS CCD遥感图像数据,通过整合SAVI植被指数计算和决策树分类技术,对焦家坡垃圾填埋场动态变化进行监测,结果表明:焦家坡垃圾填埋场建成后,其覆盖面积逐年增加,裸露度逐年减小。多时相CBERS CCD遥感图像可以满足普查阶段城市垃圾填埋场动态变化监测的需要。
[4] 刘亚岚,任玉环,魏成阶,.

北京1号小卫星监测非正规垃圾场的应用研究

[J].遥感学报,2009,13(2):320-326.

https://doi.org/10.3321/j.issn:1007-4619.2009.02.021      URL      Magsci      [本文引用: 1]      摘要

以北京市平原区为研究区域,利用北京1号卫星(Beijing-1)融合数据,研究了非正规垃圾场的影像特征,建立了非正规垃圾场在小卫星影像上的判读标志,通过人机交互和计算机自动检测方法对北京地区的非正规垃圾场进行了判读分析和变化检测试验研究.验证发现:利用Beijing-1小卫星的全色和多波段融合影像对非正规垃圾场的识别精度可达90.3%;由于非正规垃圾场影像特征的不确定性,计算机自动变化检测方法不能替代人机交互判读,但可提高人机交互识别变化的效率.

[ Liu Y L, Ren Y H, Wei C J, et al.

Application research of Beijing 1 small satellite monitoring irregular garbage dump

[J]. Journal of Remote Sensing,2009,13(2):320-326. ]

https://doi.org/10.3321/j.issn:1007-4619.2009.02.021      URL      Magsci      [本文引用: 1]      摘要

以北京市平原区为研究区域,利用北京1号卫星(Beijing-1)融合数据,研究了非正规垃圾场的影像特征,建立了非正规垃圾场在小卫星影像上的判读标志,通过人机交互和计算机自动检测方法对北京地区的非正规垃圾场进行了判读分析和变化检测试验研究.验证发现:利用Beijing-1小卫星的全色和多波段融合影像对非正规垃圾场的识别精度可达90.3%;由于非正规垃圾场影像特征的不确定性,计算机自动变化检测方法不能替代人机交互判读,但可提高人机交互识别变化的效率.
[5] 张方利,杜世宏,郭舟.

应用高分辨率影像的城市固体废弃物提取

[J].光谱学与光谱分析,2013,33(8):2024-2030.

URL      [本文引用: 1]      摘要

日益增多的城市固体废弃物不断威胁着城市的生态环境。 应用遥感技术的城市固体废弃物监测与管理比实地调查的方法省时省力。 然而, 分布不规律的城市固体废弃物成分复杂, 在高分辨率遥感影像上表现出极强的异质性, 无论是针对像素, 还是针对运用对象的影像分析方法都难以实现计算机自动提取。 针对城市固废堆在重采样低分辨率影像上异质性得到减弱、 同质性增强, 而在高分辨率上细节丰富、 位置准确的特点, 提出了一种融合多分辨率对象的城市固废提取方法。 以北京市海淀区的QuickBird影像进行实验, 结果表明, 露天城市固废堆的识别精度可达75%, 表明这种多分辨率信息提取策略对于监测露天的城市固废堆十分有效。

[ Zhang F L, Du S H, Guo Z.

Extraction of municipal solid waste from high resolution images

[J]. Spectroscopy and Spectral Analysis, 2013,33(8):2024-2030. ]

URL      [本文引用: 1]      摘要

日益增多的城市固体废弃物不断威胁着城市的生态环境。 应用遥感技术的城市固体废弃物监测与管理比实地调查的方法省时省力。 然而, 分布不规律的城市固体废弃物成分复杂, 在高分辨率遥感影像上表现出极强的异质性, 无论是针对像素, 还是针对运用对象的影像分析方法都难以实现计算机自动提取。 针对城市固废堆在重采样低分辨率影像上异质性得到减弱、 同质性增强, 而在高分辨率上细节丰富、 位置准确的特点, 提出了一种融合多分辨率对象的城市固废提取方法。 以北京市海淀区的QuickBird影像进行实验, 结果表明, 露天城市固废堆的识别精度可达75%, 表明这种多分辨率信息提取策略对于监测露天的城市固废堆十分有效。
[6] 雒立群,郭舟,赵文智,.

结合高光谱和高空间分辨率影像提取城市固体废弃物堆

[J].测绘通报,2016(2):38-41.

https://doi.org/10.13474/j.cnki.11-2246.2016.0044      URL      [本文引用: 1]      摘要

城市固体废弃物给城市的环境及居民的生活质量造成了严重的影响。利用遥感手段提取城市固废堆具有及时和高效的特点,因此具有十分重要的意义。然而,由于固废堆组成成分复杂、分布不规律,仅仅利用高分辨率影像进行提取十分困难。本文结合高光谱影像和高分辨率影像提取了城市固废堆,采用多尺度的研究方法,在对高光谱和高分辨率影像预处理的基础上,首先在高光谱影像上进行了粗提取,然后将粗略结果映射到高分辨率影像上,进行了精确提取。以北京市地区作为研究区域,使用数据包括获取时间接近的Quick Bird影像和Hyperion高光谱影像,利用提出的方法进行固废提取试验,并将最终的试验结果与目视判读结果进行对比,固废堆的识别率为82.35%,准确率为74.81%。同时,该方法与已有的固废提取试验对比结果有显著提高。这一结果表明,本文提出的结合高光谱影像和高分辨率影像提取城市固废堆方法具有可行性。

[ Luo L Q, Guo Z, Zhao W Z, et al.

Combining hyperspectral and high-resolution images to extract municipal solid waste dumps

[J]. Bulletin of Surveying and Mapping,2016(2):38-41. ]

https://doi.org/10.13474/j.cnki.11-2246.2016.0044      URL      [本文引用: 1]      摘要

城市固体废弃物给城市的环境及居民的生活质量造成了严重的影响。利用遥感手段提取城市固废堆具有及时和高效的特点,因此具有十分重要的意义。然而,由于固废堆组成成分复杂、分布不规律,仅仅利用高分辨率影像进行提取十分困难。本文结合高光谱影像和高分辨率影像提取了城市固废堆,采用多尺度的研究方法,在对高光谱和高分辨率影像预处理的基础上,首先在高光谱影像上进行了粗提取,然后将粗略结果映射到高分辨率影像上,进行了精确提取。以北京市地区作为研究区域,使用数据包括获取时间接近的Quick Bird影像和Hyperion高光谱影像,利用提出的方法进行固废提取试验,并将最终的试验结果与目视判读结果进行对比,固废堆的识别率为82.35%,准确率为74.81%。同时,该方法与已有的固废提取试验对比结果有显著提高。这一结果表明,本文提出的结合高光谱影像和高分辨率影像提取城市固废堆方法具有可行性。
[7] Hinton G E, Salakhutdinov R R.

Supporting online material for "Reducing the dimensionality of data with Neural Networks"

[J]. Science, 2006,313(5786):504-507.

https://doi.org/10.1126/science.1127647      URL      [本文引用: 1]     

[8] Lecun Y, Bengio Y.The handbook of brain theory and neural networks: Convolutional networks for images, speech, and time series[M]. Cambridge, Massachusetts: the MIT Press, 1998:255-258.

[本文引用: 2]     

[9] Krizhevsky A, Sutskever I, Hinton G E.

Imagenet classification with Deep Convolutional Neural Networks

[J].Advances in Neural Information Processing Systems(NIPS),2012(25):1097-1105.

https://doi.org/10.1145/3065386      URL      [本文引用: 1]      摘要

Abstract We trained a large, deep convolutional neural network to classify the 1.2 million high-resolution images in the ImageNet LSVRC-2010 contest into the 1000 dif-ferent classes. On the test data, we achieved top-1 and top-5 error rates of 37.5% and 17.0% which is considerably better than the previous state-of-the-art. The neural network, which has 60 million parameters and 650,000 neurons, consists of five convolutional layers, some of which are followed by max-pooling layers, and three fully-connected layers with a final 1000-way softmax. To make train-ing faster, we used non-saturating neurons and a very efficient GPU implemen-tation of the convolution operation. To reduce overfitting in the fully-connected layers we employed a recently-developed regularization method called "dropout" that proved to be very effective. We also entered a variant of this model in the ILSVRC-2012 competition and achieved a winning top-5 test error rate of 15.3%, compared to 26.2% achieved by the second-best entry.
[10] Sermanet P, Eigen D, Zhang X, et al.

OverFeat: Integrated recognition, localization and detection using Convolutional Networks

[C]. International Conference on Learning Representations (ICLR), 2014:1-16.

[本文引用: 1]     

[11] Simonyan K, Zisserman A.

Very deep convolutional networks for large-scale image recognition

[C]. International Conference on Learning Representations (ICLR),2015:1-14.

[本文引用: 1]     

[12] Hinton G E, Osindero S, The Y W.

A Fast learning algorithm for Deep Belief Nets

[J]. Neural Computation, 2006,18(7):1527-54.

https://doi.org/10.1162/neco.2006.18.7.1527      URL      [本文引用: 1]     

[13] 付征叶,郑逢斌,刘扬.

高分辨率遥感影像目标分类与识别研究进展

[J].地球信息科学学报,2015,17(9):1080-1091.

https://doi.org/10.3724/SP.J.1047.2015.01080      URL      Magsci      [本文引用: 1]      摘要

高分辨率遥感影像的目标分类与识别,是对地观测系统进行图像分析理解,以及自动目标识别系统提取目标信息的重要手段。本文综述了当前国内外在可见光、红外、合成孔径雷达和合成孔径声纳等遥感影像的目标分类与识别的关键技术和最新研究进展。首先,讨论了高分辨率遥感影像的目标分类与识别问题的主要研究层次和内容;其次,深入分析了高分辨率遥感影像目标分类与识别,在滤波降噪、特征提取、目标检测、场景分类、目标分类和目标识别的关键技术及其所存在的问题;最后,结合并行计算、神经计算和认知计算等技术,讨论了目标分类与识别的可行性方案。具体包括:(1)高性能并行计算在高分辨率遥感图像处理的主流技术,并给出了基于Hadoop+OpenMP+CUDA的高分辨率遥感影像混合并行处理架构;(2)深度学习对于提升目标分类和识别精度的应用前景,以及基于深度神经网络的多层次遥感影像目标识别方法;(3)认知计算在解决遥感影像大数据不确定性分析的模型与算法,并讨论了层次主题模型的多尺度遥感影像场景描述方案。此外,根据媒体神经认知计算的相关研究,探讨了遥感影像大数据的目标分类和识别的发展趋势和研究方向。

[ Fu Z Y, Zheng F B, Liu Y.

Review on high resolution remote sensing image classification and recognition

[J]. Journal of Geo-information Science, 2015,17(9):1080-1091. ]

https://doi.org/10.3724/SP.J.1047.2015.01080      URL      Magsci      [本文引用: 1]      摘要

高分辨率遥感影像的目标分类与识别,是对地观测系统进行图像分析理解,以及自动目标识别系统提取目标信息的重要手段。本文综述了当前国内外在可见光、红外、合成孔径雷达和合成孔径声纳等遥感影像的目标分类与识别的关键技术和最新研究进展。首先,讨论了高分辨率遥感影像的目标分类与识别问题的主要研究层次和内容;其次,深入分析了高分辨率遥感影像目标分类与识别,在滤波降噪、特征提取、目标检测、场景分类、目标分类和目标识别的关键技术及其所存在的问题;最后,结合并行计算、神经计算和认知计算等技术,讨论了目标分类与识别的可行性方案。具体包括:(1)高性能并行计算在高分辨率遥感图像处理的主流技术,并给出了基于Hadoop+OpenMP+CUDA的高分辨率遥感影像混合并行处理架构;(2)深度学习对于提升目标分类和识别精度的应用前景,以及基于深度神经网络的多层次遥感影像目标识别方法;(3)认知计算在解决遥感影像大数据不确定性分析的模型与算法,并讨论了层次主题模型的多尺度遥感影像场景描述方案。此外,根据媒体神经认知计算的相关研究,探讨了遥感影像大数据的目标分类和识别的发展趋势和研究方向。
[14] 党宇,张继贤,邓喀中,.

基于深度学习AlexNet的遥感影像地表覆盖分类评价研究

[J].地球信息科学学报,2017,19(11):1530-1537.

[本文引用: 1]     

[ Dang Y, Zhang J X, Deng K Z, et al.

Study on the evaluation of land cover classification using remote sensing images based on AlexNet

[J]. Journal of Geo-information Science, 2017,19(11):1530-1537. ]

[本文引用: 1]     

[15] Vedaldi A, Lenc K.

MatConvNet-Manual: Convolutional Neural Networks for MATLAB

[EB/OL]. , 2015:689-692.

URL      [本文引用: 1]     

[16] Long J, Shelhamer E, Darrell T.

Fully convolutional networks for semantic segmentation

[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017,39(4):640-651.

https://doi.org/10.1109/TPAMI.2016.2572683      URL      PMID: 27244717      [本文引用: 1]      摘要

Abstract: Convolutional networks are powerful visual models that yield hierarchies of features. We show that convolutional networks by themselves, trained end-to-end, pixels-to-pixels, exceed the state-of-the-art in semantic segmentation. Our key insight is to build "fully convolutional" networks that take input of arbitrary size and produce correspondingly-sized output with efficient inference and learning. We define and detail the space of fully convolutional networks, explain their application to spatially dense prediction tasks, and draw connections to prior models. We adapt contemporary classification networks (AlexNet, the VGG net, and GoogLeNet) into fully convolutional networks and transfer their learned representations by fine-tuning to the segmentation task. We then define a novel architecture that combines semantic information from a deep, coarse layer with appearance information from a shallow, fine layer to produce accurate and detailed segmentations. Our fully convolutional network achieves state-of-the-art segmentation of PASCAL VOC (20% relative improvement to 62.2% mean IU on 2012), NYUDv2, and SIFT Flow, while inference takes one third of a second for a typical image.
[17] Zheng S, Jayasumana S, Romera-Paredes B, et al.

Conditional Random Fields as Recurrent Neural Networks

[C]. IEEE International Conference on Computer Vision. IEEE, 2016:1529-1537.

[本文引用: 1]     

[18] Zhao J, Zhong Y, Shu H, et al.

High-resolution image classification integrating spectral-spatial-location cues by conditional random fields

[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2016,25(9):4033-4045.

https://doi.org/10.1109/TIP.2016.2577886      URL      PMID: 27295673      [本文引用: 1]      摘要

With the increase in the availability of high-resolution remote sensing imagery, classification is becoming an increasingly useful technique for providing a large area of detailed land-cover information by the use of these high-resolution images. High-resolution images have the characteristics of abundant geometric and detail information, which are beneficial to detailed classification. In order to make full use of these characteristics, a classification algorithm based on conditional random fields (CRFs) is presented in this paper. The proposed algorithm integrates spectral, spatial contextual, and spatial location cues by modeling the probabilistic potentials. The spectral cues modeled by the unary potentials can provide basic information for discriminating the various land-cover classes. The pairwise potentials consider the spatial contextual information by establishing the neighboring interactions between pixels to favor spatial smoothing. The spatial location cues are explicitly encoded in the higher order potentials. The higher order potentials consider the nonlocal range of the spatial location interactions between the target pixel and its nearest training samples. This can provide useful information for the classes that are easily confused with other land-cover types in the spectral appearance. The proposed algorithm integrates spectral, spatial contextual, and spatial location cues within a CRF framework to provide complementary information from varying perspectives, so that it can address the common problem of spectral variability in remote sensing images, which is directly reflected in the accuracy of each class and the average accuracy. The experimental results with three high-resolution images show the validity of the algorithm, compared with the other state-of-the-art classification algorithms.
[19] Chen L C, Papandreou G, Kokkinos I, et al.

Semantic image segmentation with Deep Convolutional Nets and Fully Connected CRFs

[J]. Computer Science,2015(4):357-361.

https://doi.org/10.1080/17476938708814211      URL      [本文引用: 1]      摘要

Abstract: Deep Convolutional Neural Networks (DCNNs) have recently shown state of the art performance in high level vision tasks, such as image classification and object detection. This work brings together methods from DCNNs and probabilistic graphical models for addressing the task of pixel-level classification (also called "semantic image segmentation"). We show that responses at the final layer of DCNNs are not sufficiently localized for accurate object segmentation. This is due to the very invariance properties that make DCNNs good for high level tasks. We overcome this poor localization property of deep networks by combining the responses at the final DCNN layer with a fully connected Conditional Random Field (CRF). Qualitatively, our "DeepLab" system is able to localize segment boundaries at a level of accuracy which is beyond previous methods. Quantitatively, our method sets the new state-of-art at the PASCAL VOC-2012 semantic image segmentation task, reaching 71.6% IOU accuracy in the test set. We show how these results can be obtained efficiently: Careful network re-purposing and a novel application of the 'hole' algorithm from the wavelet community allow dense computation of neural net responses at 8 frames per second on a modern GPU.
[20] Krähenbühl P, Koltun V.

Efficient inference in fully connected CRFs with Gaussian edge potentials

[J].Advances in Neural Information Processing Systems(NIPS), 2011(24):109-117.

URL      [本文引用: 1]      摘要

Abstract: Most state-of-the-art techniques for multi-class image segmentation and labeling use conditional random fields defined over pixels or image regions. While region-level models often feature dense pairwise connectivity, pixel-level models are considerably larger and have only permitted sparse graph structures. In this paper, we consider fully connected CRF models defined on the complete set of pixels in an image. The resulting graphs have billions of edges, making traditional inference algorithms impractical. Our main contribution is a highly efficient approximate inference algorithm for fully connected CRF models in which the pairwise edge potentials are defined by a linear combination of Gaussian kernels. Our experiments demonstrate that dense connectivity at the pixel level substantially improves segmentation and labeling accuracy.

/