设施农业典型地物改进Faster R-CNN识别方法

王兴; 康俊锋; 刘学军; 王美珍; 张超

doi:10.12082/dqxxkx.2019.180699

地球信息科学学报 >

2019 , Vol. 21 >Issue 9: 1444 - 1454

DOI: https://doi.org/10.12082/dqxxkx.2019.180699

遥感科学与应用技术

设施农业典型地物改进Faster R-CNN识别方法

王兴 ¹^,²^,³ ,
康俊锋 ⁴ ,
刘学军 ^,¹^,²^,³^,^* ,
王美珍 ¹^,²^,³ ,
张超 ⁴

展开

^1. 南京师范大学虚拟地理环境教育部重点实验室,南京 210023
^2. 江苏省地理信息资源开发与利用协同创新中心,南京 210023
^3. 江苏省地理环境演化国家重点实验室培育建设点,南京 210023
^4. 江西理工大学建筑与测绘工程学院,赣州 341000

*刘学军（1964-）,男,陕西合阳人,博士,教授,主要从事DEM、视频GIS、交通GIS研究。E-mail: liuxuejun@njnu.edu.cn

王兴（1992-）,男,安徽宿州人,博士生,主要从事深度学习、视频GIS、无线传感网络研究。E-mail: jwangxing0719@163.com

收稿日期: 2018-12-29

要求修回日期: 2019-05-14

网络出版日期: 2019-09-24

基金资助

国家自然科学基金项目(41771420)

国家高技术研究发展计划项目(2015AA123901)

江苏高校优势学科建设工程资助项目

版权

收起

Improving the Faster R-CNN Method for Recognizing Typical Objects of Modern Agriculture based on Remote Sensing Imagery

WANG Xing ¹^,²^,³ ,
KANG Junfeng ⁴ ,
LIU Xuejun ^,¹^,²^,³^,^* ,
WANG Meizhen ¹^,²^,³ ,
ZHANG Chao ⁴

Expand

^1. Key Laboratory of Virtual Geographic Environment (Nanjing Normal University), Ministry of Education, Nanjing 210023, China
^2. State Key Laboratory Cultivation base of Geographical Environment Evolution (Jiangsu Province), Nanjing 210023, China
^3. Jiangsu Center for Collaborative Innovation in Geographical Information Resource Development and Application, Nanjing 210023, China
^4. Faculty of Architectural and Surveying Engineering, Jiang Xi University of Science and Technology, Ganzhou 341000, China;

*LIU Xuejun, liuxuejun@njnu.edu.cn

Received date: 2018-12-29

Request revised date: 2019-05-14

Online published: 2019-09-24

Supported by

National Natural Science Foundation of China(41771420)

National High-tech R&D Program of China(2015AA123901)

Funded by the Priority Academic Program Development of Jiangsu Higher Education Institution

Copyright

Copyright reserved © 2010. Office of Journal of Geo-information Science All articles published represent the opinions of the authors, and do not reflect the official policy of the Chinese Medical Association or the Editorial Board, unless this is clearly specified.

Fold

摘要

深度学习方法可有效提高传统基于遥感影像的设施农业典型地物识别与提取方法的结果精度,对传统农业的转型和发展意义重大。本文针对遥感影像大背景小目标的特点,以及设施农业典型地物的图像特征,结合深度残差思想和Faster R-CNN提出DRTOMA算法：首先,使用深度残差网络作为其基础特征提取网络,以此获得更深层次的图像特征,并抑制网络退化和衰退问题;然后在残差单元和全连接层之间加入改进的空间金字塔池化层,从而去除输入图像固定大小的限制,增加网络对图像尺度的敏感度;最后,在全连接层间添加dropout层,减少网络计算的复杂度,提升抗过拟合效果。仿真结果表明：同部分已有的检测算法相比,DRTOMA算法的平均识别准确率和召回率均取为最优,分别为91.87%和90.63%;在最优识别精度近似的情况下,DRTOMA算法比Faster R-CNN算法的召回率高约2%,网络更易收敛,训练难度较低。综上所述,DRTOMA算法是一种有效可行的设施农业典型地物检测方法。

关键词： 设施农业; 遥感影像; 目标检测; Faster R-CNN; 深度残差

本文引用格式

王兴 , 康俊锋 , 刘学军 , 王美珍 , 张超 . 设施农业典型地物改进Faster R-CNN识别方法[J]. 地球信息科学学报, 2019 , 21(9) : 1444 -1454 . DOI: 10.12082/dqxxkx.2019.180699

Abstract

The development of modern agriculture is directly related to the transformation of the traditional agriculture. The recognition and extraction of typical objects of modern agriculture (TOMA) through remote sensing imagery has many advantages and has become the mainstream of current applications. Since traditional recognition methods are easily affected by external environmental factors (e.g., the shape, size, color, and texture of TOMA, and the distance, angle, and weather conditions for obtaining the remote sensing imagery), the accuracy of recognition results is usually difficult to meet application requirements. In the recent years, deep learning methods have seen wide applications in many fields, which greatly promote the advancement of artificial intelligence. Convolutional Neural Network (CNN) has acquired breakthrough research results in image classification, object detection, semantic segmentation, and so on. Based on the structure of CNN, many excellent network structures have been developed, such as Regions with CNN, Fast R-CNN, Mask R-CNN, etc. In particula, Faster R-CNN is one of the mainstream algorithms for target detection. However, when directly applied to the recognition of TOMA, the Faster R-CNN still has some drawbacks to be improved, especially the problem of small targets with large background. By taking the image features of TOMA into account, a DRTOMA (Deep Residual TOMA) algorithm was proposed in this paper based on the idea of deep residual network and Faster R-CNN. Firstly, the deep residual network was used as the basic feature extraction network to obtain deeper features and suppress the network degenerate problems. Secondly, an improved spatial pyramid pooling layer was added between the residual unit and the fully connected layer to remove the fixed size limit of the input image while increasing the sensitivity to the scale of the network. Lastly, a dropout layer was added between the fully connected layers to reduce the complexity of the network and improve the over-fitting effect. Simulation results showed that compared with some existing algorithms, the average recognition accuracy and recall rate of the DRTOMA algorithm were optimal, being 91.87% and 90.643%, respectively. The recognition accuracy of the DRTOMA algorithm and that of Faster R-CNN were similar. However, the DRTOMA algorithm had a recall rate of about 2% higher than the Faster R-CNN algorithm, and the network was easier to converge and can be trained for a shorter time. Our findings suggest that the DRTOMA algorithm is an effective and feasible TOMA detection method.

Key words： modern agriculture; remote sensing imagery; object recognition; Faster R-CNN; deep residual

1 引言

设施农业是指利用现代工业技术方法和成果在人为控制的环境条件下,改变自然光温条件,创造优越的有利于动植物生长的环境因素,使动植物处于最佳的生长状态,从而有效的提高农作物产品质量和产量,其发展直接关系着当下传统农业的转型和发展^[1,2]。中国发展的设施农业主要包括塑料大棚、日光温室及连栋温室等。基于遥感影像获取地区设施农业典型地物（Typical Objects of Modern Agriculture,TOMA）空间分布及数量信息具有区域覆盖范围广、信息获取周期短、成本低廉等优势成为当前应用的主流^[3],其中无人机影像应用较为广泛^[4]。传统的基于无人机影像提取TOMA方法如：基于影像像元的监督分类、面向对象、Support Vector Machine（SVM）等,判读过程容易受到TOMA形状、大小、颜色、纹理以及无人机拍摄时的距离、姿态、环境等众多因素的影响,导致该类方法计算过程复杂且结果准确度不高,难以满足实际应用对TOMA识别准确性的要求。

深度学习^[5,6,7]（Deep Learning）是以人工神经网络为理论基础的机器学习分支,目前已在人工智能、计算机视觉等领域取得巨大成功。卷积神经网络（Convolutional Neural Network,CNN）在图像处理方面成果显著,被广泛应用于计算机视觉方向。基于CNN的结构基础,发展出很多应用于图像分类、目标检测、图像分割的网络结构,如：R-CNN（Regions with CNN）^[8]、Fast R-CNN^[9]、Faster R-CNN^[10,11]、Mask R-CNN^[12]等,已被广泛应用于遥感影像的处理中,实现了传统TOMA检测方法向基于深度学习检测方法的转变。其中,Faster R-CNN使用较少的参数极大地提高了目标检测算法的鲁棒性和检测准确率,自提出至今仍是目标检测方面的主流算法之一。

关于过拟合问题与网络结构方面的研究一直是推动CNN发展的基础研究方向^[13,14]。CNN的层数越多意味着能够提取到不同层次的特征越丰富、越抽象、越具有语义信息。但随着CNN网络层数的加深,优化函数越来越容易偏离全局最优陷入局部最优解,且更易出现梯度消失、网络退化等问题,往往产生CNN的层数越多,其检测误差反而越大的矛盾。针对上述问题,He等^[15]使用深度残差（Deep Residual）学习的思想,提出深度残差网络（Deep Residual Network, ResNet）,可在降低深层网络训练负担的同时,减弱梯度消失速度导致的网络退化的问题,有效地提高了检测结果的准确率。

针对遥感影像大背景小目标的特点,以及TOMA的无人机影像特征,本研究综合深度残差和Faster R-CNN网络提出名为DRTOMA（Deep Residual TOMA）的TOMA的检测算法。DRTOMA首先使用深度残差网络作为其基础特征提取网络,以此获得更深层次的图像特征,并减少训练过程中网络退化和衰退问题;其次,在残差单元和全连接层之间加入改进的空间金字塔池化层（Spatial Pyramid Pooling,SPP）^[16],去除输入图像固定大小的限制的同时,增加网络对图像尺度的敏感性;最后,在全连接层间添加dropout层减少网络计算的复杂度,提升抗过拟合效果。并通过仿真实验评价DRTOMA算法的性能,旨在为该领域的研究提供有益的补充。

2 研究基础

2.1 传统目标检测算法

目标视觉检测是指估计特定类型目标出现在图像中的位置^[17]。就基于区域提取的目标视觉检测技术在流程上大致分为3个步骤：区域建议（Region Proposal）、特征表示（Feature Representation）和区域分类（Region Classification）,目标视觉检测基本流程如图1所示。传统的目标检测方法在候选区域选择时多使用比例、大小不同的滑动窗口对图像进行遍历,这种穷举策略缺乏针对性、时间复杂度高、冗余窗口较多。在特征提取时多使用SIFT、HOG等方法,该类手工设计的特征易受形态、光照、背景等多样性的影响,提取特征的鲁棒性较差。

显示原图|下载原图ZIP|生成PPT

图1 目标视觉检测基本流程

Fig. 1 Basic processes of object visual detection

2.2 基于深度学习的目标检测算法

（1）R-CNN

R-CNN使用CNN网络提取图像特征,从经验驱动的人造特征范式HOG、SIFT到数据驱动的表示学习范式,提高了特征对样本的表示能力。R-CNN使用选择性搜索法（Selective Search,SS）^[18]生成约2000个候选区域。为满足CNN网络对输入全连接层向量维数固定的需求,R-CNN将候选区域切割（crop）或缩放形变（warp）处理到固定大小,图像处理如图2所示。相较于传统检测方法,R-CNN一定程度上加快检测框的生成速度,但存在训练步骤繁琐、训练占用空间大、训练和测试时间成本大等缺点。

显示原图|下载原图ZIP|生成PPT

图2 R-CNN图片操作

Fig. 2 R-CNN image processing

（2）SPP-NET

R-CNN对候选区域切割和缩放等形变处理易造成图片的信息缺失或者变形,降低图片识别的正确率。Spatial Pyramid Pooling-NET（SPP-NET）在CNN卷积层和全连接层间添加SPP层,用于解决CNN输入固定尺寸的限制问题,使得不同尺度的输入图像通过Roi_pooling（Region of Interest Pooling）处理最终得到相同尺度的特征向量,从而实现影像数据的多尺度输入。SPP-NET只需要对原始整张图像提一次特征图（Feature Map）,然后将候选区域映射到卷积特征层得到全连接层的输入特征,训练速度得到提升。但SPP层之前的卷积层无法进行fine-tuning操作,导致梯度回传困难,降低其对深层网络的适用性,且训练步骤繁琐,训练占用空间大。

（3）Faster R-CNN

Fast R-CNN在R-CNN和SPP-NET的基础上采用多项创新提高训练、测试速度和检测精度,实现了端到端的训练。但Fast R-CNN仍基于SS算法提取候选区域,无法使用GPU的超强并行运算能力导致网络训练效率极低,大量冗余的候选区域也加重了网络的处理压力。Faster R-CNN在 Fast R-CNN的基础上增加了区域生成网络（Region Proposal Network,RPN）。RPN在训练时共享了Fast R-CNN部分的网络结构从而避免了大量提取候选框的重复计算,很大的提升网络的速度。Faster R-CNN使用较少的参数极大地提高了目标检测算法的鲁棒性和检测准确率,自提出至今仍是目标检测方面的主流算法之一。许多学者在Faster R-CNN框架上推出了一些改进算法,改进思路大致可分为3类：①选择更好的特征提取网络;② 使用更符合需求的RPN策略;③ 改进ROI分类方法,这为本文TOMA检测算法提供了重要的思路来源和理论基础。

（4） ResNet

简单地增加CNN深度,会出现梯度弥散或梯度爆炸等问题,导致随着网络的加深,CNN检测准确率下降。上述问题虽可使用正则化的方式进行缓解,但随之而来的网络退化问题使得网络难以训练,深层网络依然没有被很好的利用。若要在浅层网络的基础上,通过堆积新层来建立深层网络,新增层若仅复制浅层网络的特征即恒等映射（Identity Mapping）,理论上深层网络应和浅层网络性能相同,深的模型的训练误差至少不应当大于浅层模型。实际情况中,求解器很难去利用多层网络拟合恒等函数,但是对于残差学习,求解器根据输入的同等映射更容易发现扰动,远比直接学习恒等映射函数简单。He等^[15]基于上述思想提出深度残差网络,通过捷径连接（Shortcut Connections）的方式形成跳跃式结构,在计算复杂度与没有残差单元的普通CNN基本一致的前提下,可在降低深层网络训练负担的同时,减弱梯度消失导致的网络退化问题,有效的提高准确率。捷径连接结构如图3所示。至今ResNet依然是应用最普遍的基础网络之一。

显示原图|下载原图ZIP|生成PPT

图3 捷径连接结构

Fig. 3 Schematic diagram of shortcut connections

2.3 TOMA检测算法

中国大陆常见的TOMA的标志及特征如表1所示。由表1可知,TOMA多被透明或白色塑料薄膜覆盖,无人机遥感影像易受光照、天气以及拍摄角度等因素影响导致各类TOMA间的区分度较小。从结构来看,表中各类TOMA形状多为矩形,形状相似度极高。由此可见,影像中的“同物异谱”及“同谱异物”现象更加突出。基于无人机影像的TOMA准确识别需重点解决光照和形状干扰问题,这对传统的基于监督分类等目标检测方法提出巨大挑战。罗军等^[19]使用TOMA空间位置分布规律及其在高分辨率遥感影像上的纹理特征体现,设计了批量设施自动生成算法,但需首先对影像进行目视解译,而且对于TOMA信息提取及相关参数设置需大量先验知识,算法精度和鲁棒性有进一步提高的空间;何少林等^[20]采用面向对象的多尺度分类思想,将影像多层次分割,识别覆盖薄膜耕地。该方法弥补在单一尺度下某些类型地物分割不佳的缺陷,但在分类过程中最优分割尺度选取和提取规则设置都需要人工参与,对分类者的要求较高。

Tab. 1 Common TOMA images and features

典型地物类型	地物图像特征	特征描述
地膜		银白色,一般为长方形,大多分布于温棚基地或蔬果区
塑料大棚		透明白色,通常是长方形,多数分布于蔬菜或果园基地
连栋温室		透明白色,将几个独立温室连接成大温室,多边形,分布于温棚基地或农田区
日光温室		银色或透明白色,通常依附于山体结构,多数为长方形,分布于光照好的地区

近年来,伴随深度学习的发展,部分学者将深度学习的目标检测方法应用于遥感影像的目标检测中。曹林林等^[21]使用CNN对昆明城区的高分辨率遥感影像进行目标地物分类,实验结果表明分类结果精度明显高于支持向量机的方法;杨嘉树等^[22]利用卷积神经网络得到的特征对影像进行分类,并采用支持向量机对第一步分类由于特征区分性不足造成的错分地物类别进行再分类。仿真实验表明基于CNN得到的特征比传统人工设计的特征具有更好的可区分性。但上述研究提取的目标地物为林地、裸地、房屋、道路等,相比TOMA这些地物间图像特征区分度较大,更易于识别。

综上所述,若想使用CNN实现高精度TOMA分类,则需要搭建较深的网络去挖掘深层次的图像信息。因此,如何解决网络训练过程中梯度弥散和梯度爆炸等问题成为关键,这也是本研究的研究重点之一。

3 研究方法

本文在分析传统TOMA检测结果优缺点的基础上,结合Faster R-CNN和ResNet两种网络的优缺点,提出一种改进的基于深度残差的TOMA检测算法——DRTOMA。DRTOMA的识别任务分为：类别识别与位置（图像坐标）识别,其中类别识别是位置识别的基础。DRTOMA网络结构如图4（b）所示。当两层的维度匹配,即输出feature map大小相同,具有相同数量的维度数时,使用实线连接,反之使用虚线。当维度不匹配时,直接通过zero padding的方式来增加维度。另外,将基于VGG-16的Faster R-CNN网络结构置于图4（a）,以便于DRTOMA网络的对比描述。DRTOMA对比Faster R-CNN有以下3点改进：① 使用残差网络作为TOMA基础特征提取网络,降低深层网络训练负担的同时,减弱梯度消失导致的网络退化问题;② 改进ROI_Pooling策略去除网络对输入图片尺寸固定的要求,同时提高对多尺度无人机影像中TOMA的敏感度;③ 添加Dropout层减少网络计算的复杂度,提升抗过拟合效果。具体内容如下：

显示原图|下载原图ZIP|生成PPT

图4 Faster R-CNN和DRTOMA网络结构示意

Fig. 4 Schematic diagram of the Faster R-CNN and DRTOMA network structures

3.1 基础特征提取网络

使用残差网络作为基础特征提取网络,用于降低光照等环境因素对TOMA信息提取的干扰,提取影像中TOMA的深层特征。基础特征提取网络结构及参数如表2所示,残差单元结构如图5所示。每个残差单元的主径上有3个卷积层,分别按照 1×1,3×3,1×1的顺序排列,前2个卷积层采用与上一层相同的卷积核,第3层卷积核数量翻倍。主径的首尾使用1×1的卷积核更便于特征图维度的升降操作。捷径上只有一个卷积层,直接将卷积核数量翻倍。主径和捷径使用加和融合相当于将深层和浅层的特征相融合,以此获取更有效的特征^[23]。Relu是一种分段线性函数,用于正反向求导计算简单、不需要指数或者除法等操作,而且对于梯度弥散情况能够有效控制,在经过多级连乘计算后梯度也不会逐渐递减。Relu计算方法如式（1）所示,式中x为神经元的值。本文使用Relu层作为神经网络中的非线性单元以控制梯度弥散情况。

（1）

f (x) = max (0, x)

显示原图|下载原图ZIP|生成PPT

图5 DRTOMA残差单元结构

Fig. 5 Schematic diagram of DRTOMA of residual block

表2 基础特征提取网络结构

Tab. 2 Basic features extraction network structure

残差块	特征图尺寸宽度×长度,维度	残差内部结构宽度×长度,维度
残差块	特征图尺寸宽度×长度,维度	主径	捷径
残差单元 1	224×224, 64	$1 × 1, 3 × 3, 1 × 1, 161632$	224×224, 32
最大池化	224×224, 32
残差单元 2	112×112, 128	$1 × 1, 3 × 3, 1 × 1, 323264$	112×112, 64
最大池化	112×112, 64
残差单元 3	56×56, 256	$1 × 1, 3 × 3, 1 × 1, 6464128$	56×56, 128
最大池化	56×56, 128
残差单元 4	28×28, 512	$1 × 1, 3 × 3, 1 × 1, 128128256$	28×28, 256
最大池化	28×28, 256
残差单元 5	14×14, 1024	$1 × 1, 3 × 3, 1 × 1, 256256512$	14×14, 512
最大池化	14×14, 512

综合考虑改进算法识别精度、时间复杂度和训练及测试的速度,结合多次调试结果经验值,本文DRTOMA算法共设置5个残差单元作为基础特征特征提取网络。此外,该设计使得DRTOMA模型与基于VGG16的Faster R-CNN相比,模型整体层数相近,基础特征提取网络最终输出的特征图维度相同,在对算法进行评价分析时更具可比性。

3.2 Roi_Pooling策略

Roi_Pooling层提出于Fast R-CNN,沿用至Faster R-CNN,可将不同大小区域候选框对应的基础特征提取网络所得特征图的尺寸进行统一。关于区域候选框获取描述可见3.3节。Roi_Pooling层实质为简化版的SPP-NET中的SPP层,即SPP-NET中的SPP层使用3个不同尺度的窗口（4×4、2×2、1×1）池化卷积层所得特征图,而Fast R-CNN的Roi_Pooling层使用一个固定窗口（通常为7×7或14×14）替代了SPP-NET的3窗口。这种方式相当于使用一个更细分的窗口替代粗分的多窗口,粗粒度的特征则由其后接的全连接层来实现类似于SPP-NET的效果。结合遥感影像大背景小目标的特点,SPP使用多尺度窗口可有效提高网络检测精度^[16],而且对尺度信息更加敏感且易训练时有助于网络收敛。综上所述,本文使用SPP层作为DRTOMA的Roi_Pooling策略去除影像输入尺寸固定大小限制的同时,增加对多尺度的影像中TOMA信息的敏感度。改进ROI Pooling层,首先将由原图生成的区域候选框按一定比例（本文为1/16）映射到基础特征提取网络（3.1节所述）所得特征图上;然后将映射后的特征图使用最大池化法（Max Pooling）按照5×5、3×3、1×1三种尺度进行池化,最终生成（25+9+1）×512维的特征向量。最后,将所得特征图传至后续全连接层网络。实验测试表明相比SPP-NET窗口尺度大小设置,本文使用5×5、3×3、1×1的3个尺度窗口的DRTOMA网络在训练过程中更容易收敛,改进ROI Pooling层结构如图6所示。

显示原图|下载原图ZIP|生成PPT

图6 改进ROI Pooling层结构

Fig. 6 Schematic diagram of the improved ROI Pooling-Layer

3.3 增加Dropout层

全连接层（FC1层和FC2层）中添加Dropout层,此层会在网络训练过程中随机的丢弃部分神经元,以此减少网络计算的复杂度,提升抗过拟合效果。与Faster R-CNN相同,DRTOMA利用RPN方法进行目标框定,并通过边框回归精修和分类概率统计得到最终的TOMA的识别结果,具体方法可参见文献[10],在此不做赘述。

4 实验分析与讨论

实验数据为青海省海东市互助土族自治县地区, 101°51′E-102°13′E, 36°17′N-37°05′N的0.5 m无人机遥感影像数据,数据拍摄时间为2016年11月。该地区设施农业发展迅速,已投入使用的设施农业基地面积广阔,TOMA包括地膜、塑料大棚、连栋温室等规模较大,样本数据量丰富且具有典型性。通过对该地区无人机影像数据进行裁剪分割、数据增强、添加标签等预处理操作,对样本数据中的TOMA按照其所在影像中的位置和类别添加标签得到TOMA样本知识库,部分TOMA（大棚）样本库如图7所示。本次实验提取的TOMA包括地膜、塑料大棚、连栋温室和日光温室等地物类型,训练样本中TOMA个数共7.2万。实验环境如下：Linux Ubuntu 16.04 LTS,Intel Xeon Bronze 3104处理器,32 G内存,显卡为2张NVIDIA GeForce GTX 1080Ti,深度学习框架为Tensorflow 1.7。

显示原图|下载原图ZIP|生成PPT

图7 部分TOMA（大棚）样本库

Fig. 7 Sample library of part of TOMA (Greenhouse)

定量评价检测结果中TOMA漏检、错检的情况,采用召回率（Recall）和平均准确率（A_accuracy）作为实验结果的评价指标。召回率的取值范围为[0,1],召回率越大,说明算法识别结果为TOMA的数量占影像中真实TOMA总数的比例越高,当召回率为1时,说明算法检测出影像中所有TOMA。准确率的取值范围为[0,1],平均准确率越大,说明检测算法对TOMA的识别能力越高,当平均准确率为1时,说明算法的TOMA检测结果与实际TOMA分布情况完全一致。召回率和平均准确率的计算公式如下：

（2）

Recall = TP TP + FN A_accuracy = TP N

式中：TP为算法正确识别和分类图像中的TOMA的个数;FN为算法错误分类和识别TOMA的数量;N为影像中TOMA总数。现将传统的SIFT+SVM算法、基于CNN的较浅层的分类网络AlexNet^[5]、基于VGG-16的Faster R-CNN算法以及DRTOMA算法进行对比分析,各TOMA算法精度对比如表3所示。3种深度学习算法的训练过程如图8所示。设置深度学习类检测算法的训练学习率为0.0004,上文所述硬件环境下训练约152 h,DRTOMA算法模型收敛。部分DRTOMA识别结果如图9所示,图中TOMA_1到TOMA_4分别对应塑料大棚、地膜、连栋温室、日光温室。结合实际考察,DRTOMA算法较准确的识别和区分图9中的4类TOMA。

显示原图|下载原图ZIP|生成PPT

图8 3种深度学习算法训练过程对比

Fig. 8 Comparison of training process of the three deep learning algorithms

表3 各设施农业典型地物识别算法精度实验对比

Tab. 3 Accuracy comparison of each TOMA recognizing algorithm (%)

	SIFT+SVM	AlexNet	Faster R-CNN(VGG16)	DRTOMA
Recall	60.27	75.42	88.27	90.63
A_accuracy	54.15	80.43	91.34	91.87

显示原图|下载原图ZIP|生成PPT

图9 部分DRTOMA检测结果

Fig. 9 Part of the DRTOMA recognition results

由表3可知：① 传统的基于SIFT+SVM方法的平均准确率和召回率分别为54.15%和60.27%,2项评价指标均明显低于基于其他3种深度学习的算法;② 层数较浅的AlexNet算法虽比SIFT+SVM方法平均精度提高26.28%、召回率提高21.27%,但算法误判率仍高达约20%。因此,增加CNN的网络深度以挖掘影像中TOMA更深层次的特征具有必要性;③ Faster R-CNN的召回率和平均准确率分别为88.27%和91.34%,而本文的DRTOMA算法的平均识别准确率和召回率均取为最优,分别为90.63%和91.87%。

结合图8和表3,将DRTOMA算法和Faster R-CNN算法的训练过程数据和识别精度进行对比分析可知：① 当训练步数到达11 000步后,DRTOMA算法的平均准确率趋于稳定,当训练步数达到 15 000步之后,Faster R-CNN算法的平均准确率趋于稳定。可见DRTOMA比Faster R-CNN更容易收敛,前者训练难度更低;② DRTOMA算法的最优平均准确率略高于Faster R-CNN,但前者的召回率为90.63%,高于后者2.36%。分析其主要原因在于DRTOMA对Faster R-CNN的Roi_Pooling策略的改进,使其对尺度信息更加敏感,降低训练难度的同时,提高了召回率和检测精度。综上所述,本文改进算法是一种有效可行的TOMA检测方法。

5 结论与讨论

近年来,基于深度学习的目标分类检测方法取得了一系列突破性的研究成果,将其应用于遥感影像中TOMA信息获取可为传统农业的转型和发展提供重要的决策信息。Faster R-CNN作为首个真正实现端到端的目标检测框架,以较高检测精度和较快的检测速度而备受关注。根据各类TOMA间的遥感影像区分度较小特点和实际拍摄过程中无人机飞行高度变化导致的影像尺度不一的情况,本文基于深度残差的思想对Faster R-CNN进行改进提出DRTOMA算法,改进算法：① 使用深度残差网络作为其基础特征提取网络,以此获得更深层次的图像特征,并抑制网络退化和衰退问题;② 在残差单元和全连接层之间加入改进的空间金字塔池化层,从而去除输入图像固定大小的限制,增加网络对图像尺度的敏感度;③ 在全连接层间添加dropout层,减少网络计算的复杂度,提升抗过拟合效果。

并通过实验对传统的SIFT+SVM算法、部分已有基于深度学习的算法和本文的DRTOMA算法的性能进对比分析。实验结果表明：① 传统的基于SIFT+SVM方法的平均准确率和召回率分别为54.15%和60.27%,2项评价指标均明显低于基于其他3种深度学习的算法;② 同上述的检测算法相比,DRTOMA算法的平均识别准确率和召回率均取为最优,分别为91.87%和90.63%;③ DRTOMA算法的最优平均识别精度高于Faster R-CNN约0.53%,但DRTOMA算法的召回率高约2%,且更容易收敛,训练难度较低。综上所述,DRTOMA可较好克服光照、飞行高度变化等外界因素的干扰,准确高效的实现基于无人机遥感影像的TOMA识别问题。

但改进的Roi_Pooling策略虽对尺度更加敏感,理论上为解决无人机拍摄时飞行高度变化带来的尺度变化问题,但在Roi_Pooling训练过程中部分参数仍存在量化不匹配的问题,可能导致DRTOMA检测精度下降,这也是本研究接下来探究重点。

参考文献

原文顺序 | 文献年度倒序 | 文中引用次数倒序

[1]

刘霓红, 蒋先平, 程俊峰 , 等. 国外有机设施园艺现状及对中国设施农业可持续发展的启示[J]. 农业工程学报, 2018,34(15):1-9.

[ Liu N

, Jiang X

, Cheng J

, et al. Current situation of foreign organic greenhouse horticulture and its inspiration for sustainable development of Chinese protected agriculture[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018,34(15):1-9. ]

[2]

陈瑜, 张铁民, 孙道宗 , 等. 基于无线传感器网络的设施农业车辆定位系统设计与试验[J]. 农业工程学报, 2015,31(10):190-197.

[ Chen

, Zhang T

, Sun D

, et al. Design and experiment of locating system for facilities agricultural vehicle based on wireless sensor network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2015,31(10):190-197. ]

[3]	单治彬, 孔金玲, 张永庭 , 等. 面向对象的特色农作物种植遥感调查方法研究[J]. 地球信息科学学报, 2018,20(10):1509-1519. [ Shan Z B, Kong J L, Zhang Y T , et al. Remote sensing investigation method of object-oriented crops with special characteristics[J]. Journal of Geo-information Science, 2018,20(10):1509-1519. ]

[4]	宋晓阳, 黄耀欢, 董东林 , 等. 融合数字表面模型的无人机遥感影像城市土地利用分类[J]. 地球信息科学学报, 2018,20(5):703-711. [ Song X Y, Huang Y H, Dong D L , et al. Urban land use classification from UAV remote sensing images based on digital surface model[J]. Journal of Geo-information Science, 2018,20(5):703-711. ]

[5]	Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]. Advances in Neural Information Processing Systems, 2012: 1097-1105.

[6]	LeCun Y, Bengio Y, Hinton G . Deep learning[J]. Nature, 2015,521(7553):436-444.

[7]	Silver D, Huang A, Maddison C J , et al. Mastering the game of Go with deep neural networks and tree search[J]. Nature, 2016,529(7587):484-489.

[8]	Girshick R, Donahue J, Darrellt , et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]. Proceedings of the IEEE conference on computer vision and pattern recognition, 2014: 580-587.

[9]	Girshick R . Fast R-CNN [C]. 2015 IEEE International Conference on Computer Vision (ICCV). IEEE, 2016.

[10]	He K, Gkioxari G, Dollár P , et al. Mask R-CNN[C]. IEEE International Conference on Computer Vision(ICCV), 2017: 2961-2969.

[11]	王金传, 谭喜成, 王召海 , 等. 基于Faster-RCNN深度网络的遥感影像目标识别方法研究[J]. 地球信息科学学报, 2018,20(10):1500-1508. [ Wang J C, Tan X C, Wang Z H , et al. Faster R-CNN deep learning network based object recognition of remote sensing image[J]. Journal of Geo-information Science, 2018,20(10):1500-1508. ]

[12]	He K, Gkioxari G, Dollár P , et al. Mask R-CNN[J]. Proceedings of the IEEE international conference on computer vision, 2017: 2961-2969.

[13]	李彦冬, 郝宗波, 雷航 . 卷积神经网络研究综述[J]. 计算机应用, 2016,36(9):2508-2515,2565. [ Li Y C, Hao Z B, Lei H . Survey of convolutional neural network[J]. Journal of Computer Applications, 2016,36(9):2508-2515,2565. ]

[14]	周飞燕, 金林鹏, 董军 . 卷积神经网络研究综述[J]. 计算机学报, 2017,40(6):1229-1251. [ Zhou F Y, Peng J L, Dong J . Review of Convolutional Neural Network[J]. Chinese journal of computers, 2017,40(6):1229-1251. ]

[15]	He K M, Zhang X Y, Ren S Q , et al. Deep residual learning for image recognition[C]. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016: 770-778.

[16]	He K, Zhang X, Ren S , et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2015,37(9):1904-1916.

[17]	张慧, 王坤峰, 王飞跃 . 深度学习在目标视觉检测中的应用进展与展望[J]. 自动化学报, 2017,43(8):1289-1305. [ Zhang H, Wang K F, Wang F Y . Advances and perspectives on applications of deep learning in visual object detection[J]. Acta Automatica Sinica, 2017,43(8):1289-1305.]

[18]	Uijlings J R R, Sande . Selective search for object recognition[J]. International Journal of Computer Vision, 2013,104(2):154-171. DOI

[19]	罗军, 潘瑜春, 王纪华 , 等. 基于高分辨率遥感影像的设施农业资源信息采集技术研究[J]. 地理与地理信息科学, 2007,23(3):51-54. [ Luo J, Pan Y C, Wang J H , et al. Study on building agricultural resource information collection technology based on high-resolution remote sensing image[J]. Geography and Geo-information Science, 2007,23(3):51-54. ]

[20]	何少林, 徐京华, 张帅毅 . 面向对象的多尺度无人机影像土地利用信息提取[J]. 国土资源遥感, 2013,25(2):107-112. [ He S L, Xu J H, Zhang S Y . Land use classification of object-oriented multi-scale by UAV image[J]. Remote Sensing for Land and Resources, 2013,25(2):107-112. ]

[21]	曹林林, 李海涛, 韩颜顺 , 等. 卷积神经网络在高分遥感影像分类中的应用[J]. 测绘科学, 2016,41(9):170-175. [ Cao L L, Li H T, Han Y S , et al. Application of convolutional neural networks in classification of high resolution remote sensing imagery[J]. Science of Surveying and Mapping, 2016,41(9):170-175.]

[22]	杨嘉树, 梅天灿, 仲思东 . 顾及局部特性的CNN在遥感影像分类的应用[J]. 计算机工程与应用, 2018,54(7):188-195. [ Yang J S, Mei T C, Zhong S D . Application of Convolution Neural Network using region information to remote sensing image classification. Computer Engineering and Applications, 2018,54(7):188-195. ]

[23]	陆永帅, 李元祥, 刘波 , 等. 基于深度残差网络的高光谱遥感数据霾监测[J]. 光学学报, 2017,37(11):314-324. [ Lu Y S, Li Y X, Liu B , et al. Hyperspectral data haze monitoring based on deep residual network[J]. Acta Optica Sinica, 2017,37(11):314-324. ]

Options

文章导航

模态框（Modal）标题

摘要

本文引用格式

Abstract

1 引言

2 研究基础

2.1 传统目标检测算法

图1 目标视觉检测基本流程

2.2 基于深度学习的目标检测算法

图2 R-CNN图片操作

图3 捷径连接结构

2.3 TOMA检测算法

Tab. 1 Common TOMA images and features

3 研究方法

图4 Faster R-CNN和DRTOMA网络结构示意

3.1 基础特征提取网络

图5 DRTOMA残差单元结构

表2 基础特征提取网络结构

3.2 Roi_Pooling策略

图6 改进ROI Pooling层结构

3.3 增加Dropout层

4 实验分析与讨论

图7 部分TOMA（大棚）样本库

图8 3种深度学习算法训练过程对比

表3 各设施农业典型地物识别算法精度实验对比

图9 部分DRTOMA检测结果

5 结论与讨论

参考文献