Faster R-CNN Deep Learning Network Based Object Recognition of Remote Sensing Image

  • WANG Jinchuan , 1 ,
  • TAN Xicheng , 2, 3, * ,
  • WANG Zhaohai 1 ,
  • ZHONG Yanfei 4 ,
  • DONG Huaping 4, 5 ,
  • ZHOU Songtao 2 ,
  • CHENG Buyi 2
  • 1. College of Geography and Environment, Shandong Normal University, Jinan 250358, China
  • 2. School of Remote Sensing and Information Engineering, Wuhan University, Wuhan 430079, China
  • 3. Engineering Research Center of Geospatial Information and Digital Technology, NASG, Wuhan 430079, China
  • 4. State Key Laboratory of Information Engineering in Surveying, Mapping and Remote Sensing, Wuhan University, Wuhan 430079, China
  • 5. Beijing Key Laboratory of Urban Spatial Information Engineering, Beijing 100038, China
*Corresponding author: TAN Xicheng, E-mail:

Received date: 2018-05-12

  Request revised date: 2018-07-25

  Online published: 2018-10-17

Supported by

National Key Research and Development Program of China under Grant, No.2017YFB0504202

National Natural Science Foundation of China, No.41871312

Hubei Natural Science Foundation, No.2017CFB433

Hubei Key Laboratory of Intelligent Geo-Information Processing (China University of Geosciences (Wuhan)), No. KLIGIP-2017A09

The Key Laboratory of Spatial Data Mining & Information Sharing of the Ministry of Education, Fuzhou University, No.2016LSDMIS06

Shanghai Aerospace Science and Technology Innovation Fund, No.SAST2016006

Beijing Key Laboratory of Urban Spatial Information Engineering, No.2017209.


Object recognition of remote sensing image is of great theoretical significance and application value in many fields. Faster and more accurate object identification methods are hot and difficult points in the field of remote sensing and image. In this paper, the method of deep learning is applied to remote sensing image object recognition, and a fast and accurate method of object recognition based on Faster R-CNN deep learning network is proposed. This method uses the proposal region extraction method based on RPN and the VGG16 training convolution network model, and constructs a deep convolutional neural network for the object recognition of remote sensing image. In order to verify the accuracy and performance of the method, the GPU accelerated computing model was used in the Caffe deep learning framework. Firstly, the aircraft target recognition experiment in remote sensing image was designed. The aircraft target recognition accuracy reached 96.67%. Then, after the experiment was successful, we continued to identify other target features, and selected the high-resolution remote sensing image of the oil tank, playground and overpass object for verification experiments. In the same experiment environment, the same good experimental verification results were obtained, the target recognition rate was at a high level, and the cost time of recognition in each picture was less than 0.2 seconds, which fully verified the validity and reliability of the model studied in this paper. After analysis and comparison, the conclusion is that the deep learning method based on Faster R-CNN can realize the fast and accurate recognition of the selected targets, which proves that the method has a good promotion significance in high-resolution remote sensing image target recognition applications. Therefore, the model has great application value, and it also has certain reference significance for target recognition research based on other deep learning methods.

Cite this article

WANG Jinchuan , TAN Xicheng , WANG Zhaohai , ZHONG Yanfei , DONG Huaping , ZHOU Songtao , CHENG Buyi . Faster R-CNN Deep Learning Network Based Object Recognition of Remote Sensing Image[J]. Journal of Geo-information Science, 2018 , 20(10) : 1500 -1508 . DOI: 10.12082/dqxxkx.2018.180237.

1 引言

深度学习理论在推动遥感影像目标识别技术的发展中起到十分重要的作用。深度学习是机器学习中的一个新领域,目的是建立模拟人脑进行分析学习的神经网络[14],然后通过组合低层特征形成更加抽象的高层特征。在深度学习中,不需要告诉计算机如何解决问题,计算机能从数据中学习,通过学习结果,自行解决问题。深度学习的优势有:① 高效性,相比于传统方法,计算量减少;② 可塑性,使用模型解决不同的问题,深度学习只需要调整参数就可以改变模型;③ 普适性,使用神经网络来解决问题,可以适用于各种问题,而不是局限于固定的某个问题。深度学习方法因其很强的通用性,目前已经拓展到其他更多的领域,在图像分类、目标检测[15]、姿态估计、图像分割和语音识别[16]等方面取得了大量成果。
基于区域的卷积神经网络(Region-based Convolutional Neutral Network,R-CNN)深度学习模型在图像目标检测领域中发展非常迅速[17],为了提高识别精度和速度,模型不断优化,产生了Fast R-CNN和Faster R-CNN模型[18]。目前,Faster R-CNN模型在目标检测精度和检测速度上具有明显的优势。2015年Faster R-CNN模型在COCO检测大赛中夺得第一名的好成绩,并在PACAL VOC 2007和PACAL VOC 2012上的表现也十分突出,达到了当时最高的目标检测准确率。此外,Faster R-CNN模型已经在车辆检测[19]、车型识别和车辆方向识别等研究中被广泛应用。Tang等[20]基于Faster R-CNN模型对航拍图片中的车辆数据进行检测研究。桑军等[21]针对BIT-Vehicle数据集,设计了Faster R-CNN与ResNet-101模型相结合的车型识别方案,其车型识别率高达91.3%。Azam等[22]研究了车辆4个不同方位(前、后、左和右)的方向识别的Faster R-CNN模型。针对机场场面飞机检测,戴陈卡等[23]分析机场场面中飞机目标轮廓不完整、姿态不一的特点,提出基于Faster R-CNN以及飞机部件结合的检测方法,对于白天日光和夜晚灯光场景下的飞机目标检测皆取得不错的效果。
本文基于深度学习的方法,采用Faster R-CNN模型对遥感影像飞机目标识别进行研究,在Caffe GPU深度学习框架上进行实验,并与R-CNN、Fast R-CNN深度学习网络进行了对比分析。实验结果表明,采用Faster R-CNN深度学习网络能够实现遥感影像中目标更快速、更精准的识别。在对其他目标识别的扩展实验中,进行遥感影像中油罐、操场和立交桥其他目标的识别测试。测试结果表明,本文模型可以实现多场景下的多种遥感影像目标识别任务,在保证较高的识别精度的情况下,识别效率也具有明显优势,达到了快速、准确的识别效果。

2 Faster R-CNN网络模型

通过对R-CNN和Fast R-CNN模型的优化,Ren等[18]提出了新一代的目标检测网络模型——Faster R-CNN。Faster R-CNN网络模型优势在于包括了一个用来生成高质量建议区域框的区域建议网络(Region Proposal Network,RPN),它的出现取代了原来的选择性搜索(Selective Search,SS)[24]等方法,实现了与检测网络卷积层的共享,大大缩短了区域建议检测所要耗费的时间。Faster R-CNN的整体结构可以看作是“RPN”与“Fast R-CNN”二者的结合,这种集成具有明确的分工,建议区域的确定可以由RPN来完成,学习建议区域特征和负责分类的工作交给了Fast R-CNN。在Fast R-CNN中,有2个输出层:① 用于对每个建议区域的分类概率进行预测,判别出目标与非目标;② 优化每个建议区域坐标的偏移,获得更加精准的目标位置。本文所采用的遥感影像目标识别Faster R-CNN网络模型结构如图1所示。
Fig. 1 Faster R-CNN network structure

图1 Faster R-CNN网络模型结构图

2.1 建议区域提取

目标检测网络设计中都需要用到区域寻找算法来提前预测目标所在图像中的位置,对比选择性搜索SS方法,区域建议网络(RPN)是目前最先进的建议框提取算法。该算法提出将提取建议区域的工作交给卷积神经网络CNN来实现,它能和整个检测网络共享全图的卷积特征,使得提取过程花费很少的时间。RPN网络是一个全卷积网络(Fully Convolutional Network,FCN),是在特征提取网络CNN上增加了2个卷积层,因此可以完成端对端地建议区域生成任务,同时能够预测出目标的建议框位置和得分。以VGG16网络模型为例,初始图像经过第5个卷积模块(卷积层+激活层+池化层)后得到512个特征图,然后区域建议网络(RPN)根据共享的特征图,生成候选区域并进行分类(前景或背景),流程结构如图2所示。
Fig. 2 Proposal regions generation process

图2 建议区域生成流程

图2可看出,RPN具有2个分支,2个平行的全连接层:① 窗口回归层,这个分支是根据特征图的每一位置来预测对应原始图片上的建议区域;② 分类层,用来预测该建议区域属于前景和背景(正负样本)的概率,实现对每个建议区域的分类。
RPN的核心思想是使用CNN卷积神经网络直接产生建议区域,使用的方法本质上就是滑动窗口,只需要在卷积层的最后一层上进行一次滑动,接下来的anchor机制和边框回归可以得到多尺度的建议区域。anchor机制的过程为:首先把每个特征点映射回原图的感受野中心当成一个基准点,然后围绕这个基准点选取k个不同面积、不同长宽比的anchor,anchor的面积大小为1282,2562,5122,长宽比分别取值为1,0.5,2。关于正负样本的划分,需要考察训练集中的每张图片的所有anchor。划分流程为:① 对每个标定的真实区域,与其重叠比例最大的anchor记为正样本,保证每个区域至少对应一个正样本anchor;② 对剩余的anchor,如果其与每个标定区域重叠比例大于0.7,记为正样本,每个真实区域可能会对应多个正样本anchor,但每个正样本anchor只可能对应一个所标定的真实区域;如果其与任意一个标定区域的重叠比例都小于0.3,记为负样本;③ 丢弃未被标记的anchor,并且跨越图像边界的anchor也弃去不用。不是所有的anchor都用来训练,每张图像中随机抽取256个anchor,前景样本和背景样本均取128个,达到正负比例为1:1。如果一个图像中的正样本数小于128,则多用一些负样本以满足有256个建议区用于训练。

2.2 训练卷积网络模型

训练方式分为2种:分阶段训练(alt-opt)和端到端训练(end-to-end)。端到端使用的显存更小并且训练更快,同时保证较高识别准确率,实验中采用端到端的训练方式。Faster R-CNN目前提供了3种训练网络模型,分别是ZF模型(小型)、VGG_CNN_M_1024模型(中型)、VGG16模型(大型)。尽管VGG16模型会占用很大的GPU显存,但是其深度更深,能更好地提取特征,检测效果比较好,本文选择VGG16模型作为训练网络模型。
本文采用的训练卷积网络结构如图3所示,该网络使用了13个卷积层和4个池化层。根据VGG16模型结构,13个卷积层被分成5个组(Group),每组之间通过Max pool层来连接。为了适应本研究对遥感影像的目标识别,对VGG16网络进行了部分调整。卷积层采用非线性ReLU激活函数,输入图像尺寸为256×256。因每个卷积层包含的卷积核大小均为3×3,步长为1,卷积层并不会改变特征图的大小。每个池化层均采用2×2窗口尺度的Max pool形式,步长设定为2,所以长宽变为原来的1/2,经过4个池化层后特征图的大小为16×16,最后一个卷积层输出为512个16×16的特征图,RPN和Fast R-CNN共享这个特征图。该模型网络更深,通道数量更多,经过该网络13个卷积层的特征提取,目标特征更加明显,有利于提高检测效果。
Fig. 3 The VGG16 convolutional neural network

图3 VGG16卷积神经网络

3 遥感影像目标识别实例分析

3.1 实验数据

在飞机识别的实验中,本文实验中所用到的高分辨率遥感影像均来自MapQuest网站的网络地图卫星图片,该网站对不同类型的地点进行标识,根据机场地点爬取带有飞机目标的遥感影像瓦片图,图片尺寸为256×256。在深度学习训练过程中,当训练集中样本数量不够多,或者某一类的数据比较少,特征不够明显,或者是为了防止过拟合现象等情况,需要进行数据扩充[25]操作。常见的几种数据扩充方式:色彩抖动、随机修剪、旋转变换、噪声扰动等,过程如图4所示。经过数据扩充,获得数据集共计1538张图片,按照 train:val=1:1的比例进行训练。
Fig. 4 Data expansion and data sets

图4 数据扩充及数据集

参考VOC2007的数据集格式,主要包括3部分:① 训练图片集(JPEGImages),JPEGImages中的图片编号以6位数字命名,图片格式为JPEG或JPG,如000001.jpg;图片的长宽比要在0.462-0.682之间。② 原始图像目标坐标信息(Annotations),该文件为xml格式,Faster R-CNN训练需要图片的bounding box信息作为监督(目标所在区域),图像上所有可能的目标使用框标注,一个训练图片对应Annotations下的一个同名的xml文件。本文使用VOC框图工具labelimg来标记目标对象区域,然后生成xml格式的位置文件。③ 编号文件,test.txt用来存放测试数据的编号,train.txt中存放训练数据的编号,val.txt中存放验证数据的编号,trainval.txt则是训练和验证的集合,训练和验证数据数量比为1:1。

3.2 实验过程及结果分析

实验在Ubuntu16.04操作系统下,以配置了型号为NVIDIA GeForce GTX 970的GPU显卡的机器,选择Caffe深度学习框架,对1538张MapQuest的网络卫星图片(尺寸为256×256)进行训练,训练与验证的图片数量比为1:1。图片飞机目标经过VOC框图工具人工标定,标定后的图片和位置信息输入到Faster R-CNN开始训练。选择VGG16网络模型作为训练网络,迭代次数设置为15 000,学习率为0.001,得到飞机识别深度学习模型。使用该模型对200张来自百度地图的网络卫星图片进行测试,测试结果如图5所示。测试图片包括了中国北京、上海、广州、深圳、香港等城市的机场卫星影像,飞机类型主要为大中小型客机。从图5可看出,机场背景与飞机颜色、大小和形状相对于训练数据集都有变化,但是该模型仍然具有非常好识别效果。
Fig. 5 The result of airplane recognition

图5 飞机目标识别结果

本文增加了R-CNN和Fast R-CNN对比实验,对比分析得到,Faster R-CNN首先在识别速度上具有非常大的提升,平均每张图片的检测时间消耗为0.14 s,达到了更快速的检测效果;并且CNN训练网络选择深度较深的VGG16网络模型,识别精度达到96.67%。R-CNN、Fast R-CNN和Faster R-CNN 3种方法的测试性能对比如表1所示。R-CNN方法使用Selective Search搜索方法生成1000~2000个建议区,每一个建议区都需要进入CNN网络计算,建议区存在大量的范围重叠,重复的特征提取带来巨大的计算浪费,使得该方法的识别效率十分低,根据实验测试,该方法对每张图片的平均检测耗时为13.4 s。Fast R-CNN方法仍然使用Selective Search搜索方法生成建议区,将整张图像归一化后直接送入深度网络,特征提取完成后,加入候选框信息,不需对所有的建议区进行单独的CNN计算,在一定程度上提高检测速度,测试中每张图片检测耗时为4.6 s。Faster R-CNN方法使用区域生成网络(RPN)代替Selective Search搜索方法,将生成建议区的任务交给共享特征提取网络CNN,大大提高了识别效率,测试中每张图片检测耗时为0.14 s。并且,相对于R-CNN和Fast R-CNN方法使用的Caffenet网络,Faster R-CNN方法能够使用深度更深的VGG16网络,飞机目标识别精度达到96.67%,整体测试效果非常好。
Tab. 1 The test performance comparison in R-CNN, Fast R-CNN and Faster R-CNN

表1 R-CNN、Fast R-CNN和Faster R-CNN测试性能对比

深度学习方法 识别精度/% 每张图片识别耗时/s
R-CNN 77.10 13.40
Fast R-CNN 77.50 4.60
Faster R-CNN 96.67 0.14
进一步验证Faster R-CNN深度学习网络模型在其他遥感影像目标识别中的推广性,对武汉大学收集制作的航空遥感图像目标检测数据集进行推广实验,该数据集作为文献[26,27]的实验数据,取得了很好的研究成果。文献[26]对比分析了卷积神经网络与传统的目标识别方法在图像目标识别上的差异性,采用了降维的AlexNet-DR & GoogleNet-DR的CNN网络,并与LBP-HF 和EFT-HOG传统算法进行对比,取得了较好的遥感目标识别效果。本文使用该数据集中的油罐、学校操场和立交桥影像数据来完成Faster R-CNN深度学习网络模型的推广实验。实验中获取到该训练集的165幅油罐影像共1586个油罐目标、189幅学校操场影像共191个操场目标和176幅城市立交桥影像共180个立交桥目标。根据实验需求将其调整为VOC2007数据集格式进行训练,经过15 000次迭代训练,最终油罐、学校操场和立交桥目标的识别测试结果如图6所示。
Fig. 6 The oil tank, playground and overpass target recognition results

图6 油罐、学校操场和立交桥目标识别结果

基于Faster R-CNN+VGG16的深度学习网络模型在对该数据集目标识别的性能表现为:油罐目标的识别精度达到97.46%,学校操场目标的识别精度达到97.41%,立交桥目标的识别精度达到81.08%。由此可见,基于Faster R-CNN深度学习网络模型可以适应于多种复杂场景下的其他遥感影像目标识别。通过进一步分析对比,本文模型的识别精度与文献测试结果相近,由于所获取到的数据集只是文献[26]数据集的一部分,尤其立交桥目标的样本数量较少,导致立交桥目标的识别精度略逊于AlexNet-DR & GoogleNet-DR方法;但是对比识别效率,本文的模型具有更好的识别速度表现,4种目标识别效率均优于AlexNet-DR & GoogleNet-DR方法,每张遥感影像目标识别耗时在0.2 s以内,Faster R-CNN模型和文献中AlexNet-DR & GoogleNet-DR方法的识别精度和识别效率对比如表2所示。
Tab.2 Comparison of recognition accuracy and recognition efficiency between our model and reference

表2 本文模型与文献模型识别精度与识别效率对比

目标类别 Faster R-CNN + VGG16 AlexNet-DR & GoogleNet-DR
识别精度/% 识别效率/s 识别精度/% 识别效率/s
飞机 96.67 0.144 94.99 37.292
油罐 97.46 0.184 94.47 38.283
操场 97.41 0.143 97.18 11.928
立交桥 81.08 0.186 88.30 5.360

4 结论

本文在Caffe深度学习框架之上构建了基于VGG16卷积方法的Faster R-CNN的深度学习网络模型,通过高分辨率遥感影像数据中的飞机目标识别的实验,对深度学习方法Faster R-CNN网络模型在遥感影像目标快速、准确识别进行研究分析,同时和R-CNN、Fast R-CNN模型进行了比较。实验结果表明,相比于R-CNN和Fast R-CNN,Faster R-CNN在遥感影像目标识别精度和速度上具有明显的提升,达到了快速精准的检测效果。根据遥感影像中油罐、学校操场和立交桥的目标识别结果,证明了Faster R-CNN网络模型具有良好的可靠性和可推广性。随着高分辨率卫星的发展,遥感影像数据具有明显的海量、多源特征,对深度学习网络的复杂度和计算机大数据运算能力提出了更高的要求,而Faster R-CNN深度网络模型的高效特征,将在应对遥感大数据目标识别中发挥作用。今后将继续深入开展相关研究,进一步提升目标识别的精度,开展目标细分算法研究,如飞机目标型号识别,将该研究拓展到汽车、舰船等精细目标识别中,提高高分辨率遥感影像在军事、民用等领域的应用价值。

