Object Detection in Remote Sensing Images by Fusing Multi-neuron Sparse Features and Hierarchical Depth Features

  • GAO Pengfei ,
  • CAO Xuefeng ,
  • LI Ke , * ,
  • YOU Xiong
Expand
  • Institute of Geospatial Information, PLA Strategic Support Force Information Engineering University, Zhengzhou 450001, China
* LI Ke, E-mail:

Received date: 2022-09-20

  Revised date: 2022-12-02

  Online published: 2023-04-19

Supported by

National Natural Science Foundation of China(41871322)

National Natural Science Foundation of China(42130112)

Abstract

Object detection in remote sensing images is of great significance to urban planning, natural resource survey, land surveying, and other fields. The rapid development of deep learning has greatly improved the accuracy of object detection. However, object detection in remote sensing images faced many challenges such as multi-scale, appearance ambiguity, and complicated background. The remote sensing image datasets have a large range of object size variations, e.g., object resolutions range from a dozen to hundreds of pixels. high background complexity, remote sensing images are obtained with full time geographic information; high similarity in the appearance of different classes of targets; and diversity within classes. To address these problems, a deep convolutional network architecture that fuses the Multi-Neuron Sparse feature extraction block (MNB) and Hierarchical Deep Feature Fusion Block (HDFB) is proposed in this paper. The MNB uses multiple convolutional branching structures to simulate multiple synaptic structures of neurons to extract sparsely distributed features, and improves the quality of captured multi-scale target features by acquiring sparse features in a larger receptive field range as the network layers are stacked. The HDFB extracts contextual features of different depths based on null convolution, and then extracts features through a unique multi-receptive field depth feature fusion network, thus realizing the fusion of local features with global features at the feature map level. Experiments are conducted on the large-scale public datasets (DIOR). The results show that: (1) the overall accuracy of the method reaches 72.5%, and the average detection time of a single remote sensing image is 3.8 milliseconds; Our method has better detection accuracy for multi-scale objects with high appearance similarity and complex background than other SOTA methods; (2) The object detection accuracy of multi-scale and appearance ambiguity targets is improved by using MNB. Compared with object detection results with Step-wise branches, the overall accuracy is improved by 5.8%, and the sum operation on the outputs of each branch help achieve better feature fusion; (3) The HDFB extracts the hierarchical features by the hierarchical depth feature fusion module, which provides a new idea to realize the fusion of local features and global features at the feature map level and improves the fusion capability of the network context information; (4) The reconstructed PANet feature fusion network fuses sparse features at different scales with multivariate sparse feature extraction module, which effectively improves the effectiveness of PANet structure in remote sensing image target detection tasks. Many factors influence the final performance of the algorithm. On the one hand, high quality data sets are the basis of higher accuracy, e.g., image quality, target occlusion, and large intra-class variability of targets profoundly affect the training effect of the detector; on the other hand, model parameters settings, such as clustering analysis of the dataset to obtain bounding boxes information to improve the best recall, and the perceptual field range of the class depth feature fusion module, are key to ensuring accuracy. We conclude that using a Multi-Neuron Sparse feature extraction Network can improve feature quality, while a Hierarchical Deep Feature Fusion Block can fuse contextual information and reduce the impact of complex background noise, resulting in better performance in object detection tasks in remote sensing images.

Cite this article

GAO Pengfei , CAO Xuefeng , LI Ke , YOU Xiong . Object Detection in Remote Sensing Images by Fusing Multi-neuron Sparse Features and Hierarchical Depth Features[J]. Journal of Geo-information Science, 2023 , 25(3) : 638 -653 . DOI: 10.12082/dqxxkx.2023.220708

1 引言

遥感影像目标检测任务包括目标定位和类别分类,是遥感影像场景解译的重要组成部分[1],在城市规划、自然资源调查、国土测绘、军事侦察等领域有着广泛的应用价值。Girshick等[2]在2014年率先将卷积神经网络应用到目标检测中。基于神经网络的方法能够极大提高遥感影像目标检测精度,各类优秀算法[2-9]的涌现推动了深度神经网络在目标检测中的广泛应用。基于锚框的深度学习目标检测算法主要包括:先生成候选框,再得到最终物体边框的两阶段法[2-4];基于回归的单阶段法[5-9]。遥感影像成像比例尺较小、视角主要为顶视和侧视,造成目标数量多且尺度变化大、外观相似性高等特点。将基于深度学习的目标检测算法应用于遥感影像取得了众多成果,但依旧面临着许多难题,例如:
(1)目标尺度变化大,如图1(a)所示,不同类型的船舶尺度变化大,目标的像素分辨率差异大,提取有效特征困难,从而导致目标检测的精度降低;
图1 DIOR[10]数据集样本

Fig. 1 Some examples of DIOR[10] data set, different colored boxes in the figure are different targets

(2)目标外观相似性高,如图1(b)所示,篮球场与网球场外观特征相似,目标形状、大小相似造成识别困难,需要借助内部纹理与外部上下文信息辅助进行目标检测;
(3)目标背景复杂度高,如图1(c)所示,第一行图火车站与周围建筑的外观相似,造成目标检测困难,第二行图飞机与相似形状的阴影混杂排列,增加了飞机的检测难度,需要目标检测算法具有在复杂背景下更强的建模能力。
近年来,许多学者针对遥感影像目标检测任务的难点问题,提出了一系列优秀的算法。例如,Chen等[11]以多个采样率探测传入的卷积层特征,实现在多个尺度上捕获对象的上下文特征,但空洞卷积Gridding损害了多尺度融合性能;Liu等[12]从人的视觉系统特点出发,将不同空洞率的卷积分支池提取的特征拼接,以扩大网络层的实际感受野区域;Guo等[13]用卷积神经网络(CNN)不同深度层的特征检测不同尺度目标,但缺乏浅层细节特征与深层语义特征融合;陈丁等[14]将卷积神经网络和混合波尔兹曼机相结合,但检测速度慢且上下文信息融合较差;Szegedy等[15-16]利用数据空间域中的稀疏性将不同感受野分支提取特征进行拼接,但算法计算量大导致对硬件要求过高;黄洁等[17]将卷积神经网络与支持向量机(SVM)相结合提高了复杂海况背景下舰船目标检测精度;Zhang等[18]利用多尺度卷积特征来表示层次空间语义信息,但将多个全连接层堆叠降低了算法的实用性;Li等[19]通过2条独立的路径学习局部属性和上下文属性,极大提高了网络的特征学习能力。可以看出,针对遥感影像目标检测难点问题,当前研究更多关注于将不同尺度特征进行融合从而提高目标检测质量,但对提取的特征进行融合获得的质量提升有待进一步提高。有学者提出将稀疏矩阵转换为等价小矩阵可极大提高乘法效率,用多个卷积进行局部的特征提取以降低计算复杂度[15-16,20]。Motta等[21]发现大脑皮层神经元之间通过大量突触结构进行复杂连接。
本文受文献[14,15,20-21]的启发,提出融合多元稀疏特征与阶层深度特征的遥感影像目标检测算法,本文算法通过模拟神经元的复杂连接结构,构建多个特征提取分支用来捕获更丰富的特征。本文主要工作包括:① 提出多元稀疏特征提取网络,利用卷积提取输入特征图的空间稀疏特征,同时以多个卷积分支通道模拟神经元复杂的突触连接,提高对稀疏特征的提取性能;② 提出阶层深度特征融合模块,以空洞卷积构建独特的多感受野深度特征融合网络提取阶层深度特征,实现局部特征与全局特征在特征图级别的融合,提高对上下文信息的融合能力;③ 采用多尺度目标检测器头对大、中、小3个尺度的目标进行检测,提高对不同尺度目标的检测性能。本文与Faster R-CNN[4]、YOLOv3[8]、PANet[22]、Mask R-CNN[23]、RetinaNet[24]、CornerNet[25]等方法做对比实验,结果表明本文方法在遥感影像的物体检测任务中具有更好的性能。

2 本文算法

在遥感影像目标检测任务中,提高目标特征质量可以有效提升目标的分类和检测精度。本文为了提高特征的鉴别力并加强对不同尺度特征的融合,提出了多元稀疏特征提取模块,通过模拟神经元的多突触结构,以多卷积分支通道提取稀疏分布的特征;设计了阶层深度特征融合模块,实现对局部特征与全局特征的高效融合。
本文算法模型结构如图2所示,模型包括3个部分,分别是多元稀疏特征提取网络(MNSNet),PANet特征融合网络以及多尺度目标检测器。给定一张遥感影像,首先通过多元稀疏特征提取网络提取不同尺度的稀疏特征。接着,通过阶层深度特征融合模块进行上下文信息融合,从而降低复杂背景噪声的影响。然后,经过PANet特征融合网络,由自上而下与自下而上2个特征融合通道进行特征融合。最后,采用多尺度目标检测器,分别构建大、中、小3个尺度的目标检测器进行目标检测。
图2 本文目标检测模型架构示意

Fig. 2 Schematic diagram of the object detection model architecture in this paper

2.1 多元稀疏特征提取网络

在多尺度目标、外观相似性目标的检测任务中,基于单个卷积通道的神经网络方法难以获得更好的目标检测结果。本文提出多元稀疏特征提取网络(Multi-Neuron Sparse feature extraction Network, MNSNet),其基础模块包括多元稀疏特征提取模块(MNB)和2个子模块(即图2中MNB_1、MNB_2)以及阶层深度特征融合模块,能够提取更有效的目标特征。

2.1.1 多元稀疏特征提取模块

文献[15]、[16]通过带有残差结构的多个卷积分支进行特征提取,目标文献[20]采用超图划分模型(Hypergraph Partitioning Models),提高了模型对稀疏矩阵不同集合区间非零值的提取能力。本文受此启发,用卷积提取特征的过程模拟超图划分模型获取稀疏矩阵非零值的过程,通过不同大小感受野的卷积对稀疏分布的特征进行提取,从而提高目标多尺度特征表示。本文从文献[21]神经元之间复杂突触连接是高级神经系统的基础结构特征,本文进一步以多个卷积分支模拟神经元之间复杂突触连接,对各分支提取特征进行空间加和操作来模拟神经元之间的交互过程,从而获得目标深层次特征的最佳表示。目标的特征稀疏分布在不同区域, MNB模块采用不同感受野的多分支滤波器对目标区域分别进行特征提取,随着滤波器遍历整个特征图矩阵,实现对全局稀疏特征的提取(式(1))。
F R F i = C o n v { C o n C a t [ C o n v ( F R F i - 1 ) , F R F i - 1 + j = 1 n C o n v ( F R F i - 1 , j ) ] }
式中: F R F i表示第 i层的输出特征; F R F i - 1 , j表示第 i - 1层的第 j分支输入特征; C o n v ( * )表示对*进行卷积操作; C o n C a t ( a , b )表示对ab在通道维度进行拼接。随着多元稀疏特征提取模块不断堆叠,MNB感受野逐渐扩大,逐步实现对各尺度目标特征的提取。本文提到的卷积结构为“先卷积操作,然后进行批归一化,最后通过SiLU函数进行非线性激活”的简称。
多元稀疏特征提取模块结构的关键,在于组建不同感受野的卷积分支提取稀疏特征并进行融合。如图3所示,多元稀疏特征提取模块主要分为两部分。第一部分,进行多元特征提取:① 跨通道分支,通过卷积核大小为1×1的卷积;② 细节多元特征提取通道(Details - Multi-Neuron Feature Extraction Pass, DMNP),首先通过卷积核大小为1×1的卷积进行通道压缩,接着通过不同感受野的卷积分支实现提取更丰富的稀疏特征,第 k i分支提取的特征为 x n : : k i;最后通过空间加和的方式进行稀疏特征融合,即 x n : : k 1 + x n : : k 2 + + x n : : k n。细节多元特征提取模块进行残差连接。模块通过将①、②输出的特征图进行拼接,从而集成梯度变化,能够有效解决主干网络梯度信息重复问题。第二部分,对提取的多元稀疏特征进行处理,通过卷积核大小为1×1的卷积对稀疏特征进行跨通道信息交互。
图3 多元稀疏特征提取模块详细结构。

Fig. 3 Detailed structure of Multi-Neuron sparse feature extraction block

为了实现更好的网络性能,本文在多元稀疏特征提取模块的基础上作2个子模块,即图2中MNB_1、MNB_2,分别对应图4(a)(b)。MNB_1具体的结构如图4(a)所示,该模块通过2个细节多元稀疏特征提取通道结构,拥有更大的感受野从而加强对上下文信息提取,在PANet特征融合网络起承上启下的关键作用。为了增强对大尺度目标及复杂背景目标检测的有效特征提取作MNB_2,其具体的结构如图4(b)所示:在MNB的基础上引入了空洞卷积组分支,同样采用空间加和的方式对提取特征进行融合。
图4 多元稀疏特征提取模块的子模块

Fig. 4 Submodule of the Multi-Neuron sparse feature extraction block

2.1.2 阶层深度特征融合模块

空洞卷积能够在不降低分辨率的前提下,以少量卷积层堆叠得到极大感受野,从而更好地提取目标的上下文信息,提高对复杂背景目标的检测精度。本文提出了阶层深度特征融合模块(Hierarchical Deep Feature Fusion Block, HDFB),HDFB模块的主要结构包括3部分:① 输入特征图依次通过多个空洞卷积组,分别输出不同感受野的阶层深度特征;② 将特征通过多感受野阶层特征融合网络进行融合;③ 通过卷积核大小为 1 × 1的卷积进行跨通道信息交互。
传统单个空洞卷积的Gridding缺陷会造成局部信息丢失,从而影响小物体的目标检测。本文阶层深度特征融合模块用HDC方法[26]提出的空洞卷积组(Atrous Convolution Group,ACG)构建,可以有效解决空洞卷积Gridding问题,设空洞卷积的卷积核大小为 K × K,则各空洞卷积层的扩张率遵循(式(2)):
M i = m a x [ M i + 1 - 2 r i , M i + 1 - 2 ( M i + 1 - r i ) , r i ]
式中: M i表示第 i层空洞卷积层2个非零元素之间的最大距离; r i表示第 i层空洞卷积的扩张率; M n = r n,需要满足 M 2 K。本文采用的空洞卷积组由3个空洞卷积串联而成,扩张率 r = 1,2 , 3。传统空洞卷积一般通过不同扩张率的空洞卷积并行特征提取;基于空洞卷积组(ACG)的方法多是通过多个空洞卷积组进行特征提取,然后对提取特征直接进行拼接操作。与前两类方法不同的是本文在空洞卷积、空洞卷积组等特征融合结构基础上进行改进,依次通过3个空洞卷积组提取更深层的特征,然后通过独特的多感受野深度特征融合网络进行特征融合,从而更好得学习不同深度特征之间的关系。此外,本文所述空洞卷积结构为“先通过空洞卷积,然后进行批归一化,最后通过SiLU函数进行非线性激活”。为了提高空洞卷积对大物体的分割效果,同时降低对对遥感影像中小目标检测结果的影响,本文所做阶层深度特征融合模块在结构上靠近大尺度目标检测输出端。
本文提出的阶层深度特征融合模块的详细结构如图5(a)所示,网络分为前、中、后3部分,中间部分是最重要的阶层深层特征融合模块。① 输入特征以卷积核大小为1×1卷积压缩通道,降低计算复杂度。中间部分的结构分为两分支结构:一个分支保留原输入特征不变;另一个分支是由3个相同结构的空洞卷积组组成的树状主干。图5(b)为阶层深度特征融合模块原理图,即输入特征 A C G 0依次通过3个空洞卷积组,分别进行阶层深度特征的输出: A C G 1 , A C G 2 , A C G 3,且输出通道数与输入保持一致。② 特别的,阶层深度特征通过树状网状结构进行组合相加: A C G 1 + A C G 2 + A C G 3 , A C G 2 + A C G 3 , A C G 3,从而增强上下文信息的获取能力,不同深度特征之间可以不同的权重比例进行相加。将两分支的输出在通道维度进行拼接: [ A C G 1 + A C G 2 + A C G 3 , A C G 2 + A C G 3 , A C G 3 ],并输出到第3部分。③ 通过卷积核尺寸为1×1的卷积,实现特征的跨通道交互,同时增加网络稳定性,加速收敛速度。本文采用的阶层深度融合方式为 [ A C G 1 + 0.1 × A C G 2 + 0.1 × A C G 3 , A C G 2 + 0.1 × A C G 3 , 0.1 × A C G 3 ]。为了进一步降低参数量和运算成本,空洞卷积组均采用深度可分离结构。
图5 阶层深度特征融合模块结构示意

Fig. 5 Schematic diagram of Hierarchical Deep Feature Fusion Block

综上所述,本文提出的多元稀疏特征提取网络处理过程为:给定一个批次遥感影像,首先进行Mosaic[9]数据增强。接着,如图2所示,通过卷积核大小为3×3,步幅为2×2的卷积实现下采样;然后通过n个多元稀疏特征提取模块提取稀疏特征。依次循环,分别实现8倍,16倍和32倍下采样,实现对不同尺度目标的特征提取。最后,通过阶层深度特征融合模块提取不同深度的特征,通过独特的树状融合网络进行阶层特征交互,对目标的多尺度上下文信息进行融合。

2.2 PANet特征融合网络

PANet[22]特征融合网络具有自上而下和自下而上两个特征融合通道,实现浅层细节特征与深层语义特征的交互融合,同时减少不同尺度特征之间的网络层,实现多尺度特征的快速连接。而阶层深度特征融合模块(HDFB)位于主干特征提取网络后端,通过多个空洞卷积组对多种尺度的上下文语义信息进行提取融合,实现局部特征与全局特征在特征图级别的融合。如图6所示,本文保持PANet网络基本结构,以多元深度特征提取模块及其子模块为基础,重构PANet特征网络,保持网络的基本模块,加强对各尺度特征之间的特征融合性能。
图6 PANet网络详细结构

Fig. 6 The specific structure of PANet network

2.3 多尺度目标检测器

本文通过多尺度目标检测器分别对大、中、小3种尺度的目标进行检测,具体结构如图7所示。通过K-Means聚类获得大、中、小3种尺度各3种预定义锚框,在训练过程中只对偏移量进行预测,从而提高训练过程的稳定性。3种尺度的预定义锚框对应PANet网络下采样倍数为8、16和32的输出特征,进行大、中、小3种尺度的目标检测。如图7所示,每个尺度的输出张量为: N × M × 3 × [ ( 4 + 1 + 20 ) ],其中NM表示输出特征图的网格数;3表示每个网格对应输出3个长宽比不同的候选框;4表示4个边界框坐标参数;1表示1个边界框置信度;20表示20个目标类别。
图7 多尺度目标检测器结构示意

Fig. 7 Schematic diagram of the structure of the multi-scale target detector

本文采用的损失函数包含3个部分:置信度损失、矩形框损失和分类损失(式(3)、式(4))。
L o s s = a × l o s s c l c + b × l o s s r e c t + c × l o s s o b j = - n = 1 N y i * l o g y i + 1 - y i * l o g 1 - y i + I o U B , B g t - ρ 2 B , B g t c 2 - α v + 1 - g r + g r × I o U ( B , B g t )
v = 4 π a r c t a n w g t h g t - a r c t a n w h 2 α = v 1 - I o U ( B , B g t ) + v
式中: l o s s _ c l c为分类损失; l o s s _ r e c t为矩形框损失; l o s s _ o b j为置信度损失; ρ为目标框 B B g t的中心点距离; g r为置信度得分; v为预测框与真实框长宽比差值的归一化; α为平衡因子。对每一个类别预测的结果使用二元交叉熵损失,BCEWithLogitsLoss;矩形框损失采用CIOU Loss。

3 实验与结果分析

本文算法由多元稀疏特征提取网络(MNSNet)、PANet特征融合网络以及多尺度目标检测器等组合而成。其中,多元稀疏特征提取网络(MNSNet)由多元稀疏特征提取模块(MNB)和阶层深度特征融合模块(HDFB)组合而成;PANet特征融合网络由多元稀疏特征提取模块组合而成。为了对本文算法的改进点进行实验验证,本文在分别3.2节对多元稀疏特征提取模块(MNB)的有效性进行实验验证;在3.3节对阶层深度特征融合模块(HDFB)的有效性进行实验验证。

3.1 数据集与实验设置

为了检测算法的有效性,在公开的遥感影像目标检测数据集DIOR[10]进行实验验证。DIOR数据集包含23 463张图像和190 288个实例,覆盖20个目标类,具体的目标类别如表1所示。DIOR数据集中的目标具有多种显著特征:类内与类间尺度变化大特点,如船舶分辨率从十几像素到数百像素;具有较高的类间相似性与类内多样性,如桥梁、篮球场与网球场;此外,成像条件、天气、季节等因素造成图像目标背景差异大。实验采用准确率(Average Precision,AP)和平均准确率(mean Average Precision,mAP)和F1度量作为检测评价指标。其中,F1度量是准确率(Precision)和召回率(Recall)的调和平均定义,能够更好地反映算法的性能(式(5))。
F β = ( 1 + β 2 ) × P × R ( β 2 × P ) + R
式中: P为准确率; R为召回率; β为权重参数。本文选取 β = 1的标准F1度量作为算法的评价指标。
表1 DIOR数据集的目标类别索引

Tab. 1 DIOR datasets object category index

C1 C2 C3 C4 C5 C6 C7 C8 C9 C10
飞机 机场 棒球场 篮球场 桥梁 烟囱 水坝 高速公路服务区 高速公路收费站 高尔夫球场
C11 C12 C13 C14 C15 C16 C17 C18 C19 C20
田径场 码头 立交桥 船舶 体育馆 储油罐 网球场 火车站 车辆 风车
实验采用的服务器硬件和软件配置为:CPU:Xeon E5-2698 v4;GPU:Tesla V100 DGXS 32 GB;操作系统:Ubuntu18.04。训练时的默认图像大小设为640×640,批次大小设置为32,共迭代300个epoch,本文以预训练好的YOLOv5s网络参数为基础进行迭代训练,初始学习率为0.005,周期学习率为0.2,动量系数为0.937,学习率更新方面首先采用warm-up方法进行预热学习率,接着使用余弦退火算法进行学习率更新。

3.2 多元稀疏特征提取模块实验及分析

为了验证多元稀疏特征提取模块在遥感影像多尺度目标、外观相似性高目标检测任务的有效性,设计对比实验(表2):实验Step-wise MNB,将YOLOv5 Small网络的CSP Bottleneck模块全部替换为图8(a)阶梯式特征提取模块,该结构由小感受野逐渐扩大,然后与大感受野分支融合;实验Inception,将YOLOv5 Small网络的CSP Bottleneck模块替换为Inceptiov3结构;实验MNSB,用多元稀疏特征提取模块取代YOLOv5网络的CSP Bottleneck模块。
表2 不同多分支模型测试结果对比

Tab. 2 Comparison of test results of different multi-branch models

不同的多
分支模型
准确率AP/% mean
AP
C1 C2 C3 C4 C5 C6 C7 C8 C9 C10 C11 C12 C13 C14 C15 C16 C17 C18 C19 C20
Step-wise MNB 69.7 74.9 65.3 85.3 35.4 68.8 59.9 51.9 57.1 70.9 66.7 57.8 52.7 87.1 63.9 72.5 85.1 58.3 53.1 79.2 65.5
Inception[15] 77.0 79.7 71.7 87.8 42.9 77.3 61.7 59.0 59.9 76.7 72.0 60.6 57.3 89.4 66.8 72.7 86.7 62.7 56.2 78.8 69.8
MNSB 75.7 82.1 70.5 88.8 46.0 77.8 64.7 61.6 61.7 78.8 73.9 62.3 59.2 89.4 71.4 73.9 86.9 66.4 56.6 79.3 71.3

注:粗体表示最佳精度。

图8 多元稀疏特征提取模块实验

Fig. 8 Multi-Neuron sparse feature extraction block experiment diagram

表2实验结果可以发现并行卷积分支具有更强的提取能力,Inception较Step-wise MNB取得较好的目标检测结果,平均准确率达到69.8%。本文构建并行化的多元结构具有更好的对目标有效特征的提取能力,在多类目标检测任务中均取得更好结果,实验MNSB取得最高的平均准确率(表2)。与Inception进行通道维度拼接不同的是,多元稀疏特征提取模块对多个分支提取的稀疏特征进行空间加和提取到更好的特征,在多尺度目标外观相似性目标的检测精度更高。
实验Step-wise MNB、Inception和MNSB目标检测结果在mAP@0.5时各目标类的平均P-R曲线,可以看到多元稀疏特征提取模块与坐标轴所围面积最大,故整体上看多元稀疏特征提取模块目标检测效果更佳(图8(b))。如图9所示,从对比结果可以看出,本文方法通过提高目标特征的提取能力,在多尺度目标、外观相似性目标的检测取得更好成绩,能够检测出YOLOv5漏检的目标,同时减少目标的误检,例如第1、2列所示,红色框代表本文多元稀疏特征提取模块避免出现的目标漏检;第3列,本文方法避免了高尔夫球场的误检;第4列,本文方法从图中检测出4架飞机,是YOLOv5检测量的两倍。图10为上述方法在测试集各类目标检测结果的PR曲线,从PR曲线对比可以看出,MNSB在机场、桥梁、水坝、体育馆、高尔夫球场、火车站等各类大尺度目标、复杂背景目标的检测精度远超Step-wise MNB、Inception;MNSB在篮球场、网球场、桥梁、立交桥等外观相似性目标取得了更高的检测精度。
图9 YOLOv5与多元稀疏特征提取模块检测结果可视化对比

Fig. 9 Visual comparison of YOLOv5 and multivariate sparse feature extraction block detection results

图10 Step-wiseMNB、Inception和MNBS的目标检测各类目标检测的PR曲线

Fig. 10 Step-wiseMNB, Inception and MNB object detection results PRcs of various objects

3.3 阶层深度特征融合模块实验及分析

为了验证阶层深度特征融合模块在遥感影像复杂背景目标检测任务的有效性,设计对比实验(表3):实验SPP+ACG,将YOLOv5 Small的SPP网络的基础上添加一个空洞卷积块分支;实验Three-ACG,使用串行的3个空洞卷积组进行阶层深度特征提取,并分别进行输出;实验SPP,采用YOLOv5的SPP结构进行上下文信息提取;实验HDFB,为本文提出的阶层深度特征融合模块(表3)。
表3 不同的ACG模型(空洞卷积组)测试结果对比

Tab. 3 Comparison of different ACG models for atrous convolution group

实验名称 准确率AP/% mean
AP
C1 C2 C3 C4 C5 C6 C7 C8 C9 C10 C11 C12 C13 C14 C15 C16 C17 C18 C19 C20
SPP+ACG 71.2 57.6 69.7 79.8 44.0 75.4 58.0 53.6 55.2 61.8 58.7 48.4 55.3 88.4 49.7 70.7 83.7 35.0 53.9 74.0 60.9
Three-ACG 76.4 79.1 72.2 88.3 44.1 78.2 63.6 59.8 58.6 78.0 73.4 61.1 58.2 88.6 68.0 74.0 86.6 63.2 55.9 77.7 70.2
SPP 76.6 78.5 71.7 88.4 44.4 78.2 60.4 61.6 61.5 75.5 74.1 59.9 59.6 89.7 69.2 73.8 86.5 61.1 56.3 79.0 70.3
HDFB 76.8 80.0 72.6 88.7 42.5 78.7 63.6 57.9 60.7 79.6 73.0 60.8 57.7 88.6 70.4 76.9 86.4 65.1 54.7 76.3 70.6

注:粗体表示最佳精度。

通过(表3)实验结果可以发现:在SPP基础上引入空洞卷积组分支,与最大池化分支互相干扰造成目标检测精度较低,如实验SPP+ACG目标检测平均精度仅为60.9%;当舍弃最大池化,全部采用空洞卷积组提取阶层特征能够取得更好结果,如实验Three-ACG 平均准确率较SPP+ACG提升0.3%;空洞卷积组提取的特征通过多感受野阶层特征融合网络进行融合,能够进一步提高目标检测精度,如实验HDFBmAP@0.5为70.6%;与SPP相比,本文方法在大目标检测方面取得了更好的检测结果,如水坝、高尔夫球场、火车站等获得较大提升。综上所述,以空洞卷积组代替最大池化,进行阶层特征提取,并由树状网络对深度特征进行融合,能够提高局部特征与全局特征在特征图级别的融合效果。
阶层深度特征融合模块添加前后部分检测结果可视化,如图11所示。从对比结果可以看出,本文方法能够结合物体上下文信息,有效降低复杂背景图像的误检,提高对目标的查找能力,如本文方法在第1列无高速公路服务区的误检,在第2列无高尔夫球场的误检,在第3列无体育馆的误检。为了验证阶层深度特征网络在小目标的有效性,本文结合文献[10,13]以典型小物体飞机和储油罐为例进行分析,从表3可以看出飞机检测结果提高了0.2%,储油罐提高1.2%,部分检测结果可视化如图12第4列中,为提高可视化效果隐去目标类别与边界框置信度得分,本文方法检测出118个储油罐,较YOLOv5 SPP多出25个。
图11 阶层深度特征融合模块添加前后预测结果可视化

Fig. 11 Visualization of prediction results before and after adding HDFNet

图12 本文方法预测过程特征图可视化

Fig. 12 The feature map visualization of the prediction process of the method in this paper

3.4 与其他算法的比较

为了进一步验证本文方法的有效性,本文与已有的几种方法进行对比:Faster R-CNN[4]、YOLOv3[8]、PANet[22]、Mask R-CNN[23]、RetinaNet[24]、CornerNet[25]。其中Faster R-CNN、PANet、Mask R-CNN、RetinaNet的基础骨干网络为ResNet101,检测器采用FPN结构。CornerNet的基础骨干网络为Hourglass-104,YOLOv3的基础骨干网络为Darknet53。为了保证实验的可比性,所有对比实验均在目标检测开源工具mmdetection[27]上运行,实验中采取的参数均为mmdetection的默认参数。如表4所示,本文算法在飞机、机场、棒球场等14类的目标检测任务中取得最佳结果,本文算法检测平均精度达到了72.5%。此外,与单阶段算法YOLOv5单张遥感影像的平均检测时间为3.1 ms相比,本文方法耗时为3.8 ms,能够满足大多数的遥感影像目标检测任务。如表4所示,本文算法极大增强了在船舶、立交桥、水坝等多尺度目标的检测性能;在外观相似度较高的目标类别同样具有更好的检测能力,如篮球场与网球场、跨河大桥与立交桥、田径场和体育馆等;在背景复杂度高类目标同样表现良好,如机场、高尔夫球场、火车站等。值得注意的是,本文算法在密集小目标检测中同样表现良好,在飞机、储油罐、车辆等小目标的检测精度较YOLOv5略有提升。本文算法作为一种多类别目标检测算法,实验结果出现部分类别的结果略微降低是很难避免的,如表4C14、C15、C20目标的检测性能略低于YOLOv5。
表4 各方法在DIOR数据集的结果对比,粗体表示最佳精度

Tab. 4 The comparison results of each method in the DIOR datasets, bold indicates best accuracy

对比算法 准确率AP/% mean
AP
C1 C2 C3 C4 C5 C6 C7 C8 C9 C10 C11 C12 C13 C14 C15 C16 C17 C18 C19 C20
Faster R-CNN[4] 54.0 74.5 63.6 80.7 44.8 72.5 60.0 75.6 62.3 76.0 76.8 46.4 57.2 71.8 68.3 53.8 81.1 59.5 43.1 81.2 65.1
Mask R-CNN[24] 53.9 76.6 63.2 80.9 40.2 72.5 60.4 76.3 62.5 76.0 75.9 46.5 57.4 71.8 68.3 53.7 81.0 62.3 43.0 81.0 65.2
Retina-Net[25] 53.3 77.0 69.3 85.0 44.1 73.2 62.4 78.6 62.8 78.6 76.6 49.9 59.6 71.1 68.4 45.8 81.3 55.2 44.4 85.8 66.1
PANet[21] 60.2 72.0 70.6 80.5 43.6 72.3 61.4 72.1 66.7 72.0 73.4 45.3 56.9 71.7 70.4 62.0 80.9 57.0 47.2 84.5 66.1
YOLOv3[8] 72.2 29.2 74.0 78.6 31.2 69.7 26.9 48.6 54.4 31.1 61.1 44.9 49.7 87.4 70.6 68.7 87.3 29.4 48.3 78.7 57.1
Corner-Net[26] 58.8 84.2 72.0 80.8 46.4 75.3 64.3 81.6 76.3 79.5 79.5 26.1 60.6 37.6 70.7 45.2 84.0 57.1 43.0 75.9 64.9
YOLOv5 76.6 78.5 71.7 88.4 44.4 78.2 60.4 61.6 61.5 75.5 74.1 59.9 59.6 89.7 69.2 73.8 86.5 61.1 56.3 79.0 70.3
本文算法 78.1 83.9 73.0 89.0 48.2 79.4 65.6 63.9 61.9 80.6 76.6 63.5 61.6 89.6 68.7 76.4 87.0 66.4 57.0 78.7 72.5

注:粗体表示最佳精度。

为了加深对本文方法特征提取过程的理解,随机选取中间过程某一通道提取的特征进行可视化,如图12所示,可以看出,“第1层”到“第9层”随网络层数的加深,多元稀疏特征提取网络提取的特征从目标的轮廓结构信息逐渐过渡到深层语义信息;在“第10层”到“第23层”特征融合网络阶段,由深层语义信息指导提取浅层轮廓信息,同时减少了浅层信息丢失,使网络获取更完整的目标轮廓、位置信息。
本文方法与YOLOV5在测试集部分图像的检测结果如图13所示,其中不同颜色的框代表不同的目标类别,在目标框左上方为目标类别与置信度得分。可以看出,在尺度多样性目标检测中,本文算法在大、小目标混杂图像中能够检测出更多的目标,如第2列中检测出更多车辆;在外观相似性目标检测中,本文算法能够降低相似目标的误检,如第3列未出现水坝误检;在背景复杂目标检测中,本文方法能够结合物体的上下文信息以减少误检,从而更准确识别出目标,如第1、2、4列无误检,第3列准确识别出被遮挡的车辆等。从图13可以看出,面对这些挑战,本文方法能够稳定地检测出大部分目标并正确分类,在各类目标的检测中保持性能更加稳定,证明了本文算法的有效性。
图13 本文算法在测试集的部分检测结果

Fig. 13 Part of the detection results of the algorithm in this paper in the test sets

4 讨论

本文提出了一种新的深度卷积网络框架用于遥感影像目标检测,重点研究了基于不同感受野稀疏特征融合的全卷积算法在目标分类定位任务中的效果。已有研究多是通过探索新的多尺度特征融合方式来获取目标的特征表示从而提高目标的检测精度,这类方法大都对软硬件环境有着更高的要求,不适合遥感影像的快速检测任务。本文基于多元分支的稀疏特征提取与融合、空洞卷积组上下文信息获取等方法,提高获取的目标多尺度特征质量,然后通过PANet网络进行多尺度特征的高效融合,进一步增强算法在遥感目标检测的性能。
融合多元稀疏特征与阶层深度特征的目标检测结果,平均检测精度为72.5%,在飞机、机场、棒球场等14类目标的检测精度取得最佳成绩,其中机场、篮球场、高尔夫球场、船舶等检测精度达到80%以上。桥梁的检测精度最低,为48.2%,因为桥梁类别各目标差异性大且与公路等背景有着极高的相似度,造成检测困难。此外,遥感影像容易出现目标遮挡、目标像素分辨率低以及季节气候等造成目标背景复杂等问题,使得检测结果降低。进行本文算法迁移时,应该根据数据集中目标的聚类情况获取预选框信息以提高召回率,从而获得最佳检测结果。
本文算法增强了多尺度目标、外观相似性目标以及背景复杂目标的表征能力,总体精度提高了2.2%。密集小目标具有较少的像素信息造成目标对象定位困难,且目标密集排列造成目标对象边界识别困难,检测精度较低。遥感影像目标检测结果图像质量、目标遮挡等因素影响,提高数据集质量是算法检测性能的基础。在颈部添加阶层深度特征融合模块来融合目标上下文信息,提高复杂背景目标的表征能力,值得注意的是该模块的感受野范围应尽量覆盖特征图区域,以提高对局部特征与全局特征的融合能力。

5 结论

针对遥感影像目标检测问题,提出了一种融合多元稀疏特征与阶层深度特征的遥感影像目标检测算法。该框架融合了多个卷积分支提取的稀疏特征从而提高特征质量,添加阶层深度特征融合模块提取目标上下文信息,通过PANet网络来融合主干提取的多尺度特征,最后通过多尺度目标检测器确定目标类别与位置。主要结论如下:
(1)本文提出的融合多元稀疏特征与阶层深度特征的遥感影像目标检测算法的总体分类精度为72.5%,单张遥感影像的平均检测耗时为3.8 ms,分类精度优于已有的多类目标检测方法。本文方法能够稳定地检测出大部分目标并正确分类,在各类目标的检测中保持性能更加稳定,证明了本文算法的有效性。
(2)以多元稀疏特征提取模块作为特征提取组建目标检测精度提升明显,并行式分支结构与阶梯式分支的目标特征提取方式相比,总体精度提高了5.8%。结果表明,多元稀疏特征提取模块通过模拟神经元之间的复杂连接结构能够取得了良好的结果,通过拓展网络的特征学习带宽,提升了网络对多尺度目标、外观相似性目标的表征能力。
(3)基于空洞卷积组建独特多感受野阶层特征融合模块,该模块能够实现局部特征与全局特征在特征图级别的融合,在机场、火车站等复杂背景目标的检测精度提升明显。结果表明空洞卷积组在目标的跨尺度特征融合方面具有巨大优势,能够有效增强网络对目标上下文信息获取能力。
(4)以多元稀疏特征提取模块重构PANet网络,提升了其在遥感影像目标检测任务中的表现,拓展了该结构的应用范围。针对遥感影像的目标尺度变化大问题,通过PANet网络高效融合多个尺度的目标特征,跨尺度连接通道减少了信息损失,从而提高总体的分类精度。
[1]
周培诚, 程塨, 姚西文, 等. 高分辨率遥感影像解译中的机器学习范式[J]. 遥感学报, 2021, 25(1):182-197.

[Zhou P C, Cheng G, Yao X W, et al. Machine learning paradigms in high-resolution remote sensing image interpretation[J]. National Remote Sensing Bulletin, 2021, 25(1):182-197.] DOI:10.11834/jrs.20210164

DOI

[2]
Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]// 2014 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2014:580-587. DOI:10.1109/CVPR.2014.81

DOI

[3]
Girshick R. Fast R-CNN[C]// 2015 IEEE International Conference on Computer Vision. IEEE, 2015:1440-1448. DOI:10.1109/ICCV.2015.169

DOI

[4]
Ren S Q, He K M, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6):1137-1149. DOI:10.1109/TPAMI.2016.2577031

DOI PMID

[5]
Liu W, Anguelov D, Erhan D, et al. SSD: Single Shot MultiBox Detector[C]// European Conference on Computer Vision. Cham: Springer, 2016:21-37. DOI:10.1007/978-3-319-46448-0_2

DOI

[6]
Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2016:779-788. DOI:10.1109/CVPR.2016.91

DOI

[7]
Redmon J, Farhadi A. YOLO9000: better, faster, stronger[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2017:6517-6525. DOI:10.1109/CVPR.2017.690

DOI

[8]
Redmon J, Farhadi A. YOLOv3: An incremental improvement[EB/OL]. 2018:arXiv:1804.02767. https://arxiv.org/abs/1804.02767

[9]
Bochkovskiy A, Wang C Y, Liao H Y M. YOLOv4: optimal speed and accuracy of object detection[EB/OL]. 2020: arXiv: 2004.10934. https://arxiv.org/abs/2004.10934

[10]
Li K. Object detection in optical remote sensing images: A survey and a new benchmark[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2020, 159:296-307. DOI:10.1016/j.isprsjprs.2019.11.023

DOI

[11]
Chen L C, Papandreou G, Kokkinos I, et al. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]. IEEE Transactions on Patten Analysis and Machine Intellegence, 2018, 40(4):834-848. DOI:10.1109/TPAMI.2017.2699184

DOI

[12]
Liu S T, Huang D, Wang Y H. Receptive Field Block Net for Accurate and Fast Object Detection[C]// European Conference on Computer Vision. Cham: Springer, 2018:404-419. DOI:10.1007/978-3-030-01252-6_24

DOI

[13]
Guo W, Yang W, Zhang H J, et al. Geospatial object detection in high resolution satellite images based on multi-scale convolutional neural network[J]. Remote Sensing, 2018, 10(1):131. DOI:10.3390/rs10010131

DOI

[14]
陈丁, 万刚, 李科. 多层特征与上下文信息相结合的光学遥感影像目标检测[J]. 测绘学报, 2019, 48(10):1275-1284.

[Chen D, Wan G, Li K. Object detection in optical remote sensing images baesd on combination of multi-layer feature and context information[J]. Acta Geodaetica et Cartographica Sinica, 2019, 48(10):1275-1284.] DOI:10.11947/j.AGCS.2019.20180431

DOI

[15]
Szegedy C, Liu W, Jia Y Q, et al. Going deeper with convolutions[C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2015:1-9. DOI:10.1109/CVPR.2015.7298594

DOI

[16]
Szegedy C, Vanhoucke V, Ioffe S, et al. Rethinking the inception architecture for computer vision[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2016:2818-2826. DOI:10.1109/CVPR.2016.308

DOI

[17]
黄洁, 姜志国, 张浩鹏, 等. 基于卷积神经网络的遥感图像舰船目标检测[J]. 北京航空航天大学学报, 2017, 43(9):1841-1848.

[Huang J, Jiang Z G, Zhang H P, et al. Ship object detection in remote sensing images using convolutional neural networks[J]. Journal of Beijing University of Aeronautics and Astronautics, 2017, 43(9):1841-1848.] DOI:10.13700/j.bh.1001-5965.2016.0755

DOI

[18]
Zhang Y L, Yuan Y, Feng Y C, et al. Hierarchical and robust convolutional neural network for very high-resolution remote sensing object detection[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(8):5535-5548. DOI:10.1109/TGRS.2019.2900302

DOI

[19]
Li K, Cheng G, Bu S H, et al. Rotation-insensitive and context-augmented object detection in remote sensing images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2018, 56(4):2337-2348. DOI:10.1109/TGRS.2017.2778300

DOI

[20]
Çatalyürek Ü V, Aykanat C, Uçar B. On two-dimensional sparse matrix partitioning: Models, methods, and a recipe[J]. SIAM Journal on Scientific Computing, 2010, 32(2):656-683. DOI:10.1137/080737770

DOI

[21]
Motta A, Berning M, Boergens K M, et al. Dense connectomic reconstruction in layer 4 of the somatosensory cortex[J]. Science, 2019, 366(6469): eaay3134. DOI:10.1126/science.aay3134

DOI

[22]
Liu S, Qi L, Qin H F, et al. Path aggregation network for instance segmentation[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. IEEE, 2018:8759-8768. DOI:10.1109/CVPR.2018.00913

DOI

[23]
He K M, Gkioxari G, Dollár P, et al. Mask R-CNN[C]// 2017 IEEE International Conference on Computer Vision. IEEE, 2017:2980-2988. DOI:10.1109/ICCV.20 17.322

DOI

[24]
Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[C]// 2017 IEEE International Conference on Computer Vision. IEEE, 2017:2999-3007. DOI:10.1109/ICCV.2017.324

DOI

[25]
Law H, Deng J. CornerNet: detecting objects as paired keypoints[J]. International Journal of Computer Vision, 2020, 128(3):642-656. DOI:10.1007/s11263-019-01204-1

DOI

[26]
Wang P Q, Chen P F, Yuan Y, et al. Understanding convolution for semantic segmentation[C]// 2018 IEEE Winter Conference on Applications of Computer Vision. IEEE, 2018:1451-1460. DOI:10.1109/WACV.2018.00163

DOI

[27]
Chen K, Wang J Q, Pang J M, et al. MMDetection: open MMLab detection toolbox and benchmark[EB/OL]. 2019: arXiv:1906.07155. https://arxiv.org/abs/1906.07155

Outlines

/