遥感科学与应用技术

混合特征与多尺度融合的光学小目标检测算法

  • 史世豪 ,
  • 施群山 , * ,
  • 周杨 ,
  • 胡校飞 ,
  • 齐凯
展开
  • 信息工程大学地理空间信息学院,郑州 450001
*施群山(1985— ),男,江苏盐城人,博士,副教授,主要从事摄影测量与遥感等研究。E-mail:

作者贡献:Author Contributions

史世豪和施群山参与实验设计;史世豪、齐凯参与实验操作;史世豪、周杨、胡校飞参与论文的写作与修改。所有作者均阅读并同意最终稿件的提交。

The study was designed by SHI Shihao and SHI Qunshan. SHI Shihao and QI Kai conducted the experiments; SHI Shihao, ZHOU Yang and HU Xiaofei contributed to the writing and revision of the manuscript. All authors have read and approved the final manuscript.

史世豪(1999— ),男,河南开封人,硕士生,主要从事摄影测量与遥感、目标检测跟踪等研究。E-mail:

收稿日期: 2025-01-06

  修回日期: 2025-04-22

  网络出版日期: 2025-07-07

基金资助

国家自然科学基金(42001338)

河南省自然科学基金项目(202300410536)

智慧中原地理信息技术河南省协同创新中心和时空感知与智能处理自然资源部重点实验室基金项目(212108)

An Optical Small Object Detection Algorithm Using Hybrid Features and Multi-Scale Fusion

  • SHI Shihao ,
  • SHI Qunshan , * ,
  • ZHOU Yang ,
  • HU Xiaofei ,
  • QI Kai
Expand
  • Institute of Geospatial Information, Information Engineering University, Zhengzhou 450001, China
*SHI Qunshan, E-mail:

Received date: 2025-01-06

  Revised date: 2025-04-22

  Online published: 2025-07-07

Supported by

National Natural Science Foundation of China(42001338)

Natural Science Foundation of Henan province(202300410536)

Joint Fund of Collaborative Innovation Center of Geo-Information Technology for Smart Central Plains, Henan Province and Key Laboratory of Spatiotemporal Perception and Intelligent processing, Ministry of Natural Resources(212108)

摘要

【目的】小目标检测在军事和民用领域具有重要意义,但由于低分辨率、高噪声环境、目标遮挡及背景复杂等因素的影响,传统检测方法在精度和鲁棒性上难以满足实际需求,复杂场景下的小目标检测问题仍极具挑战性。因此,本文提出一种混合特征与多尺度融合的小目标检测算法。【方法】首先,本文设计了一种混合特征提取模块(Hybrid Conv and Transformer Block, HCTB),充分利用局部和全局上下文信息来增强网络对小目标感知,优化了计算效率和特征提取能力;其次,提出了多膨胀率共享卷积核模块(Multi-Dilated Shared Kernel Conv, MDSKC),通过不同膨胀率的空洞卷积扩展主干的感受野,高效提取多尺度特征;最后,结合基于Omni-Kernel和Cross Stage Partial思想构建的全核跨阶段特征融合模块(Omni-Kernel Cross Stage Model, OKCSM),优化了小目标特征金字塔网络,更大程度上保留小目标的信息,提高了检测性能。【结果】本文在 VisDrone2019和TinyPerson数据集上进行了消融实验和对比实验,结果表明:本文方法相较于基线模型yolov8n,在查准率、召回率、mAP50mAP50:95上分别提升为1.3%、3.1%、3%、1.9%和3.6%、1.3%、2.1%、0.7%,且模型尺寸和GFLOPs仅为6.3 MB和11.3 G;此外,在与HIC-Yolov5、TPH-yolov5、Drone-YOLO等经典算法的对比实验中,本文提出的算法显示出明显的优势,优于其他对比方法。【结论】本文算法有效提升了检测精度,证明了本文算法面对复杂场景中小目标检测问题方面具有良好的检测性能。

本文引用格式

史世豪 , 施群山 , 周杨 , 胡校飞 , 齐凯 . 混合特征与多尺度融合的光学小目标检测算法[J]. 地球信息科学学报, 2025 , 27(7) : 1596 -1607 . DOI: 10.12082/dqxxkx.2025.250015

Abstract

[Objectives] Small object detection is of great significance in both military and civil applications. However, due to challenges such as low resolution, high noise environments, target occlusion, and complex backgrounds, traditional detection methods often struggle to achieve the necessary accuracy and robustness. The problem of detecting small objects in complex scenes remains highly challenging. Therefore, this paper proposes a hybrid feature and multi-scale fusion algorithm for small object detection. [Methods] First, a Hybrid Conv and Transformer Block (HCTB) is designed to fully utilize local and global context information, enhancing the network's perception of small objects while optimizing computational efficiency and feature extraction capability. Second, a Multi-Dilated Shared Kernel Conv (MDSKC) module is introduced to extend the receptive field of the backbone network using dilated convolutions with varying expansion rates, thereby enabling efficient multi-scale feature extraction. Finally, the Omni-Kernel Cross Stage Model (OKCSM), constructed based on the concepts of Omni-Kernel and Cross Stage Partial, is integrated to optimize the small target feature pyramid network. This approach helps preserve small object information and significantly improves detection performance. [Results] Ablation and comparison experiments were conducted on the VisDrone2019 and TinyPerson datasets. Compared to the baseline model YOLOv8n, the proposed method improves precision, recall, mAP@50, and mAP@50:95 by 1.3%, 3.1%, 3%, and 1.9%, respectively on VisDrone2019, and by 3.6%, 1.3%, 2.1%, and 0.7%, respectively on TinyPerson. Additionally, the model size and GFLOPs are only 6.3 MB and 11.3 G, demonstrating its efficiency. Furthermore, compared with classical algorithms, such as HIC-YOLOv5, TPH- YOLOv5, and Drone-YOLO, the proposed algorithm demonstrates significant advantages and superior performance. [Conclusions] The algorithm effectively improves detection accuracy, confirming its strong performance in addressing small object detection in complex scenes.

1 引言

在计算机视觉领域,目标检测扮演了至关重要的角色,旨在识别图像或视频中的特定物体并确定其位置,是目标跟踪、行为识别等视觉任务的基础。近年来,随着深度学习的发展,目标检测的研究逐渐深入,特别是针对小目标的检测引起了广泛关注。小目标广泛存在于各种现实场景中,例如,监控视频中远处的行人、无人机航拍图像中的微小物体以及自动驾驶系统中的交通标志等。小目标的精确检测在安防监控、智能交通系统、以及无人机军事侦察等应用领域显得尤为关键,这直接关系到系统的有效性和安全性[1]
近年来,尽管目标检测技术取得了显著性进展,但小目标检测仍面临诸多挑战:目标所占像素面积小、特征信息不足、对比度低,且易受背景噪声、图像模糊和光照变化等因素干扰。针对这些问题,研究者们在小目标检测算法方面展开研究,提出了多种解决方案,并取得了一系列成果。其中部分研究通过在网络结构中添加小目标检测头[2],利用大尺度特征图来提供丰富的细节信息,通过整合浅层与深层特征的融合来提高小目标检测精度,以及通过融合多种不同的注意力机制来增强网络的特征提取能力[3]。GONG等[4]引入融合因子的概念,通过融合因子控制深层和浅层的融合,以确定最佳参数值。Wang等[5]提出了重参数化模型Yolov7,该模型采用“扩展”和“复合缩放”方法,设计了适用于不同网络中各层结构的重参化策略,有效融合 Yolov7各版本模型的深浅层特征。Zhang等[6]通过改进特征增强和空间上下文感知模块来提高网络的局部感知和多尺度特征融合能力以及全局关联能力,但仍未有效解决参数量增加的问题。Tang等[7]设计了HIC-Yolov5模型,使用专为小目标设计的额外检测头在更高分辨率的特征图中检测目标,并结合内卷积块和CBAM注意力机制提取关键通道和空间信息,但计算量有所增加。Zhu等[8]提出的TPH-Yolov5在Yolov5的基础上增加小目标检测头,并使用Transformer Prediction Heads(TPH)替换原始的预测头,同时利用注意力机制使网络更加关注感兴趣区域目标,提高了检测精度,但造成模型尺度的增加。Xiong等[9]通过自适应特征融合和改进的注意力机制,确保融合过程中小目标信息不被掩盖,实现了深层语义特征与浅层空间特征的有效结合,但模型结构复杂高。这些方法虽然能够使模型提取更多补充信息以辅助小目标检测,但在提取上下文信息时,容易引入过多无用信息而增加计算开销。
另一种解决思路是通过设计更复杂的颈部特征金字塔结构,调整网络颈部融合方式来实现的。董一兵等[10]提出一种新的特征融合路径和特征融合模块DBB_GELAN,通过采用上下文引导的可逆架构避免了以往多路径特征集成过程中可能出现的语义信息丢失问题,从而提高小目标的检测性能。梁燕等[11]设计了一种双重跨尺度加权特征融合方法,并构建了一种参数共享检测头,通过该方法更好地融合多尺度信息,同时抑制噪声干扰,提升了特征表达能力。Zhang等[12]通过对颈部组件进行改进,提出一种新颖的Drone-YOLO模型,该模型采用三层PAFPN结构,将夹层融合模块集成到颈部上下分支的每一层中,有效地结合了网络的高级特征与低级特征,但造成计算成本的增加。Zhao等[13]在网络颈部设计了跨层非对称变换器(CA-Trans),提出TPH-plus模型利用微小路径来丰富小路径的特征,该模型一定程度上降低了计算成本,进一步提高了TPH-Yolov5的检测速度。Li等[14]使用GhostConv[15]中的GhostblockV2模块来替换部分C2f模块从而抑制长距离特征传输过程中的信息丢失问题,并在网络的颈部引入Bi-PAN-FPN的思想进行改进。Wang等[16]结合BiFormer[17]注意力机制,提出了特征处理模块FFNB和2种新的检测尺度,以提高小目标检测性能。Zhang等[18]使用一种创新的自适应特征融合模块对FPN中多层特征进行融合和一种具有自关注机制的RATH-Net来增强感兴趣区域并抑制背景噪声干扰。但该方法较难处理目标尺寸更加微小的情况。Lin等[19]结合了一种创新的Trident-FPN结构和注意力机制,将不同层次的特征进行结合,有效提高多尺度特征提取能力,但k-means锚框生成算法存在一定的局限性; Lyu等[20]设计了双向多尺度注意力网络,通过双向整合不同尺度特征,提高了特征提取的自适应性和效率,但在目标遮挡情况下表现有限。类似的还有ASFF[21]、NAS-FPN[22]和BiFPN[23]等。上述多层跨尺度的特征融合策略,虽然丰富了小目标的特征信息,提升了检测的准确性,但同时也不可避免地增加了检测模型的计算复杂度与成本。
Carion等[24]基于Transformer框架实现端到端的目标检测, COCO数据集上展现了优于传统的两阶段检测算法(如Faster RCNN)的性能。此后,基于Transformer的目标检测也逐渐兴起[25-27]。 Li等[28]研究者将Transformer作为核心特征提取网络,通过结合简单的特征金字塔和窗口注意力机制,实现了较高的检测精度,证明了Transformer架构的有效性。基于Transformer的小目标检测方法虽然实现了全局上下文信息的关联,但其计算复杂度较高。
尽管上述方法在多个方面优化了小目标检测算法,但是在检测精度和模型大小及参数控制方面并未实现良好平衡。特别是在硬件资源有限的设备,如无人机,车机系统及对板载资源的严格限制的设备等难以满足要求。
总的来说,目前小目标检测的主要挑战可以概括为有限硬件条件下模型大小和精度优化的问题。因此,针对上述模型复杂度与检测性能难以有效平衡的问题,本文以Yolov8n作为基准模型进行改进研究,提出混合特征与多尺度融合的小目标检测算法,在控制模型大小和计算复杂度的同时提高模型的检测精度与鲁棒性。

2 研究方法

Yolov8是一种端到端的目标检测网络,它采用了新的骨干网络和无锚点检测技术,具有检测速度快、实时性好的优点。本文在Yolov8n的基础上进行改进,提出的混合特征与多尺度融合的小目标检测算法整体框架如图1所示。具体步骤包括:① 主干网络特征提取。本文采用HCTB特征增强模块,通过特征通道分组操作,结合卷积CNN和Transformer,实现全局和局部特征提取,丰富上下文特征,在减少计算量的同时可以更有效地提取特征,从而优化计算效率和特征提取能力; ② 多尺度特征提取。在主干末端,构建MDSKC多膨胀率共享卷积核模块,利用不同膨胀率的空洞卷积扩展感受野,从而在多个尺度上获取丰富的特征信息; ③ 小目标特征增强。为保留因下采样丢失的小目标特征,优化FPN结构,从P2检测层延伸出一条小目标分支与P3检测层进行融合,更大程度上保留小目标的信息。同时,构建OKCSM特征融合模块,有效学习全局到局部的特征表示,实现多尺度特征融合,提高小目标的检测性能。
图1 本文算法整体框架

Fig.1 Overall framework of this algorithm

2.1 混合特征提取模块

在计算机视觉任务中,多项研究表明,CNN的感受野较小,导致其只能提取局部特征, Transformer因其强大的全局特征提取能力而受到广泛关注。然而,由于Transformer结构的计算复杂度较高,直接将其应用于所有通道会导致显著的计算开销。为了保证在高效融合全局和局部特征的同时降低计算成本,本文设计了一种混合特征提取模块(Hybrid Conv and Transformer Block, HCTB),仅将部分通道用于Transformer结构。该模块结合了CNN和Transformer 2种架构的优势,通过在一个模块中同时包含CNN分支和Transformer分支,使其能够充分利用CNN在局部特征提取和空间结构保持方面的优势,以及Transformer在全局信息捕捉和长距离依赖建模方面的能力。这种混合架构的设计使模型在复杂的视觉任务中表现更加出色。
HCTB模块结构如图2所示,输入特征的通道被拆分为2个部分,其中仅将输入通道的四分之一送入到Transformer分支,即ConvGLUwithSelfAttention(CGSA)模块,将剩余通道送入CNN分支,即Bottleneck模块;然后,将两分支的输出进行拼接,并通过1×1卷积进行通道调整。
图2 混合特征提取模块

Fig. 2 Hybrid Conv and Transformer Block

在CGSA模块中,本文结合了多头注意力机制[29](Mutil-Head-Self-Attention, MHSA)和卷积线性门控单元[30](Convolutional GLU, CGLU)。MHSA负责提取全局特征, CGLU用于增强非线性特征表达能力,相比于传统的前馈神经网络FFN[29],CGLU具有更强的性能,实现了一种高效的特征提取与表达方式。CGSA模块结构如图2中左框所示,首先对输入特征进行规范化,然后输入到 MHSA,经过DropPath正则化后与输入特征进行残差连接;接着进行二次规范化操作,送入CGLU模块进行处理,同样经过DropPath正则化与输入特征进行残差连接,最后经过1×1卷积输出特征。
MHSA通过多个自注意力头来并行计算从输入序列中捕捉信息的不同部分,加深模型对特征的理解,提高了特征捕捉的灵活性和表达能力。 CGLU模块则通过卷积操作保留空间信息,并通过门控机制筛选关键特征,增强了特征表达的有效性。残差连接和DropPath的运用能够增强信息流动性,缓解梯度消失问题,确保了模型训练的鲁棒性和整体性能的提升。

2.2 多膨胀率共享卷积核模块

在传统的SPPF等模块或其他多尺度卷积操作中,通常为每个尺度分配独立的卷积核进行处理,导致参数和计算成本增加。为此,本文提出了一种多膨胀率共享卷积核模块(Multi-Dilated Shared Kernel Conv, MDSKC),该模块通过共享同一卷积核来进行不同尺度的卷积操作,这种做法有效减少了参数的数量,并使得模型在多尺度处理上具有更强的特征复用能力。相比于每个尺度上使用独立的卷积核,共享卷积核能够减少冗余,提升模型效率。同时,通过在共享卷积上引入不同的膨胀率,利用膨胀卷积来增加感受野,从而在不同的尺度上获取丰富的上下文信息。膨胀卷积能够在不增加额外计算量的情况下扩大感受野,低膨胀率捕捉局部细节,高膨胀率捕捉全局上下文,这对捕捉多尺度的信息尤为重要。
MDSKC模块整体结构如图3所示,首先通过1×1卷积层高效调整通道数,对输入特征进行处理。随后,将经过多个不同膨胀率的卷积结果进行拼接,有效融合来自不同尺度的特征信息进行。最后,使用1×1卷积来对拼接后的特征图进行变换,最终输出融合后的特征。这种多尺度特征融合的策略,有助于模型更好地处理具有不同尺度和形状的物体。相比之下,SPPF的池化操作可能会丢失一些细节信息。MDSKC模块在特征提取时具有更高的灵活性和表达能力,可以更好地捕捉图像中的细节和复杂模式。其计算过程可表示为:
W 1 = f d i c o n v = 1 3 × 3 [ f c o n v 1 × 1 ( F ) ]
W 2 = f d i c o n v = 3 3 × 3 { f d i c o n v = 1 3 × 3 [ f c o n v 1 × 1 ( F ) ] }
W 3 = f d i c o n v = 5 3 × 3 { f d i c o n v = 3 3 × 3 { f d i c o n v = 1 3 × 3 [ f c o n v 1 × 1 ( F ) ] } }
Y = f c o n v 1 × 1 C a t ( W 1 ,   W 2 ,   W 3 ,   f c o n v 1 × 1 ( F ) ) ]
式中: f c o n v 1 × 1表示卷积核大小为1×1的卷积运算, f d i c o n v = 1 3 × 3 f d i c o n v = 3 3 × 3   f d i c o n v = 5 3 × 3分别表示膨胀率为1、3、5的空洞卷积运算; Cat(Concat)表示特征图拼接操作,W1W2W3分别表示输入特征图经过常规卷积和空洞卷积后得到的4条支路的特征图; F是输入特征图; Y表示最终输出的特征图。
图3 多膨胀率共享卷积核模块

Fig. 3 Multi-dilated shared kernel conv

2.3 小目标特征增强的特征金字塔网络

在网络中,由于下采样操作导致小目标特征丢失,小目标在常规的P3、 P4、 P5检测层上效果不佳。P2检测层位于网络的较浅层,特征图具有更高的分辨率,能够更好地保留小目标的细节信息。传统方法通常在P3、P4、P5检测层的基础上额外添加P2检测层来提升小目标的检测能力,然而,这种做法会带来计算量过大、后处理更加耗时等问题,开发针对小目标有效的特征金字塔尤为重要。本文基于PAN-FPN进行改进,设计构建了小目标特征增强的特征金字塔网络,不同于传统的添加P2检测层,如图1中红线所示,本文从P2特征层延伸出一条小分支,经过SPDConv[31]处理获得富含小目标信息的特征与P3检测层进行融合。此外,基于Cross-Stage Partial Network[32]思想结合Omni-Kernel[33]构建了全核跨阶段特征融合模块(OKCSM)进行特征融合,以有效学习从全局到局部的特征表示,最终提高小目标的检测性能。
OKCSM模块结构如图4所示,首先,输入特征经过1×1卷积进行通道调整,输出特征的通道被拆分,其中四分之一被输入到Omni-Kernel模块,通过局部分支、大分支和全局分支3个并行分支增强多尺度表征能力,3个分支的结果经过相加融合后,再通过1×1卷积调制。为降低计算量,本文将Omni-Kernel模块大分支中深度卷积的卷积核由63调整至31。最后,将Omni-Kernel模块的输出与剩余拆分通道进行拼接输出。
图4 全核跨阶段特征融合模块

Fig. 4 Omni-Kernel Cross Stage Model

3 实验结果与分析

3.1 数据集和实验设计

本文使用天津大学发布的VisDrone2019数据集和中国科学院大学团队发布的TinyPerson数据集进行训练和性能评估。
VisDrone2019数据集[34]是在2019年由不同型号的无人机在中国14个城市拍摄,包括不同场景、高度、天气和照明条件,涵盖行人、汽车等10种类别,共计10 209张静态图像、约260万个目标实例。与其他数据集相比,该数据集在小目标数量和种类尺度差异上更加明显,具有重要研究意义。下载地址为https://github.com/VisDrone/VisDrone-Dataset。TinyPerson数据集[35]是在2020年发布的专注于小尺度目标检测的数据集,包含1 610张图像、共计 72 651个标注框。该数据集小目标占比高,绝对尺度在36像素以下,平均为18像素,密集场景中每张图片有超过200个目标。下载地址为 https://github.com/ucas-vg/PointTinyBenchmark。
实验在Ubuntu 18.04操作系统上进行,配置为NVIDIA GeForce RTX 4090 GPU,环境为Python3.8.10,PyTorch2.0.0和CUDA11.8。模型训练参数设置为:批量大小8,训练轮数270,学习率0.01,权重衰减系数0.000 5,输入图片尺寸为1 024×1 024。本文使用预训练权重,其余参数保持默认,其中TinyPerson数据集批量大小为4,其余参数保持一致。在实验设置方面,本文首先在VisDrone2019和TinyPerson数据集上进行消融实验,以验证所提出各模块的有效性;然后,在2个数据集上,将本文算法与其他经典目标检测算法(Yolov3-tiny、Yolv5s、Yolov6n、Yolov7-tiny)在检测精度、模型大小和计算量方面进行对比实验,此外,为了使研究更具有针对性,本文还与一些专注于小目标检测的先进模型,如HIC-Yolov5[7]、TPH-yolov5[8]、Drone-YOLO[12]、TPH-plus[13]等进行了对比研究。
性能评估指标包括精确率P(Precision)、召回率R(Recall)、平均准确率mAP(Mean Average Precision)。在目标检测中, TP(True Positive)为正确检测的目标数, FP(False Positive)为误检的目标数, FN(False Negative)为漏检的目标数。查准率P的计算公式为:
P = T P T P + F P × 100 %
召回率R的计算公式为:
R = T P T P + F N × 100 %
精确率-召回率(PR)曲线所包围的区域表示AP,计算公式如下:
A P = P ( R ) d R × 100 %
mAP是不同类别的所有AP的平均值, mAP@0.5指的是当IoU阈值为0.5时所有目标类别的平均检测精度。mAP@0.5:0.95表示在0.05的步长下,从所有10个IoU阈值(0.50~0.95)上计算出的检测精度的平均值。公式如下:
m A P = j = 1 N A P ( j ) N
式中:N是数据集中的类别数,更高的mAP值表示模型在目标检测任务中的性能更好。此外,模型大小和GFLOPs也作为模型的评价指标, GFLOPs是衡量神经网络模型计算速度和能力的重要指标。

3.2 消融实验结果

为了验证算法改进模块的有效性,本文在VisDrone2019和TinyPerson数据集上进行了消融实验。评估结果如表1所示,实验表明,在网络中使用HCTB模块后,虽然精确率略有降低,但是召回率、mAP50mAP50:95的精度均显著提升,同时模型大小和参数量也大幅降低。接着,在添加OKCSM模块后,PRmAP50mAP50:95的精度进一步提升,而模型大小和参数量有所增加,其主要原因是本算法额外从P2检测层延伸出一条小分支来增强小目标特征。最后,在添加了MDSKC模块后, PRmAP50mAP50:95的精度达到最高,相比于基线模型,模型大小保持不变、参数量有所减小。类似地,本文也在TinyPerson数据集中进行验证,如表2所示,实验结果的精度总体呈现递增的趋势,最终达到最优结果。
表1 算法各模块在VisDrone2019数据集上检测精度的评估结果

Tab. 1 Evaluation results of the detection accuracy of each module of the algorithm on the VisDrone2019 dataset

模块 P/% R/% mAP50/% mAP50:95/% Model Size/MB Params/M
yolov8n 56.2 43.0 45.7 28.2 6.3 3.2
yolov8n+HCTB 55.8 44.2 46.2 28.5 5.5 2.7
yolov8n+HCTB+OKCSM 58.2 45.2 48.2 29.7 6.1 3.0
yolov8n+HCTB+OKCSM+
MDSKC(本文算法
57.5 46.1 48.7 30.1 6.3 3.1

注:加粗数值表示本文最终算法的实验结果。

表2 算法各模块在TinyPerson数据集上检测精度的评估结果

Tab. 2 Evaluation results of detection accuracy of each module of the algorithm on the TinyPerson dataset

模块 P/% R/% mAP50/% mAP50:95/% Model Size/MB Params/M
yolov8n 51.5 35.6 36.3 15.7 6.3 3.2
yolov8n+HCTB 53.6 35.9 36.6 16.0 5.5 2.7
yolov8n+HCTB+OKCSM 53.7 36.4 37.0 15.8 6.1 3.0
yolov8n+HCTB+OKCSM+
MDSKC(本文算法
55.1 36.9 38.4 16.4 6.3 3.1

注:加粗数值表示本文最终算法的实验结果。

为了更直观的说明本算法对小目标特征提取和表达能力的优越性,如图5所示,本文对不同场景下的热力图进行可视化分析。可以看出,相对于基线算法,即使在夜间或强逆光等复杂场景下,本文算法依然能够准确识别不同尺度的目标。这表明,该方法的对小目标特征的表达能力更强,能够有效提取复杂场景中小目标的语义特征信息,从而实现更好的性能。
图5 算法在不同场景下热力图对比结果

Fig. 5 Comparison results of the algorithm's heat maps in different scenarios

3.3 对比实验结果

为了进一步验证算法的检测性能,本文在VisDrone2019和TinyPerson数据集上,与其他先进的目标检测算法进行了对比实验,实验结果如表3表4 所示。
表3 VisDrone2019数据集各模型对比结果

Tab. 3 Comparison results of various models in VisDrone2019 dataset

模型 P/% R/% mAP50/% mAP50:95/% Model Size/MB GFLOPs
Yolov3-tiny 46.3 34.8 34.9 20.4 19.2 14.3
Yolv5s 56.9 45.0 46.8 28.1 14.6 16.0
Yolov6n 49.1 39.6 40.4 28.1 8.6 11.5
Yolov7-tiny 56.7 47.8 47.3 27.0 12.4 13.3
HIC-Yolov5n 51.0 43.5 43.5 25.2 6.6 8.2
TPH-yolov5s 55.9 47.2 48.5 29.1 19.4 23.4
Drone-YOLO 54.3 43.7 45.1 27.7 6.5 12.6
本文算法 57.5 46.1 48.7 30.1 6.3 11.3

注:加粗数值表示本文算法的实验结果。

表4 TinyPerson数据集各模型对比结果

Tab. 4 Comparison results of various models in TinyPerson dataset

模型 P/% R/% mAP50/% mAP50:95/% Model Size/MB GFLOPs
Yolov3-tiny 41.9 21.8 20.7 7.15 19.2 14.3
Yolv5s 52.6 35.6 36.1 15.6 14.6 16.0
Yolov6n 46.2 30.3 28.5 11.7 8.6 11.5
Yolov7-tiny 57.0 34.9 33.5 12.1 12.4 13.3
HIC-Yolov5n 52.0 38.5 36.9 14.1 6.6 8.2
TPH-plus 55.1 35.9 35.7 14.0 14.3 30.1
Drone-YOLO 52.5 37.2 36.6 16.0 6.5 12.5
本文算法 55.1 36.9 38.4 16.4 6.3 11.3

注:加粗数值表示本文算法的实验结果。

从实验结果来看,在VisDrone2019数据集中,本文算法取得了最高的精度、mAP50mAP50:95R值略低于最优结果,同时,模型大小和GFLOPs也相对较小。具体来说,相对于HIC-Yolov5n,本文算法GFLOPs增加了3.1 G,但其他性能指标显著优于HIC-Yolov5n算法;与Drone-YOLO算法相比,本文算法所有指标均明显优于该算法;尽管TPH-yolov5s算法在R值上略高于本文算法,但其模型大小是本文算法的3倍,GFLOPs是本算法的2倍,模型复杂度远高于本文算法。在TinyPerson数据集上,本算法同样展示了优异的性能,仍具有最高的mAP50mAP50:95,且精度仅次于最优结果,与其他算法相比,本文算法依然保持了较好的综合性能。
总体而言,实验结果表明,本文算法在两数据集中均取得了较好的精度,且在检测性能和模型复杂度之间取得了最佳的平衡,其模型大小和GFLOPs仅为6.3 M和11.3 G。在精度至关重要但计算资源有限的场景中,本文提供了一个有效的解决方案,能够在保持轻量化和较低模型复杂度的同时兼顾良好的检测性能,充分证明了算法的有效性和实用性。
图6所示,本文选取了具有代表性的不同场景,将不同算法与本文算法的检测结果进行对比。结果表明,虽然各模型在检测较近的中大型目标时表现良好,但对于相对密集的小目标区域,如图中红框所示,由于小目标特征提取能力不足,各模型难以有效识别和定位小目标,存在大量漏检和误检现象。相比之下,本文算法能够更准确地检测出密集区域中的目标以及远距离微小目标,显著降低了误检率和漏检率,展示出更强的鲁棒性和实用性。
图6 各模型检测结果可视化

Fig. 6 Visualization of detection results for each model

4 结论

本文针对场景复杂下小目标像素面积小、特征信息不足、难以检测等问题,提出了一种复杂场景下的小目标检测方法。首先该算法通过将CNN与Transformer结合的方式丰富局部和全局上下文特征,增强了网络对小目标感知。然后,在主干末端,设计了MDSKC多膨胀率共享卷积核模块,通过不同膨胀率的空洞卷积扩展感受野,获取丰富的多尺度上特征,进一步加强模型的特征提取能力,同时控制模型的参数量。最后,为了进一步保留小目标细节特征,优化了特征金字塔网络,通过延伸P2分支与P3检测层融合,提高了小目标信息的保留度;同时,构建了OKCSM特征融合模块,有效学习从全局到局部的特征表示,并进行多尺度特征融合,提高了模型的检测性能。实验结果表明:
(1)在VisDrone2019数据集中,本文算法取得了最高的精度、mAP50mAP50:95R值略低于最优结果,同时,模型大小和GFLOPs也相对较小。具体来说,相对于HIC-Yolov5n,虽然本文算法的计算量增加了3.1GFLOPs,但其他性能指标显著优于HIC-Yolov5n算法,PRmAP50mAP50:95分别提升了6.5%、2.63%、5.2%和4.9%;与Drone-YOLO算法相比,本文算法所有指标均明显优于该算法,PRmAP50mAP50:95分别提升了3.2%、2.4%、3.6%和2.4%,且模型大小下降了0.3 M,计算量下降了1.2GFLOPs;尽管TPH-yolov5s算法在R值上略高于本文算法,但其模型大小是本文算法的3倍,GFLOPs是本算法的2倍,模型复杂度远高于本文算法。在TinyPerson数据集上,本算法同样展示了优异的性能,仍具有最高的mAP50mAP50:95,且精度P指标仅次于最优结果,与其他算法相比,本文算法依然保持了较好的综合性能。
(2)在热力图和检测可视化的定性实验分析中,本文在多个具有代表性的复杂场景下与其他经典算法进行对比。结果显示出本文算法对小目标特征的表达能力更强,能够有效提取复杂场景中小目标的语义特征信息,从而更准确地检测出密集区域中的目标以及远距离微小目标,显著降低了误检率和漏检率。
(3)本文算法在VisDrone2019和TinyPerson数据集中均取得了较好的精度,且在检测性能和模型复杂度之间取得了最佳的平衡,能够在提高检测精度的同时保持轻量化和较低模型复杂度,充分证明了算法的有效性和实用性。在精度至关重要但计算资源有限的场景中,本文提供了一个有效的解决方案。
AI使用说明:本文在英文摘要部分使用了AI技术进行润色、语法检查;引言第一段使用了AI技术进行了润色。
■ 本文图文责任编辑:蒋树芳 黄光玉

利益冲突:Conflicts of Interest 所有作者声明不存在利益冲突。

All authors disclose no relevant conflicts of interest.

[1]
胡惠娟, 秦一锋, 徐鹤, 等. 面向无人机航拍图像的YOLOv8目标检测改进算法[J]. 计算机科学, 2025, 52(4):202-211.

[ Hu H J, Qin Y F, Xu H, et al. An improved YOLOv8 object detection algorithm for UAV aerial images[J]. Computer Science, 2025, 52(4):202-211. ]

[2]
Min X L, Zhou W, Hu R, et al. LWUAVDet: A lightweight UAV object detection network on edge devices[J]. IEEE Internet of Things Journal, 2024, 11(13):24013-24023. DOI:10.1109/JIOT.2024.3388045

[3]
潘玮, 韦超, 钱春雨, 等. 面向无人机视角下小目标检测的YOLOv8s改进模型[J]. 计算机工程与应用, 2024, 60(9):142-150.

DOI

[ Pan W, Wei C, Qian C Y, et al. Improved YOLOv8s model for small object detection from perspective of drones[J]. Computer Engineering and Applications, 2024, 60(9):142-150. ]

DOI

[4]
Gong Y Q, Yu X H, Ding Y, et al. Effective fusion factor in FPN for tiny object detection[C]// 2021 IEEE Winter Conference on Applications of Computer Vision (WACV). IEEE, 2021: 1159-1167. DOI:10.1109/wacv48630.2021.00120

[5]
Wang C Y, Bochkovskiy A, Liao H M. YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[C]// 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2023:7464-7475. DOI:10.1109/CVPR52729.2023.00721

[6]
Zhang Y, Ye M, Zhu G Y, et al. FFCA-YOLO for small object detection in remote sensing images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2024, 62:1-15. DOI:10.1109/TGRS.2024.3363057

[7]
Tang S Y, Zhang S, Fang Y N. HIC-YOLOv5: Improved YOLOv5 for small object detection[C]// 2024 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2024: 6614-6619. DOI:10.1109/ICRA57147.2024.10610273

[8]
Zhu X K, Lyu S C, Wang X, et al. TPH-YOLOv5: Improved YOLOv5 based on transformer prediction head for object detection on drone-captured scenarios[C]// 2021 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW). IEEE, 2021:2778-2788. DOI: 10.1109/iccvw54120.2021.00312

[9]
Xiong X R, He M T, Li T Y, et al. Adaptive feature fusion and improved attention mechanism-based small object detection for UAV target tracking[J]. IEEE Internet of Things Journal, 2024, 11(12):21239-21249. DOI:10.1109/JIOT.2024.3367415

[10]
董一兵, 曾辉, 侯少杰. LMUAV-YOLOv8:低空无人机视觉目标检测轻量化网络[J]. 计算机工程与应用, 2025, 61(3):94-110.

DOI

[ Dong Y B, Zeng H, Hou S J. LMUAV-YOLOv8: Lightweight network for object detection in low-altitude UAV vision[J]. Computer Engineering and Applications, 2025, 61(3):94-110. ]

DOI

[11]
梁燕, 何孝武, 邵凯, 等. 改进YOLOv8的无人机航拍图像目标检测算法[J]. 计算机工程与应用, 2025, 61(1):121-130.

DOI

[ Liang Y, He X W, Shao K, et al. Target detection algorithm for UAV images based on improved YOLOv8[J]. Computer Engineering and Applications, 2025, 61(1):121-130. ]

DOI

[12]
Zhang Z X. Drone-YOLO: An efficient neural network method for target detection in drone images[J]. Drones, 2023, 7(8):526. DOI:10.3390/drones7080526

[13]
Zhao Q, Liu B H, Lyu S C, et al. TPH-YOLOv5++: Boosting object detection on drone-captured scenarios with cross-layer asymmetric transformer[J]. Remote Sensing, 2023, 15(6):1687. DOI:10.3390/rs15061687

[14]
Li Y T, Fan Q S, Huang H S, et al. A modified YOLOv8 detection network for UAV aerial image recognition[J]. Drones, 2023, 7(5):304. DOI:10.3390/drones7050304

[15]
Han K, Wang Y H, Tian Q, et al. GhostNet: More features from cheap operations[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2020:1577-1586. DOI:10.1109/CVPR42600.2020.00165

[16]
Wang G, Chen Y F, An P, et al. UAV-YOLOv8: A small-object-detection model based on improved YOLOv8 for UAV aerial photography scenarios[J]. Sensors, 2023, 23(16):7190. DOI:10.3390/s23167190

[17]
Zhu L, Wang X J, Ke Z H, et al. BiFormer: Vision transformer with bi-level routing attention[C]// 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2023:10323-10333. DOI:10.1109/CVPR52729.2023.00995

[18]
Zhang W, Liu C S, Chang F L, et al. Multi-scale and occlusion aware network for vehicle detection and segmentation on UAV aerial images[J]. Remote Sensing, 2020, 12(11):1760. DOI:10.3390/rs12111760

[19]
Lin Q Z, Ding Y, Xu H, et al. ECascade-RCNN: Enhanced cascade RCNN for multi-scale object detection in UAV images[C]// 2021 7th International Conference on Automation, Robotics and Applications (ICARA). IEEE, 2021: 268-272. DOI:10.1109/icara51699.2021.9376456

[20]
Lyu Y, Vosselman G, Xia G S, et al. Bidirectional multi-scale attention networks for semantic segmentation of oblique uav imagery[J]. ISPRS Annals of the Photogrammetry, Remote Sensing and Spatial Information Sciences, 2021, V-2-2021:75-82. DOI:10.5194/isprs-annals-v-2-2021-75-2021

[21]
Liu W, Dragomir A, Dumitru E, et al. SSD: Single Shot Multi Box Detector[C]// European conference on computer vision (ECCV). Cham: Springer, 2016:21-37. DOI:10.1007/978-3-319-46448-0_2

[22]
Ghiasi G, Lin T Y, Le Q V. NAS-FPN: Learning scalable feature pyramid architecture for object detection[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2019:7029-7038. DOI:10.1109/cvpr.2019.00720

[23]
Tan M X, Pang R M, Le Q V. EfficientDet: Scalable and efficient object detection[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2020: 10778-10787. DOI:10.1109/cvpr42600.2020.01079

[24]
Carion N, Massa F, Synnaeve G, et al. End-to-end object detection with transformers[M]// European Conference on Computer Vision (ECCV). Cham: Springer International Publishing, 2020:213-229. DOI:10.1007/978-3-030-58452-8_13

[25]
Liu F C, Gao C Q, Chen F, et al. Infrared small and dim target detection with transformer under complex backgrounds[J]. IEEE Transactions on Image Processing, 2023, 32:5921-5932. DOI:10.1109/TIP.2023.3326396

[26]
Qi M B, Liu L, Zhuang S, et al. FTC-net: Fusion of transformer and CNN features for infrared small target detection[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2022, 15:8613-8623

[27]
Chen G, Wang W H, Tan S R. IRSTFormer: A hierarchical vision transformer for infrared small target detection[J]. Remote Sensing, 2022, 14(14):3258. DOI:10.3390/rs14143258

[28]
Li Y H, Mao H Z, Girshick R, et al. Exploring plain vision transformer backbones for object detection[M]// European Conference on Computer Vision (ECCV). Cham: Springer Nature Switzerland, 2022:280-296. DOI:10.1007/978-3-031-20077-9_17

[29]
Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Curran Associates Inc, 2017:6000-6010. DOI:10.48550/arXiv.1706.03762

[30]
Shi D. TransNeXt: Robust foveal visual perception for vision transformers[C]// 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2024:17773-17783. DOI:10.1109/CVPR52733.2024.01683

[31]
Sunkara R, Luo T. No more strided convolutions or pooling: A new CNN building block for low-resolution images and small objects[M]// Machine Learning and Knowledge Discovery in Databases. Cham: Springer Nature Switzerland, 2023:443-459. DOI:10.1007/978-3-031-26409-2_27

[32]
Wang C Y, Mark Liao H Y, Wu Y H, et al. CSPNet: A new backbone that can enhance learning capability of CNN[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). IEEE, 2020: 1571-1580. DOI:10.1109/cvprw50498.2020.00203

[33]
Cui Y, Ren W, Knoll A. Omni-kernel network for image restoration[C]// Proceedings of the 38th AAAI Conference on Artificial Intelligence. AAAI, 2024:159-168. DOI: 10.1609/aaai.v38i2.27907.

[34]
Du D W, Wen L Y, Zhu P F, et al. VisDrone-DET2020: The vision meets drone object detection in image challenge results[C]// Computer Vision - ECCV 2020 Workshops. Cham: Springer, 2020: 692-712. DOI:10.1007/978-3-030-66823-5_42

[35]
Yu X H, Gong Y Q, Jiang N, et al. Scale match for tiny person detection[C]// 2020 IEEE Winter Conference on Applications of Computer Vision (WACV). IEEE, 2020:1246-1254. DOI:10.1109/WACV45572.2020.9093394

文章导航

/