应用多尺度融合策略和改进YOLOV5的道路病害无人机检测

程传祥; 金飞; 林雨准; 王淑香; 左溪冰; 李军杰; 苏凯阳

doi:10.12082/dqxxkx.2024.240147

地球信息科学学报 >

2024 , Vol. 26 >Issue 8: 1991 - 2007

DOI: https://doi.org/10.12082/dqxxkx.2024.240147

遥感科学与应用技术

应用多尺度融合策略和改进YOLOV5的道路病害无人机检测

程传祥 ^,¹ ,
金飞 ^,¹^,^* ,
林雨准 ¹ ,
王淑香 ¹ ,
左溪冰 ¹ ,
李军杰 ² ,
苏凯阳 ³

展开

1.信息工程大学，郑州 450001
2.河南城建学院，平顶山 467036
3.平顶山学院，平顶山 467000

*金飞（1983— ），男，河南临颍人，博士，副教授，主要从事遥感图像智能解译研究。E-mail: jf371@sina.com

程传祥（2001— ），男，河南信阳人，硕士，主要从事无人机摄影测量与遥感影像智能解译等研究。E-mail: chuanxiangcheng@163.com

Copy editor: 黄光玉

收稿日期: 2024-03-19

修回日期: 2024-05-14

网络出版日期: 2024-07-24

收起

Road Damage Detection in Large UAV Images Using a Multiscale Fusion Strategy and Improved YOLOV5

CHENG Chuanxiang ^,¹ ,
JIN Fei ^,¹^,^* ,
LIN Yuzhun ¹ ,
WANG Shuxiang ¹ ,
ZUO Xibing ¹ ,
LI Junjie ² ,
SU Kaiyang ³

Expand

1. Information Engineering University, Zhengzhou 450001, China
2. Henan University of Urban Construction, Pingdingshan 467036, China
3. Pingdingshan University, Pingdingshan 467000, China

*JIN Fei, E-mail: jf371@sina.com

Received date: 2024-03-19

Revised date: 2024-05-14

Online published: 2024-07-24

Fold

摘要

结合无人机和深度学习目标检测算法自动检测道路病害具有范围广、成本效益高等优势。然而，道路病害的形状和大小变化剧烈，很难完整检测它们。此外，受限于计算资源，通用的目标检测算法只适用于小尺寸影像（512像素×512像素或640像素×640像素），很难直接应用于大尺寸的无人机影像（5 472像素×3 648像素或7 952像素×5 304像素）。使用传统方法检测大尺寸影像中的多尺度目标会出现大尺寸目标切分、小尺寸目标漏检等问题。针对上述问题，本文提出了一种结合全局-局部多尺度融合策略和YOLOv5-RDD的创新解决方案。① 构建了YOLOv5-RDD模型，在现有YOLOv5模型的基础上，设计多尺度C3（MSC3）模块和上下文特征金字塔网络（CFPN），增强了对多尺度目标的检测能力。② 提出了一种全局-局部多尺度融合策略，利用下采样和切分手段获取大尺寸无人机影像的全局和局部信息，然后叠加全局和局部多尺度信息以获取整个大尺寸影像的多尺度信息，并采用中心非极大值抑制算法优化检测结果。③ 为验证所提方法的有效性，创建了一个专门用于无人机道路病害检测的UAV-RDD数据集。实验结果显示，与原始的YOLOv5模型相比，新模型YOLOv5-RDD在mAP上提升了5.8%，而全局-局部多尺度融合策略相比传统方法在mAP上提升了9.73%，充分证明了本文方法的有效性和优越性。

关键词： 道路病害检测; YOLOv5; 无人机影像; 目标检测; 大尺寸影像; 多尺度特征融合; 非极大值抑制

本文引用格式

程传祥 , 金飞 , 林雨准 , 王淑香 , 左溪冰 , 李军杰 , 苏凯阳 . 应用多尺度融合策略和改进YOLOV5的道路病害无人机检测[J]. 地球信息科学学报, 2024 , 26(8) : 1991 -2007 . DOI: 10.12082/dqxxkx.2024.240147

Abstract

The use of Unmanned Aerial Vehicles (UAVs) for road image collection is advantageous owing to their large scope and cost-effectiveness. However, the size and shape of road damages vary significantly, making them challenging to predict. Furthermore, due to the limitations of computational resources, generalized target detection algorithms are only applicable to small-size images (512 pixels× 512 pixels or 640 pixels× 640 pixels). This makes them unsuitable for direct application to large-size UAV images (5 472 pixels× 3 648 pixels or 7 952 pixels × 5 304 pixels). The utilization of traditional methods for the detection of multi-scale targets in large-size images is associated with a number of issues, including the slicing of large-size targets and the failure to detect small-size targets. To address these challenges, this paper presents an innovative solution that combines the global-local multiscale fusion strategy with YOLOv5-RDD. First, a YOLOv5-RDD model is constructed, and based on the existing YOLOv5 model, a multiscale C3 (MSC3) module and a Contextual Feature Pyramid Network (CFPN) are designed to improve the detection capability of multiscale targets. Additionally, we introduce an extra detection head for larger-size targets. Then, a global-local multiscale fusion strategy is proposed, which uses resizing and slicing means to obtain global and local information of large UAV images, and then superimposes the global and local multiscale information to obtain the multi-scale information of the whole large image. The detection results are optimized using the center non-maximum value suppression algorithm. Specifically, the global-local multiscale fusion strategy first trains the YOLOv5-RDD using multiscale training strategy to learn complete multiscale features. Then, YOLOv5-RDD predicts multiscale road damages in large-size images using a multiscale prediction strategy to avoid directly applying it to these images. Finally, we use center non-maximum suppression to eliminate redundant object detection boxes. To verify the effectiveness of the proposed method and meet real-world requirements, a UAV-RDD dataset specialized for UAV road disease detection is created. The experimental results show that compared with the original YOLOv5 model, the new model YOLOv5-RDD improves the mAP by 5.8%, while the global-local multiscale fusion strategy improves the mAP by 9.73% compared with the traditional method. The MSC3 achieves the maximum enhancement of mAP@0.5, with an improvement of 2.6%, contributing only 0.8 M parameters. The CFPN yields an improvement of 0.2% in mAP@0.5 while reducing the number of parameters by 8 M. These results fully prove the effectiveness and superiority of the method in this paper.

Key words： road damage detection; YOLOv5; Unmanned Aerial Vehicle (UAV); object detection; large-size image; multi-scale feature fusion; non-maximum suppression

1 引言

道路经常受到恶劣环境和重载车辆的影响，从而产生各种道路病害。市政部门为了延长公路的使用寿命，需要快速获取道路病害信息，以便及时采取维护措施^[1]。无人机遥感平台具有易操作和成本效益高的特点，可以采集大范围高分辨率的影像数据，被广泛应用于道路病害检测^[2]。此外，基于深度学习的目标检测算法不仅能自动定位和分类图像中感兴趣的目标，还具有高精度和鲁棒性，被广泛应用于遥感影像目标检测^[3-4]。许多研究人员已经结合无人机影像和目标检测算法自动提取道路病害信息^{[5⇓⇓⇓-9]}。

尽管结合无人机影像与目标检测算法自动检测道路病害具有优势，但也面临着一些挑战，其中包括：

（1）无人机影像中不同的道路病害目标大小和形状变化剧烈。由于深度学习模型中卷积层感受野有限，无法获取全局多尺度目标特征，难以同时检测极小和极大目标。

（2）无人机影像尺寸较大。由于硬件设备的限制受限，通用的目标检测算法训练和测试数据以小尺寸影像为主（640像素×640像素或512像素×512像素），很难直接应用于大尺寸的无人机影像（5 472像素× 3 648像素或7 952像素× 5 304像素）。采用切分大尺寸影像的方法会将大尺寸目标切开，在最后拼接的结果中会产生大量冗余目标检测框。采用下采样的方法可以完整预测大尺寸目标，但是小目标会丢失。

（3）缺乏满足实际要求的数据集。为了便于直接应用目标检测算法，现有的无人机道路病害检测数据集都是由原始影像切分之后的小尺寸影像组成。虽然该方法可直接应用于都是小目标的大尺寸无人机影像，但在实际情况下道路中往往存在大尺寸的道路病害，切分的方法会将大尺寸目标裁剪开，在最后融合的过程中产生大量冗余目标检测框，产生虚警。当前的数据集没有考虑大尺寸无人机影像多尺度道路病害检测问题，需要一个由包含多尺度道路病害目标的大尺寸无人机影像组成的数据集设计专门的算法解决该问题。

针对这些问题，已经有学者做了大量的研究。首先，为检测多尺度道路病害，Ren等^[10]在YOLOv5^[11]的基础上引入GFPN模块融合多尺度特征，然后引入一个额外的检测头，检测极大尺寸的目标。虽然该方法能融合不同尺度的特征，但没有考虑增强多尺度特征提取。Luo等^[12]采用LC-BiFPN模块融合多尺度特征，虽然取得了一定的效果，但复杂的多尺度融合模块会降低模型的检测速度。Xiang等^[13]使用了一种针对小目标的模块，虽然可以提高小目标的检测能力，但是忽略了极大尺寸目标的检测能力。其次，为检测大尺寸影像中的多尺度目标，AutoFocus^[14]和Adazoom^[15]采用由粗到精的方法检测大尺寸无人机影像中的多尺度目标，虽然能获取全局多尺度信息，但它们无法实现端到端的预测，需要训练多个深度学习模型，限制了模型的适用性，很难应用于无人机道路病害检测任务。一些围绕DOTA^[16]数据集的研究通过增加相邻切分影像之间的重叠率，避免较大尺寸的目标被裁剪开，虽然提高了检测精度，但随着重叠率的增加，切分之后的数据量呈几何倍数增长，降低了检测速度。YOLT^[17]和STN^[18]根据不同类别目标之间巨大的尺寸差异将一个数据集分成两个不同目标类别的数据集，分别采用下采样和切分的方法训练两个深度学习模型，预测极大尺寸目标和极小尺寸目标，最后融合所有的预测结果。然而，在评估道路病害类别时，不同类别的物体之间没有发现明显的尺寸差异，该方法不适用于道路病害检测任务。文献[19]使用多分辨率图像联合检测的方式检测大尺寸遥感影像中的多尺度目标，虽然能预测大尺寸影像上全局-局部多尺度目标，但由于缺乏去冗余算法，阻碍了效果的进一步提升。可以看出，针对大尺寸影像多尺度目标检测问题，一些基于多步深度学习模型的算法结构复杂，很难迁移到其他算法。而一些辅助算法，如多分辨率图像联合检测和切分的方法，可以迁移到任意目标检测算法。然而，这些方法缺乏一个多尺度融合策略和多尺度目标检测算法，阻碍了精度的进一步提升。

基于上述分析，为检测大尺寸无人机影像中的多尺度道路病害，本文提出了一种结合YOLOv5-RDD和全局-局部多尺度融合策略的方法。针对无人机影像中道路病害形状和尺寸剧烈变化，目标检测模型难预测问题。本文提出了一种改进的YOLOv5模型，通过设计一个多尺度C3模块提取多尺度特征，设计一个上下文特征金字塔融合多尺度特征。针对大尺寸无人机影像中大尺寸目标被切分，小目标遗漏问题，本文提出了一种全局-局部多尺度融合的方法，该方法利用下采样和切分手段获取大尺寸无人机影像的全局和局部信息，然后叠加全局和局部多尺度信息以获取整个大尺寸影像的多尺度信息，并采用中心非极大值抑制算法优化检测结果。针对当前缺乏满足实际要求的数据集问题，本文致力于构建一个专门用于大尺寸无人机影像道路病害检测的数据集。该数据集将包含多种尺度的道路病害目标，以满足多尺度检测的需求，从而推动相关算法的研发和优化。

2 本文方法

2.1 总体流程

本文方法的总体流程如图1所示。输入原始无人机影像，首先，基于影像的全局下采样与局部切片方式获取多尺度训练样本；其次，将多尺度训练样本输入YOLOv5-RDD模型，对应生成多尺度预测结果，并进行预测结果的叠加融合；最后，基于中心非极大值抑制算法，消除叠加结果中的冗余检测框，进一步优化道路病害的检测结果。

显示原图|下载原图ZIP|生成PPT

图1 本文方法的流程

Fig. 1 Pipeline of the methodology of this paper

为清晰展示本文方法，首先详细介绍本文方法骨干模型YOLOv5-RDD的改进之处，然后介绍本文提出的全局-局部多尺度融合策略的技术细节。

2.2 YOLOv5-RDD

YOLOv5是目标检测领域较为常用的一种单阶段网络结构，能有效平衡检测效率与精度。经网络结构参数调整，当前YOLOv5网络衍生出了YOLOv5s6、YOLOv5m6、YOLOv5l6和YOLOv5x6等多个版本，其中YOLOv5s6的模型参数最少，且输入和输出的图像尺寸最大（1 280像素× 1 280像素）。因此，本文在YOLOv5s6的基础上改进网络结构，形成YOLOv5-RDD模型。如图2所示，在原有YOLOv5s6网络的基础上，嵌入适用于大尺寸无人机影像道路病害检测任务的新模块，主要包括多尺度C3模块和上下文特征金字塔网络。此外，还引入了一个额外的预测层（P7），用来检测极大尺寸的目标。

显示原图|下载原图ZIP|生成PPT

图2 YOLOv5-RDD模型结构

Fig. 2 Structure of the YOLOv5-RDD model

2.2.1 多尺度C3模块

在无人机影像中，不同道路病害目标之间的尺寸差异明显，而YOLOv5主干网络的多尺度特征提取能力不足，无法有效提取多尺度特征。受Res2Net^[20]和高效多尺度注意力机制^[21]的启发，本文设计了一个多尺度C3模块（Multiscale C3，MSC3），用于提取多尺度特征。

MSC3模块的网络结构如图3所示。它由2个分支组成：一个分支包括标准卷积层和多个堆叠的高效多尺度瓶颈（EMS Bottleneck）；另一个分支则采用简单的卷积模块。它首先利用卷积层的堆叠增大感受野，提取多尺度特征，然后通过多尺度注意力机制进一步获取丰富的多尺度信息。最后，为便于特征信息的交互，在通道维度上进行两分支的特征融合。

显示原图|下载原图ZIP|生成PPT

图3 MSC3结构

Fig. 3 Structure of MSC3

一层卷积层的感受野很小，很难获取多尺度目标的特征。为增大感受野，本文采用多个卷积层堆叠的方式。其计算公式如下：

（1）$Y_{i}=\left\{\begin{array}{lr} X_{i} & i=1 \\ K_{i}\left(X_{i}\right) & i=2 \\ K_{i}\left(X_{i}+Y_{i-1}\right) & 2＜i \leqslant s \end{array}\right.$

式中：K_i表示一个3 × 3 卷积层，X_i表示输入的特征图，s(s≥3)表示特征图被分割成s个子集。如果i=1，则输入的特征图X₁不会通过卷积层，直接输出Y₁；如果i=2，则输入的特征图会被分成2个部分{X₁,X₂}，X₁不会通过卷积层，X₂会经过一个卷积层生成Y₂，最后Y₁和Y₂融合；如果s=3(即，i=3)，则输入的特征图会被分成3个部分{X₁,X₂,X₃}，X₁不通过卷积层，X₂通过一个卷积层生成Y₂，Y₂和Y₃融合之后经过一个卷积层生成Y₃，最终经过不同卷积层堆叠形成的多尺度的特征图{Y₁,Y₂,Y₃}通过一个1×1卷积层融合形成多尺度特征；如果s=4，则具体的处理流程同上。

为进一步获取多尺度信息，本文采用了一种多尺度注意力机制。多尺度特征Y（

Y ∈ R C × H × W

）沿通道维度分成G组生成Y_i（

Y i ∈ R C / / G × H × W

），其中W，H，C分别表示Y_i的宽，高和长。然后其被分成三路，其中两路经过X方向和Y方向的全局平均池化获取X方向和Y方向的全局感受野，其目的是获取空间注意力。另一路经过全局平均池化获取通道方向的全局感受野，其目的是获取通道注意力。全局平均池化计算公式如下

（2）

Z c = 1 H × W ∑ j H ∑ i W X c (i, j) (c ∈ C)

式中：Z_c表示特征图中每个通道全局平均池化的输出；C是总的通道数；X_c(i, j)表示每个通道中每个特征点的值。三路特征通过空间交叉学习策略（Cross-spatial learning）学习到丰富的多尺度特征，并利用Softmax函数获取空间和通道注意力。如式（3）所示。

（3）

S o f t m a x (A i) = e A i ∑ c = 1 C e A c

式中：e是常数项；A_i为第i个节点的输出值；C为输出节点的总个数。最终，混合空间和通道注意力，获取空间-通道多尺度注意力。

2.2.2 上下文特征金字塔网络

道路病害形状和大小各不相同，提高检测精度的有效方法是多尺度特征融合。YOLOv5使用路径聚合特征金字塔网络（Path Aggregation Feature Pyramids Network, PAFPN）^[22]实现多尺度特征融合。然而，它只通过简单的自下而上地方式进行特征融合，多尺度特征融合能力不足。为提高YOLOv5 的多尺度特征融合能力，本文设计了一种上下文特征金字塔网络（Context Feature Pyramid Network，CFPN），该网络在不显著增加参数量的基础上，有效提升了多尺度特征的融合效果。

如图4所示，CFPN采用了多尺度结构。首先，不同分辨率的特征通过特征融合获得多尺度特征。其计算公式如下：

（4）

P i i = F u s e ({F 3, F 4, F 5, F 6, F 7})

式中：

{F 3, F 4, F 5, F 6, F 7}

是YOLOv5-RDD主干网络输出的P3-P7的多尺度特征层。

显示原图|下载原图ZIP|生成PPT

图4 CFPN的结构

Fig. 4 Structure of CFPN

然后利用卷积层代替自注意力机制中的查询矩阵（query）和被查询矩阵（key），通过类似自注意力机制的方法获取上下文文本信息。其计算公式如下：

（5）

Q i j = a i j × ∑ j = 1 N i e x p (w k P i j) ∑ m = 1 N i e x p (w k P j m) × w v P i j

式中：Q_i和P_j分别是第

i ∈ {F 3, F 4, F 5, F 6, F 7}

层特征层的输出和输入特征图，每一个特征图包含N_i个像素点，用

j, m ∈ {1, N i}

表示每一个像素点；

w a 、 w k 、 w v

是经过1×1卷积层后的线性变换矩阵。

此外，CFPN还应用了与P_i和Q_i形状相同的加权矩阵a_i，以平衡每个像素的全局空间上下文聚合程度。其计算公式如下：

（6）

a i j = e x p (w a P i j) ∑ n = 1 N i e x p (w a P i n)

式中：

a i j

为第i个多尺度特征层中第j个节点的输出值； N_i为总的节点个数。

2.3 全局-局部多尺度融合策略

为辅助YOLOv5-RDD检测大尺寸无人机图像中的多尺度道路病害，提出了一种全局-局部多尺度融合策略。该策略通过切分方式捕获局部细节特征，同时采用下采样技术获取全局宏观信息，实现了不同尺寸目标的精准定位与识别。具体而言，该策略主要包括多尺度训练策略、多尺度预测策略和中心非极大值抑制算法3个关键步骤。首先，使用多尺度训练策略学习大尺寸无人机影像中多尺度目标的特征；随后，利用多尺度预测策略综合检测多尺度目标，并叠加检测结果；最后，引入中心非极大值抑制算法，消除冗余目标检测框，优化检测结果。

2.3.1 多尺度训练和预测策略

多尺度训练和预测策略是通过3种不同分辨率的影像块实现的，每种影像块都包含不同尺寸目标的细节。

①

小尺寸切分影像块（1 280像素×1 280像素）：将大尺寸无人机影像按一定的重叠度切分成较小的影像块（1 280像素× 1 280像素），这些影像块专为局部小尺寸的道路病害而设计。

②

大尺寸下采样影像块：将原始大尺寸无人机影像等比例下采样并填充到1 280像素× 1 280像素，用来预测全局大尺寸目标。此外，为防止下采样过程中影响细小道路病害的特征，进而影响模型的训练效果。如果下采样后的目标尺寸小于32像素× 32像素（COCO数据集^[23]定义下的小目标），将会用黑色矩形掩膜将其遮盖。

③

中等尺寸切分影像块（2 560像素× 2 560像素）：将大尺寸无人机影像按一定比率切分成2 560像素× 2 560像素的影像块，并将其下采样到1 280像素× 1 280像素大小，用来预测局部中等尺寸目标。此外，它还能防止大尺寸无人机影像直接下采样或切分后，弱纹理中等尺寸道路病害遗漏或切分。

多尺度训练策略将3种类型的影像块作为训练数据，输入YOLOv5-RDD网络进行训练，以学习大尺寸无人机影像中全局-局部多尺度目标的特征。多尺度预测策略使用3种同样的影像块输入训练后的YOLOv5-RDD网络检测大尺寸无人机影像中的全局-局部多尺度目标，并叠加所有的检测结果，以获得整张大尺寸无人机影像中的多尺度道路病害。

2.3.2 中心非极大值抑制算法

虽然叠加的全局-局部多尺度检测结果包含整张大尺寸无人机影像的道路病害信息，但也包括冗余目标检测框。如果不能有效消除冗余目标检测框，会阻碍检测精度的进一步提升。因此，为提高检测精度，本文基于非极大值抑制算法^[24]提出了一种中心非极大值抑制算法。

如图5所示，橙色方框是原始大尺寸无人机影像等比例下采样并填充到1 280像素×1 280像素后的预测结果，主要用于完整检测大尺寸目标。因此，橙色方框的空间范围更大。图5中的蓝色方框是将大尺寸无人机影像切分成1 280×1 280像素影像块的预测结果，主要用于预测小尺寸目标。因此，蓝色方框的空间范围较小，且部分蓝色方框的中心位于橙色方框内。相应地，蓝色方框内的目标位于紫色方框内。这可以作为设计去除冗余目标检测框算法的依据，即可以通过分析不同大小预测框的中心位置与空间范围之间的位置关系剔除多余的目标检测框。如果同时考虑目标检测框的空间范围和置信度分数，像非极大值抑制算法一样使用置信度分数作为排序依据会忽略一些空间范围大但置信度分数低的检测框。因此，中心非极大值抑制算法使用多尺度评分（Multiscale Score, MS）作为排序依据，它同时考虑了检测框的面积和置信度分数。MS的计算公式如下

（7）

M S = μ ⋅ a r e a a r e a m a x + λ ⋅ S c o r e

式中：μ表示面积的权重；Score表示置信度分数；λ表示置信度分数的权重，它们的和为1; area表示所有检测框中任意一个检测框的面积； area_max表示所有检测框中面积最大的检测框的面积。通过调整λ和μ的值，可以精确调整目标检测框置信度分数和空间范围之间的权重比。一般来说，目标检测框的置信度分数比面积更重要。因此，本文将μ设置为0.3，λ设置为0.7。

显示原图|下载原图ZIP|生成PPT

图5 中心非极大值抑制算法

Fig. 5 Center non-extremum suppression algorithm

算法1描述了中心非极大值抑制算法的流程。首先根据所有检测框中的MS值从高到低进行排序。如果任何一个物体检测框（b_i）与具有最高MS值的物体检测框（b_m）之间的交并比（Intersection over Union，IoU）超过了预设的IoU阈值（通常设置为 0.5），那么就会保留置信度分数最高的检测框，消除置信度分数低的目标检测框。如果任何一个物体检测框（b_i）和具有最高MS值的物体检测框（b_m）之间的IoU低于阈值，并且b_i的中心点在b_m的空间范围内，则b_i将被消除。

算法 1 中心非极大值抑制算法
输入: B = {}, S = { $S 1$ ,…, S_N}, IOU_t, μ, λ, MS = {}, A = {area₁,…,ar ea_N}
B 是一个包含所有目标检测框的列表
S是一个包含所有目标检测框的相应置信度分数的列表
A是一个包含所有检测框面积的列表
IOU_t 是IOU的阈值 (0.5)
μ 是面积权重
λ 是置信度权重
MS 是一个空列表
输出: K
K 是经过中心非极大值抑制处理之后的列表
K←{}
area_max← 计算列表B中的最大面积
MS←μ×A/area_max+λ×S
while MS ≠ 空列表
m←argmaxMS
M ←b_m K ←b_m
if IOU(M, b_i) >IOU_t
B←B-b_i; S ←S-S_i
end if
if IOU(M, b_i) <=IOU_t
if b_i 的中心在 M的范围内
B←B-b_i
end if
end if
return K
end while

3 试验结果与分析

本文中所有实验都使用相同的硬件和软件设备，以保证实验的公平性。硬件设备包括 Intel(R) Xeon(R) Silver 4114 CPU，128 GB 内存和NVIDIA GeForce 3090Ti GPU。软件设备包括64位Windows操作系统，CUDA 11.7，PyTorch 1.13和Python 3.8。

所有深度学习模型在训练时使用相同的超参数，训练过程中迭代次数设置为300；批量大小设置为12；随机梯度下降优化算法的初始学习率设置为0.001；动量设置为0.937。训练过程中采用预热法逐步提高学习率，提高模型的收敛性和稳定性。

3.1 试验数据(UAV-RDD)

为全面覆盖各种尺寸和典型的道路病害，本文选取河南省平顶山市区的4条主干道（龙翔大道、未来路、长安大道和大香山路）作为实验场地。龙翔大道和未来路建成时间最早，已经存在损害程度较严重的面状病害。长安大道建成时间最晚，主要存在损坏面积较小和程度较弱的线状病害。大香山路的建成时间介于三者之间，路面存在各种类型的道路病害。

本文使用大疆Mavic Air 2无人机搭载L1D-20c数字相机采集路面影像，详细的航摄参数如表1所示。无人机在飞行过程中容易受到空中复杂环境的影响，如行道树，电线杆，电线塔等，因此飞行高度在动态变化。L1D-20c数字相机采集的单张道路表面影像尺寸是5 472像素× 3 648像素，因此本文中的大尺寸影像是指尺寸为5 472像素× 3 648像素的无人机影像。在自然条件下，由于道路所处环境不同，其产生的道路病害形态和尺寸各异。根据通用数据集COCO的定义，小目标是指小于32像素× 32像素的物体，中目标是指32像素×32像素到64像素 × 64像素范围的物体，大目标是指大于96像素 × 96像素的物体。UAV-RDD数据集中包含上述各种尺寸的道路病害目标。

表1 无人机获取道路表面影像的航摄参数

Tab. 1 Aerial photography parameters for UAV acquisition of road surface images

影像尺寸/(像素×像素)	传感器尺寸/(mm×mm)	焦距/mm	曝光时间/s	重叠率/%	飞行高度/m	飞行速度/(m/s)
5 472 $×$ 3 648	12.7 $×$ 9.6	35	1/320	70	30~50	8

如图6所示，依据前人研究^[5,25]，将路面损坏类型定义为6类：龟裂、纵向裂缝、倾斜裂缝、块裂、横向裂缝和修补。其中，龟裂和块裂都是面状病害，龟裂比块裂的损害程度更严重。而横向、纵向和倾斜裂缝都是不同方向的线性裂缝。其中，横向裂缝的方向和道路中心线基本垂直；纵向裂缝的方向和道路中心线基本平行；倾斜裂缝的方向与道路中心线成30°~60°角。本文使用LabelImg对无人机影像中道路病害的位置和类别进行精确标注。

显示原图|下载原图ZIP|生成PPT

图6 UAV-RDD数据集中不同类别的示意图

Fig. 6 Diagram of the different categories in the UAV-RDD dataset

UAV-RDD 的详细信息见表2，它包含4 183个道路病害样本，分为6种类型，每幅影像的大小为5 472像素× 3 648像素。本文创建UAV-RDD数据集的目的主要有2个。首先，为直接应用深度学习模型，一些基于无人机影像的道路病害检测开源数据集通常包含小尺寸影像^[5-6]。然而，无人机影像尺寸通常较大，无法直接应用于深度学习模型，需要设计专门的算法来处理它们，数据集对算法的设计和验证至关重要。其次，深度学习是数据驱动算法，大规模高质量的数据集对它的深入研究至关重要。文献[26]开源了一个大规模高质量的车载影像道路病害数据集，极大地推动了该领域的研究。然而，由于商业因素和高昂的标注费用，许多公司和个人在研究无人机道路病害检测算法时一般不会开源数据集。因此，可用的数据集很少。为促进无人机影像道路病害检测领域的研究，本文制作并开源UAV-RDD数据集。

表2 UAV-RDD数据集道路病害类别与样本信息

Tab. 2 Category of road damage objects and sample information of UAV-RDD data set （个）

类别序号	类别名称	训练样本集	验证样本集	测试样本集	总计
1	龟裂	269	114	69	452
2	块裂	678	244	248	1 170
3	纵向裂缝	509	132	138	779
4	横向裂缝	835	228	220	1 283
5	修补	270	75	51	396
6	倾斜裂缝	59	19	25	103

在本文实验中，UAV-RDD按6:2:2的比例划分为训练集、验证集和测试集。为便于测试YOLOv5-RDD和全局-局部多尺度融合策略，YOLOv5-RDD在切分成1 280像素× 1 280像素的UAV-RDD测试集上测试，全局-局部多尺度融合策略在UAV-RDD测试集上测试。

3.2 评价指标

为定量评估YOLOv5-RDD的性能，本文采用精确率(Precision，P)、召回率(Recall，R)、精度(Average Precision，AP)、平均精度(mean Average Precision，mAP)、参数量（Parameters）、每秒帧数(FPS)和浮点运算数(Floating Point Operations，FLOPs)指标。精确率用于衡量模型预测的精确度。召回率是一个概率指标，用于评估模型是否能找到所有真阳性样本。精确率与召回率的计算公式如式（8）与式（9）所示。

（8）

P = T P T P + F P

（9）

R = T P T P + F N

真阳性（True Positive，TP）和真阴性（True Pegative，TN）分别指模型正确识别的正样本和负样本。假阳性（False Positives，FP）是指被模型识别为正样本，但实际上是负样本的目标。而假阴性（False Negatives，FN）是指被模型识别为负样本，但实际上是正样本的目标。IoU是判断模型预测正确与否的重要指标（通常设定为0.5），当预测结果的目标检测框与真实物体检测框之间的IoU超过0.5时，就认为模型正确预测该目标。

精度是通过计算精确率-召回率（P-R）曲线下的面积确定的，使用式（10）计算。

（10）

A P = ∫ P (R) d R

平均精度是数据集中每个类别精度的平均值，使用式（11）计算，其中C表示数据集中类别数的总和。

（11）

m A P = 1 C × ∑ i = 1 c A P i

FLOPs用于评估模型的复杂性，数值越大，表示模型越复杂。每秒帧数衡量模型的执行速度，FPS值越大，处理速度越快。

3.3 YOLOv5-RDD的性能评估

3.3.1 对比实验

为测试YOLOv5-RDD算法的性能，本文将其与几种最先进的一阶段目标检测算法进行比较分析，包括YOLOv7^[27]、YOLOv7-tiny、YOLOv8^[28]和YOLOR^[29]。对比指标包括精确率，召回率，FLOPs，参数量，mAP@0.5，mAP@0.5:0.95，FPS。表3显示YOLOv5-RDD相较于其他算法在精确度、召回率、mAP@0.5和mAP@0.5:0.95方面优势显著。

表3 YOLOv5-RDD对比实验

Tab. 3 YOLOv5-RDD comparison experiments

方法	参数量/M	FLOPs/G	精确率	召回率	mAP@0.5	mAP@0.5:0.95	FPS
YOLOv7	71.5	103.2	0.490	0.565	0.480	0.272	25.7
YOLOv8	83.7	164.8	0.564	0.484	0.509	0.263	27.5
YOLOR	71.0	80.2	0.532	0.539	0.516	0.316	30.8
YOLOv7-tiny	11.7	13.1	0.454	0.433	0.405	0.217	58.8
本文方法	32.9	24.9	0.592	0.593	0.585	0.355	49.7

注：加粗数值表示其在所有方法中效果最好。

在所有算法中，YOLOv7-tiny 的 FPS 最高，参数量和FLOPs最小，但是它的mAP@0.5在所有算法中最低。相比之下，尽管 YOLOv5-RDD的参数数量约为YOLOv7-tiny的3倍，但在FLOPs和FPS方面差距较小，而mAP@0.5提高了18%。它能更好的平衡精度和速度，并且由于其较少的参数量从而更容易部署。实验表明，相较于其他算法， YOLOv5-RDD更适合无人机道路病害检测任务。

图7是本文方法在测试集上的混淆矩阵，它不仅能体现深度学习模型分类的总精度，而且能直观地反映出各类的分类精度，以及错分和漏分情况。从图中可以看出修补类型病害的分类精度最高，高达88%，其仅和背景混淆；倾斜裂缝的分类精度最低，其和背景之间严重混淆，并且有8%被误分为块裂，3%被误分为横向裂缝；背景最容易被误分为块裂，横向裂缝和纵向裂缝。

显示原图|下载原图ZIP|生成PPT

图7 YOLOv5-RDD在UAV-RDD测试集上的混淆矩阵

Fig. 7 Confusion matrix of YOLOv5-RDD on the UAV-RDD test set

为体现本文方法的有效性，将YOLOv5-RDD模型与一些最新的目标检测模型在同一样本影像的检测结果进行对比。如图8所示，YOLOv7-tiny和YOLOv7的检测效果较差，主要原因是其无法获取到大尺寸目标的特征，因此它们不能完整预测大尺寸块裂目标。YOLOv8和YOLOR的效果较好，原因是它们能获取大尺寸目标的特征，但是YOLOv8无法将块裂和纵向裂缝区分开来，主要原因是其感受野依旧有限，只能获取到块裂的局部特征。而YOLOR相较于YOLOv8能获取到更大尺寸目标的特征，因此其检测框覆盖的块裂在空间范围上更广，并且能区分块裂和纵向裂缝。但是，它不能检测到修补的确切位置。相比之下本文提出的方法不仅能检测到大尺寸的块裂，而且能将块裂和纵向裂缝区分开，同时能检测到修补的大致位置。其效果得益于本文方法能获取更大的感受野和融合不同尺度的特征。

显示原图|下载原图ZIP|生成PPT

图8 不同方法在同一区域的检测结果

Fig. 8 Results of different methods in the same area

3.3.2 消融实验

为分析本文提出模块对YOLOv5-RDD性能的影响，本文使用YOLOv5s6作为基础模型，在其中分别添加P7检测头、CFPN和MSC3模块，然后在UAV-RDD测试集上进行消融实验。

如表4第二行所示，在YOLOv5s6主干网络中添加P7检测头，可使mAP@0.5提高1.1%，这表明添加P7检测头能让模型关注到更大尺寸的目标。如表4第三行所示，加入CFPN后，mAP@0.5仅增加了0.2%，但参数量却减少了8 M，明显少于原始参数。这说明CFPN不仅能增强特征融合的能力，还可以使模型变得更轻，更容易部署到道路病害检测任务。如表4的第四行所示，在YOLOv5s6骨干网络加入MSC3模块后，相较于其他模块mAP@0.5实现了2.6%的最大提升，而参数量仅增加0.8 M。这说明了MSC3模块不仅能提取到丰富的多尺度特征，而且贡献了很少的参数量。同时添加3个模块到基础模型后，YOLOv5-RDD实现了最佳效果。

表4 YOLOv5-RDD消融实验

Tab. 4 YOLOv5-RDD ablation experiment

方法	参数量 /M	FLOPs /G	mAP@0.5	mAP@0.5:0.95
YOLOv5s6 (基础网络)	24.6	16.2	0.527	0.320
+ P7 检测头	46.5	16.9	0.538	0.319
+CFPN	16.6	14.6	0.529	0.320
+MSC3	25.4	15.8	0.553	0.335
YOLOv5-RDD	32.9	24.9	0.585	0.355

注：加粗方法表示它在所有方法中效果最好。

实验结果表明，添加任何一个模块均能有效提升YOLOv5s6的性能，同时添加3个模块实现了最佳的效果。这说明P7检测头、MSC3和CFPN模块对YOLOv5-RDD的性能提升都做出了积极贡献。

3.3.3 可视化分析

表5显示了YOLOv5-RDD在UAV-RDD测试集中的定量评估结果。当IoU阈值设置为0.50时，所有类别平均精确率和召回率分别为0.592和0.593，AP为0.585。当IoU阈值设置在0.50:0.95范围时，AP为0.355。实验结果表明，YOLOv5-RDD对不同类别的道路病害检测性能各不相同。与其他类别的道路病害相比，修补在无人机影像中具有明显的黑灰色纹理，因此其检测精度最高。相较于线状裂缝，龟裂和块状在影像中面积较大，特征明显，因此其检测效果较好。由于UAV-RDD数据集中包含较多的横向裂缝样本，因此其检测结果优于纵向和斜向裂缝。斜向裂缝检测效果最差，可能的原因是UAV-RDD中的样本较少，产生了长尾效应。

表5 YOLOv5-RDD在UAV-RDD测试集上的效果

Tab. 5 YOLOv5-RDD performance on the UAV-RDD test set

类别名称	精确率	召回率	AP@0.5	AP@0.5:0.95
所有	0.592	0.593	0.585	0.355
龟裂	0.486	0.671	0.614	0.368
块裂	0.702	0.670	0.746	0.519
纵向裂缝	0.468	0.458	0.412	0.153
横向裂缝	0.643	0.586	0.613	0.273
修补	0.698	0.848	0.828	0.661
倾斜裂缝	0.557	0.324	0.299	0.136

图9展示了使用YOLOv5-RDD在UAV-RDD测试集上检测道路病害的效果。图9(a)的结果表明，YOLOv5-RDD能准确地检测出大面积的龟裂。图9(b)和图9(e)展示了YOLOv5-RDD不仅能准确检测出不同大小的块裂和龟裂，还能准确检测较小尺寸的横向裂缝和修补。如图9(c)所示，尽管受到路面水渍遮挡的影响，YOLOv5-RDD还是能成功检测出大纵横比和弱纹理的纵向裂缝。图9(d)和图9(f)也显示了在背景复杂下，YOLOv5-RDD能精确检测纹理较弱的横向和斜向裂缝。

显示原图|下载原图ZIP|生成PPT

图9 YOLOv5-RDD在UAV-RDD测试集上的效果

Fig. 9 Performance of YOLOv5-RDD on the UAV-RDD test set

实验结果表明，即使在复杂的背景下，YOLOv5-RDD也能精确识别各种尺寸和形状的道路损坏。

3.3.4 普适性分析

为验证本文方法的普适性，本文在UAPD数据集上将其与专门的病害检测算法Cross-Pooling^[30]，以及几种最先进的目标检测算法YOLOv8，TOOD^[31]，Grid R-CNN^[32]进行对比。UAPD数据集是东南大学制作的一款无人机道路病害检测数据集，他们使用大疆M300 pro搭载Sony Alpha 7R III相机采集道路病害表面影像数据。原始无人机影像尺寸是7 952像素×5 304像素和5 632像素× 3 584像素，为了应用目标检测算法，它们最终被裁剪到512像素×512像素。UAPD一共包含3 151张带有道路病害的影像，被标注成6个类别，分别是：横向裂缝，纵向裂缝，龟裂，倾斜裂缝，坑洞和修补。在训练过程中，UAPD按照8:2划分为训练-验证集和测试集，其中训练-验证集又按照9:1划分为训练集和验证集。

从表6中的实验结果可以看出，本文提出的方法效果最好，优于YOLOv8和Cross-Pooling。

表6 YOLOv5-RDD在UAPD测试集上的对比实验

Tab. 6 YOLOv5-RDD comparison experiments on the UAPD test set

	方法
	TOOD	YOLOv5	Grid R-CNN	Cross-Pooling	YOLOv8	本文方法
mAP	48.2	52.4	53.4	55.6	56.9	59.4

3.4 多尺度切片融合策略的性能评估

3.4.1 对比实验

为测试全局-局部多尺度融合策略在大尺寸影像中检测多尺度道路病害的有效性，本文将其与几种传统方法进行对比分析，实验中统一使用YOLOv5-RDD模型，表7列出了详细的实验数据。

表7 全局-局部多尺度融合策略的对比实验

Tab. 7 Comparative experiments on global-local multiscale fusion strategy (%)

方法	mAP@0.5
切分	26.89
多分辨率图像联合检测	39.09
下采样	25.25
本文方法	48.82

从表7的第一行和第三行可以看出，将YOLOv5-RDD 与切片或下采样等传统方法联合使用的效果并不理想。从第二行可以看出，使用多分辨率图像联合检测虽然有一定的效果但由于缺乏去冗余机制阻碍了性能的进一步提升。从第四行可以看出，本文所提出的全局-局部多尺度融合策略能有效检测大尺寸无人机影像中的多尺度道路病害，与效果最好的传统方法相比，mAP提高了9.73%。

此外，为分析目标检测算法的性能与全局-局部多尺度融合策略的关系，本文测试了不同目标检测算法与全局-局部多尺度融合策略组合的效果。如图10所示，目标检测算法的效果与它和全局-局部多尺度融合策略的组合之间呈现正相关，即目标检测算法的效果越好，它和全局-局部多尺度融合策略结合的效果就更好。因此，结合YOLOv5-RDD和全局-局部多尺度融合策略可以实现最佳的效果。

显示原图|下载原图ZIP|生成PPT

图10 目标检测算法和全局-局部多尺度融合策略的关系

Fig. 10 Relationship between object detection algorithms and global-local multiscale fusion strategy

全局-局部多尺度融合策略可辅助目标检测算法准确检测大尺寸无人机影像中的多尺度目标，避免了设计一个输入和输出是大尺寸无人机影像的深度学习模型，减少了对高性能计算设备的依赖。

3.4.2 消融实验

为分析多尺度训练策略、多尺度预测策略和中心非极大值抑制算法对全局-局部多尺度融合策略的影响，本文在UAV-RDD测试集上进行消融实验。表8列出了详细的实验数据，下面对其进行详细的分析和讨论：

表8 全局-局部多尺度融合策略的消融实验

Tab. 8 Ablation experiments with a global-local multiscale fusion strategy (%)

案列	非极大值抑制算法	中心非极大值抑制算法	尺度1	尺度2	尺度3	多尺度训练策略	mAP@0.5
案例1	√		√	√			36.11
案例2	√		√		√		30.41
案例3	√			√	√		38.90
案例4	√		√	√	√		38.27
案例5	√		√	√		√	39.14
案例6	√		√		√	√	38.76
案例7	√			√	√	√	45.18
案例8	√		√	√	√	√	43.49
案例9		√	√	√			39.44
案例10		√	√		√		39.52
案例11		√		√	√		39.55
案例12		√	√	√	√		43.11
案例13		√	√	√		√	43.80
案例14		√	√		√	√	47.54
案例15		√		√	√	√	47.78
案例16		√	√	√	√	√	48.82

（1）多尺度预测策略（尺度1: 1 280像素× 1 280像素切片；尺度2: 2 560像素× 2 560像素切片下采样到1 280像素× 1 280 像素；尺度3: 5 472像素× 3 648像素下采样到1 280像素×1 280像素）：在案例9—案例16中，3种影像块堆叠之后的mAP@0.5超过了任意2种影像块堆叠之后的mAP@0.5，由此可推断所选的3种影像块都是有效的，多尺度预测策略能获取全局-局部多尺度信息。然而，在案例1—案例8中，与只结合2种类型的影像块（案例3和案例7）相比，结合3种类型影像块（案例4和案例8）的mAP@0.5却降低了。这是由于不同尺寸影像块的堆叠引入了大量的冗余目标检测框，降低了最终检测的精度。这凸显了去冗余算法（中心非极大值抑制算法）对精度提升的重要性。

（2）中心非极大值抑制算法：在保持其他条件不变的情况下，本文比较了使用中心非极大值抑制算法（案例16）和非极大值抑制算法在剔除冗余目标检测框（案例8）方面的不同效果。实验结果表明，与传统的非极大值抑制算法相比，使用中心非极大值抑制算法可使mAP@0.5提高5.33%。这说明了中心非极大值抑制算法在消除冗余目标检测框方面的有效性。

（3）多尺度训练策略：对检测结果（案例4、案例8、案例12和案例16）的比较表明，多尺度训练策略对提高检测精度至关重要，在使用它的情况下可使mAP@0.5提高5%以上。它能让YOLOv5-RDD学习到无人机影像中全局-局部多尺度目标特征。

案例16与案例4的对比说明，在使用多尺度预测策略的情况下，将多尺度训练策略和中心非极大值抑制算法结合使用可使mAP@0.5提高10.55%。实验结果表明，3种算法都是有效的策略，对全局-局部多尺度融合策略的最终效果都产生了积极影响。

3.4.3 可视化分析

为体现结合全局-局部多尺度融合策略和 YOLOv5-RDD检测大尺寸无人机影像中多尺度道路病害的效果，本文使用UAV-RDD测试集中的2幅影像直观展示其结果。

如图11(a)所示，道路中出现了大面积的块状裂缝，在1 280像素× 1 280像素和2 560像素× 2 560像素的影像切片中不能完整预测该目标，但在原始影像下采样的影像中却能完整预测该目标。与之相反，道路中的小尺寸裂缝在原始影像下采样的影像块中不能被准确检测，在1 280像素× 1 280像素的切分影像块中可以准确检测这些目标，2 560像素× 2 560像素切分影像块的预测结果可以作为有效的补充。图11(c)更清晰地展示了该现象，影像中存在的小尺寸弱纹理裂缝，很难在下采样影像块中准确检测它们。然而，在1 280像素× 1 280像素的图像中它们能被准确地检测，2 560像素× 2 560像素的图像可用于补充和预测中等尺寸的目标。如图11(b)和图11(d)所示，经过中心非极大值抑制算法处理后，图11(a)和图11(c)中由于图像重叠预测产生的冗余目标检测框被有效去除。值得注意的是在本文的测试场地中，道路被人为分割成四条不同的车道。如果使用车载传感器获取路面完整影像需要车辆来回跑4次，而无人机只需飞行一次就能完整获取整个路面的影像。

显示原图|下载原图ZIP|生成PPT

图11 多尺度切片融合策略在UAV-RDD测试集上的效果

Fig. 11 Performance of multiscale sliced patches fusion strategy on UAV-RDD test set

总之，结合全局-局部多尺度融合策略和YOLOv5-RDD能有效检测大尺寸无人机影像中的多尺度道路病害。

4 结论与讨论

4.1 结论

为自动检测大尺寸无人机影像中的多尺度道路病害，本文提出了一种结合YOLOv5-RDD和全局-局部多尺度融合策略的方法，相较于其他的道路病害检测算法，本文的创新性如下：

（1）本文的研究对象是大尺寸无人机影像，而不是切片之后的小尺寸无人机影像，因此更适合实际的应用。实验结果证明，结合全局-局部多尺度融合策略和YOLOv5-RDD可以准确检测大尺寸无人机影像中的多尺度道路病害。

（2）本文提出的YOLOv5-RDD模型能在复杂环境中准确检测多尺度道路病害，mAP提升了5.8%。它不仅能兼顾检测精度和速度，并且参数较小，易于部署，更适合道路病害检测任务。本文设计的MSC3模块能提取到丰富的多尺度信息，实现了mAP@0.5的最大提升，改进幅度达2.6%，而仅贡献了0.8 M的参数。本文设计的CFPN模块不仅能增强多尺度特征融合的效果，而且使模型变得更轻量化。它使mAP@0.5提升了0.2%，而参数数量减少了8 M。引入额外的P7检测头能让模型关注到更大尺寸的目标，使mAP@0.5提高了1.1%。

（3）本文提出的全局-局部多尺度融合策略可辅助目标检测算法准确检测大尺寸无人机影像中的多尺度道路病害，mAP提升了9.73%。本文提出的中心非极大值抑制算法能有效消除冗余目标检测框，使mAP@0.5提高了5.33%。多尺度训练策略能辅助YOLOv5-RDD学习到全局-局部多尺度特征，使mAP@0.5提高了5%以上。使用多尺度预测策略可以辅助模型获取大尺寸影像中的全局-局部多尺度信息。

（4）本文提供了一个开源的大尺寸无人机影像道路病害检测数据集，供其他研究者深入研究无人机道路病害检测任务。(https://github.com/hn-ccx/UAV-RDD)

4.2 讨论

本文构建的UAV-RDD数据集存在若干限制，包括不同类别实例之间的分布不均衡，影像资料覆盖区域有限等，这些因素都会影响模型最终的精度。例如，倾斜裂缝在所有裂缝种类中比较少见，因此在UAV-RDD数据集中样本数较少。由于倾斜裂缝没有被模型充分学习，因此在测试集中倾斜裂缝类别的AP@0.5仅有29.9%，而总体的AP@0.5是58.5%，倾斜裂缝的识别精度拉低了模型总体的识别精度。此外，不同道路所处的环境不同，所使用的建筑材料也不尽相同，其存在的道路病害在图像上的特征各异。如果仅针对一条道路采集数据训练模型，那么最终模型可能仅对该条道路中的病害识别精度高。因此，理论上数据集影响资料覆盖区域越广越好，然而本文采集的数据局限于河南省平顶山市的4条道路。

未来，计划开展一个更为广泛和大规模的数据集构建工作。

参考文献

原文顺序 | 文献年度倒序 | 文中引用次数倒序

[1]	Huang M Y, Dong Q, Ni F J, et al. LCA and LCCA based multi-objective optimization of pavement maintenance[J]. Journal of Cleaner Production, 2021, 283:124583. DOI:10.1016/j.jclepro.2020.124583

[2]	Zhang Z X, Zhu L X. A review on unmanned aerial vehicle remote sensing: Platforms, sensors, data processing methods, and applications[J]. Drones, 2023, 7(6):398. DOI:10.3390/drones7060398

[3]	Zou Z X, Chen K Y, Shi Z W, et al. Object detection in 20 years: A survey[J]. Proceedings of the IEEE, 2023, 111(3):257-276. DOI:10.1109/JPROC.2023.3238524

[4]	聂光涛, 黄华. 光学遥感图像目标检测算法综述[J]. 自动化学报, 2021, 47(8):1749-1768. [Nie G T, Huang H. A survey of object detection in optical remote sensing images[J]. Acta Automatica Sinica, 2021, 47(8):1749-1768.] DOI:10.16383/j.aas.c200596

[5]	Zhu J Q, Zhong J T, Ma T, et al. Pavement distress detection using convolutional neural networks with images captured via UAV[J]. Automation in Construction, 2022, 133:103991. DOI: 10.1016/j.autcon.2021.103991.[LinkOut]

[6]	Silva L A, Sanchez San Blas H, Peral García D, et al. An architectural multi-agent system for a pavement monitoring system with pothole recognition in UAV images[J]. Sensors, 2020, 20(21):6205. DOI:10.3390/s20216205

[7]	Qiu Q W, Lau D. Real-time detection of cracks in tiled sidewalks using YOLO-based method applied to unmanned aerial vehicle (UAV) images[J]. Automation in Construction, 2023, 147:104745. DOI:10.1016/j.autcon.2023.104745

[8]	Silva L A, Leithardt V R Q, Batista V F L, et al. Automated road damage detection using UAV images and deep learning techniques[J]. IEEE Access, 2023, 11:62918-62931. DOI:10.1109/ACCESS.2023.3287770

[9]	柳雨豪. 无人机连续道路图像病害智能识别研究[D]. 南京: 东南大学, 2022. [Liu Y H. Research on road disease recognition based on Uav continuous road image[D]. Nanjing: Southeast University, 2022.] DOI:10.27014/d.cnki.gdnau.2022.002829

[10]	Ren M, Zhang X F, Chen X, et al. YOLOv5s-M: A deep learning network model for road pavement damage detection from urban street-view imagery[J]. International Journal of Applied Earth Observation and Geoinformation, 2023, 120:103335. DOI:10.1016/j.jag.2023.103335

[11]	JOCHER G. ultralytics/yolov5[Z]. 2020.https://doi.org/10.5281/zenodo.3908559

[12]	Luo H, Li C B, Wu M Q, et al. An enhanced lightweight network for road damage detection based on deep learning[J]. Electronics, 2023, 12(12):2583. DOI:10.3390/electronics12122583

[13]	Xiang W N, Wang H C, Xu Y, et al. Road disease detection algorithm based on YOLOv5s-DSG[J]. Journal of Real-Time Image Processing, 2023, 20(3):56. DOI:10.1007/s11554-023-01312-9

[14]	NAJIBI M, SINGH B, DAVIS L S. Autofocus: Efficient multi-scale inference[C]. Proceedings of the IEEE/CVF international conference on computer vision, F, 2019.

[15]	Xu J T, Li Y L, Wang S J. AdaZoom: Adaptive zoom network for multi-scale object detection in large scenes[EB/OL]. 2021:2106.10409. http://arxiv.org/abs/2106.10409v1

[16]	Xia G S, Bai X, Ding J, et al. DOTA: A large-scale dataset for object detection in aerial images[C]// 2018 IEEE/CVF conference on computer vision and pattern recognition. IEEE, 2018:3974-3983. DOI:10.1109/CVPR.2018.00418

[17]	VAN ETTEN A. You only look twice: Rapid multi-scale object detection in satellite imagery[J]. arXiv preprint arXiv:180509512, 2018.

[18]	Vieira-e-Silva A L B, de Castro Felix H, de Menezes Chaves T, et al. STN PLAD: A dataset for multi-size power line assets detection in high-resolution UAV images[C]// 2021 34th SIBGRAPI Conference on Graphics, Patterns and Images (SIBGRAPI). IEEE, 2021:215-222. DOI:10.1109/SIBGRAPI54419.2021.00037

[19]	Wu Y, Ma W P, Gong M G, et al. A coarse-to-fine network for ship detection in optical remote sensing images[J]. Remote Sensing, 2020, 12(2):246. DOI:10.3390/rs12020246

[20]	Gao S H, Cheng M M, Zhao K, et al. Res2Net: A new multi-scale backbone architecture[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(2):652-662. DOI:10.1109/TPAMI.2019.2938758

[21]	Ouyang D L, He S, Zhang G Z, et al. Efficient multi-scale attention module with cross-spatial learning[C]// ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2023:1-5. DOI:10.1109/ICASSP49357.2023.10096516

[22]	Liu S, Qi L, Qin H F, et al. Path aggregation network for instance segmentation[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. IEEE, 2018:8759-8768. DOI:10.1109/CVPR.2018.00913

[23]	LIN T-Y, MAIRE M, BELONGIE S, et al. Microsoft coco: Common objects in context; proceedings of the Computer Vision-ECCV 2014[C]. 13th European Conference, Zurich, Switzerland, September 6-12, 2014, Proceedings, Part V 13, F, 2014, Springer.

[24]	Neubeck A, Van Gool L. Efficient non-maximum suppression[C]// 18th International Conference on Pattern Recognition (ICPR'06). IEEE, 2006:850-855. DOI:10.1109/ICPR.2006.479

[25]	MILLER J S, BELLINGER W Y. Distress identification manual for the long-term pavement performance program[Z]. United States. Federal Highway Administration. Office of Infrastructure, 2003.

[26]	Arya D, Maeda H, Kumar Ghosh S, et al. Global road damage detection: State-of-the-art solutions[C]// 2020 IEEE International Conference on Big Data (Big Data). IEEE, 2020:5533-5539. DOI:10.1109/BigData50022.2020.9377790

[27]	Wang C Y, Bochkovskiy A, Liao H Y M. YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[EB/OL]. 2022:2207.02696. http://arxiv.org/abs/2207.02696v1

[28]	REIS D, KUPEC J, HONG J, et al. Real-time flying object detection with YOLOv8[J]. arXiv preprint arXiv:230509972, 2023.

[29]	Wang C Y, Yeh I H, Liao H Y M. You only learn one representation: Unified network for multiple tasks[J]. ArXiv e-Prints, 2021: arXiv:2105.04206. DOI:10.48550/arXiv.2105.04206

[30]	Li J N, Jiang S W, Song L Q, et al. Automated optical inspection of FAST's reflector surface using drones and computer vision[J]. Light: Advanced Manufacturing, 2023, 4(1):3. DOI:10.37188/lam.2023.001

[31]	Feng C J, Zhong Y J, Gao Y, et al. Tood: Task-aligned one-stage object detection[C]// 2021 IEEE/CVF International Conference on Computer Vision (ICCV). IEEE, 2021:3490-3499. DOI:10.1109/ICCV48922.2021.00349

[32]	Lu X, Li B Y, Yue Y X, et al. Grid R-CNN[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2019:7355-7364. DOI:10.1109/CVPR.2019.00754

Options

文章导航

模态框（Modal）标题

摘要

本文引用格式

Abstract

1 引言

2 本文方法

2.1 总体流程

图1 本文方法的流程

2.2 YOLOv5-RDD

图2 YOLOv5-RDD模型结构

2.2.1 多尺度C3模块

图3 MSC3结构

2.2.2 上下文特征金字塔网络

图4 CFPN的结构

2.3 全局-局部多尺度融合策略

2.3.1 多尺度训练和预测策略

2.3.2 中心非极大值抑制算法

图5 中心非极大值抑制算法

3 试验结果与分析

3.1 试验数据(UAV-RDD)

表1 无人机获取道路表面影像的航摄参数

图6 UAV-RDD数据集中不同类别的示意图

表2 UAV-RDD数据集道路病害类别与样本信息

3.2 评价指标

3.3 YOLOv5-RDD的性能评估

3.3.1 对比实验

表3 YOLOv5-RDD对比实验

图7 YOLOv5-RDD在UAV-RDD测试集上的混淆矩阵

图8 不同方法在同一区域的检测结果

3.3.2 消融实验

表4 YOLOv5-RDD消融实验

3.3.3 可视化分析

表5 YOLOv5-RDD在UAV-RDD测试集上的效果

图9 YOLOv5-RDD在UAV-RDD测试集上的效果

3.3.4 普适性分析

表6 YOLOv5-RDD在UAPD测试集上的对比实验

3.4 多尺度切片融合策略的性能评估

3.4.1 对比实验

表7 全局-局部多尺度融合策略的对比实验

图10 目标检测算法和全局-局部多尺度融合策略的关系

3.4.2 消融实验

表8 全局-局部多尺度融合策略的消融实验

3.4.3 可视化分析

图11 多尺度切片融合策略在UAV-RDD测试集上的效果

4 结论与讨论

4.1 结论

4.2 讨论

参考文献